ディスカッション (11件)
Appleが新たにアクセシビリティ機能のアップデートを発表しました。ユーザーがより直感的かつスムーズにデバイスを操作できるよう、AI技術を活用した革新的な機能が盛り込まれています。これからのUI/UXデザインやアプリ開発において考慮すべき重要な変更点と言えるでしょう。
請求額の合計は83.89ドルです。支払う前に、電力会社に確認するか、テキスト検出機能を使ってこの金額を検証してください。
- AIを使って請求書がいくらかを判定する
- 請求元に電話して、いくら請求されているか尋ねる
- 請求額を支払う
これはLLMの本当に有益な活用例に見えるね。
企業には、生産性の名の下に人間を置き換えたり限界まで搾取したりするんじゃなくて、どうすれば人間の助けになれるのかをもっと考えてほしいよ。
豆知識:この動画が晴眼者にもわかるようになっているのは、視覚障害者は誰一人としてあんなスピードの音声を聞かないからだよ。実際、視覚障害者がコンピュータを使っているところを見ると、想像を絶するスピードで音声を聞き取っていることに驚くはずさ。
正直なところ、視覚障害者であり開発者でもある自分としては、こうした機能のほとんどは「ふーん」程度にしか思えないんだ。
まず、これら機能の大部分(あるいはすべて)をこなすサードパーティ製アプリ(Seeing AI、Envision AI、BeMyEyes、Airaなど)がすでにたくさんあるからね。せいぜい、既存のアプリと同じことをより速く、オンデバイスでやるという程度だけど、それが逆に精度を落とすことにならないかは様子見だな。
一方で、Mac OSのスクリーンリーダーである「VoiceOver」は、長年メンテナンスモードで放置されているようなものだ。Windowsの同等なスクリーンリーダーがずっと前から持っていた機能を補うために、ユーザーが(感心するレベルの)サードパーティ製ソリューションを自作しなきゃいけない状態だしね。
そういう視点で見ると、今回の発表は少しパフォーマンスっぽく見えるけど、まあ良い意味で期待を裏切ってくれるといいな。
個人的に少し楽しみなのは「ボイスコントロール」の改善だよ。ボタンのプログラム上の名前を推測したり、要素をターゲットにするために数字のグリッドを使い続けたりするのは正直楽しくないからね。
コメントに対する返信だけど:
- 音声速度について:読み上げ速度を上げるにはかなりの練習が必要だし、音声を変えるたびに慣れ直す必要があるんだ。より「人間っぽい」声は超高速だと聞き取りにくいから、多くの人はよりロボット的で安定した音声を好む傾向がある。AI搭載のTTSはまだ信頼されていないね。特定の速度を超えると音声が破綻することが多いからさ。
- ターゲット層の評価を待つことについて:これは本当に大事。アクセシビリティについて語り、解決策を作り、AIを普及させようとする企業や個人が増えているけど、彼らは実際に助けたいはずの当事者と全く対話していないことが多いんだ。
これでは間違いなくミスが起きるし、役に立つどころか害になりかねないよ。
もし本気でアクセシビリティに取り組みたいなら(AI製品であれ何であれ)、当事者の経験を持つ人を雇うべきだね。そうしないと、機械翻訳のテキストや、ワンクリックでハッカー対策完了なんていう怪しい触れ込み、あるいは何千個ものゴム手袋を勝手に注文するAIコーヒーバーのような、残念な結果になるのがオチだよ。
ついでに言うと、今ちょうど新しいプロジェクトを探しているところさ :P
Appleが本当に改善すべきなのは音声入力の文字起こしだな。アクセシビリティの面では多くの面で完璧なのに、音声認識に関しては10年、少なくとも5年は遅れているように感じるよ。
iPhoneでの入力は最近本当にひどい。パームリジェクション(誤タップ防止)は以前より確実に悪化していて誤入力が増えたし、キーボードの自動修正アルゴリズムも前より悪くなっている。しかも、入力した場所より前の単語を勝手に修正したりするから、修正に気づかないことも多いんだ。それに文字起こしも進化していない。おまけにiPhoneの筐体サイズにはもう指が疲れてしまったよ。お願いだから、iPhoneを使いにくいものにしないでくれ、Apple。
随分前に晴眼者としてBe My Eyesに登録したよ。期待していたほど通話は来なかったけど、数回だけ助けになれた時は嬉しかったな。郵便物の封筒を読んだり、薬の瓶を読んだり。あとは、居心地の良い大きな椅子に座ってシリアル箱の買い物袋を抱えた面白い二人が、どれが何の商品かを聞いてきたこともあったね。一人が特定のシリアルをすごく嫌がっていたのを覚えてるよ。このアプリには、視覚障害者のカメラを晴眼者側でオンにできるというユニークな機能があったな。
AppleがCMのYouTube版からスクリーンリーダーの読み上げ音(「Appleのロゴ」というやつ)を削除したのは残念だね。
https://www.youtube.com/watch?v=B3SmsSCvoss
個人的には、あれがあることで広告がより際立っていたと思うんだけどな。
みんなここを飛ばしているみたいだけど、電動車椅子を視線操作するっていうのはクールなアイデアだと思う(少なくとも自分にとっては、まあ古い話かもしれないけど)。
フルVRはあまりうまくいっていないけど、小さく軽量化されたデバイスなら需要があるんじゃないかとずっと思っているんだ。普通のメガネのサイズに収まるなら、視線操作ができるデバイスには興味があるね。HUDシステム(ごく基本的な記号がいくつか表示できるだけでも)が付いていれば最高だよ。音声が少しでもあればなお良いけど、HUDや音声よりも「普通のメガネ」の形状を保つことの方が自分には重要だな。
Appleは、比較的地味な場所に新技術を忍び込ませて、公の場でコッソリとテストするのが大好きだよね。だからエージェントAIのデビューをアクセシビリティから始めるというのは、まさにAppleらしい戦略だよ。
他の例を挙げると:
- Touch Barは単なるOLEDストリップ以上のもので、MacをAppleシリコンに移行させるためのAppleの最初の一歩だった。2016年モデルのTouch Bar付きMacBookに搭載された「Apple T1チップ」は、Macに搭載された最初のApple独自プロセッサで、電源管理、ファン、スリープ/復帰、カメラとマイクへのアクセス、Touch IDを動かすSecure Enclaveなど、Intelチップセットが担っていた機能をいくつか引き継いでいた。その後、T2チップがSSDの暗号化、オーディオ管理、カメラの画像処理、ブートプロセスの改ざん防止などを追加したね。
- iPhone 3Gには「Liquidmetal(リキッドメタル)」製のSIM取り出しツールが同梱されていた。これは非常に強力な合金で「指を傷つけたり切ったりする覚悟がない限り、手で曲げるのはほぼ不可能」なものだった。それ以降、Appleはその合金を使った製品を出していないけれど、20年近く経った今、噂されている折りたたみiPhoneにリキッドメタルが使われるのではないかと言われているよ。
- RealityKitは何年も前から3Dスキャンや他の素晴らしいAR機能を備えていたけど、Apple Vision Proがリリースされるまで、その真価が問われることはなかったね。
開発者側の視点から言うと、OSレベルでのAppleのアクセシビリティAPIは本当に優秀だよ。問題なのは、ネイティブ環境に埋め込まれたWebKitとの境界部分なんだ。MonacoエディタをWKWebView内で動かすTauriアプリをリリースした際、VoiceOverのaccessibilitySupport: autoモードがMonaco内のテキスト選択を密かに壊してしまうという事態に直面したんだ。「off」に設定して初めて正しく選択できるようになったんだけど、つまり「まともなテキスト選択」か「VoiceOver対応」かの二択を迫られる羽目になったわけで、結局は選択機能を優先したよ。
AppKitやUIKitでは岩のように堅牢なんだけど、現代のデスクトップアプリの多くが依存している「埋め込みWebView」の境界線で崩れてしまうのが難点だね。