ディスカッション (11件)
ついに、特定のアプリに依存せず、あらゆるコンピュータ操作を自律的に実行できる世界初の「完全汎用アクションモデル(Computer Action Model)」が登場しました。人間と同じように画面を理解し、マウス操作やキーボード入力を自在に操るAIの進化は、業務自動化の歴史を塗り替える大きな一歩となりそうです。
やあみんな!Neelだよ。この1年、サウスパークのオフィスに籠もってモデルのトレーニングをしていたんだ。やっと研究内容を共有できてワクワクしてる!これはこれまでとは全く違うタイプの「コンピュータ使用モデル」のプレビュー版だよ。インターネット上のデータでトレーニングしているんだ。具体的には、ストレージクラスタに保存された1100万時間のコンピュータ操作ビデオ(以前シェアしたhttps://news.ycombinator.com/item?id=45438496 にあるやつだよ!)を使っていて、モデルは30 FPSで動作する。コンピュータ操作の基本的な形式に合わせているから、CADを操作したり、Webサイトを閲覧したり、さらには矢印キーを使って車を運転させることさえできるんだ。規模を拡大していったときにこのモデルが何を実現できるのか、今からすごく楽しみ。取り組んでいて楽しいフロンティアだよ(言語モデルじゃないけどね :) )。チームのみんなとオンラインでコメントに返信していくから、質問があったらどんどん投げてね。
ctrl-cを逆因果的にしかラベル付けできないという指摘、すごく気に入ったよ。過去の文脈が十分にあれば何をコピーしたか分かるはずだと思いたいし、ある意味で過去は未来をエンコードしているとも言えるけど、エージェント的な決定はまさに、その決定を再構築するために過去よりも未来の方が情報量が多いという類のものだよね。逆ダイナミクスモデルを、特に逆因果的なものと因果的なものに分けるべきなのか気になってきた。逆ダイナミクスモデルと順方向ダイナミクスモデルで既に似たようなことはやっているけど、未来のことしか知らないモデルと、過去のことしか知らないモデルをフィードバックループでトレーニングさせるというアイデアはかなり面白いね。アーキテクチャ全体を変えなくても、拡散モデルでうまい具合にマスキングを工夫すれば同じ効果が得られるんじゃないかな。
これはめちゃくちゃ凄そうだな。もっと注目されるべきだよ。逆ダイナミクスと順方向ダイナミクスのモデルは別々にトレーニングしているのかな?もし逆ダイナミクスモデルがより多くのトレーニングデータを外挿するためのものだとしたら、結局のところ、適切なアーキテクチャを前提とすれば、順方向ダイナミクスモデルで直接汎化させるのに必要なデータはわずかで済むということになるのかもね。
ただ言いたいだけだけど、これすごく印象的な研究だよ。分析も興味深いし、すっかり夢中になっちゃった。言語モデル以外のリフレッシュできるAIニュースをありがとう :)
実際の公道で歩行者に接近しすぎる動画じゃなくて、駐車場でマネキンを使ってデモ走行してみたらどうかな?それ以外はすごくクールでワクワクするよ!
一見して驚異的だね。著者たちは4万時間のコンピュータ操作ビデオ(以前コントラクターがキーボードとマウス操作でラベル付けしたもの)で一つのモデルを学習させ、実質的にそのモデルを使って1100万時間のビデオにラベル付けをし、それを使ってコンピュータ操作モデルを訓練しているのか。キーとなる進歩は「圧縮」にあるね。引用すると、「(従来のモデルは)30 FPSのコンピュータデータ1分間を理解するために100万トークンを消費する。我々のビデオエンコーダーはほぼ2時間分のビデオを同じトークン数でエンコードできる。これは従来の最先端より50倍、OpenAIのエンコーダーより100倍トークン効率が良い」。効率的な新しい「ワールドモデル」に取り組んでいる人がいることは知っていたけど、実際に動いているものを見るのはこれが初めてだ。正直言って、その性能の高さにちょっとショックを受けているよ。論文を読書リストに追加したよ。まだ2018年の論文をざっと見ただけだけど、読みやすく書かれているのがよく分かる。自分はディープRLの専門家じゃないけど、十分理解できる内容だよ。ちなみに「Behavioral Cloning from Observation」という名前はすごくいいし、頭字語も覚えやすくていいね。HNで共有してくれてありがとう。
車を運転できるのはいいことだけど、別にopenpilotを使えば済む話では?
うわっ、すごいな。いいところがたくさんある。8万台の並列Webサイトファジング用デスクトップには感銘を受けたよ。それに30Hz(全部!)も驚異的だね。
すごく素晴らしい研究だね。HNでこれほど圧倒的な称賛を受けているのは初めて見たよ。おめでとう!一つ言いたいのは、タイトルのせいで損をしているんじゃないかということ。それがもっと注目を集めていない理由だと思う(もっと注目されるべきだよ)。正直、半端なGitHubリポジトリかと思っていたら、とんでもなく凄いものが出てきてびっくりした。Neel、君自身の言葉を借りれば「a very different type of computer use model」というタイトルだったら、もっとクリックしていたはずだよ。自分もタイトル付けは得意じゃないけど、もっと良いアイデアがあるかもしれないね。とにかく、今後どう発展していくか楽しみだよ!特にCAD作業での進捗に期待してる。
めちゃくちゃ印象的だ!これってプロンプトを出せるの?それとも厳密にCopilot形式の予測なのかな?