ディスカッション (11件)
汎用人工知能(AGI)への重要なベンチマークとして注目される「ARC-AGI」の最新テクニカルレポート(ARC-AGI-3)がリリースされました。このレポートでは、AIが未知の課題に対していかに柔軟に適応し、推論を行うかという最先端の取り組みがまとめられています。LLM(大規模言語モデル)の次を担うシステム開発に興味があるエンジニアにとって、現在の到達点と課題を把握するための貴重な資料です。詳細はこちらのPDFをご覧ください:https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf
俺の地頭が悪いだけかもしれないけど、数分やってみたところで、このゲームが一体何を求めてるのか、どうやったら勝てるのかさっぱり分からなかった。
いくつかレベルをこなしてみて分かったのは、自分は間違いなくAGI(汎用人工知能)じゃないってことだね。
https://x.com/scaling01 (https://x.com/scaling01) が ARC-AGI-3 の問題をたくさん指摘してる。その一部を(ツイートから直接コピーして少し編集したやつ)紹介するね。- 人間基準が「アクション数で2番目に良かった初回プレイの人間」と定義されてる。「一般人」としてパズルを解くために登録した人たちが使われていて、スコアを人間の平均ではなく、2番目に良かった人間の解法と比較してる。- スコアリングは、モデルがいくつのレベルをクリアしたかではなく、人間と比べてどれだけ効率的にクリアしたかを示してる。二乗効率を使ってて、例えば人間が10ステップ、モデルが100ステップかかったら、モデルのスコアは1%になる ((10/100)^2)。- 100%は単に全レベルが解けることを意味する。1%という数字は、各レベルの「人間で2番目に良かったスコア」を基準にした、全く別物のめちゃくちゃ偏った採点方法。テストを受けた10人中6人が解けるのが標準的なレベルらしいから、中央値の人間が60%のパズルを解けると仮定しよう。中央値の人間が2番目に速い人の1.5倍のステップを要したとしたら、中央値スコアは 0.6 * (1/1.5)^2 = 26.7% になる。下位10%の人なら、30%しか解けずステップ数も3倍かかるとしたら、スコアはたったの3%だ。- AIが人間並みのパフォーマンスを出しても100%を下回るように設計されてる。- 評価用の実行環境(harness)が全くなくて、プロンプトもすごく単純。- モデルは人間の5倍以上のステップを使えない。- 後半のレベルに高い重みをつけてるのも注目。このベンチマークは「継続学習」のブレイクスルーを検出するために作られてる。1年後くらいにそれが起きたら、「ほら見ろ、俺たちのベンチマークがそれを示してた。俺たちだけが分かってたんだ」って言うつもりなんだろう。
「AIと人間の学習の間に差がある限り、AGIとは言えない」ってことだけど、90年代のサイエンティフィック・アメリカンにAIの記事があったのを思い出した。ちょうどディープ・ブルーがカスパロフにチェスで勝った頃かな。あるAI研究者の言葉が印象に残ってるんだ。「鳥のように羽ばたかないからといって、飛行機は飛んでいないと言うのは愚かだ」って。彼はチューリング・テストについて言ってたんだけど、その考え方はここでも通用すると思う。人間にはXができるのにLLMにはできないからといって、LLMの「知能」が否定されるわけじゃない。人間より優れたタスクをLLMがこなしたからといって、人間の知能が否定されないのと同じだよ。
これがどうAGIに関係するのかよく分からないな。これは特定の種類のゲームでLLMがどれだけうまくやれるかを測定してるだけ。もちろん、LLMがどれだけ強力か(あるいは汎用的に強力か)を知るための指標としては価値があるかもしれないけど。人間だってその手のゲームが得意とは限らないし。チェッカー、チェス、囲碁みたいな(人間向けの)ゲームの多くで、コンピュータ(LLMじゃなくて!)がすでに人間を圧倒してるのは分かってる。だから、LLMが「AGI」かどうかは、特定のゲームで成果を出すかどうかじゃなくて、そのゲーム自体が「AGI」(どう定義するにせよ)を代表するものかどうかってところにあるはず。このゲームセットが、実用的、哲学的、あるいはビジネス的な用途において意味のある定義になるとは思えないんだけどな。
ARC-AGIのリーダーボードで一番いいなと思うのは、グラフにタスクごとのコストも考慮されてるところ。最近のベンチマークの大きな進歩も、それに伴う膨大なコスト上昇を考えると、ちょっとインパクトが薄れる気がするんだよね。結局、電気をジャブジャブ使えば、いつだってアウトプットを少しは良くできるわけだし。
これは賢くて良いベンチマークだし、前の2つの後継としてふさわしいね。ただ、「ツール使用禁止」っていうアプローチはちょっと変な気がする。APIレイヤーの裏に隠れていればツールを使ってもOKってことだよね?そんなところに線を引くのって変じゃない?「組み込みツール以外禁止」じゃなくて、「ARC-AGI-3専用のツール禁止」にすべきだと思うんだけど。
たぶん俺、このゲームセットの人間テスターをやってたと思う。制限時間の90分で25ゲームこなしたよ。記憶が正しければ、説明にはアクション数を最小限にするようにって書いてあったけど、インセンティブ(1ゲームクリアごとに5ドル)があったから、アクション数より解くスピードを優先しちゃった。考えてる間に無駄に動かさないようにはしてたけど、それが一番の目的じゃなかったから、人間の解法のベースラインは、本来必要なアクション数よりも多くなってるはず。
これはAGIの評価としてすごく優れてる。人間とAIに同じ入力を与えて結果を測定するんだから。これを作ったARCには拍手を送りたい。なんでこんなに反論する人が多いのか不思議。AIが便利で研究に役立つのは分かってるけど、知りたいのは、それらが俺たちが曖昧に定義してる「知能」なのかどうかでしょ。「飛行機は羽を使わない」とか「潜水艦は泳がない」とかいう意見も読んだけど、それは論点が違う。こういう例えを持ち出す人は自分のバイアスを疑ったほうがいいと思う。これはあくまで「汎用」人工知能(Artificial General Intelligence)の話なんだから。「汎用(General)」がキーワードで、ARCが測ろうとしてるのはそこ。役に立つかどうかは問題じゃないし、テストの後にAIが便利かどうかも関係ない。今のところこれが最高のテストだと思う。あと、自分の仕事の専門的なことをAIに聞いて、どれだけ間違えるか試してみるのもおすすめ。知能がないのを、知識があるから知能があるって勘違いしがちな気がする。それは人間同士でもよくあることだけどね。
似たような方向性の「ベンチマーク」として、最近主要なLLMを自分のコーディングゲーム(1対1のRTSでユニットを制御するコードを書くやつ)で試してみたよ。 https://yare.io/ai-arena (https://yare.io/ai-arena)