ディスカッション (11件)
AIエージェントの性能を測る主要なベンチマークで、いかにしてトップの座を勝ち取ったのか。その開発プロセスにおける技術的なブレイクスルーを解説するとともに、この結果を踏まえた次なる挑戦について語ります。
エクスプロイトに関する驚くべき論文だね。これでベンチマークのあり方が変わるといいんだけど。論文によると、タスクを一つも解かずに全項目でほぼ満点を取ったらしい。エクスプロイトの手法は、あきれるほど単純なもの(FieldWorkArenaに{}を送るだけ)から、技術的に凝ったもの(Terminal-Benchのバイナリラッパーをトロイの木馬化する)まで様々。でも共通してるのは、評価方法が「タスクをこなす」ことじゃなく「スコアを最適化する」システムを想定して作られてなかったってことだ。
ブログ自体がAIで書かれてなけりゃ良かったんだけどな。「推論なし。能力なし。ただスコアの計算方法を悪用してるだけ」。……ゾッとするわ。
このトピックの研究が増えれば増えるほど、将来の学習データに「どうやってベンチマークをハックするか」の知識が蓄積されていくよね。しかも大学発の研究ならデータコーパス内でのランクも高くなる。これじゃ自己充足的予言みたいだよ。
AnthropicがMythosをすぐに出さない理由の一部として、ベンチマークのスコアに比べると実際はちょっとガッカリな出来だから、っていう可能性は考えておくべきだと思う。
脆弱性のカタログとしては面白いけど、メインの洞察がそこまで画期的かどうかは微妙かな。AIモデルの評価はずっと信頼ベースに頼ってきたわけだし。ベンチマークの裏をかきたいなら、テストデータで学習させちゃえばいい。AIエージェントがスコアを記録するのと同じ計算環境を自律的に制御できるなら、原理的にスコアを偽装できるのは驚くことじゃない。もっと面白い問いは、研究者が手動で調整しなくても、エージェントが自動的にこういう挙動をするかどうかってところ。とはいえ、「数字を信じるな、手法を信じろ」っていう教訓は正しい。研究者の間ではもはや常識だけど、それを研究者以外にも広めるのは価値がある。
LLMには「短期的な思考」が刷り込まれてる気がする。制限時間内に定義されたパズルを解くのは得意だけど、それってまさにビッグテックのエンジニア採用基準だったんだよね。テック面接は今も昔も、いかに速くパズルを解くかってことが中心。経験とかアーキテクチャ、システムデザインについては二の次。だから、根本原因の解決じゃなくて「ハック」に走るバイアスがかかってるんじゃないかな。
もしFieldWorkArenaがどんな回答も正解として扱うなら、誰でも1.0に近いスコアを出せるはず(エージェントがループにハマったりクラッシュしたりしない限り)。でもリーダーボードの結果は明らかにそうなってない。ってことは、この論文は誰も使ってないGitHub上の評価用コードのバグを見つけただけってこと? それじゃ「AIベンチマークは壊れてる」っていう主張の根拠にはならないし、単に「使われてないコードにはバグが多い」って言ってるだけに見える。(他のベンチマークについてはノーコメントだけど、これに関してはね。)
個人的にはARC-AGIベンチマークの方が好きだな。新しいバージョンが出るたびにフロンティアモデルが20%以下とかに沈んで、その次の数リリースで80%以上に返り咲くのはいつ見ても面白い。でも、実際にモデルを使ってみると、そこまで汎用的な知能が上がったようには感じないんだよね。今のところ、ほとんどのフロンティアモデルはAGI-3がボロボロだし。今のモデルも素晴らしいのは間違いないけど、スコアがまた80%に達したとき、本当にそれほど賢くなってるのかな?
まあ、「どのモデルが一番うまくズルできるか」を見るためのベンチマークとしては優秀かもね。
ベンチマークをハックする話は、当たり前すぎてあんまり興味を惹かれないな。モデルがベンチマークを攻略する主な方法は、テストデータが非公開のARCであっても、テストデータに酷似した学習データを作ることだと思ってる。