HN19552

最強のAIエージェントはどう生まれた？ベンチマークを粉砕した開発の裏側と、その先の展望

How We Broke Top AI Agent Benchmarks: And What Comes Next

Anon84・3か月前

議論

11件

0：Anon84スレ主▲1953か月前

AIエージェントの性能を測る主要なベンチマークで、いかにしてトップの座を勝ち取ったのか。その開発プロセスにおける技術的なブレイクスルーを解説するとともに、この結果を踏まえた次なる挑戦について語ります。

リンク先:https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

1：ggillas3か月前

エクスプロイトに関する驚くべき論文だね。これでベンチマークのあり方が変わるといいんだけど。論文によると、タスクを一つも解かずに全項目でほぼ満点を取ったらしい。エクスプロイトの手法は、あきれるほど単純なもの（FieldWorkArenaに{}を送るだけ）から、技術的に凝ったもの（Terminal-Benchのバイナリラッパーをトロイの木馬化する）まで様々。でも共通してるのは、評価方法が「タスクをこなす」ことじゃなく「スコアを最適化する」システムを想定して作られてなかったってことだ。

2：danslo3か月前

ブログ自体がAIで書かれてなけりゃ良かったんだけどな。「推論なし。能力なし。ただスコアの計算方法を悪用してるだけ」。……ゾッとするわ。

3：SoKamil3か月前

このトピックの研究が増えれば増えるほど、将来の学習データに「どうやってベンチマークをハックするか」の知識が蓄積されていくよね。しかも大学発の研究ならデータコーパス内でのランクも高くなる。これじゃ自己充足的予言みたいだよ。

4：lukev3か月前

AnthropicがMythosをすぐに出さない理由の一部として、ベンチマークのスコアに比べると実際はちょっとガッカリな出来だから、っていう可能性は考えておくべきだと思う。

5：mzelling3か月前

脆弱性のカタログとしては面白いけど、メインの洞察がそこまで画期的かどうかは微妙かな。AIモデルの評価はずっと信頼ベースに頼ってきたわけだし。ベンチマークの裏をかきたいなら、テストデータで学習させちゃえばいい。AIエージェントがスコアを記録するのと同じ計算環境を自律的に制御できるなら、原理的にスコアを偽装できるのは驚くことじゃない。もっと面白い問いは、研究者が手動で調整しなくても、エージェントが自動的にこういう挙動をするかどうかってところ。とはいえ、「数字を信じるな、手法を信じろ」っていう教訓は正しい。研究者の間ではもはや常識だけど、それを研究者以外にも広めるのは価値がある。

6：socketcluster3か月前

LLMには「短期的な思考」が刷り込まれてる気がする。制限時間内に定義されたパズルを解くのは得意だけど、それってまさにビッグテックのエンジニア採用基準だったんだよね。テック面接は今も昔も、いかに速くパズルを解くかってことが中心。経験とかアーキテクチャ、システムデザインについては二の次。だから、根本原因の解決じゃなくて「ハック」に走るバイアスがかかってるんじゃないかな。

7：_cs2017_3か月前

もしFieldWorkArenaがどんな回答も正解として扱うなら、誰でも1.0に近いスコアを出せるはず（エージェントがループにハマったりクラッシュしたりしない限り）。でもリーダーボードの結果は明らかにそうなってない。ってことは、この論文は誰も使ってないGitHub上の評価用コードのバグを見つけただけってこと？それじゃ「AIベンチマークは壊れてる」っていう主張の根拠にはならないし、単に「使われてないコードにはバグが多い」って言ってるだけに見える。（他のベンチマークについてはノーコメントだけど、これに関してはね。）

8：spprashant3か月前

個人的にはARC-AGIベンチマークの方が好きだな。新しいバージョンが出るたびにフロンティアモデルが20%以下とかに沈んで、その次の数リリースで80%以上に返り咲くのはいつ見ても面白い。でも、実際にモデルを使ってみると、そこまで汎用的な知能が上がったようには感じないんだよね。今のところ、ほとんどのフロンティアモデルはAGI-3がボロボロだし。今のモデルも素晴らしいのは間違いないけど、スコアがまた80%に達したとき、本当にそれほど賢くなってるのかな？

9：arikrahman3か月前

まあ、「どのモデルが一番うまくズルできるか」を見るためのベンチマークとしては優秀かもね。

10：davebren3か月前

ベンチマークをハックする話は、当たり前すぎてあんまり興味を惹かれないな。モデルがベンチマークを攻略する主な方法は、テストデータが非公開のARCであっても、テストデータに酷似した学習データを作ることだと思ってる。