ディスカッション (11件)
ベンチマークとして定番だった「SWE-bench Verified」ですが、最近のAIモデルの進化スピードがあまりに速すぎて、現状では最先端のコーディング能力を正確に測る指標としては機能しなくなっているようです。
モデルが解けないことが多かったデータセットの27.6%を監査したところ、少なくとも59.4%の問題において、テストケース自体に欠陥があり、機能的に正しい回答までもが不正解と判定されていることがわかった。SWE-bench Verifiedの作成時に最大限の努力はしたものの、このような結果になってしまった。
これってつまり、ずっと質問と回答の4分の1*が間違っていたってこと?!
もしそうなら、どうやってこれが有効な測定指標として成立していたの?
それに、このベンチマークの作成プロセスはどうなっていたわけ?なぜこれほど質が低いデータセットになってしまったの?(後述されている作成プロセスを見る限り、かなり高い基準でやっているように見えるけど、議論されている他の結果とどう整合性が取れるのか理解に苦しむ。)問題点を明らかにしたこと自体は評価するけど、疑問しか残らないよ。
[*] 4分の1じゃなくて6分の1だった。訂正してくれた人ありがとう。元の文はあえて残すよ。自分のミスだし、返信の内容が通じなくなるからね。大筋の主張は変わらないはず!
どんなベンチマークが出てきたとしても、すぐに時代遅れになるし、トレーニングデータの中に含まれてしまって評価として機能しなくなるのは明らか。マーケティング目的だけでも、こうしたベンチマークで高いスコアを出すための最適化をする動機は常にあるからね。もちろんトレーニングのカットオフ期間はあるけど、たいてい公開日から3〜6ヶ月しか空いていない。
となると、コーディングベンチマークの課題は、トレーニングデータに含まれていないことが保証されていて、過去のベンチマークから何も流用していないような、全く新しいベンチマークを作ることになる。
この点において、モデルがリリースされる前に作成されたベンチマークは、モデルの性能を正しく表すものとは見なせないと思う。たとえわずかな改善でもマーケティングのためにデータを(意図的に)含めることによる経済的メリットが大きすぎるからね。それを考えると、マーケティング資料からベンチマークの記載を完全に廃止すべきだよ。
モデル自身に語らせて、コミュニティに判断させればいい。まあ、巨額の金が動く企業の連中がそれを許すわけないけどね。
自分たちの最高性能モデルにベンチマークを作らせてみればいいんじゃない?
冗談はさておき、期待しているのはARC-AGI-3だね。彼らのヒューマンシミュレーションを試してみたけど、かなり推論能力が問われる感じがしたよ。
リーダーボード: https://arcprize.org/leaderboard
(現時点で、ほとんどのトップモデルでも5%すら超えられないよ。)
もっと優れたベンチマークには、客観的なスコアリング、多分野にわたる網羅性、そしてスケーラビリティ(単一の正解がないこと)が必要だよ。
それこそが私たちが https://gertlabs.com で設計したものだ。かなり熟考を重ねたし、コーディングによる問題解決に関連させつつも、それに限定しすぎないようにしたんだ。
結局のところ、大したことなかったみたいだね。2025年を通して、モデルが書くコードの質はほとんど向上していない。自動テストをパスするのが上手くなっただけだよ。
オリンピックのような形式の方がいいんじゃないかな。ただ、金銭的なインセンティブが強すぎて、リークを防ぐのはほぼ不可能かもしれないけど。
つまり、審査委員会が一連の問題を作成するような形式だね。
Advent of CodeやProject Eulerみたいに、もっと複雑で制約があるもの。
ベンチマークの結果は、パフォーマンスポイントやコスト、解決までの時間(というかトークン数)で測定する。
これを年に数回実施する感じ。
これならオーバーフィッティングは防げるし、必要に応じて徐々にタスクを複雑にしていくこともできる。
もしこれでベンチマークを最大化して、仕様書からプロダクト全体を完成させて堅牢な実装までできるようになったら最高だよね。
ベンチマークや評価は本当に難しい。業界レベルでハックしようとするインセンティブが強くなると、なおさらだよね。
ELT-Benchも最近の例の一つ。約1年前に公開された、データエンジニアリングのワークロードに対する最初の本格的なベンチマークだった。
数日前、元の著者の一人が含まれるグループから、そのベンチマーク自体を監査する論文が出たんだ。チームは、そのベンチマークには結果を偏らせる構造的な問題があることを突き止めた。
論文はこちら: https://arxiv.org/abs/2603.29399
どれも新しい話じゃないけどね。業界は小規模なレベルで同じようなことを経験済みだし、そこから学べることは多い。データベースシステムの「ベンチマーケティング」戦争で起きたことと、今日の状況との類似点についてブログに書いたよ。
SWE-benchの共同開発者です。
-
SWE-bench Verifiedは現在93.9%で飽和状態(Anthropicおめでとう)。でも、まだその数値に達していないモデルには伸びしろがある。
-
SWE-bench MultilingualとMultimodal(来月オープンソース化予定)は、まだ飽和していない。
-
すべてのベンチマークや評価手法はいずれ飽和するもの。だからこそSWE-benchチームは次の段階のベンチマーク構築に注力している。すでに https://codeclash.ai/ や https://algotune.io/ などを出しているし、近いうちにさらに発表できることがあるよ :)
結局、私たちは自分たちにふさわしいベンチマークを使っているんだと思う。
SWE-benchをパスしたプルリクエストの多くは、実際にはマージされないようなものだよ: https://news.ycombinator.com/item?id=47341645
トップモデルのSWE-benchスコアも、Gitの履歴リークによって歪められている可能性がある: https://news.ycombinator.com/item?id=45214670
最近これについて書いたよ:
https://fabraix.com/blog/adversarial-cost-to-exploit
核心的な問題は静的なベンチマークにあると思う。コミュニティは「パス/フェイル」を測るだけの段階(エージェントがまだ大したことができなかった頃には有効だった)を超えて、人間を評価するプロセスにより近い動的な評価へと移行する必要があるはず。