ディスカッション (7件)
ソフトウェアエンジニアリング能力を評価する『SWE-bench』において、テストをパスしたプルリクエスト(PR)であっても、実際にはリポジトリにマージされないケースが数多く指摘されています。単にテストが通れば良いというわけではなく、コードの品質、メンテナンス性、プロジェクト独自の作法など、AIが生成するコードには「実戦投入」を阻む課題がまだ残されているようです。
追記:なんでもない
2024年中盤のエージェント これってAI考古学についての投稿?
このベンチマークって意味あるのかな?SWEでスコアが良いローカルモデルをいくつか試してみたけど、結果はゴミ同然だったよ。(例えばunslothのMiniMax-M2.5 128GB版とか、全く使い物にならなかった)
納得だね!昨日、swe-benchみたいなテストベースの評価手法の弱点について記事を書いたんだ [1]。確かに有用ではあるんだけど、仕様や意図への適合、スコープの肥大化、コードベースのパターンへの準拠、チームの好み(リスク許容度とか)みたいに、テストコードにするのが難しい要素が抜け落ちちゃうんだよね。で、そういう要素こそが本当に重要なんだ。つまり、テストによる評価は実社会での有用性を示す決定的な指標というよりは、あくまで弱い指針とか方向性として捉えるべきなんだと思う。[1] https://voratiq.com/blog/test-evals-are-not-enough/
これはSWE-benchに対する重要な注意事項になりそうだけど、AIがどんどん有能になってるっていうトレンド自体は明らかだね。
もっと大きな問題は、人間側の心理的な要因や偏見そのものだと思う。PRにAIの支援が入ってるって聞くと、大抵は「うわ、またLLMのゴミ(slop)かよ」って考えに陥りがちだよね(例えばこのPRのレビューとか:https://github.com/jneem/imbl/pull/149#pullrequestreview-3703289472 )。自分もAIは使うけど、プッシュする前にコードを見直してる。でも、ほとんどの人はそれをやらない。一度トレンドができると偏見が生まれやすいし、質と量の両方で大幅な改善がない限り、それを取り払うのは難しい。あと、AIのコードを真っ向から拒否する人もいれば、多くのメンテナは黙殺っていう戦術をとる。で、レビューを催促すると、クローズするか「忙しい」って言い訳するんだ。これは最高に卑怯なやり方だと思う。一番ダメージが大きいのに、相手が本心を明かすまで非を指摘しにくいからね。