ディスカッション (7件)
FrontierCodeは、開発の最前線(フロンティア)を駆け抜けるエンジニアのための革新的なコードツールです。詳細については現在準備中ですので、今後のアップデートにご期待ください!
やあ!チームにいたよ!何でも聞いて。
いくつかハイライトを共有するね。
-
コード品質に関する3000ものルーブリックを作成。「このコードは実際にマージされるのか?」を測定するための最初のベンチマークだよ。
-
20人以上の専門的なオープンソースメンテナが、自身のレポジトリでタスクを作成して、彼らの意見や好みを反映させた。
-
合計1000時間以上の実務でのソフトウェアメンテナの作業をデータセットとして収集。それに加えて、その実務を検証済みの構造化されたタスクに変換するために40時間以上の人間の作業を投入した(さらに、デビン特有のインフラから汎用的なコーディングエージェントに変換するためのタスク/プロンプト化にもかなりの手間をかけている)。
-
SWE-Bench Proと比べて誤検知率が81%低いという結果が出た。
-
高い品質基準:多くのQAステージを経て、Cognitionの研究者が手動ですべてのタスクをレビューした(投稿内に例があるよ)。
-
Opus 4.8はFrontierCode Diamondで13%のスコアを記録。
僕の目的の一つは、簡単なタスクからでも面白い知見をデータマイニングすることだった。例えば、よーく見ればコーディングモデルを使って「2025年後半に一体何が起きたのか」という問いへの答えが見えてくるよ:https://x.com/swyx/status/2064081945567580323
「コード品質」が何なのか誰も知らないし合意も取れていない。人間のアウトプットに対してさえ測定できないものを、LLMに対して測定するなんて疑わしいよ。
みんな起きろ、また新しい評価指標が出たぞ
今日のコーディングベンチマークは、モデルが正しいコードを書けることを証明した。
それはちょっと違うかな。
しかしAI生成コードが本番環境への主要な経路となるにつれて
そうなっていないことを切に願うよ。
これは素晴らしいね。論理的だし、評価構築に莫大な労力を費やしている。作成してくれてありがとう。
優れた評価指標が、現実世界で数千万ドルから数億ドル規模の計算資源のデプロイを左右するというのは、なんだか凄いことだと思う。評価指標とフロンティアモデルの競争には、新しくて、協力的で、競争的な、非常に興味深い何かがあるね。
今回、「オープンソースのメンテナが受け入れるような、より短く、実際にマージ可能なパッチ」という視点は、世界にとって価値のある貢献だと思う。
良いパッチと悪いパッチの詳細な分析までは見ていないけれど、swyxか他のチームメンバーは飽和について予測しているかな?いつ、どれくらい有用になるのか。つまり、君たちはこのテストが、モデルからより良い挙動を引き出すのに十分な広さを持っていると考えているか?そして、もしこのテストで飽和が起きた場合、パッチ生成やコーディングの挙動全体が向上していると見なせるようになるのかな?
素晴らしい取り組みだね。DeepSWEよりも僕が独自に行っている評価に近い。単にパスするかどうかだけでなく、実際にマージ可能な品質のアウトプットに焦点を当て、偽陰性や偽陽性に注力している点を高く評価する。多くの人がこのメトリクスリストを基盤として採用すると思うよ。定義が非常に明確で、単一の狭いターゲットに絞るのではなく、コードに求められる要素を網羅しているからね。僕自身のテストにもこれらのアイデアの多くを取り入れるつもりだし、すでに意図せず同じような方向に進んでいた部分を洗練させようと思う。