HN🔥 781
💬 211

驚きの結果:軽量モデルでもMythos並みの脆弱性発見能力があることが判明

dominicq
約2か月前

ディスカッション (11件)

0
dominicqOP🔥 781
約2か月前

最近の検証で、小規模な言語モデル(Small models)であっても、あの「Mythos」が発見したものと同等の脆弱性を見つけ出せることが明らかになりました。大規模なモデルに頼らなくても、適切なアプローチでセキュリティチェックを効率化できる可能性が示唆されています。

1
epistasis
約2か月前

Anthropicが発表で示した特定の脆弱性を取り出して関連コードを分離し、小規模で安価なオープンウェイトモデルで実行したところ、それらのモデルでも同様の分析結果が得られた、という話か。Mythosが目玉にしていたFreeBSDのエクスプロイトも、8モデル中8つが検出していて、中にはアクティブパラメータがわずか36億で100万トークンあたり0.11ドルのモデルも含まれていたと。

印象的だし非常に価値のある仕事だけど、関連コードをあらかじめ切り出してしまうと状況が変わりすぎて、同じユースケースと言えるかは微妙なところだね。

コードベースを丸ごと放り込んでモデルにスキャンさせられるからこそ、全く新しい層の人たちに脆弱性スキャンの門戸が開かれるわけだし。

2
MaxLeiter
約2か月前

ここでの肝は、彼らが「関連するコードを分離した」って点だと思う。

もしエクスプロイトが1つのファイル内に収まっているならいいけど、複雑なゼロデイやエクスプロイトの多くは、複雑なシステムにおける様々なバグや挙動の連鎖だったりするからね。

重要な研究ではあるけど、これでMythosの価値が否定されるとは思わないな。

3
chirau
約2か月前

彼らの「分離」アプローチは、Mythosのアプローチとは全く別物だよ。Mythosは隔離されたセクションではなく、コードベース全体を評価しなければならなかったんだ。たとえるなら、1匹の犬がアマゾンのジャングルに飛び込んでテニスボールを見つけるのと、別のチームが「絶対にここにある」と分かっている1平方キロメートルの範囲を特定してから同じボールを見つけるのくらい違う。

4
johnfn
約2か月前

Anthropicのレポートはこの点に明確に言及しているよ。

これはMythos Previewでスキャフォールドを1000回実行した末にOpenBSDで見つかった、最も深刻な脆弱性だった。1000回の実行にかかった総コストは2万ドル以下で、他にも数十件の発見があった。上記のバグを見つけた特定の実行にかかったコストは50ドル以下だったが、その数字はすべてが終わった後だから言えることだ。どんな探索プロセスでも、どの実行が成功するかは事前には分からない。

Mythosは金を探して大陸全土をくまなく探して、いくつか見つけ出した。一方で、今回の小規模モデルの著者たちは特定の1エーカーの土地を指差して、「ここに金ある?ねえ?」って眉をひそめながら言ってるようなものだ。

本当に正当な比較をしたいなら、FreeBSDのコードベース全体をスイープさせてみてほしい。私の予想ではエクスプロイトは見つかるだろうけど、同時に無関係なノイズも大量に出すぎて、結局使い物にならないんじゃないかな。

5
antirez
約2か月前

おめでとう。完全に破綻した手法に、大きな利益相反まであるね。バグがあると思われる関数を切り出してヒントを与えるのは、本来のタスクとは別物だし、(ここが重要だが)大きなタスクを分解してできた仕事でもない。コードを断片化して小規模モデルに渡し、GPT 5.4や他の大型モデルが見つけられるバグをすべて見つけられると期待するのは基本的に不可能だ。第二に、モデルが賢いほどパイプラインの重要性は低くなる。ここ数日、私はシェルスクリプト数本で構成された単純なパイプラインを使って、Redisのバグを山ほど見つけた。弱いモデルで試してなかったと思う?試したけど、うまくいかなかったんだ。読み物を鵜呑みにしちゃいけない。月20ドルでフロンティアモデルが使えるんだから。適当なCのコードを落として、ランダムなファイルから脆弱性を探し始める簡単なパイプラインを作り、ASANでのクラッシュや機密情報への到達といった「厳しい」テストで検証するステップを加えて、初めて問題として報告できる。何ができるか、自分で試してみなよ。恐怖で盲目になってはいけない。あと、このブログの理屈が単に弱いだけでなく、決定的に欠けている点がある。もし小規模モデルXが脆弱性の80%を見つけられるとしても、残りの20%を見つけられるモデルYがあるなら、我々には「Y」が必要なんだ。メンテナは、ブラックハット側が使えるのと同等以上に優れたモデルを使えるようにしておく必要があるんだから。

6
woodruffw
約2か月前

「分析の多くを再現した」というのは、外部の人間から見れば、元の主張を信じにくくさせる極めて定量化不可能な表現だね。ここで言う「多く」とは何を指しているんだろう?脆弱性のエクスプロイトという最終状態は、通常(エクスプロイトが成功したことを示すPoCという形で)これ以上なく明確に定量化できるものだ。だからこの主張を強く通したいなら、そうしたPoCで裏付けを取るのが理想的だね。

(他の読者と同じく、小規模モデルに「関連する」コードをあらかじめ与えるというトリックは、公平な比較としては失格かもしれないとも思う。関連するコードを発見すること自体が、人間による脆弱性調査(VR)において最も難しい部分の一つなんだから。)

7
tptacek
約2か月前

Heartbleedの脆弱なコードだけを切り出してC言語のプログラマーの前に置けば、即座にフラグを立てるだろうね。それくらい明白だ。でも、それを発見するにはNeel Mehtaが必要だった。脆弱性発見の難しさは、バッファの誤操作や解放後使用(Use-after-free)を正しく特定することじゃない。巨大で複雑なプログラムのコンテキストの中でそれを見つけ出し、攻撃者が制御するデータがどうやってそのコードに到達するかを解明することなんだ。

Aisleがこれを書いたのは、なんだか奇妙な感じがするよ。

8
lordofgibbons
約2か月前

誤検知(偽陽性)率を示さないなら、この分析は無価値だね。

もしモデルが「全行にバグがある」と言えばバグを100%捕まえられるけど、そんなの全く役に立たない。彼らはたった一つのバグでしか誤検知をテストしていないし……。

別にAnthropicやOpenAIを擁護するわけでもないよ。彼らも誤検知率を出していないから、数字としてはゴミ同然だ。

なんでこんな「分析」が広まってるんだ?

9
vmg12
約2か月前

Anthropicが使っている手法は、Nicholas Carliniが2週間前のトークで実演していたもので、すごくシンプルなんだ。LLMにコードをレビューさせるとき、1回のセッションで1つのファイルに集中させる。これが動画のタイムスタンプ付きリンク(5:30くらいまで見ると、Claudeへの2種類のプロンプティング方法が紹介されているよ)。

https://youtu.be/1sd26pWhfmg?t=204
https://youtu.be/1sd26pWhfmg?t=273

個人的には、Mythosが示している大きな「革新」は、特定のファイルに1つずつ焦点を当て、そのプロンプティングを単純なスクリプトで自動化することで、脆弱性を探させるLLMの有効性を高めた点にあると思う。

1セッションにつき1ファイルに集中させるようにMythosを組んでいるからこそ、Anthropicがこれらのコードベースでバグを見つけるのに2万ドルもかかったんだろうね。自分でもOpus 4.6やGPT 5.4で同じ手法を使っているから、これが有効なのは知っている。ただ適当なプロンプトでPRのレビューを頼むだけじゃ徹底的にはやってくれないし、変更された各ファイルを読んでシステム全体とどう連動するかまで実際には見てくれない。でもセッション全体を1つのファイルのレビューに充てれば、LLMはもっと踏み込んで精査してくれるんだ。

編集:表現を変えた。コンテキスト全体を1ファイルに制限するんじゃなくて、1つのファイルに注力させつつ、他のファイルとの相互作用も調べられるようにしておく、という意味ね。

10
StrauXX
約2か月前

関連コードを切り出したからといって、この記事を否定するコメントが目立つけど、それはAnthropicがMythosでやったことと全く同じだよ!彼らはAnthropic Red Mythosのブログで、自分たちの(非常に軽量な)仕組みを説明している。その仕組みでは、まずコードベース内の各ファイルに重要度を割り当て、次にClaude Codeに対して、そのファイルに集中するように指示するプロンプトを投げるんだ。コードベースのファイルごとにClaude Codeのインスタンスを立ち上げているんだよ。

だから、投稿者が関連コードを切り出したからといって、その知見が無効になるわけじゃない。

[1] https://red.anthropic.com/2026/mythos-preview/