HN🔥 457
💬 132

【AIの勝利?】AnthropicのClaudeがFirefoxの脆弱性を一掃!レッドチームによる最新の要塞化プロセスが公開

todsacerdoti
約16時間前

ディスカッション (11件)

0
todsacerdotiOP🔥 457
約16時間前

Mozillaが発表した最新のセキュリティアドバイザリ(mfsa2026-13)において、非常に興味深い記述が見つかりました。「AnthropicのClaudeを使用して発見(using Claude from Anthropic)」と明記されたバグが複数報告されています。これは、AIがブラウザの複雑なコードベースからセキュリティ上の欠陥を見つけ出す強力なツールとして機能していることを示しています。詳細は以下のリンクから確認できます。 ■ Mozilla セキュリティアドバイザリ (mfsa2026-13): https://www.mozilla.org/en-US/security/advisories/mfsa2026-13/ ■ Mozilla 公式ブログ「AnthropicのレッドチームによるFirefoxの要塞化」: https://blog.mozilla.org/en/firefox/hardening-firefox-anthropic-red-team/ ■ WSJ記事「Claudeがバグを嗅ぎ分ける:AIがセキュリティ強化の鍵に」: https://www.wsj.com/tech/ai/send-us-more-anthropics-claude-sniffs-out-bevy-of-bugs-c6822075 AIレッドチームの活躍により、Firefoxの安全性はさらに一段階上のレベルへと引き上げられたようです。

1
fcpk
約16時間前

具体的にどんなバグだったのか全く触れられてないのはちょっと変だね。「まず起こりえないような超レアケース」なのか、それとも「マジな問題」なのか知りたいところ。LLMは過去に見た失敗パターンを見つけるのは得意だけど、それが必ずしも意味のある指摘とは限らないから。

2
stuxf
約15時間前

これをセキュリティ上の脆弱性としてカウントしてるのは興味深いね(リンク先のAnthropicの記事より)。

「雑(Crude)」という表現が重要なポイント。Claudeが書いたエクスプロイトはテスト環境でしか動かないもので、そこでは現代のブラウザにあるセキュリティ機能が意図的に外されていた。特に重要なのはサンドボックスで、そもそもこういう脆弱性の影響を抑えるためのもの。だから、Firefoxの「多層防御」は今回のエクスプロイトを防ぐのに十分効果的だったはず。

3
staticassertion
約15時間前

成果はまちまちかな。エージェントが役に立つのはこんな時:

  1. カバレッジを上げるための新規テスト作成。プロパティベーステストへの移行。ファジングや静的解析ツールのセットアップ。普通なら「時間」がかかる作業をバックグラウンドで回せる。

  2. 脆弱性の発見。まあまあだけど、トークンを湯水のように使う覚悟があるならアリ。

  3. 安全性について完全に間違えることもある。Claudeが、実際には存在しないセキュリティ境界があるって断言したことがあった。chrootが閉じ込めてる「ように見える」のと同じで、境界として「意図」はされてるけど、全然不十分だったんだよね。複数のモデルがその境界を「極めて安全」とか言っちゃって。これ、何度も経験したから、問題を見つけさせるにはかなり誘導が必要だった。

  4. 「ローカル」なバグには強いみたい。安全じゃないコードの分かりやすいパターン、例えば「ポインタのデリファレンス」とか「配列アクセス」とか「unsafe {}」とかね。でも脆弱性が「ローカル」じゃなくなるほど、精度はガタ落ちする。組み合わさると危険な挙動をする製品機能同士のやり取りとか、AIがそれを見抜けたところはまだ見たことがない。これは当然で、エージェントをただの「パターンマッチャー」だと考えれば、既知のパターンを見つけて検証するのは不思議じゃないけど、「製品の全く無関係な複数の機能やバグ、デプロイ設定が組み合わさって脆弱性になる」なんてのは、そう簡単には気づかないよ。

モデルが言う「安全」には懐疑的でいることが大事。脆弱性を見つけるのはすごいけど、その間違いを見抜く力も必要だね。

4
mmsc
約15時間前

Mozillaが https://www.mozilla.org/en-US/security/advisories/mfsa2026-13/ を更新したのはナイスだね。1回のリリースで22個も脆弱性を見つけたのは一体誰なんだって、みんな気になってたから(元々は発見者の名前が出てなかったんだ)。

5
driverdan
約14時間前

Anthropicの解説記事は、AI企業が自社製品を語る時のお手本だね。煽り(ハイプ)がなくて、何がうまくいって何がダメだったのか正直に書いてる。改善点についても触れてるし。

6
g947o
約14時間前

Firefoxは無作為に選ばれたわけではない。広く使われていて、かつ徹底的に精査されているオープンソースプロジェクトだからこそ、新しい防御ツールの試用場として理想的だったのだ。

俺が思ったのは、「ChromiumチームはGeminiがあるから絶対協力してくれないだろうし、Safariは製品開発に関しては秘密主義で有名なあそこ(Apple)のだしな」ってこと。

7
tclancy
約14時間前

ちょっと気になった部分がある。俺も一晩中AIエージェントを走らせる適当なシステムを自作してる一人なんだけど、Claudeには(テスト作成とかに加えて)可能な限り形式検証を使って解決策をチェックさせてる。Anthropicも部分的に似たようなことやってるっぽいね。

あと、単なるユニットテストよりプロパティベーステストを優先するようにプロンプトを入れたり、ステータスがReadyになったらコードをファジングするプロンプトを作ったりするのも良さそうだな。いいヒントになった。

8
est31
約13時間前

そのうち主要なOSSプロジェクト向けに、GoogleのOSS-Fuzzみたいな仕組みが出てきて、バグバウンティを少し置き換えることになるかもね。AnthropicはすでにOSSメンテナにClaudeのアクセス権を無料で配ってるし。

LLMのせいで、誰でも投稿できるバグバウンティの運営は難しくなった。一見まともに見えるけど中身はデタラメな報告が大量に送られてくるから。

一方で、最新世代のLLM(の最高設定)は、ようやくドメイン知識を理解して正当な問題を見つけられるレベルに達してる。

LLMの評価って無料版や安いプランでされがちだけど、それだと質は確かに悪いんだよね。バグバウンティを募れば、(投稿コストがゼロだから)どうしても質の低い報告が集まっちゃう。

でも、バグバウンティの代わりに「最高ティアのLLMを使ったバグ探索プログラム」にすれば、質の高さは担保されるし、メンテナには質の高い報告が届くようになる。

バグバウンティを存続させるには、手数料を取るか、あっち側でもLLMを使うしかないのかも。

9
hinkley
約10時間前

最近のAIとのやり取りの8割は、AIコードレビューツールへの対応だよ。良くも悪くも、コードの移動やインデントまで全部チェックしてくるから、俺がやってるアーキテクチャの変更作業がめちゃくちゃ引っかかる。バグに見えるけど実は仕様(ミスフィーチャー)な部分をしつこく指摘されるけど、チケット化やドキュメント化が必要なものはそれで片付いた。俺が見逃してたバグも5〜6個見つけてくれた。テストを書いた人が楽観的すぎたせいもあるけど(これは皮肉ね)。

これまでとは違う形の生産性だけど、同じくらい価値があるよ。

10
tabbott
約8時間前

OSSプロジェクトのセキュリティを管理してる人は、Claude Codeでセキュリティ監査をやってみることをお勧めするよ。Firefoxみたいな巨大プロジェクトだと工夫がいるだろうけど。

でも大抵のプロジェクトなら、たった3ドル分くらいのトークンで済むはず。攻撃者はもう君のプロジェクトに対してエクスプロイト探しをやってると思ったほうがいい。自分で監査をやらないのは、もう無責任と言わざるを得ないよ。

Zulipの主要コードベースで監査した時に役立ったのは、各指摘事項をモデル自身に注意深く再レビューさせること。これで誤検知の大部分が消えた。残ったやつの多くは、開発者(やAIモデル)がコードを読んだ時に、そのパスの意図されたセキュリティモデルがすぐ分かるようにコメントを追加して対応した。実際、その後の2回目の監査では、それらの指摘はほとんど出なくなったよ。