ディスカッション (11件)
ついに「Project Glasswing」に関する最初のアップデート情報が公開されました。詳細については今後の続報をお待ちください。
今日、deepseek-v4-flashのサブエージェントを使って、AF_ALGが無効でnscdが有効なシステムにおけるdirty fragのパッチを作成し、root権限を取得するという楽しい一日を過ごしたよ。公開されていた元のエクスプロイトは動かなかったけど、パッチを当てた方は見事に機能した。個人的には、それなりの知能を持つ100個のサブエージェントがいればmythosと同じ結果が出せると思っているんだ。いずれmythosを試したときにこの考えが打ち砕かれる覚悟はできているし、ここにいる他の人たちもきっと試しているはずだよね。
Codex Securityを使えば今すぐその一端を体験できるよ。試しに導入してみたんだけど、1週間もしないうちに僕らにとって欠かせないものになった。どれだけ正確か、既存のコードからどれほど多くのセキュリティ問題を見つけるか、コミットのたびに継続的に発見し続ける様子、そして誰もがミスを犯すことを免れないという事実に衝撃を受けたね。僕らの感覚だと90%くらいの精度かな。たとえ「低(Low)」評価の指摘であっても、深掘りしてみると実は脆弱性だったということもよくある。ジュニアからシニアまで、結局のところ誰でもミスはするし、それもバグの一種に過ぎないからね。これからは、AIとコーディングし、AIとレビューし、AIで脆弱性を探すのが開発ライフサイクルの当たり前になると思う。完璧じゃないにしても、間違いなくコストをかける価値はある。自分のリポジトリで今すぐ何か有効にすることを強くおすすめするよ。
mythosに対しては、ガードレールのないいつもの公開モデルだろうといった冷ややかな意見も多いけど、これを見てほしい。
高度または致命的と評価された脆弱性のうち1,752件が、6つの独立したセキュリティ調査会社によって、あるいは一部は自社によって慎重に評価された。そのうち90.6%(1,587件)が真陽性と判明し、62.4%(1,094件)が高・致命的な重大度であると確認された。
opusやcodex、あるいはオープンソースモデルを脆弱性スキャンに使ってきた人ならわかるはずだけど、真陽性率と発見数という点で圧倒的な飛躍[0]を見せている。Glasswingの約50社のパートナーのほとんどが以前から他のモデルでハーネスを走らせていたけれど、多くの人が「おいおい、すごいな」と言っている状況だ。
今の問題は、アクセス権の第2、第3段階がどうなるか、つまりどのクラスのシステムを保護すべきかという点だ。ルーター、ファイアウォール、SaaS、ERPシステム、工場制御機器、SCADAシステム、ゼロトラストVPNゲートウェイ、通信機器やネットワーク、医療機器……やるべきことは山ほどある。
だからこそ、mythosは当面の間クローズドなままになると思う。守るべき表面積が広大で、トリアージ、修正、デプロイすべきことが多すぎるからだ。
これはAnthropicにとっても好都合かもしれない。プライベートモデルは蒸留できないからね。それに、発見・トリアージ・修正データがモデルを改善させるという相乗効果も働く。これこそが、これまで収集された中で最も強力な攻撃データセットになるだろうし、今後さらに良くなっていくだろう。
中国企業にすぐに、あるいは今後アクセス権が与えられるとは思えない。CISAによる監査が義務付けられ、mythos対応のVPNゲートウェイやホームルーターを買うなら「アメリカ製」を買わなければならない、そんな世界がすぐそこまで来ている気がする[1]。
[0] 通常の監査ツールでは約30%程度
[1] あるいは同盟国の製品
今、僕が脆弱性を修正してほしいと願っている唯一のコードベースは、GitHubから盗み出された3800個のリポジトリだけだよ。
正直なところ、「インターネットを構成するソフトウェアの脆弱性」よりも、「インターネットを構成するソフトウェアがリリースに使っているプラットフォームの脆弱性」の方が優先順位は低い。もしそれら内部リポジトリの購入者がGitHubへの侵入方法を見つけてソフトウェアリリースを乗っ取ったり、遠隔でGitHub Actionsを汚染したりしたら、僕ら全員がひどい目にあうことになるからね。
その3800個のリポジトリには、おそらくnpmjs.orgそのものも含まれているということを忘れてはいけない。
もし君がまだコードベースに静的解析やリンターを適用していないなら(実際、適用していない人は多いと思うけど)、なぜ高価なLLMツールをわざわざ導入しようとするのか自分に問いかけてみてほしい。
もちろん、LLMツールが静的解析ツールでは見つけられない脆弱性を発見できる可能性はあるけれど、僕らには元々、一般的な脆弱性の広範囲を自動的に検知する能力があるはずなんだ。それを費用的な理由で意図的にやっていないだけだろう。
もしすでに何層もの解析やリンティングを適用していて、その上でさらにLLMを追加したいというチームなら、存分にやるべきだね。
僕らは民生用レベルの最先端モデルを使って、リーガルテック分野で「lexploits(リーガルエクスプロイト)」と呼んでいるものを開発している。統合されたパイプライン全体でバグを見つけるのが異常に上手いし、驚くことにその軽減策まで提示してくれるんだ!
セキュリティの脆弱性もそうだけど、法務の世界ではエージェントの法的コンテキストの正確性を保護するための「知識のセキュリティ」という概念を提唱している。ソフトウェアのバグはソフトウェアエンジニアによって管理されている分、僕らが見つけているパイプラインの「脆弱性」よりもはるかに扱いやすい。法的な文書が見た目通りではないというベクトルの事例について少し書いたので興味があれば見てみて:https://tritium.legal/blog/noroboto
現在、こうした知識ドメインの脆弱性は間違いなく数多く放置されている。これらは人員不足で、ほとんどが非技術系の人々によって管理されているため、より深刻だ。Mythosなんて持ち出す必要すらないよ。
僕は信じないね。このツールが見つけるものの大半は単なる間違いで、実際には脆弱性が悪用される可能性がコードの上下層で潰されているにもかかわらず、平気で真陽性として報告されることが多いからだ。
パフォーマンスとセキュリティのトレードオフはいつの時代も変わらない。実際、セキュリティ目的のためには追加のチェックや対策が必要なんだよ。
相変わらずマーケティングは上手いけど、多くの人が抱いているバラ色の幻想は、どう見ても見当違いな気がする。
今のところ僕の理解では、Mythos(というか一般のモデル全般)は推論の候補を出せるだけで、監査可能なセキュリティ情報として出力するには、その推論を扱うシステムが必要になるということだ。
だから、成功しているのはモデル単体の力というより、その周りに構築されたハーネスのおかげだろう。Cloudflareの投稿はそのあたりが詳細で、他社ももっと共有してくれればいいのにと思う。
Ciscoの仕様も興味深いね。ハーネスのアーキテクチャをほぼそのまま記述している感じだ:https://github.com/CiscoDevNet/foundry-security-spec
Anthropicのアップデートや、ここの熱狂的なコメントと、curlのメンテナであるDaniel Steinbergによる以下のフィードバックをどう整合させるべきか少し悩んでいるよ。
「このセットアップ(Mythos)が、これまでの他のツールよりも特に高度なレベルで問題を見つけているという証拠は見当たらない。もしかしたら少しはマシかもしれないが、仮にそうだったとしても、コード解析において決定的な違いを生むほどではない。」
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/
こうしたバグの修正におけるボトルネックは、人間によるトリアージ、報告、設計、パッチデプロイの能力だ。Mythos Previewのおかげで、最初の発見作業はずっと簡単になった。
ボトルネックが人間だというのは、いつの時代も同じだよ。自動ツールは脆弱性をフラグ付けするのが大好きだけど、そのほとんどは誤検知(偽陽性)だ。これらは人間がトリアージして評価しなきゃいけない。でもそれは悪いことじゃない。見落とすよりは、慎重にレビューした結果、誤検知だと閉じる方がずっといい。
人間をボトルネックとして槍玉に挙げるのは適切じゃないと思うよ。人間はプロセスにおいて不可欠な一部であり、Mythosは今後、そのプロセスを加速させる触媒になっていくはずだ。