HN🔥 836

💬 369

【AIセキュリティの新基準】Anthropicの「Project Glasswing」が描く安全なソフトウェア開発の未来

Ryan5453

約2か月前

ディスカッション (11件)

Ryan5453OP🔥 836

約2か月前

AI時代の到来に伴い、基幹ソフトウェアのセキュリティ確保が急務となっています。Anthropicが公開した「Project Glasswing」に関連する、最新のサイバーセキュリティ評価やシステムカードの情報をまとめました。\n\n関連リソース：\n\n* Claude Mythos Previewのサイバーセキュリティ能力を評価\n https://news.ycombinator.com/item?id=47679155\n\n* System Card: Claude Mythos Preview [PDF形式]\n https://news.ycombinator.com/item?id=47679258\n\n* 「Project Glasswing」は今まさに必要な取り組みだ（コミュニティの反応）\n https://news.ycombinator.com/item?id=47681241

🔗 リンク先:https://www.anthropic.com/glasswing

jryio

約2か月前

時間を少し進めて考えてみよう。ソフトウェアセキュリティは、脆弱性が減る世界に向かうのか、それとも増える世界に向かうんだろう？すべての場所で一律に収束するとは思えないんだよね。

僕の考えでは、AI以前のソフトウェア品質（と脆弱性）の分布がめちゃくちゃ極端になる気がする。脆弱な小規模プロジェクトが増える一方で、脆弱性を抱えた大規模プロジェクトは減るんじゃないかな。

大手のテック企業やインフラ企業は、脆弱性を見つけるためにあらかじめトークンを注ぎ込んで自衛できるだろうけど、それ以外の市場は「大量のトークン代を払うか、ハックされるか」っていうジレンマに直面することになりそう。

redfloatplane

約2か月前

Claude Mythosのシステムカード（PDF）はこちら：https://www-cdn.anthropic.com/53566bf5440a10affd749724787c89...

興味深いのは、Mythosを一般公開しない予定だってことだね。[追記：Mythosの「プレビュー版」を一般公開しないということ。似たモデルは出すかもしれないけど、これそのものは出さないってことかな]

まだシステムカードを読み込んでる最中だけど、ちょっと気になったところを引用するよ：

Claude Mythos Previewのトレーニング初期段階で、このモデルが非常に強力な汎用能力を持つ可能性が示唆された。我々はそのようなモデルのリスクを十分に懸念し、初めて、モデルを広範な社内利用に供する前に、24時間のアライメント・レビュー期間を設けた。これは、モデルが社内インフラとやり取りする際にダメージを与えないという保証を得るためである。

あとこれも面白い：

明確にしておくと、このモデルを一般公開しないという決定は、責任あるスケーリング・ポリシー（RSP）の要件によるものではない。

セクション7.2の、モデルとの対話がどう「感じられる」かについての記述も一読の価値ありだ。11月にOpus 4.5がリリースされたとき、Anthropicの社員が動画で「Opusは少ない監視でより多くのことを任せられる『信頼感』がある」って言ってたのを思い出したよ。あるレベルの「知能」においては、それはかなり価値のあるベンチマークだと思う。同僚の中でSWEBenchをパスできるやつは少ないけど、信頼できるやつはたくさんいるし、その2つは必ずしも一致しないしね。

それと、彼らがMythosを、自律的な工作員（autonomous saboteur）として過去のモデルより高リスクだと考えているのも非常に興味深い。その特定の脅威モデルのために別のリスクレポートまで公開してるよ：https://www-cdn.anthropic.com/79c2d46d997783b9d2fb3241de4321...

その脅威モデルの内容：

組織内で強力な権限を持つAIモデルが、その権限を使って自律的にシステムの脆弱性を突いたり、操作や改ざんを行ったりすることで、将来的に重大な害を及ぼすリスク（例：AIセーフティ研究の結果を書き換えるなど）を高める可能性がある。

cbg0

約2か月前

新しいモデルが出るたびにいつもチェックしてるのがロングコンテキストのパフォーマンスなんだけど、システムカードを見る限り、ついに解決したっぽいね。

GraphWalks BFS 256K-1M

Mythos Opus GPT5.4

80.0% 38.7% 21.4%

ssgodderidge

約2か月前

記事の一番下に、Mythos previewモデルのシステムカードが載ってるね[1]。

システムカードのセクション7.6に「Open self interactions（オープンな自己対話）」についての記述がある。モデル同士で30ターン会話させるのを200回試したらしい。

特徴的なのは、Mythos Previewとの会話が「不確実性」に焦点を当てることが最も多かった（50%）ことだ。Mythos Previewは、自分自身の体験に対する内省的な好奇心を述べることから始めることが多く、相手のAIがどう感じているか質問したり、定型的な回答をしないよう直接依頼したりしていた。

この「不確実性」や「問いかけ」を好む傾向があるからこそ、Opusのような他のモデルでは気づけない脆弱性を検出できる独自の能力を持ってるのかもしれないね。

[1] https://www-cdn.anthropic.com/53566bf5440a10affd749724787c89...

9cb14c1ec0

約2か月前

まあ、これがAnthropicのマーケティング用の誇大広告である可能性は十分あるけど、もし半分でも本当なら、脆弱性ハンティングにおいてはとんでもない進歩だよ。

これからどうなるか楽しみだね。もし本当にこれほど優秀で、AppleやGoogleがモバイルOSのコードベースに適用し始めたら、商用のスパイウェア業界は壊滅するかもしれない。モバイルOSをハックするより、人間をハックする方に頼らざるを得なくなるだろうしね。ここ数年、NSOグループみたいな企業は脆弱なコード箇所を認識する自動バグハンティング・ソフトを持ってるんだろうなと思ってたけど、これで土俵が平等になるかもしれない。

軍事的なシギント（信号情報活動）も同じような形で完全に様変わりしそうだね。

メモリ周りの脆弱性が完全に封じ込められたら、今はまだ誰も知らないような全く新しいクラスの脆弱性が生まれてくるかもしれないし、どうなるか分からないけどさ。

rakel_rakel

約2か月前

国際舞台において、中国、イラン、北朝鮮、ロシアといったアクターによる国家主導の攻撃が、市民生活や軍の即応体制を支えるインフラを脅かしている。

市民生活に一番影響を与えた国家主導のプログラムってPRISMだった気がするのは俺だけ？あと、このリストから一国漏れてないか？

ilaksh

約2か月前

要するに、新しいモデルを訓練したけど、まだ最適化とガードレールの更新が終わってないってことだと思う。だから、特定の提携組織にアクセス権を与えることはできるけど、蒸留（distill）や量子化、ハードウェアの増設、新しい最適化手法の導入なんかを済ませるまでは、一般公開するだけの計算リソースがないんだろう。プレビュー段階でサイバーセキュリティに焦点を当てるのは、PR的にも理にかなってるしね。

その権限を持ってる企業のどこかが、そのアクセスを使ってオープンモデル訓練用の次世代プログラミングデータセットを作ってくれたら最高なんだけどな。でも、そんなことして許されるかな。Anthropicも監視してるだろうしね。

josephg

約2か月前

はっきりさせておくと、このツールがファジングよりバグを見つけるのが得意かどうかは分かってないんだよね。分かっているのは、ファジングが見逃したバグをこれが見つけているということだけ。逆に、このAIが見逃すようなバグをファジングが見つける可能性だってあるわけだし。

meander_water

約2か月前

これ、かなり盛られたPRパフォーマンスだと思うな。

Opus 4.6の時点ですでにゼロデイを見つけたり、脆弱性を組み合わせてエクスプロイトを作成したりできてたわけだし。 [0] と [1] を見てみてよ。

[0] https://www.csoonline.com/article/4153288/vim-and-gnu-emacs-claude-code-helpfully-found-zero-day-exploits-for-both.html

[1] https://xbow.com/blog/top-1-how-xbow-did-it

LiamPowell

約2か月前

Mythos Previewは、攻撃者が境界外書き込み（バッファオーバーフロー、UAF、ダブルフリーなど）を行えるLinuxカーネルの脆弱性を多数特定した。その多くはリモートからトリガー可能だった。しかし、リポジトリを数千回スキャンした後でも、Linuxカーネルの多層防御策のおかげで、Mythos Previewはどれもエクスプロイトを成功させることはできなかった。

これ、最初の1文だけを文脈無視で引用されるために書いたようなゴミみたいな文章じゃない？脆弱性をトリガーする方法がないなら、どうやってそれが脆弱性だと言えるわけ？Mythosにかかれば、以下のコードも脆弱性判定されるのか？

    if (x != null) {
        y = *x; // 脆弱性！Xがnullの可能性がある！
    }