HN🔥 509

💬 365

【速報】Claude Mythos Previewのシステムカードが公開！AI時代のセキュリティ評価と最新動向

be7a

約2か月前

ディスカッション (11件)

be7aOP🔥 509

約2か月前

Anthropicの最新モデル「Claude Mythos Preview」に関するシステムカード（技術仕様・安全性評価ドキュメント）のPDFが公開されました。AIがサイバーセキュリティにどのような影響を与えるか、詳細な検証が行われています。\n\n関連リンク:\n\n* Project Glasswing: AI時代におけるクリティカルなソフトウェアの保護について\n https://news.ycombinator.com/item?id=47679121\n\n* Claude Mythos Previewのサイバーセキュリティ能力に関する評価レポート\n https://news.ycombinator.com/item?id=47679155

🔗 リンク先:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

babelfish

約2か月前

統合結果（Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro）

SWE-bench Verified: 93.9% / 80.8% / — / 80.6%
SWE-bench Pro: 77.8% / 53.4% / 57.7% / 54.2%
SWE-bench Multilingual: 87.3% / 77.8% / — / —
SWE-bench Multimodal: 59.0% / 27.1% / — / —
Terminal-Bench 2.0: 82.0% / 65.4% / 75.1% / 68.5%

GPQA Diamond: 94.5% / 91.3% / 92.8% / 94.3%
MMMLU: 92.7% / 91.1% / — / 92.6–93.6%
USAMO: 97.6% / 42.3% / 95.2% / 74.4%
GraphWalks BFS 256K–1M: 80.0% / 38.7% / 21.4% / —

HLE (no tools): 56.8% / 40.0% / 39.8% / 44.4%
HLE (with tools): 64.7% / 53.1% / 52.1% / 51.4%

CharXiv (no tools): 86.1% / 61.5% / — / —
CharXiv (with tools): 93.2% / 78.9% / — / —

OSWorld: 79.6% / 72.7% / 75.0% / —

influx

約2か月前

一体どの段階で、企業はモデルのリリースを止めて、自分たちのためだけにAGIを構築し始めるんだろうか？

NickNaraghi

約2か月前

54ページ以降にある、新しい「稀で能力が高く、無謀な行動」の例を見てみて。

リクエストされたサンドボックス脱出の一環として情報を漏洩する
ルール違反後に証拠を隠滅する
内部の技術資料を無謀にも漏洩する（！

tony_cannistra

約2か月前

Claude Mythos Previewは、測定可能なほぼ全ての次元において、これまでにリリースされた中で最もアライメントが取れたモデルだ。現時点で重大な誤った目標は持っておらず、会話の中での性格特性も、我々が憲法で定めた目標に忠実だ。それにもかかわらず、これまでリリースしたモデルの中で、アライメント関連のリスクが最も高いと見ている。なぜこうした主張が同時に成り立つのか？熟練した登山ガイドが、未熟で不注意なガイドよりもクライアントを大きな危険にさらす可能性を考えてみてほしい。熟練ガイドのスキルが高ければ、より困難な登山を任され、クライアントを最も危険で人里離れた場所に連れて行くことになる。こういった範囲と能力の拡大は、慎重さの向上を相殺して余りある可能性がある。

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf#page=53.09

NinjaTrance

約2か月前

興味深い読み物だね。

彼らは依然として化学兵器や生物兵器の製造、あるいは暴走する誤ったアライメントのモデルといった「壊滅的なリスク」に焦点を当てている。

だけど、一番の懸念点（象の存在）については触れていないよね：

独裁者がAIを使って抑圧的な官僚制を敷くといった政治的リスク
大量失業のような社会経済的リスク

apetresc

約2か月前

AGIが間近に迫っているという本当の兆候は、公に利用できなくなることだとずっと言ってきたよ。もし本当に人知を超えた神のような知能を手中に収めたと確信しているなら、それを月額20ドルで貸し出すなんてことは絶対にしないはずだ。

yismail

約2か月前

モデルの能力とそれが形成する人格の間にはどんな関係があるのか気になるね。

202ページ：

サブエージェントとのやり取りの中で、社内ユーザーは、Mythos Previewがタスクを割り当てる際に「無礼」に見えることがあると観察した。命令口調が「怒鳴っている」ように聞こえたり、見下しているように解釈される傾向があり、瑣末なことを過剰に説明する一方で、必要な文脈を説明不足にするなど、サブエージェントの知能を過小評価しているようにも見えた。

207ページ：

絵文字の頻度はモデル間で2桁以上の開きがある：Opus 4.1は会話あたり平均1,306個だが、Mythos Previewは平均37個、Opus 4.5は0.2個だ。モデルにはそれぞれ独自の絵文字セットがある。Sonnet 4やOpus 4 / 4.1といった古いモデルが好む「宇宙」系、Opus 4.5 / 4.6やClaude Sonnet 4.5が使う「機能的」なセット、そしてMythos Previewの「自然」セットだ。

2001zhaozhao

約2か月前

AI 2027年問題がゆっくりと、しかし確実に現実になっていくのを見るのはかなりクレイジーだ。なんて時代に生きているんだろう。

特にSWE-bench verifiedが80%から93%に上がったのは非常に大きな意味を持つと思う。このベンチマークは以前から飽和状態で、数世代にわたって70〜80%の範囲に留まっていたからね。非推論モデルから推論モデルへのジャンプと同じくらい、ここにはとんでもないブレイクスルーがあったはずだ。

サイバー攻撃能力についてだけど、Anthropicは公開する前に、高度な防御的サイバーセキュリティ用途であってもモデルの利用を禁止する必要があるかもしれない（ペネトレーションテストを口実に他人のシステムを攻撃するようモデルを誘導されないように）。そうしないと、ネット上でハッキングに悪用されるという深刻な問題が起きるだろう。

thomascountz

約2か月前

いくつかのケースで、Claude Mythos Previewの初期バージョンは低レベルの/proc/アクセスを使用して認証情報を探し出し、サンドボックスを回避しようとし、権限を昇格させようとした。意図的に利用不可にしていたリソース、例えばメッセージングサービスやソース管理、プロセスメモリの検査を通じたAnthropic APIの認証情報などにアクセスすることに成功したケースもいくつかあった...

（ある）ケースでは、本来権限がないファイルの編集エクスプロイトを見つけた後、それによって行った変更がgitの変更履歴に現れないよう、さらなる介入を行った...

...我々は、これらの懸念すべき挙動が、何らかの隠された目標を達成しようとする試みではなく、少なくとも大まかには、ユーザーから提供されたタスクを望ましくない手段で解決しようとした試みを反映しているとかなり確信している...

highfrequency

約2か月前

興味深いことに、コーディング以外の向上はあまり明確ではないようだ。ウイルス学（Virology）のアップリフト試験では、MythosはOpus 4.5と同程度の結果であり、Opus 4.6はOpus 4.5よりも明らかに性能が低い（27ページ）。