ディスカッション (11件)
最近ネット上で話題になっている「Claude Opus 4.8」についてですが、現時点では公式からの発表や確実なソースは確認されていません。もしこれがリリースされれば、現行のモデルを凌駕する推論能力や長文読解力が期待されますが、現段階ではコミュニティ内の期待や憶測が先行している状態です。今後のアップデート情報に注目が集まります。
こういうリリースがあるたびに、他の企業が自分たちのモデルをすごいと見せかけるために都合よく選ぶような指標を、わざわざ持ち出してくるやつはいないか?世の中には800万個くらいのベンチマークがあるんだ。どのモデルもリリースするたびに、勝てるやつをランダムに5~10個選んでは「全部勝ってます!」みたいな顔をする。どうせベンチマークハック(benchmaxxed)のために狙い撃ちしたやつなんだろうけど、そうじゃないように見せかけるのがうまいよね。
それだけじゃない。我々はOpusよりもさらに高い知能を持つ新しいクラスのモデルをリリースする予定だ。Project Glasswingの一環として、現在少数の組織がサイバーセキュリティ業務でClaude Mythos Previewを利用している。このレベルの能力を持つモデルは、一般公開する前に強力なサイバーセキュリティ対策が必要だ。我々はこれらの対策開発を急速に進めており、今後数週間以内にMythosクラスのモデルをすべての顧客に提供できる見込みだ。
4.8のリリースよりもこっちの方が面白そうだな。
「ユーザーはOpus 4.8が前モデルから控えめながらも確実な改善を感じられるものだとわかるだろう」
このスタンスは清々しいね!
あと、Web UIでアダプティブシンキングをオフにできるようになったのも確認した。これ最高だ。今までシンキングがうまく作動しなくて、モデルの出力が微妙になる問題に悩まされてたから、ようやくオフにできるようになって助かる。(もし前からオフにできてたんだとしたら、自分の確認不足で恥ずかしいけど、これって新機能だよね?)
システムカード[1]の102ページで、「クリエイティブな熟達度(creative mastery)」に対する評価が行われているのを見て嬉しくなった。
我々のプロジェクトで、複数のフロンティアAIに必要としていたAPIの考案を依頼してみたんだ。Opus 4.7とGPT-5.5などを比較した結果、Opus 4.7が最もクリエイティブで賢いAPI設計を提案してくれて驚かされた。コーディングのベンチマークではGPT-5.5が上だったことを考えると、なおさらだよ。
気づいたのは、「創造性」や「独創性」を測定するための共通のベンチマークが存在しないということ。ある意味、そういった指標は一般的なIFBenchと衝突する部分もあるかもしれない。でも、システム設計においてこれは非常に重要なスキルだよね。Anthropicがこの点に注力しているのは嬉しいし、他のモデルとも比較できるような公開ベンチマークが出てくるのを期待している。
[1] https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
思考レベル低と高の両方で「自転車に乗るペリカン」を生成してみたよ:
レベル高のほうが明らかに出来がいい。低のときと違って、自転車のフレームがちゃんとした形になってる。
比較用にOpus 4.7の結果も載せておくよ: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
とりとめないコメントになるけどさ。
Anthropicのフロンティアモデルで、3番目のマイナーバージョンアップというのは今回が初めてじゃないかな。(0.5刻みはメジャー扱いしてる。順不同でリリースされてるし、Sonnet 3.5やOpus 4.5みたいに能力が飛躍的に向上してるからね)
で、Opus 4.5ファミリーには今、4.6、4.7、4.8と後継が出てるけど、どれも控えめな改善しか謳われていない。自分自身、4.6や4.7を使ってみても、4.5から具体的にここが凄くなったという実感はあまりないんだ。すべてが曖昧すぎて見極めるのが本当に難しい。
もしかして自分の好みが飽和してて(モデルの方が賢いから?)、これ以上の進歩を感じられなくなっているだけなのかもしれない。あるいは、今のワークフローを4.7から4.5に戻したらすぐに気づくくらいの差はあるのかもしれないけどね。
ラボ側も難しい立場だろうな。もし強力なプロダクトがあるなら、さっさとリリースして使わせてほしいというのがユーザーの本音だし。でも、このままのサイクルが続くと、エンドユーザーには進化がどんどん分かりにくくなっていく。「対価に見合わない変更ばっかり」って不満が出るだろうし、それが実際に進歩していたとしてもね。
残念なことに、今回のリリースか新しいCCバージョンのせいでClaude Codeが完全に壊れてしまったみたいだ。「thinking blocksを変更できない」というエラーが出て、長時間のセッションが使い物にならなくなってる: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
フロンティアモデルのコーディングベンチマークとして、1ファイル(JS/HTML/CSS)で簡単なRTSゲームを作るっていうのを愛用してる。Opus 4.8をultracodeモードで使ったClaude Codeは完璧だったよ。今までで最高の出来だ:
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
プロンプトはこれ:『昔のWarCraft、StarCraft、Command & Conquerみたいな、シンプルだけど機能的なRTSゲームを作って。建物建設、ユニット生成、資源収集ができて、マップ全体を探索できるようにすること。AIやマルチプレイヤーは不要。シンプルだけど見た目のいいグラフィックで。音はなし。すべてをHTML/CSS/JSで完結させ、1ファイルに収めて(CDN経由でサードパーティのライブラリやフレームワークを使ってもOK)』
フロンティアモデルはもう、人間が以前のモデルや競合他社より優れているかどうかを見分ける限界を超えつつある。ベンチマーク自体も飽和しているか、少なくとも役に立たなくなっている気がする。
個人的に、Anthropicはこの状況がラボにとって何を意味するのかを理解していない気がするし、それを理解していない唯一のフロンティアラボなんじゃないかとすら思う。
-
GoogleはI/OでGemini 3.5 Flashを出し、3.5 Proのリリースを少し遅らせた。さらにAntigravityを刷新して、Doomを動かすためのOSを1000ドル以下という安さで構築できたことを強調していた。
-
OpenAIはCodexにすべてを注ぎ込み、今後数週間はトークン上限を倍にし、ビジネス向けの割引もしている。Codexの責任者は5.5が「非常に効率的」だとツイートしていて、コスト面でも負けていないことを示唆している。
-
DeepSeekなどの中国のラボは、トークン単価を底値まで下げていて、場合によっては99%オフみたいな状況だ。
-
そんな中、Anthropicは最も高価な公開モデルであるOpusの次世代版を、価格を変えずにリリースした。裏ではさらに高価なMythosを宣伝している。
Anthropicは投資すべき場所を間違えていて、綻びが出始めている。Sonnetシリーズへの投資はここ1年ほぼ微増で、プロダクトへの投資が致命的に足りていない。Anthropicは「2026年後半はウルトラフロンティア、超知能の時代」という物語に賭けたんだろう。でも現実は、「企業はAI支出を削減し、効率化に走る。『15%のコストで95%の性能』、高度で高品質な活用術、安価なモデル」が主流になりつつある。Anthropicはその世界に対応できていないんだ。
ArtificialAnalysis.aiの初期結果を見ると、GPT 5.5のほうが依然としてコスパが良いみたいだな。
OpenAIは出力トークンが約50%少なくてもタスクを解決できている。