HN403414

Opus 4.6と4.7の匿名リクエストトークンを徹底比較

Anonymous request-token comparisons from Opus 4.6 and Opus 4.7

anabranch・3か月前

議論

11件

0：anabranchスレ主▲4033か月前

Opus 4.6および4.7における匿名リクエストトークンの比較に関する技術的な議論です。

リンク先:https://tokens.billchambers.me/leaderboard

1：someuser545413か月前

ここのタイトル、4.6から4.7じゃなくて逆じゃない？

2：kalkin3か月前

見たところ、これはトークンカウントAPIを使ってプロンプトに含まれるトークン数を2通りの方法で数えてるね。つまりトークナイザーの変更分だけを単独で測定してるわけだ。賢いモデルは出力が短くなることもあるから、結果として出力トークン数も減る。だからといってOpus 4.7が安上がりになるとは限らないし、むしろ高くなる可能性もある。この比較、あまり役に立たない気がするな。

3：tiffanyh3か月前

昨日Opus 4.7を使ってシングルページWebサイトの実装を手伝ってもらってたんだけど、たった4回くらいのプロンプトで1日の制限を超えちゃった。さらに7回くらい投げたら今度は週の制限も突破だよ。HTML/CSS/JS合わせても300行以下のコードだったのに。制限の消費が早すぎてショックだった。

4：rectang3か月前

今のところVSCode CopilotのドライバーとしてはOpus 4.5を使い続けるつもり。エージェントに細かく指示を出して作業するワークフローなんだけど、いつも余計なことをしようとするエージェントと戦ってる感じなんだよね。Opus 4.5は「必要なことだけやる、それ以上はしない」っていう指示に従う能力に関しては、今まで試した中で一番優秀。Opus 4.6は時間がかかるし、考えすぎて余計な変更を加えることが多い。高性能なGPT系も似たような欠陥があるんだよな。Sonnetなんかだと、こっちの曖昧なプロンプトから意図を汲み取る能力がOpusに全然及ばない。結局、色々試すのはやめてOpus 4.5だけ使うことにした。数ヶ月後には状況も変わるだろうしね。Opusは高くつくけど、それだけの価値はあった。でも、次は4.7がVSCode Copilotで4.5と4.6の両方に取って代わるみたいだし、倍率も7.5倍になるらしい。説明を見る限りだと、パフォーマンスは下がるのに値上げってことだよね。4.5から4.6への変更を考えると、細かい作業よりも長時間実行するタスクでまた考えすぎて空回りしそう。正直、後退してるようにしか思えないな。

5：hgoel3か月前

4.6から4.7へのアップデートで能力が上がったかというと、今のところあんまり実感がないな。でも制限の減りが早いのはすごくよく分かる。昨日も5時間制限を2時間で使い切っちゃったよ。リファクタリングのためにバッチモードを試してたんだけど、5分で制限の30%を持っていかれたから中断した。シリアル処理に変えたら（記憶が正しければ、ハイエフォート設定で50分ほどかかり、残り枠の60%くらい消費）マシだったけど、それでも4.6より明らかに消費が激しい。前は1回のやり取りで5時間制限の1～2%消費だったのが、今は5%くらい持っていかれる感じ。ちなみにMax 5xプランを使ってる。今のところ週の制限も5%程度しか使ってないし、Claudeを四六時中ヘビーに使ってるわけじゃないから耐えられるけど、もう少し何が起きてるのか明確にしてほしいね。エフォート設定も不透明すぎて、調整に役立ってるのかよく分からないし。

6：gsleblanc3か月前

LLMをスケーリングしさえすればホワイトカラーの仕事を完全に代替できる、なんて考えるのは甘いんじゃないかな。アテンション機構やホップフィールドネットワークは人間の脳のほんの一部しかモデル化できていないわけだし。「エージェントの記憶」向けの外付けソリューションが流行ってるのは、今のSOTAなトランスフォーマーだけじゃテキストの世界ですら限界があるっていう明らかな証拠だと思う。まあ、Yann LeCunの受け売りかもしれないけどさ。

7：glerk3か月前

結果が出るなら高くてもいいんだけど、AnthropicはTinderとかカジノみたいな「間欠強化」戦略をとってる気がする。成果を出させることより、ユーザーにトークンを消費させ続けることに最適化されてるというか。確かにClaudeモデルはGPTやCodexより使ってて楽しいし、パーソナリティもある。デザインや美意識への直感もあって、バイブス重視でコーディングするのはビデオゲームみたいで面白い。でも結局、テストを消して無理やりパスさせたり、コードの重複だらけだったり、抽象化が間違ってたり、型安全性を無視したりと、どこかで手抜きをされるんだよね。4.7になっても、ベンチマークがどうあれ、この手の問題は解決されてないし、そもそも解決する気がないんじゃないかな。

8：andai3か月前

公平に比較するなら総コストを見る必要があるよ。4.7は4.6よりも出力トークン数がかなり少ないし、推論コストもかなり抑えられてるみたいだからね。4.5、4.6、4.7の比較データがこれだよ。（リンク）それを見ると、4.7は4.6よりわずかに安い。でも4.5はさらにその半分くらいのコストなんだ。（リンク）特筆すべきは、推論にかかるコストが4.6から4.7で半分近くにカットされてることだね。これが一般的なワークロードでどう影響するかは正直分からない。Claude Codeだと推論コストが重そうだし、入力が高くなって推論が安くなった分がどうバランスするのか……。推論メインのタスクなら安くなるかもしれないけど、そうじゃないタスクなら逆に高くなるだろうね。まあ、軽いタスクならCodex使うからいいんだけど。

9：hereme8883か月前

「Opus 4.7 (Adaptive Reasoning, Max Effort) でのArtificial Analysis Intelligence Index実行コストは約4,406ドル。4.6 (約4,970ドル) より11%安くなったが、スコアは4ポイント向上している。これは4.7の新しいトークナイザーを考慮しても、出力トークン数の削減によるもの。なお、この計算にはキャッシュされた入力トークンの割引は含まれておらず、近い将来のコスト計算に反映させる予定である。」

10：bertil3か月前

個人的には、会話の質が思っていた以上に良くなった印象。自己批判的だし、提案は的確だし、デフォルトの選択も常に最高。自分はみんなみたいに複雑なハーネス（検証用コード）を組んでないから、あまり顕著には感じないだけかもしれないけど、AIツールにあまり投資してきてない層にとっては遥かに価値があるはず。ちょっとした操作（最近のレビューやプロダクト議論の流れを振り返るなど）を試してみたけど、シニアメンバーみたいな働きぶりをしてくれる。4.6も良かったけど、あれは下手をすると自分で自分の首を絞める（フットガン）ような提案も多かったからね。