ディスカッション (11件)
最近話題のClaude 3.5 Sonnet(いわゆる4.7相当)について、実際のトークンコストがどうなっているのか、その挙動を詳細に測定してみました。
実際のコードで確認してみたけど、確かにトークンが30%増えてるね。彼らが公表している数字とも合致する。個人的には、技術ドキュメントとか適当なプロンプトをLLMに投げ込むような使い方はあまりしないかな。
Opus 4.6やSonnet 4.6もまだ現役で使える選択肢だし、自分にとっての問いは「4.7は主張通りの価格なのか?」じゃなくて「4.7は4.6にはなかったどんな機能を提供してくれるのか?」ってところだ。
昨日までは4.6で十分素晴らしい体験ができていたわけだし、4.7がどれだけ意味のある進化を遂げているのか判断するにはまだ早い。もし価値があるなら、コストアップが正当化できるか評価するつもり。
LLMは性能とコストの対数グラフ上にあるようなものだよね。Opus 4.5以降がこの曲線上でレベルシフトを起こしているのか、それとも単に推論コストに対する性能向上の効率が急激に悪化するポイントに位置しているだけなのか、今のところはっきりしない。
正直、この仮説(コスト効率が悪化しているという見方)を否定するのは難しい気がする。Anthropicが急いで価格を上げようとしているのは、最近の優位性が劇的に高い運用コストの上に成り立っているという事実をごまかしたいからじゃないかという疑念すらわく。前四半期の粗利益が重要な判断材料になるだろうね。
モデル評価のグラフでX軸にコスト/トークンの対数を取っているようなサイト(Artificial Analysisなど)のせいで、この力学が見えにくくなっているんじゃないかと思う。
個人的には、モデルの性能向上にもいずれ収穫逓減のポイントが来ると思ってる。
8Kディスプレイと16Kディスプレイを比べるようなものかな。普通の視聴距離なら違いなんて分からないのに、16Kには膨大なプレミアムが乗るっていう。
知能についても同じことが言える。確かに違いを実感できるユーザーもいるだろうけど、99%の人が日々の業務で違いを感じられないなら、それって重要?
20〜30%のコスト増に見合うだけの、目に見える価値の飛躍が必要だよ。
タイトルの煽りはミスリードだね。トークン数が増えていたとしても、ある特定の知能レベルに達するためのタスクあたりのコストは変わっていない可能性がある。Artificial Analysisのインテリジェンス指数が更新されるか、タスクごとの独立したコスト分析が出るまで待つ必要があるよ。
そもそも最終的な計算は「Opus 4.7が4.6と全く同じ思考プロセスで出力する」という前提に基づいているはず。確認はしていないけど、Opus 4.7のLow thinking設定が4.6のMediumより確実に優れていることを考えると、それは間違いだろう。
最近よく自分に問いかけているのは(GPT-5.3がリリースされてから特にだけど)「本当にこれ以上強力なモデルが必要か?」ということだ。
今の業界の大きな問題は、何でもかんでも最高性能を追い求めて、そのために他のすべてを犠牲にしていることだと思う。今後数年で、AI企業がただコスト度外視で最強モデルを作るのではなく、サステナビリティや効率性に目を向けてくれることを期待したい。
GPT-3時代は未来がどうなるかという「味見」みたいなものだったけど、今から見ればおもちゃ同然だ。GPT-4/Claude 3時代には道具として使え始め、人間がしっかり監督する必要があった。そして今のGPT-5/Claude 4時代。もうこれ以上を追い求める必要はなくて、効率化や持続可能性に注力すべき段階じゃないかな。
ハイエンドではなくローエンドに注目してほしい。0.5B〜1Bパラメータのモデルを特定のタスクに対してどれだけ最適化できるか、といった方向に。今、特定のタスクに絞った0.5Bモデルのファインチューニングを実験しているけど、長期的に見ればこれこそがAIの未来だと思う。
GitHub Copilotの「マルチプライヤー」が3から7.5になったのか。実際は20〜30%増で済んでいて、Microsoftが赤字を少しでも遅らせようと足掻いているのが見て取れて面白いね。
https://docs.github.com/fr/copilot/reference/ai-models/supported-models#model-multipliers
どうやら彼らは「Max」設定でテストしているみたいだね。Anthropicは4.7でのMax設定のトークン消費の激しさを認めていて、ほとんどのケースで新しい「xhigh」モードを推奨している。だから、本当に問うべきは「4.7のxhighが4.6のMaxより優れているか」ということだよね。
max: 最高の努力は一部のユースケースで性能向上をもたらすが、トークン使用量の増加に対して収穫逓減を示す可能性がある。時々考えすぎてしまう傾向もある。知能が要求されるタスクで試すことを推奨する。
xhigh (新): ほとんどのコーディングやエージェント的なタスクには、この「Extra high」設定がベスト。
コルカタのお菓子屋さんが、コロナ後に原材料費が高騰して経営に苦しんでいた時の話を思い出した。顧客を失うのが怖くて価格は上げられなかったから、お菓子自体のサイズを小さくして、市場も時間をかけてそれに慣れていったんだ。これが今の新しい常識になってる。
人間の心理って分野が違っても驚くほど同じパターンを辿るものだよね。
昨日Opusを使ってみたけど、本当に素晴らしかった。でも今日はもう、会話が噛み合わないレベルだよ。
単純なことを指示しているのに、とんでもなく馬鹿なミスを連発してくる。
「もう20時間以上も残っている問題を修正してくれと頼むのはこれで3回目だ。一体どうなっているんだ?」
その一方で、コンパクション(圧縮)が異常に頻発している。(1〜15分おきに約4分間の遅延が発生する)
結局のところ、これら諸々の問題が直るまではSonnetに戻ることにするよ。
みんなAIモデルのコストばかり気にしているのが面白い。趣味のプロジェクト(人件費が発生しない場合)を除けば、AIコーディングエージェントをより良い戦略に誘導したり、成果物をレビューしたりするために費やす人間の時間の方が、トークンコストよりも遥かに高額だよ。月200ドルは趣味としては高いかもしれないけど、ビジネス経費としては微々たるものだ。SalesForceのライセンス料の方がずっと高いでしょ。
重要なのは「そのモデルがどれだけ仕事をこなしてくれるか」という点だけど、これは測定が本当に難しい。でも、トークンコストはまだ、米国のエンジニアが価格について文句を言うべき段階より一桁安いところにいると思う。現状の価格帯なら、コストパフォーマンスを考える上で支配的なのは「エンジニアとしての限られた時間をどう最大限に活用するか」という点に尽きるはずだ。