r/claudeAI🔥 83
💬 41

Claude Sonnet vs GLM 4.6:トークン効率徹底比較!驚きの結果が明らかに

Psychological_Box406
12日前

ディスカッション (40件)

0
Psychological_Box406OP👍 83
12日前

まず最初に言っておきたいのは、Claude Sonnetは依然として僕が計画を立てたり、厄介なバグを探し出したりする際の頼れる相棒だってこと。でも、両方のモデルが同じようにタスクをこなせるシナリオで、ある面白いことに気が付いたんだ。

両方のモデルに以下のプロンプトを投げ込んでみた。

プロンプト:
「状況:Node/TypeScriptで構築されたサービスがあり、すでにCPU負荷の高いモジュールが1つ存在します。それは@/backend/src/services/mappingにある「mapping」サービスです。次のスプリントでは、2つ目のCPU負荷の高いコンポーネント、つまり受信レコードを数百のユーザー定義ルールと照合するルールマッチングエンジンを追加します。
目標:HTTP APIはNodeに残しつつ、2つの重いワークロードをより高速なものに移行するための具体的な移行計画を立ててください。」

結果:
両方のモデルはコードベースを徹底的に分析してくれた。Claudeの方が若干応答に時間がかかったけど、最終的には本質的に同じ推奨事項と結論を導き出した。

GLM 4.6は、Sonnetと比較して、同じ答えにたどり着くまでに使用したトークン数が10分の1だったんだ。GLMはすでにトークンあたりのコストが5分の1であることを考慮すると、この差はマジで無視できないレベルになる。

GLMがClaudeの完全な代替になるなんて言うつもりは毛頭ない。でも、出力が同程度になる特定のユースケースにおいては、そのコスト効率は無視できない。

Anthropicさん、これ見てる? 次のHaikuが、性能も効率も同じくらい優れていることを期待してるよ!

1
AbjectTutor2093
👍2712日前

実用的な話、GLMを既存のコードベースで2時間ぶっ通しで使うと8割方失敗するんだよね。その点、Claudeは1〜3回で要件を満たしてくれるし、10%くらいの確率で5回くらいかかるけど、1%は終わらずにループにハマる。フロントエンドがReactのフルスタックアプリで作業してるとこうなるんだよ。

2
RemarkableGuidance44
👍112日前

背景としては...

GeminiとCodexを使い始めたんだけど、質問の難しさを理解して、3つを組み合わせるバランサーを構築したんだ。

3
AbjectTutor2093
👍212日前

GLM 5に期待してる。Sonnet 4.0レベルに達すれば、8割のケースで喜んで使うし、残りはSonnetを使うよ。マジで、制限がキツすぎるんだ😭

4
RemarkableGuidance44
👍412日前

やつらは欲深くなって金が必要なんだよ。オープンソースが追いついてきてるから、大手AI企業はビビってるんだな。だからビデオAIみたいな重要じゃないことに力を入れてるんだ。なんとかしてユーザーベースを増やさないとね。

個人的にもAIに結構お金使ってるし、うちの会社はAIに何百万ドルも使ってるけど、Co-PilotといくつかのAPIしか使ってないよ。今ならH100をいくつか積んだローカルサーバーを構築すれば、お金も節約できるし、ファインチューニングされたデータで同じくらい良い結果が得られると思う。

みんな、すごい結果を出すには巨大なLLMが必要だって思ってるけど、実際はデータ構造、プロンプトエンジニアリング(ほら言ったぞ...どうでもいいけど)、そして質問の難易度を理解することなんだよね。

5
AbjectTutor2093
👍112日前

俺もそう願うよ。H100で、クローズドモデルに匹敵するオープンウェイトモデルを動かせたら最高だよね🥲

6
inevitabledeath3
👍112日前

GLM 4.6はベンチマークで既にSonnet 4に勝ってるんだよね。テクニカルレポートにも書いてある。まだ、GLM 4.6にできないことはあんまり試してないけど。問題があるとすれば、途中で諦めるか、頼んでないことをやることくらい。というか、頼んでないことをやるのが好きみたい。

7
AbjectTutor2093
👍112日前

今のところ、既存のコードベースをめちゃくちゃにするのがやっと、って感じ。

8
inevitabledeath3
👍112日前

言語とか、コードベースのサイズとかが関係してたりするのかな?

9
AbjectTutor2093
👍112日前

サイズはありえるかもね。200Kのコンテキストウィンドウがあるってことは、すぐにいっぱいになっちゃう可能性がある。

10
inevitabledeath3
👍112日前

それは確かに納得できる。

11
shaman-warrior
👍612日前

GLM 4.6のこと言ってる?モデルとしてちゃんと指定した?

12
AbjectTutor2093
👍612日前

そう、4.6。もう一度試してるけど、Claudeが2回くらいでできたことを、どうしても実装できないんだ。

13
shaman-warrior
👍212日前

どうやって使った?Claudeのコードで試して、AnthropicのモデルをGLM 4.6に強制してみたんだけど、GLM 4.6に感銘を受けたよ。どんなタスクで使ったか教えてくれる?

14
AbjectTutor2093
👍112日前

フルスタックのアプリ作ってて、ClaudeデスクトップのArtifactsみたいな感じにしたくて、htm2canvasライブラリ使ってIframeのスクショ撮らせようとしてるんだけど、なかなかうまくいかないんだよね。真っ白になったり、スタイルなしのHTMLだけになったり。Claudeはすぐできたのに。あと、GLMはシンタックスミス多くて、閉じカッコとかよく間違えるから、修正ばっかしてるわ。マジで、閉じカッコだけで3回連続で修正したし。

15
shaman-warrior
👍212日前

Iframeのスクショって何?俺のテストはバックエンド中心でロジックとかばっかだったから、UIはあんま詳しくないんだよね。Claude 4.5がその辺強いのは知ってるし、実際使ってるけど。

16
AbjectTutor2093
👍212日前

うん、ビジュアルじゃないものとか、ユニットテストできるものならGLMの方が全然うまくいくと思う。でもフロントエンドはダメだね。Iframeのスクショっていうのは、Claude Desktop想像してみて。Artifacts開くと、アプリが分割されて表示されるでしょ。左がチャットブロックで、右がフロントエンドのアプリ。ボタン押したら、そのアプリが表示されてるブロックのスクショを撮りたいの。

17
shaman-warrior
👍112日前

ああ、やっと理解したわ。「Iframeのスクショを撮る方法を考えて。まずはオンラインでアイデアを探して」みたいなプロンプト試してみて。オンラインで検索するって言わせると、人間がやるみたいに動くから、すごく良くなるんだよね。

GLM 4.6がそのタスクでトレーニングされてないなら、ほぼ無理だと思う。まあ、どのモデルにも得意分野があるよね。フロントエンド関連なら、俺はまだ4.5 Sonnetが一番。

18
AbjectTutor2093
👍112日前

GLMがもっと良ければなぁ。Claudeに200ドルも払いたくない。

20
gigachadxl
👍212日前

俺の経験とは違うな…。25k行のゴッドコンプレックスなプロジェクトをリファクタリングしたんだけど、最初はGPT-5、次はSonnet 4.5、最後はGLM 4.6を使ったんだ。GPT-5はモデルの抽出で迷子になり、Sonnetはシングルトンを持つサービスをほとんど依存性注入に抽出するところで迷子になり、GLMはレガシーなテストファイルで失敗した。でも、モンキーパッチを実装する代わりに、古いレガシーテストを削除して、安定したらTDDを導入する計画を提案してきたよ。

21
AbjectTutor2093
👍212日前

リファクタリングはまた別の話だよね。それには同意する。Claudeでリファクタリングするたびに、いくつか壊れるものがあったし。

22
gigachadxl
👍212日前

一番良いと思ったのは、GLMがコンパクト化後に計画に従って継続すること。これはSonnet 4.1で95%コーディングしたプロジェクトで試したんだけどね。GLM 4.6で4時間以上ぶっ続けで動いた。でも、ClaudeやGPT-5を使う場合は、常に付きっきりで「すべてのステップが完了するまで次のステップの要約は不要」って繰り返さないといけないんだ。

23
AbjectTutor2093
👍112日前

Claude CLI経由でGLMを実行してるの?

25
Demien19
👍112日前

AIが関わるものが増えれば増えるほど、処理しなきゃいけないトークンも増える。人間と同じだね。

26
gopietz
👍112日前

新しいWebアプリを急いで作る必要があったから、CodexとClaudeでベンチマークテストをしてみたんだ。普段よりAIに自由にやらせてみたよ。

Sonnet 4.5の結果の方がちょっと気に入った。アプリの見栄えもいいし、コード構造も自分の好みに合ってた。Codexよりも速かったしね。とは言え、Codexの方がずっとトークン効率が良かったよ。

27
RemarkableGuidance44
👍112日前

マジで、Codexはそんなに重くないんだよね。Gemini CLIも同じ。

28
sjsosowne
👍212日前

4.1と4.5とGPT 5 Codexで、似たような事例ベースのベンチマークをたくさんやってみたんだけど、ほとんどの場合、4.5が4.1に勝ってて、Codexは「フィーリング」の面で4.5に約70%勝ってた。コード構造に関しては、Codexが毎回勝ってたね。既存のコードベースの構造、スタイル、プラクティスを遥かに良く理解してた。Azure経由で自社ホストしてるGPTは、4.5より約20%速かった。

全体的に、以下のようなワークフローに落ち着いたよ。ざっくり言うと、Codexで計画&実装、4.5で初期レビュー、Codexで実装レビュー、Codexでレビュー、4.1、Coderabbit、最後に人間のレビュー。人間のレビューにたどり着く頃には、コメントすることはほとんどないし、あったとしても些細なことばかり。

29
ApprehensiveChip8361
👍312日前

めっちゃ興味深いな。Swiftの作業してて、タイミング/レンダリングの不具合にハマって、Sonnet 4.5とOpus 4.1で堂々巡りしてたんだけど、(無料の!)GPT5 in Codexにプロンプト入れたら、問題の分析と、うまくいくデバッグ計画が出てきた。Claudeのコードには慣れてるけど、全部Codexに切り替えるべきか 고민中。

30
sjsosowne
👍112日前

数日間試してみるといいよ!CLIはCCの全部の機能を持ってるわけじゃないけど、すぐ追いつくと思う。それまでは、codex自体(モデル)が、デイリーで使うには一番良い選択肢だって感じてる。

31
TheOriginalAcidtech
👍112日前

つまり、自分の仕事を自分で作り出しちゃったってこと? :)

32
sjsosowne
👍112日前

いや、全然! アウトプットは増えたけど、それは単にバックログ(と新機能)をより早く処理できるようになったってこと。コードレビューが楽になるのは大歓迎だよ。仕事の中で一番嫌いな部分だから。

33
sine120
👍112日前

誰かのワークロードのビデオ見たんだけど、Claudeか他の高コンテキストLLMを使って計画タスクを処理させてて、コードは書かないんだけど、問題を管理しやすい塊に分割して、GLMにサブエージェントとして実装させてたよ。

34
UteForLife
👍112日前

リンクある?興味ある。

36
Quack66
12日前

GLM 4.6試したい人向けに、GLMのコーディングプランの紹介リンク共有するね。今50%オフセールやってて、さらに10%オフになるよ。https://z.ai/subscribe?ic=UMNV9TLU6F

37
FCFAN44
12日前

Claudeは燃費が悪すぎる、古いディーゼルエンジンみたいなもんだ。

38
FootbaII
👍312日前

ClaudeとかCodexとかGLMがコードを書くたびに、全部のエージェントにレビューさせて、自分でもレビューしてるんだ。ほとんどの場合、ClaudeとCodexのコードは(例外もあるけど)概ね高品質。で、ほとんどの場合、GLMが書いたコードは根本的にダメだったり、壊れてたりするのを見つける。ClaudeとCodexからのコードレビューも、GLMより質が高い。

GLMにはもっと頑張ってほしいんだけどなぁ。めっちゃ手頃なのに。みんなベタ褒めしてたし。

今は、ClaudeとCodexよりマシってだけで褒められてるんだと思う。あと、めっちゃ安いから。それに、GLMを褒めてる人の多くは「GLMの紹介コードはこれ」って付けてるし。

39
brunopjacob1
11日前

なんでみんなまだClaudeにお金払ってるの? 2ヶ月前にClaude codeのナーフ/制限/バグの後、Codexに乗り換えたんだけど、OpenAIがgpt5-codex-highをリリースしてからは最高だよ。Opus、Sonnet、その他よりも優れてる。俺のアプリケーション領域は計算物理学だから、特定のトピックでも優れてるんだ。