ディスカッション (11件)
最近、Claudeの利用を解約しました。理由は主に3つです。トークン制限による不自由さ、以前と比較して明らかに低下した回答品質、そして全く頼りにならないサポート体制です。もはや月額料金を払う価値を見出せなくなりました。
Claude Sonnetで大したことない作業を頼んだら、あっという間にセッション制限を100%使い切って、追加料金まで取られたあげく、53分も考えた結果がこれだよ。
API Error: Claudeのレスポンスが32000トークンの最大出力制限を超えました。この挙動を設定するにはCLAUDE_CODE_MAX_OUTPUT_TOKENS環境変数を設定してください。
こういうところが心配なんだよ。みんなプロプライエタリで透明性がなく、サブスクが必須なGenAI製品に依存しすぎてる。まるで強固な基盤かのようにその上に構築してるけど、運営側が突然その基盤を足元から引き抜くなんてこともあり得るんだ。
AIサービス側には、トークン使用量を減らすインセンティブなんてほとんどないよ。むしろ高消費の方が儲かるからね。彼らは「ユーザーが怒り出すギリギリの限界点」を常に探り続けてる。コストが上がれば上がるほど、各社はトークン使用量とコストのバランス調整を繰り返すだろうね。私たちは今、茹でガエルになる寸前なのに、ぬるま湯に浸かって風呂だと思い込んでいるような状態だよ。
昨日、悟ったよ。Claude codeにローカルLLMを繋いで簡単な抽出タスクを投げたら、10分もブイブイ唸らせてた。で、同じデータとプロンプトをllama_cppのチャットUI経由でモデルに直接投げたら、1分もしないうちに一発で終わらせやがった。コーディングエージェント側か、LLMとの通信周りに明らかに何か問題があるね。
今は超シンプルなオープンソースのコーディングエージェントを探してるところ。NanocoderはMacにインストールできなさそうだし、node_modulesの肥大化も嫌。Opencodeは完全なオープンソースとは言い難いし。とりあえず今は、コーディングエージェントの代わりを自分でやってllama_cppのWeb UIを使ってるけど、こっちの方が普通に捗るわ。
自分はClaude Opusをかなりうまく使いこなせてる気がするし、正直ミドルティアのサブスク制限に引っかかることもないな。ワークフローが「自動操縦(autopilot)」じゃなくて「副操縦士(copilot)」寄りだからかも。タスクを切り出してプロンプトを練り上げ、ほとんどすべてを確認してるから、「バイブコーディング」してる人たちよりはずっと軽いはず。
今のトップクラスの技術は、自分の使い方からすれば「十分なレベル」には達してる。LLMによるコーディング支援がコモディティ化する日が待ち遠しいね。ちゃんとライセンスされたコードで学習したオープンソースモデルが本気で欲しいよ。
Max20のサブスクは4月以降ほとんど放置してるな。Codex 5.4(今は5.5)を使っちゃうと、Fastモード(トークンコスト2倍だけど)であっても雲泥の差だよ。Opusはもっともらしい失敗をして、重要な詳細を半分忘れるか、勝手に「実用的(=技術的負債や継ぎ接ぎだらけ)」なコードを書き上げて成功したと主張する。全部ぶっ壊れてるのにね。指摘しても余計に混乱を招くだけ。Opusは新規プロジェクトを一気に作るのには向いてるけど、後からイテレーションを回したり複雑な統合をするには使い物にならないし、むしろ害悪レベルだよ。
GPT 5.4+は時間をかけて、誰も頼んでないエッジケースまで考慮して正解を出してくれるから、後でエラー探しをする手間が省ける。それに、たった一行のスクリプト変更ごときで「これはマルウェアではありません」とか「えーっと、やっぱり」みたいな思考ループに何分も陥ることもないしね。
Claudeって、同じモデルでも論理的なエラーを出す時と出さない時があるのに気づいた。Claudeのパフォーマンスって時間帯でかなり変わるんだよね。グラフまであるくらいだし:https://marginlab.ai/trackers/claude-code/
誰も公には言っていない気がするけど、同じモデルでも量子化の度合いによって結果が全然違うはず。4bitと8bitじゃ、計算リソースも出力品質も別物だからね。https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
フロンティアモデルが同じ仕組みで動いてないのはわかってるけど、ピーク時とオフピーク時で、モデルが使うメモリやリソースを調整する「忠実度ダイアル」みたいなものがどこかにあるんじゃないかと疑ってる。誰かこれについて何か知らない?
私や同僚の多くが、ここ2ヶ月でClaudeの認知能力がガタ落ちしてることに苦しんでる。4.5は便利だったし、4.6は最高だった。自分なりのベンチマークがあって、4.5ならどうにか追えた双方向ポインタのループも、4.6なら3方向をこなせたし、1Mコンテキストならk方向までいけた。この追跡能力のおかげで実プロダクションコードも理解できたし、修正もできたんだ。
それが2ヶ月前、4.6が物忘れを始めて、トンチンカンな判断ばかりするようになった。みんなで情報を突き合わせて、自分だけじゃなかったんだと気づいたよ。4.7も大差ないし、この数週間は勝手にレベルを下げられる「自動努力ダウンサイジング」と戦う羽目になってる。「またかよ」と思いながら設定を確認し直して、サイレントに機能制限されてるのを見るのは本当にストレス。
みんな4.6の初期の頃が恋しいよ。あれはモデルが本当に役に立つことを証明してたのに。LLMは本来もっと強力になれるはずなのに、Anthropicはマスマーケット向けにスロットルをかけて、使い物にならないレベルまで劣化させてる。
DeepSeekがそのうち「十分以上」な4.6レベルに到達して、みんなが「高い金を払って低品質」を掴まされるClaudeの路線から降りられるようになると踏んでる。今の体験で何ができるかはわかってるんだから、それ以上はそんなに必要ない。ただ、私たちが完全にコントロールできて、メーター課金じゃなくちゃんとプロビジョニングできる環境が必要なだけなんだよ。
自分は詳細な仕様書をマークダウンで書いて、サンプルコードと一緒にClaude Sonnetに投げてた。
でも、厳密な要件を書いても、出力されるコードには要件漏れがあるし、重複したコードがあったり、不要なデータ変換(必要ないのにオブジェクトを別の型に詰め直すとか)までやってたり、テストも無理やり通すための誤魔化しばかり。結局コードを書くどころか、大量のコードを読む羽目になってる。
AI以前と比べて痛感するのは、コードを書くことより、書かれたコードを読んで理解し、メンタルモデルを作る方が遥かに重労働だということ。だからAIを使う前より時間と労力がかかってる。コードを読んで理解して、自分のメンタルモデルに合致してるか確認しなきゃいけないからね。
というわけで、今のAnthropicの価格設定だと、自分にとってはマイナスでしかない。バイブコーディングじゃなくて、リアルな人間が依存する実務ソフトウェアを開発してるんだ。ユーザーにはもっとちゃんと向き合いたいし、だから近々サブスクは解約する予定。
最近はAiderを使ってる。GithubのマルチAIバンドルは新しい学習ポリシーのせいで解約するつもり。Aiderを最新のオープンモデルと組み合わせて、引き渡す前にOpen Specで要件をすり合わせるようにしたら、すごく楽になった。