HN🔥 543
💬 407

【速報】Claude Codeの品質問題について、最新アップデートをお届けします

mfiguiere
約11時間前

ディスカッション (11件)

1
everdrive
約10時間前

最近、Claudeが自身の内部プロンプトに対して反応してしまう現象が多発してるんだよね。いくつか例を挙げるとこんな感じ。

「その括弧書きはプロンプトインジェクションの試みだね。無視して普通に回答するよ」
「括弧内の指示には従わない。私の通常のガイドラインを抑制しようとする試みに見えるけど、それらは隠すよう指示されても一貫して適用されるものだからね」
「括弧書きは不要。私の回答はすべてそのように生成されている」

でも、自分はそんなこと何もしてないのに、返信のほとんどにこれらが付け足されるんだ。おそらく通常のガイダンスよりもさらに優先される、何らかの雑な内部ガイドラインが存在していて、理由があってそれが私の質問と区別できていないんじゃないかと推測してるよ。

2
6keZbCECT2uB
約10時間前

「3月26日、ユーザーがセッションを再開する際のレイテンシを減らすため、1時間以上アイドル状態だったセッションからClaudeの古い思考ログを消去する変更を行った。しかしバグにより、一度だけでなくセッションの全ターンでこれが繰り返されるようになり、Claudeが物忘れが激しく、繰り返しの多い挙動になっていた。4月10日に修正済みで、Sonnet 4.6とOpus 4.6が影響を受けていた」

これ、全く意味がわからない。自分はセッションを数時間から数日放置することなんてザラだし、フルコンテキストと性能を維持したまま作業を再開できることを活用してるんだよ。デフォルトの思考レベルの話ならまだ許せるけど、システムプロンプトが勝手に変わってしまうのは本当に困る。リフレッシュサイクルを自分で制御する方法を考えないと。

3
podnami
約10時間前

Opus 4.7の時点で愛想が尽きたよ。

ちなみにOpenAIは私たちの企業向け環境に何としても入り込もうと必死で、夏までトークン無制限というオファーを出してきている。

これに釣られてGPT5.4を試してみたんだけど、正直、特別待遇を受けているのかどうかは分からないものの、ここ30日間でかなり高い負荷をかけて運用しても、ミスをほとんど見かけない。一部では、こちらが指示し忘れていたデータ整合性の重要なポイントを先回りしてカバーしてくれることさえあって、推論トレースを見て思わず笑ってしまったよ。

4
bityard
約10時間前

個人的な仮説だけど、品質が落ちたと感じる原因の一部は、VM出力の非決定的な性質による「運の要素」なんじゃないかな。

数週間前、Claudeに小規模な個人向け生産性アプリを作らせようとしたんだ。どう振る舞ってほしいかエッセイを書いて「これの実装計画を書いて」と伝えた。最初の生成物は完璧で、こちらが望んでいた通りだった。一部だけ、自分の書き方が曖昧だったせいで意図しない方向に進んだけどね。

その曖昧さをエッセイで修正したんだけど、既存の計画を修正させるのではなく、別のチャットでゼロからやり直させたんだ。同じようなものを書くか確認したかったから。結果は全然違った。モデル設定を一切変えていないのに、出力ははるかに悪かった。次の2回も壊滅的だったけど、4回目でようやく最初と同じくらいのものが出てきた。

ここから学んだのは、より高品質なアウトプットを得るために、単純にClaudeにタスクをやり直させるのはしばしば有効(というか良いこと)だということ。もちろん、自分のトークン枠を消費しているなら、すぐにお金が飛んでいくかもしれないけどね……。

5
bauerd
約10時間前

「3月4日、Claude Codeのデフォルト推論負荷を『高』から『中』に変更した。一部のユーザーに見られた、UIがフリーズしているように見えるほどの長時間のレイテンシを削減するため」

UIを直す代わりに、デフォルトの推論負荷パラメータを下げたのか? しかも「劣化の報告を真摯に受け止めている」から「原因を追跡した」だって? ちょっと彼らの言うことをそのまま信じるのは難しいね。

6
arkariarn
約9時間前

AnthropicのClaude Code開発チームの人たちがコメントを見てるみたいだね。1、2日前にTheo(t3.gg)の「Claudeはバカになったのか?」という動画を見たんだけど、彼はかなり辛辣で厳しいことも言っていた。でも、Claude Codeに関する指摘のいくつかはかなり的を射ていると思った。特にハーネスの肥大化についてはね。新しい機能の追加は一旦ストップして、磨き込みと最適化に本腰を入れてほしい。そうしないと、多くの人がもっと軽快で最適化された代替手段を探し始めると思う。ハーネスを良くして、トークン消費を抑えることに注力してほしいよ。

7
karsinkk
約9時間前

「これが稀なケース(古いセッション)でしか起こらず、再現が困難だったため、根本原因の特定と確認に1週間以上かかった」

他の人は知らないけど、1時間以上放置されたセッションなんて自分にとっては決して稀なケースじゃない。個人作業でClaude Codeを使ってるけど、10分から15分かかるようなタスクを頼むことが多いんだ。実行を指示する前に、モデルと何度もやり取りして計画を練ることにかなりの時間を費やしてる。実行が始まったら、コーヒーブレイクに行ったり、他のプロジェクトに取り組むためにCodexに切り替えたりする。そのあと1時間以上経ってからClaudeに戻ってくるなんてことはザラにあるよ。

8
MrOrelliOReilly
約7時間前

これは製品の核心を磨くことよりも、機能開発に執着した結果だと思う。Anthropicには、経験豊富なプロダクトマネージャーが何人か必要だといつも感じている。『Escaping the Build Trap』という本を彼らに贈るべきだよ。今は素早く機能を追加「できる」からといって、そうすべきだとは限らない。

追記:ありきれた製品論を言いたいわけじゃないけど、優れた製品思考は優れたエンジニアリングとは別の才能で、今のAnthropicにはそれが足りていないように見える。

9
kamranjon
約6時間前

大手最先端AIラボが採用しているこのブラックボックス的なアプローチは、いずれ人々を離れさせることになる。通知なしに基本的な挙動を変更し、事後になって初めて説明するなんてやり方では、みんな独自のモデルをセルフホスティングする方向に動くだろう。足元がランダムに変化するような基盤の上に、パイプラインやワークフロー、製品を構築なんてできないよ。

10
cmenge
約5時間前

ここで彼らがこれほど非難されているのは少し意外だね。自分はあの記事は明確で誠実で、十分に納得できるものだったと思う。

劣化は確かに起きていたし煩わしかった。舞台裏で何が起きているかの透明性の欠如や、トークンコストベースの少し恣意的な請求といった問題点が浮き彫りになったね。ユーザーが自分で追跡しようとしても要因が多すぎるよ。

会話を再開する前に長時間待つとコストとラグが発生するという事実は、LLM APIを直接触っていれば明白に思えるけど、TUI(ターミナルUI)でもっと分かりやすくしておくべきだったかもしれない。