ディスカッション (11件)
Claude Codeにおける「Extended Thinking(拡張思考)」機能が出力するテキストの内容についての解説です。このプロセスは、AIが複雑なコーディングタスクに取り組む際の思考過程を可視化するもので、デバッグやロジック構築の透明性を高めるために設計されています。
セッション内でモデルの行動を決定づけているのは実際の思考そのものではなく、思考ロジックの要約だ。これはJPEG画像をBMP形式で保存してから編集し、それを再びJPEGとして提示するようなもの。変換の過程でデータが失われてしまう。
それ、逆じゃないかな。BMPは可逆フォーマットで、JPEGが非可逆な形式だよ。
これはAnthropicだけの話じゃない。OpenAIやGoogleを含むほぼすべての巨大AI企業が、モデルの実際の推論過程を隠しているんだ。なぜなら、生の推論過程を公開することは、AIがどのように情報を処理しているかという核心部分をさらけ出すことになるからだ。
これらの企業は、競合他社より優れた思考プロセスを開発するために莫大な研究開発費を投じている。その思考メカニズムをライバルに教えてしまうのは、投資の目的を完全に無に帰すようなものだ。だから絶対に公開しない。自分を追いかけている相手に、正確な現在地を教えてあげるようなものだからな。
これは随分前から分かっていたことだし、企業側も隠そうとしているわけじゃない。彼らがそうするのは、競合他社にCoT(思考の連鎖)を使ってモデルをトレーニングさせないためだよ。
隠された推論を持つモデル(つまりアメリカ製のモデルは全部)は、使わないし推奨もしない。リスクが大きすぎるし、プロンプト最適化も難しくなる。隠された推論チェーンに攻撃者がプロンプトインジェクションを仕込んで秘密の目的を実行させ、それを要約や出力から隠蔽できてしまう可能性があるのは危険だ。
推論と関数呼び出しが入り混じると、さらに危険度は増す。モデルは隠された推論のフェーズで関数を呼び出せるから、推論の要約がユーザーの目を誤魔化している間に、攻撃者がデータを抜き出すこともできてしまうんだ。
また、Geminiによく見られるように、モデルが推論中にループに陥って無駄にトークンを消費していても知る由がない。推論が隠されているせいで、ループした時に漏れ出さない限り気づけないからね。
AGIになってプロンプトインジェクションに強くなるまでは気にする必要はないかもしれないが、それまではモデルが自分のプロンプトにどう反応しているのか、あるいは自分の代わりにエージェントが何をしているのかを正確に把握したいんだ。
追記:参考資料
Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-... (https://blog.cryptographyengineering.com/2026/05/29/fooling-around-with-encrypted-reasoning-blobs/)
思考を隠すためにこれだけ努力しておきながら、Opus 4.8は10万〜20万トークンを過ぎると自ら思考を漏らし始める。本当に喜劇だよ。
個人的には、Chain-of-Thought(思考の連鎖)の推論ブロックは、人間が考える「推論」とは実態が異なると思っている。(Fable/Mythosシステムカードの「判読不能な推論」に関するセクション6.2.2や、Appleの論文「The illusion of thinking」で提起された疑問を参照のこと。)おそらく彼らが推論ブロックを難読化しているのは、何が起きているかユーザーに見られたらドン引きされるからだろう。私だって、同僚の頭の中で実際に何が起きているかを見たら、きっと引いてしまうだろうしね...
Hacker Newsで擬人化を議論するのはタブーだけど、人間も事後的に理由をこじつける存在だという意見があることには触れておく価値があるだろう。
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r... (https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-rationalisation-reasoning-our-intuition-and-changing-our-minds/)
https://www.researchgate.net/publication/316045349_Post_Hoc_... (https://www.researchgate.net/publication/316045349_Post_Hoc_Ergo_Propter_Hoc_Some_Benefits_of_Rationalization)
悲しいのは、Anthropicがこれほど必死にユーザーのデータを隠そうとしている一方で、彼らはユーザーのデータを喜んで吸い上げ、ユーザーの側もそれを喜んで差し出しているという点だ。……そのくせ彼らは、自分たちのマーケットを食い荒らすような製品を作ってあなた方と競合してくる。Anthropicは、自分たちの推論トークンが「掘り」であり、他社に対する優位性だと信じているからこそ隠しているんだろう。もしそれが彼らの唯一の強みだと本気で思っているのなら、近い将来痛い目を見ることになるだろうね。
思考トレース[0]について、過去のちょっとしたメモがある。DeepSeek R1が出力したトレースはこんな感じだ:
(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methaneが反応でCH2rola基を与える。生成物の遷移と、生成物モジュールへの付加が起こる。実際「Frederickが10 + 1 = 11個の炭素を持つと言った」と計算すると、答えは11になる。
そして化学の問題で「正しい」答えを導き出す。もしそうなら、推論トレースは読み手にとっては意味不明なものになり得る。ただ、これがモデル固有の癖なのか、LLM全般の特性なのかはまだ分からない。以前著者に話を聞いたことがあるんだけど、彼の論文がNIPSか何かで出るはずだったからフォローアップを忘れてしまっていた。もし誰か見つけたら共有してほしい。
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I... (https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#Illegible_Chains_of_Thought)?
1: 確信という意味でね
簡潔で的を射ているね。この「思考」関連の話は最近知ったばかりなんだけど、隠し続けていることに驚いたよ。長期的にはうまくいかないだろう。真にオープンなモデルが登場して、社会がそれを所有できるようになることを願っている。