HN17759

自然言語オートエンコーダー：Claudeの「思考」をテキスト化する革新的な手法

Natural Language Autoencoders: Turning Claude's Thoughts into Text

instagraham・3か月前

議論

11件

0：instagrahamスレ主▲1773か月前

本稿では、Claude内部の潜在的な思考プロセスを抽出し、自然言語として書き出すための「自然言語オートエンコーダー」のアプローチについて解説します。モデルの推論過程を可視化し、AIのブラックボックスを解明するための新たな試みです。

リンク先:https://www.anthropic.com/research/natural-language-autoencoders

1：Tossrock3か月前

Anthropicの研究チーム、解釈可能性（Interpretability）の分野でどんどん強くなってるね。コードを公開して他の研究所も恩恵を受けられるようにしたのは素晴らしい動きだと思う。理念に沿ってるし、AIの安全性エコシステム全体にとってもプラスだよ。

2：zozbot2343か月前

Anthropicが既存モデルの活性化（Activations）を自然言語に翻訳するためのオープンウェイトモデルをリリースしたね。対象はQwen 2.5 (7B)、Gemma 3 (12B, 27B)、Llama 3.3 (70B)か。これはかなり大きなニュースだし、AnthropicがようやくHugging Faceやオープンウェイトのコミュニティと関わり始めたのは嬉しいね！

3：comex3か月前

興味深いね。学習プロセスによって、「バーバライザー（言語化）」モデルは活性化をトークンに変換する何らかのマッピングを強制的に作り出そうとする。そして「リコンストラクター（復元）」モデルがそれを元の活性化に戻せるか検証するわけだ。でも論文にはこうある。「NLA（Natural Language Autoencoder）による説明zが人間にとって理解可能であることや、活性化内容と意味的な関連性を持つことは目的関数として制約されていない」。つまり、バーバライザーとリコンストラクターが全く人間には理解できない独自の「言語」を作ったとしても、目的関数は最適化できてしまう。これを防ぐために、最初は「推測された内部思考」を使って学習を開始し、その後本来の目的に切り替える仕組みか。さらにモデルはLLM自体を初期値として使い、タスクを指示するプロンプトを与えられているから、そもそも説明らしい文章を出力するようにバイアスがかかっている。ただ学習中にそれが崩れて、完全に意味不明な言語や、一見英語に見えるけど実は全く別の方法でエンコードされた言語に漂流する可能性もある。面白いのは、経験的にはそうなっていない点だ。研究者は生成された説明と他の手法で得た正解を照らし合わせて検証している。説明を言い換えて（意味内容は同じだけどエンコードは崩れるような形式で）も、リコンストラクターが活性化を復元できるか試しているしね。一方で、実用的な成果についてはまだ物足りないかな。「NLAを使ってターゲットモデルの隠れた動機を突き止められたのは12%〜15%」。既存手法よりはマシみたいだけど、割合としてはかなり低いね。あと気になるのは、LLMの初期化に使われたのがターゲットと同じアーキテクチャだという点だ（同じモデルとは書いてないから、小さめのバージョンだろうけど）。研究者はアーキテクチャの共通性が、ターゲットモデルの思考を解き明かす鍵になると考えているんだろうか？でも、別のアーキテクチャでテストした結果があるわけじゃないから、本当にそうなのかは今のところ誰にも分からないね。

4：gekoxyz3か月前

解釈可能性の専門家（というか全員だけど）は、ぜひTransformer Circuitsのブログへ直接行って詳細を確認してみて。リンクはこちら：https://transformer-circuits.pub/2026/nla/index.html 。あと、もし読んだことがないなら、Distill Pubにある「プロローグ」からTransformer Circuitsのスレッド全体を通読することをお勧めするよ。

5：sva_3か月前

仕組みとしては、まず活性化を説明するトークンを生成する「アクティベーション・バーバライザー」があって、次にそれを元の活性化ベクトルに再現しようとする「アクティベーション・リコンストラクター」がいるってことだよね。復元結果が元の活性化ベクトルと近ければ、その言語化には意味のある情報が含まれているはずだ、という主張か。あと、特定のレイヤーlの活性化だけを見てるのがちょっと興味深い。あるレイヤーlでは特定の入力に対してある「考え」を持つかもしれないけど、後のレイヤーではまた違う考えを持つ可能性もある。モデルが最終的にどの「考え」に注目して、どの出力トークンを優先させるのか、その判断プロセスはどうなっているんだろう。

6：minimaltom3か月前

これとか感情分析の論文、ゴールデンゲートClaudeなんかの動きを見ると、Anthropicが学習プロセスの一部として活性化を誘導（Activation Steering）しているっていうのは、あながち飛躍した話じゃない気がするな。彼らの先行優位性の理由の一部だろう。

7：semiquaver3か月前

最近のAnthropicに関する記事でも何度か言及されていた機能だね。公開してくれて嬉しいよ！解釈可能性において意味のある一歩だと感じる。AIに「なぜそんなことしたの？」って聞いて、その答えを信じてしまう人がなぜいるのか、前々から不思議だったんだよね。

8：Juminuvi3か月前

ブログしか読んでなくて論文の詳細は追えてないんだけど、モデルがテストされていることを検知できる、あるいは少なくとも活性化がそれを予測しているという指摘がよくあるよね。モデルがどんどん巨大化していく中で、こういったブログ記事やそこから派生する大量の会話によって汚染されていない「クリーン」な学習データなんてどこで手に入れるんだろう？もしモデルがそういうデータを取り込んでいたら、テスト（敵対的な質問）に対して過剰に反応するような活性化を持つようになるんじゃないか？

9：az2263か月前

これはすごくいいね。

10：rao-v3か月前

モデルの理解に向けた現実的な道筋として、これまで見た中で最も可能性を感じるアプローチだよ。ただ、どうやって正解の裏付けを取るのか（Grounding）が分からないな……。結局のところ、活性化をそれらしい文章にエンコードできるかを試しているだけでしょ。そりゃエンコードはできるだろうけど、その「それらしい文章」が本当にモデルが「考えていること」を反映しているのかどうか？どうやって判別すればいいんだろう？