TransformerのAttention機構における「実行制御能力」の不足について

derbOacOP

👍6約8時間前

TransformerのAttention（注意）機構には、本来あるべき高度な「実行制御能力（Executive Control）」が欠けているのではないかという議論です。推論プロセスにおけるタスク管理や動的なリソース配分において、現在のモデルが抱える限界やボトルネックについての考察が求められています。

🔗 リンク先:https://academic.oup.com/pnasnexus/article/5/6/pgag149/8698838

ivanvoid

約8時間前

いい研究だとは思うけど、これが説得力のある議論になっているかというと微妙じゃないかな。

quotemstr

約7時間前

Transformerが根本的にあれやこれやできないっていう論文を見た時にまず確認するのは、テストに使われたモデルだね。

汎用性を評価するために、2025年9月時点のGPT-5 (41)、Claude Opus 4.1 (42)、Gemini 2.5 Pro (43) をテストした。

LLMの負の検証結果における問題点は、スケールアップや適切なファインチューニングでその欠陥が解消される可能性を排除できていないことだよ。これは、「うちの犬は主語と動詞の不一致を理解できないから、生物の脳は文法能力に根本的な限界がある」って言っているようなものだ。

最新世代のLLMであっても、実行機能が欠如している人間のような認知的なギャップを示す可能性はある。それは認めるけど、だからといってそれがTransformerアーキテクチャの根本的な限界の証拠だとは言えない。LLMは万能関数近似器（universal function approximator）なんだ。実行機能だって一つの関数でしょ。まあ、Transformerには層の数などで決まる回路の複雑さに限界があるのは周知の事実だけど、その制限は自己回帰（autoregression）を許容すれば消えるんだよ。単一のフォワードパスの中だけでAIの限界を論じても意味がない。

適切な学習を行えば、LLMの実行機能におけるギャップは解消できると確信している。問題がアーキテクチャそのものにあるとは到底思えないね。

TransformerのAttention機構における「実行制御能力」の不足について

ディスカッション (3件)