ディスカッション (7件)
この投稿では、Transformerアーキテクチャの核心部である「Attention Residuals(Attention層における残差接続)」について簡潔にまとめられています。深層学習において、Attentionの出力に入力をそのまま加算するこの仕組みは、勾配消失を防ぎ、モデルの学習を安定させるために不可欠な要素です。いわゆる「Add & Norm」ステップにおいて、Attentionメカニズムが計算した『差分(Residual)』を元のベクトルに戻すことで、より深いネットワークの構築を可能にしています。モデルの表現力を支える、非常に重要なテクニカルポイントです。
これ、LSTMの入力ゲートを思い出すな。
これに関して個人的に注目なのは2点。 1. 学習に必要な計算量が約20%減る。これなら大企業が推し進めてるモデルサイズの巨大化に役立つだけじゃなく、autoresearchみたいなものが新しいモデルアーキテクチャのイテレーションを高速化できる。 2. 推論時の帯域幅要件が「めちゃくちゃ」低い。こういう手法があれば、コンシューマー向けハードウェアでもずっと快適に動くはず。従来のやり方と比べてメモリ帯域が1/6で済むのに、結果は良くなるらしい。 汎用化できれば大きな進歩だね。「ドロップインで置き換え可能」って言ってるし、期待できそう。
学術論文:「Attention Residuals」(2026年) https://arxiv.org/abs/2603.15031 : > アブストラクト:PreNormを用いた残差接続は現代のLLMでは標準的だが、すべての層の出力を固定の重みで累積させてしまう。この一様な集約は、層が深くなるにつれて隠れ状態の制御不能な増大を招き、各層の寄与を徐々に希釈化させる。我々は、この固定的な累積を前の層の出力に対するソフトマックス・アテンションに置き換える「Attention Residuals (AttnRes)」を提案する。これにより、各層は学習された入力依存の重みを用いて、以前の表現を選択的に集約できるようになる。大規模モデルの学習において、すべての先行層の出力を参照することによるメモリや通信のオーバーヘッドに対処するため、層をブロックに分割してブロックレベルの表現を参照する「Block AttnRes」を導入し、メモリ使用量を抑えつつFull AttnResの利点の大部分を維持することに成功した。[...]
ここが肝心な部分。 > Full AttnResは単純だが、スケールするとO(Ld)のメモリが必要になる。Block AttnResは層をN個のブロックに分割し、各ブロック内では標準的な残差接続で累積し、ブロックレベルの表現に対してのみアテンションを適用する。8ブロック程度あれば、わずかなオーバーヘッドで実用的なドロップイン置換として機能しつつ、Full AttnResのメリットのほとんどを再現できる。
驚いたことに、第一著者は高校生なんだって! https://nathanchen.me/public/About%20me.html
めちゃくちゃクールだね!