10桁の足し算を学習！最小構成で学ぶTransformer自作ガイド

kelseyfrog

3か月前

ディスカッション (4件)

kelseyfrogOP

👍243か月前

10桁の足し算というシンプルな計算タスクを題材に、Transformerの最小構成をゼロから構築する方法を紹介します。LLM（大規模言語モデル）の内部構造を深く理解するために、無駄を削ぎ落とした軽量なモデルの実装と学習プロセスについてまとめています。

🔗 リンク先:https://alexlitzenberger.com/blog/post.html?post=/building_a_minimal_transformer_for_10_digit_addition

pankajdoharey

3か月前

Tiny Analytic Transformerって感じだね。足し算を機械的に実行するアーキテクチャをわざわざ手作業で組むなら、RNNの方が適してる気がする。学習っていうのはデータからパターンやアルゴリズムを見つけ出すものだからね。最初から手順に従うようにマシンを組んじゃうと、その目的が台無しだよ。

wizzwizz4

3か月前

wizzwizz4

3か月前

本来は記号操作であるべき作業に浮動小数点演算を使うのは、ちょっとズルしてるような気がするな。ただ、デシリアライズの手法自体は面白いから、そこまで腹は立たないけど。

コーデックスのソリューションは順序を逆にしていて、桁上げのロジックを楽にするという意味では理にかなっているけど、少しスッキリしないね。

自分ならそのアプローチを取るかな。リトルエンディアンの数値表現は昔から推してるし。とはいえ、桁数に上限があるなら、最上位桁を一気に計算する回路を実装するのは難しくない。それに、AIが生成したソリューションがリトルエンディアンの利点を本当に活かせているのかは正直怪しいと思ってる。

ある時点でclaude codeを使ってデバッグしてみたんだけど、驚いたことにバグが全く解決されなかったんだ。僕が意図的にやっていた面白い実装を「修正」することばかりに必死だったみたいで。

こういう作業ができる人が、それを不思議に思うのが信じられないな。LLMがコードのバグを見つけるプロセスと、そういう創造性を「修正」しようとするプロセスは同じもの。彼らの世界観は統計的なもっともらしさがすべてで、本質的な理解はできていないんだよ（十分な学習データがあれば、完璧に理解しているフリはできるけどね）。