ディスカッション (11件)
「LLM Architecture Gallery」は、多様な大規模言語モデル(LLM)の設計・構造を網羅した素晴らしいリソースです。定番のTransformerから最新モデルまで、内部アーキテクチャがどのように構築されているかを視覚的・構造的に俯瞰できます。各モデルの技術的な違いを深く理解したいエンジニアにとって、まさに「LLM図鑑」として非常に役立つ内容となっています。
いいね!並び順ってあるのかな?進化や技術革新の流れがわかるとすごくいいんだけど。家系図とか影響関係のレイアウトみたいな感じ。あと、時間の経過とともにサイズがどう変わったか実感できるように、スケールを合わせた表示もあるといいな。
これ最高、見せ方がすごくいいね。いろんなアーキテクチャを可視化してた「Neural Network Zoo [1]」を思い出したよ。[1] https://www.asimovinstitute.org/neural-network-zoo/ (https://www.asimovinstitute.org/neural-network-zoo/)
めっちゃいいじゃん。シェアしてくれてありがとう!これ、図をズームできるバージョンだよ: https://zoomhub.net/LKrpB (https://zoomhub.net/LKrpB)
この図を描くのにどんなツールを使ったんだろう?
面白いコレクションだね。モデルごとのプロンプトのパターンを実際に見ると、アーキテクチャの違いが意外な形で現れてくる。コンテキストウィンドウが長いってのは、ただ書ける量が増えるだけじゃなくて、どんな入力構造が最適かっていうのも変えちゃうんだよね。
本当にありがとう!(バイオ)統計家として、「ニューラルネットワークは関数を近似する」っていうところから、機械学習の実践者がどうやって実際のモデルを構築してきたのかをハイレベルに理解するための「モジュール的」なアプローチをずっと探してたんだ。
エージェントとかハーネスについても、こういうのが見られたら最高だな。
あーあ。LLMが超高層ビルとかダム、橋を設計してる話かと思ってクリックしちゃったよ。ポップコーンまで用意したのにさ :(
これいいね。セバスチャンの書くものはいつだって読む価値がある。彼の「Build an LLM From Scratch」っていう本もマジでおすすめ。あの本を最後までやり遂げるまで、自分はTransformerの仕組みをちゃんと理解できてなかった気がする。このLLMアーキテクチャ・ギャラリーについてだけど、モデルごとのバリエーションを見るのは面白い。ただ、俯瞰してみると、GPT-2からの7年間でLLMのアーキテクチャには多くの改善があったけど、根本的な革新はその領域にはなかったんじゃないかな。今の最高性能のオープンウェイトモデルでも、遠目で見ればGPT-2と似たようなもん。アテンション層とフィードフォワード層を積み重ねただけだ。言い換えれば、この7年間で見たLLMの驚異的な進化のほとんどは、スケーリングアップと、あとは決定的なことにRLVRみたいな新しい「学習」手法のおかげだと思う。おかげでコーディングエージェントはこの1年で、使い物にならないレベルから最高なものになった。アーキテクチャが面白くないとか重要じゃないって言ってるわけじゃないし、改善に価値がないわけでもないけど、今の時点ではちょっと意外な気もする。まあ「苦い教訓(Bitter Lesson)」の一種だと思えば当然なんだろうけど。
このブログの古い投稿だけど、リンク先の記事は最近更新されてるよ: https://news.ycombinator.com/item?id=44622608 (https://news.ycombinator.com/item?id=44622608)