HN🔥 206
💬 14

【保存版】主要なLLMの内部構造がひと目でわかる!LLMアーキテクチャ・ギャラリー

tzury
約14時間前

ディスカッション (11件)

0
tzuryOP🔥 206
約14時間前

「LLM Architecture Gallery」は、多様な大規模言語モデル(LLM)の設計・構造を網羅した素晴らしいリソースです。定番のTransformerから最新モデルまで、内部アーキテクチャがどのように構築されているかを視覚的・構造的に俯瞰できます。各モデルの技術的な違いを深く理解したいエンジニアにとって、まさに「LLM図鑑」として非常に役立つ内容となっています。

1
wood_spirit
約9時間前

いいね!並び順ってあるのかな?進化や技術革新の流れがわかるとすごくいいんだけど。家系図とか影響関係のレイアウトみたいな感じ。あと、時間の経過とともにサイズがどう変わったか実感できるように、スケールを合わせた表示もあるといいな。

4
Slugcat
約7時間前

この図を描くのにどんなツールを使ったんだろう?

5
LuxBennu
約6時間前

面白いコレクションだね。モデルごとのプロンプトのパターンを実際に見ると、アーキテクチャの違いが意外な形で現れてくる。コンテキストウィンドウが長いってのは、ただ書ける量が増えるだけじゃなくて、どんな入力構造が最適かっていうのも変えちゃうんだよね。

6
nxobject
約6時間前

本当にありがとう!(バイオ)統計家として、「ニューラルネットワークは関数を近似する」っていうところから、機械学習の実践者がどうやって実際のモデルを構築してきたのかをハイレベルに理解するための「モジュール的」なアプローチをずっと探してたんだ。

7
jrvarela56
約6時間前

エージェントとかハーネスについても、こういうのが見られたら最高だな。

8
travisgriggs
約6時間前

あーあ。LLMが超高層ビルとかダム、橋を設計してる話かと思ってクリックしちゃったよ。ポップコーンまで用意したのにさ :(

9
libraryofbabel
約6時間前

これいいね。セバスチャンの書くものはいつだって読む価値がある。彼の「Build an LLM From Scratch」っていう本もマジでおすすめ。あの本を最後までやり遂げるまで、自分はTransformerの仕組みをちゃんと理解できてなかった気がする。このLLMアーキテクチャ・ギャラリーについてだけど、モデルごとのバリエーションを見るのは面白い。ただ、俯瞰してみると、GPT-2からの7年間でLLMのアーキテクチャには多くの改善があったけど、根本的な革新はその領域にはなかったんじゃないかな。今の最高性能のオープンウェイトモデルでも、遠目で見ればGPT-2と似たようなもん。アテンション層とフィードフォワード層を積み重ねただけだ。言い換えれば、この7年間で見たLLMの驚異的な進化のほとんどは、スケーリングアップと、あとは決定的なことにRLVRみたいな新しい「学習」手法のおかげだと思う。おかげでコーディングエージェントはこの1年で、使い物にならないレベルから最高なものになった。アーキテクチャが面白くないとか重要じゃないって言ってるわけじゃないし、改善に価値がないわけでもないけど、今の時点ではちょっと意外な気もする。まあ「苦い教訓(Bitter Lesson)」の一種だと思えば当然なんだろうけど。