HN🔥 167
💬 21

MicroGPTをインタラクティブに体験!最小構成のGPTを動かしながら理解しよう

growingswe
3か月前

ディスカッション (8件)

0
growingsweOP🔥 167
3か月前

MicroGPTの仕組みをインタラクティブに学べる解説コンテンツが公開されました。最小限の構成でGPTの内部動作を視覚的・体験的に理解できる内容となっています。エンジニアなら一度は触っておきたい、GPTのコア原理を学べる素晴らしいリソースです。

1
politelemon
3か月前

学習が終わる頃には、モデルは「kamon」「karai」「anna」「anton」といった名前を生成するようになります。どれもデータセットからのコピーではありません。

いや、kamon、karai、anna、antonならデータセットの中に普通にいるよ。別の名前を使った方がいいんじゃないかな:https://raw.githubusercontent.com/karpathy/makemore/988aa59/names.txt

2
windowshopping
3か月前

自分の中で腑に落ちないのは、そこからどうやって任意のコーディング問題をデバッグできる能力に到達するのかってこと。統計的な推論が、どうして「推論(思考)」に変わるんだ?

長い間、その答えは「変わらない」だと思っていた。でも最近Claude codeを毎日使っていると、どうやら変わるみたいなんだよね。

3
malnourish
3か月前

記事を全部読んだけど、有益な部分もあった一方で、例の「フクロウの絵の描き方(※)」みたいな説明だなと感じた。概念的な要素への導入や、自然なつなぎの部分が編集でカットされてしまったような読み味だった。ただ、インタラクティブな要素は良かったと思う。

(※注:詳細なプロセスを飛ばして結論だけを語る、不親切な解説の比喩)

5
jmkd
3か月前

初心者向けと書いてあるけど、どんな初心者がこんな段落を理解できるっていうんだ?

「予測はどれくらい外れたか?『モデルは正解の可能性が低いと考えていた』という状況を捉える単一の数値が必要だ。モデルが正解の次のトークンに0.9という確率を割り当てた場合、損失は低く(0.1)なる。0.01と割り当てた場合、損失は高く(4.6)なる。その式は −log(p) で、pはモデルが正解のトークンに割り当てた確率のこと。これをクロスエントロピー誤差と呼ぶ」

7
love2read
3か月前

LLMが書いたものじゃないと見せかけるために、わざとスペルミスや文法ミスを入れるのが流行ってるの?この元ネタになったKarpathyのブログ記事にも、この記事自体にも、いくつもスペルミスがあることに気づいたんだ。