【自作LLM】GPT-2規模のモデルをC/CUDAでスクラッチ開発！「NanoEuler」プロジェクト始動

vforno

約18時間前

ディスカッション (4件)

vfornoOP

👍35約18時間前

皆さん、こんにちは！AnthropicでAIの研究開発に携わることを夢見て、今回「NanoEuler」というプロジェクトを立ち上げました。LLMを開発しようと思ったきっかけは2つあります。1つ目は、LLMのAPIを使うことと、その内部構造を理解することは全く別物だと感じたこと。2つ目は、ローレベルな実装を通じてパラメータとデータ、モデルの成長、GPUの動作、そしてレイヤーの最適化手法を深く掘り下げたかったからです。研究の一環として、まずはShakespeare.txtを学習させることから始め、2300万パラメータのモデルがテキスト生成において何を理解しているのかを検証しました。例えば、この規模でも「Name:」という文字列に続く行を、意味の通る形で生成できるようになった時は感動しました。あえてライブラリを使わず、すべてCUDAで実装したのは、トレーニングから推論までの過程で余計な仲介を挟まず、すべてを自らのコントロール下に置きたかったからです。SFT（教師あり微調整）のプロセスなども含め、チャットボットのようなLLMを作る過程を非常に深く学べました。フィードバックやアドバイス、協力は大歓迎です！ぜひチェックしてみてください。

🔗 リンク先:https://github.com/JustVugg/nanoeuler

Chu4eeno

約18時間前

かなり変わったコーディングスタイルだね。Cのコードにastyle --style=pythonをかけたの？あと、LLMがCUDAのソースコードに残したコメントに「未テスト」ってあるけど、CUDA周りはちゃんと動くのかい？

ericb

約16時間前

どのくらいの期間トレーニングしたの？トークン数はどれくらい？

tdesilva

約14時間前

ここでNeural ODEに言及するのは的外れじゃないかな。全く関係ない話だし。Transformerの実装ならどれもResidualを使ってるけど、別にNeural ODEを学習させてるわけじゃないよね。あと、エムダッシュ（—）は使わない方がいいと思う。感覚だけでコード書いたのかは知らないけど、READMEがAI生成なのはかなりバレバレだよ。