HN🔥 72
💬 7
C++とCUDAで爆速推論!軽量LLMエンジン「Tiny-vLLM」を公開しました
yu3zhou4
約20時間前
「Tiny-vLLM」は、C++とCUDAを活用して開発された、非常に軽量かつ高性能なLLM(大規模言語モデル)向け推論エンジンです。リソース効率と推論速度を極限まで追求しており、効率的なモデル運用を目指すエンジニアにおすすめです。
個人的には(作者より)、READMEが一番面白いと思ってる。他の人がプロジェクトを再現できるように、コードを読まなくても済むような役立つメンタルモデルを構築する助けになればと思って書いたんだ。
レッスン形式のドキュメント、すごくいいね。読むのが楽しみ。
面白そう。初期のllama.cppを思い出すけど、あっちよりドキュメントがしっかりしてるね。
READMEの出来が最高。
物理的に見れば、LLMはたくさんの浮動小数点数が入ったファイルに過ぎない。
まさにLLMの原子って感じだね。
どうやら作者は、CUDA API呼び出しの戻り値チェックは「小さすぎる(Tiny)」工程じゃないと考えてるみたいだね :-(
補足だけど、作者のブログがすごく良くて興味深い論文がたくさんあるよ:https://jedrzej.maczan.pl/ (https://jedrzej.maczan.pl/)