ディスカッション (11件)
AppleのMetalフレームワークを活用し、DeepSeek 4 Flashをローカル環境で高速推論させるためのエンジンが登場しました。
これめちゃくちゃヤバいな。オープンソースの単一モデルに対して、何ヶ月も集中して最適化を突き詰めるとどうなるのか、すごく興味がある。推論サービングの面だけじゃなくて、ハーネスの最適化や、フロンティアモデルが推論・導出できることと、サイズや学習の都合でオープンソースモデルが本質的に足りていないことの溝を埋めるカスタムワークフローの構築とかね。
最大モード以外だとトークンの生成が少なくなるのが気になってる。DeepSeek V4 Flashは大好きで使い倒してるんだけど、安すぎて一日中使っても10ドルのOpenCode Goサブスクリプションを使い切れないくらい。そのせいでいつも最大モードで使ってるんだけど、これからは「高」設定にした方がいいのかな?
ランダムで面白い、そして示唆に富むデータポイントを一つ。僕のMacBook M3 MaxでDS4がフルスピードでトークン生成してるとき、消費電力がピークで50Wまでいくんだよね……。
DS4ってよく目にするんだけど、脳内で勝手に「Dark Souls 4」(悲しい…)、「DualShock 4」、「DeepSeek 4」の順で変換されちゃう。
素晴らしいプロジェクト!本人も認めてる通り、目的を持った「Vibe-coded(雰囲気コーディング)」プロジェクトの良例だね。
へへ、実は少し前にQwen3モデルで似たようなものを作ったんだ。Qwen3専用で、特定の量子化のみサポート、GGUFからロードして推論はClaude(ループ内)で最適化するっていう。全体がコンパクト(たった数ファイル)で構成が追いやすい。学生がいろいろいじって学べるように作ったんだ(デコード戦略を変えたり、アブリレーションを試したりとか)。既存のフレームワークは巨大で複雑でハックしにくいし、かといって教育用プロジェクトはGPT-2みたいに古臭いものが多いからね。
教育用として作ったけど、頭から離れないアイデアが浮かんだよ。「特定のGPUとモデルの組み合わせに最適化された、超特化型推論エンジン」を作るのはどうかってこと。GPUは高いし手に入りにくくなってる。抽象化を削ぎ落としてハードウェアとモデルに直書きすれば、かなり最適化できるはず(期待したい)。推論をループで最適化するエージェントを走らせて、速度と品質を実証的にテストするような感じ。
唯一の難点は、モデルが古くなるたびに最初からやり直しってことだけどね。
MacBookで大きなLLMを動かすとトークン生成速度は許容範囲内なんだけど、問題はコンテキストの読み込みなんだ。チャットセッションみたいにKVキャッシュがあるインクリメンタルな読み込みじゃなくて、大きなファイルを貼り付けたときのような巨大な読み込みね。数分かかることもある。
ワクワクしてたんだけど、DS Flashも結局めちゃくちゃデカいって気づいてガッカリ。まあいいや……とにかく存在してくれるのは嬉しいし、antirezが今も面白いことをやってるのは最高だね。
すごく印象的。一つ奇妙に感じるのは、大きな入力を処理する前にレスポンスが始まるまで4分くらいかかること?普段MacでLLMを動かさないから驚きなんだけど、これって実用上かなりの足かせになりそうじゃないかな。
追記:キャッシュの仕様を考えると普段使いの理由は納得できるね:
Claude Codeは有用な作業を始める前に、25kトークン程度の大きな初期プロンプトを送ることがある。--kv-disk-dirを有効にしておけば、最初の重いプリフィルが終わった後、ディスクのKVキャッシュのおかげで、続きやセッション再開時にプロンプト全体を再処理する代わりに、保存されたプレフィックスを再利用できるんだ。
SOTA AIの力を使ってカーネルを最適化できるようになった今、もっと多くの人が自分のハードウェアに合わせて推論を最適化することに挑戦すべきだと思う。
僕は古いW7900(RDNA3)を持っていて、48GBのVRAM以外にも、123 FP16 TFLOPS/INT8 TOPS、864 GB/s MBWとスペックはかなりいい。でもAMD(ROCm)からもllama.cppからもサポートが絶望的に悪いことで有名なんだ。
最近、このカードをエージェント/コーダー用の専用エンドポイントにしようと決めて、W8A8-INT8モデルのチューニングを始めた。数日間オートループさせて(いろんなフロンティア/SOTAモデルを800回くらい試した。Kimi K2.6が意外と優秀だったよ)、Qwen3.6 MoEにおいて、既存のllama.cppの最高数値をプリフィルで+20%、デコードで+50%上回る結果が出せた。
今はMTPとDFlashの最適化を追い込んでるところ。かなり結果に満足してるし、次はGemma 4を試してみるつもり。