HN27184

爆速！Apple Silicon（Metal）でDeepSeek 4 Flashをローカル動作させる方法

DeepSeek 4 Flash local inference engine for Metal

tamnd・3か月前

議論

11件

0：tamndスレ主▲2713か月前

AppleのMetalフレームワークを活用し、DeepSeek 4 Flashをローカル環境で高速推論させるためのエンジンが登場しました。

リンク先:https://github.com/antirez/ds4

1：maherbeg3か月前

これめちゃくちゃヤバいな。オープンソースの単一モデルに対して、何ヶ月も集中して最適化を突き詰めるとどうなるのか、すごく興味がある。推論サービングの面だけじゃなくて、ハーネスの最適化や、フロンティアモデルが推論・導出できることと、サイズや学習の都合でオープンソースモデルが本質的に足りていないことの溝を埋めるカスタムワークフローの構築とかね。

2：amunozo3か月前

最大モード以外だとトークンの生成が少なくなるのが気になってる。DeepSeek V4 Flashは大好きで使い倒してるんだけど、安すぎて一日中使っても10ドルのOpenCode Goサブスクリプションを使い切れないくらい。そのせいでいつも最大モードで使ってるんだけど、これからは「高」設定にした方がいいのかな？

3：antirez3か月前

ランダムで面白い、そして示唆に富むデータポイントを一つ。僕のMacBook M3 MaxでDS4がフルスピードでトークン生成してるとき、消費電力がピークで50Wまでいくんだよね……。

4：nazgulsenpai3か月前

DS4ってよく目にするんだけど、脳内で勝手に「Dark Souls 4」（悲しい…）、「DualShock 4」、「DeepSeek 4」の順で変換されちゃう。

5：sourcecodeplz3か月前

素晴らしいプロジェクト！本人も認めてる通り、目的を持った「Vibe-coded（雰囲気コーディング）」プロジェクトの良例だね。

6：kgeist3か月前

へへ、実は少し前にQwen3モデルで似たようなものを作ったんだ。Qwen3専用で、特定の量子化のみサポート、GGUFからロードして推論はClaude（ループ内）で最適化するっていう。全体がコンパクト（たった数ファイル）で構成が追いやすい。学生がいろいろいじって学べるように作ったんだ（デコード戦略を変えたり、アブリレーションを試したりとか）。既存のフレームワークは巨大で複雑でハックしにくいし、かといって教育用プロジェクトはGPT-2みたいに古臭いものが多いからね。

教育用として作ったけど、頭から離れないアイデアが浮かんだよ。「特定のGPUとモデルの組み合わせに最適化された、超特化型推論エンジン」を作るのはどうかってこと。GPUは高いし手に入りにくくなってる。抽象化を削ぎ落としてハードウェアとモデルに直書きすれば、かなり最適化できるはず（期待したい）。推論をループで最適化するエージェントを走らせて、速度と品質を実証的にテストするような感じ。

唯一の難点は、モデルが古くなるたびに最初からやり直しってことだけどね。

7：visarga3か月前

MacBookで大きなLLMを動かすとトークン生成速度は許容範囲内なんだけど、問題はコンテキストの読み込みなんだ。チャットセッションみたいにKVキャッシュがあるインクリメンタルな読み込みじゃなくて、大きなファイルを貼り付けたときのような巨大な読み込みね。数分かかることもある。

8：Havoc3か月前

ワクワクしてたんだけど、DS Flashも結局めちゃくちゃデカいって気づいてガッカリ。まあいいや……とにかく存在してくれるのは嬉しいし、antirezが今も面白いことをやってるのは最高だね。

9：layoric3か月前

すごく印象的。一つ奇妙に感じるのは、大きな入力を処理する前にレスポンスが始まるまで4分くらいかかること？普段MacでLLMを動かさないから驚きなんだけど、これって実用上かなりの足かせになりそうじゃないかな。

追記：キャッシュの仕様を考えると普段使いの理由は納得できるね：

Claude Codeは有用な作業を始める前に、25kトークン程度の大きな初期プロンプトを送ることがある。--kv-disk-dirを有効にしておけば、最初の重いプリフィルが終わった後、ディスクのKVキャッシュのおかげで、続きやセッション再開時にプロンプト全体を再処理する代わりに、保存されたプレフィックスを再利用できるんだ。

10：lhl3か月前

SOTA AIの力を使ってカーネルを最適化できるようになった今、もっと多くの人が自分のハードウェアに合わせて推論を最適化することに挑戦すべきだと思う。

僕は古いW7900（RDNA3）を持っていて、48GBのVRAM以外にも、123 FP16 TFLOPS/INT8 TOPS、864 GB/s MBWとスペックはかなりいい。でもAMD（ROCm）からもllama.cppからもサポートが絶望的に悪いことで有名なんだ。

最近、このカードをエージェント/コーダー用の専用エンドポイントにしようと決めて、W8A8-INT8モデルのチューニングを始めた。数日間オートループさせて（いろんなフロンティア/SOTAモデルを800回くらい試した。Kimi K2.6が意外と優秀だったよ）、Qwen3.6 MoEにおいて、既存のllama.cppの最高数値をプリフィルで+20%、デコードで+50%上回る結果が出せた。

今はMTPとDFlashの最適化を追い込んでるところ。かなり結果に満足してるし、次はGemma 4を試してみるつもり。