HN🔥 271
💬 84

爆速!Apple Silicon(Metal)でDeepSeek 4 Flashをローカル動作させる方法

tamnd
11日前

ディスカッション (11件)

1
maherbeg
11日前

これめちゃくちゃヤバいな。オープンソースの単一モデルに対して、何ヶ月も集中して最適化を突き詰めるとどうなるのか、すごく興味がある。推論サービングの面だけじゃなくて、ハーネスの最適化や、フロンティアモデルが推論・導出できることと、サイズや学習の都合でオープンソースモデルが本質的に足りていないことの溝を埋めるカスタムワークフローの構築とかね。

2
amunozo
11日前

最大モード以外だとトークンの生成が少なくなるのが気になってる。DeepSeek V4 Flashは大好きで使い倒してるんだけど、安すぎて一日中使っても10ドルのOpenCode Goサブスクリプションを使い切れないくらい。そのせいでいつも最大モードで使ってるんだけど、これからは「高」設定にした方がいいのかな?

3
antirez
11日前

ランダムで面白い、そして示唆に富むデータポイントを一つ。僕のMacBook M3 MaxでDS4がフルスピードでトークン生成してるとき、消費電力がピークで50Wまでいくんだよね……。

4
nazgulsenpai
11日前

DS4ってよく目にするんだけど、脳内で勝手に「Dark Souls 4」(悲しい…)、「DualShock 4」、「DeepSeek 4」の順で変換されちゃう。

5
sourcecodeplz
11日前

素晴らしいプロジェクト!本人も認めてる通り、目的を持った「Vibe-coded(雰囲気コーディング)」プロジェクトの良例だね。

6
kgeist
11日前

へへ、実は少し前にQwen3モデルで似たようなものを作ったんだ。Qwen3専用で、特定の量子化のみサポート、GGUFからロードして推論はClaude(ループ内)で最適化するっていう。全体がコンパクト(たった数ファイル)で構成が追いやすい。学生がいろいろいじって学べるように作ったんだ(デコード戦略を変えたり、アブリレーションを試したりとか)。既存のフレームワークは巨大で複雑でハックしにくいし、かといって教育用プロジェクトはGPT-2みたいに古臭いものが多いからね。

教育用として作ったけど、頭から離れないアイデアが浮かんだよ。「特定のGPUとモデルの組み合わせに最適化された、超特化型推論エンジン」を作るのはどうかってこと。GPUは高いし手に入りにくくなってる。抽象化を削ぎ落としてハードウェアとモデルに直書きすれば、かなり最適化できるはず(期待したい)。推論をループで最適化するエージェントを走らせて、速度と品質を実証的にテストするような感じ。

唯一の難点は、モデルが古くなるたびに最初からやり直しってことだけどね。

7
visarga
11日前

MacBookで大きなLLMを動かすとトークン生成速度は許容範囲内なんだけど、問題はコンテキストの読み込みなんだ。チャットセッションみたいにKVキャッシュがあるインクリメンタルな読み込みじゃなくて、大きなファイルを貼り付けたときのような巨大な読み込みね。数分かかることもある。

8
Havoc
11日前

ワクワクしてたんだけど、DS Flashも結局めちゃくちゃデカいって気づいてガッカリ。まあいいや……とにかく存在してくれるのは嬉しいし、antirezが今も面白いことをやってるのは最高だね。

9
layoric
11日前

すごく印象的。一つ奇妙に感じるのは、大きな入力を処理する前にレスポンスが始まるまで4分くらいかかること?普段MacでLLMを動かさないから驚きなんだけど、これって実用上かなりの足かせになりそうじゃないかな。

追記:キャッシュの仕様を考えると普段使いの理由は納得できるね:

Claude Codeは有用な作業を始める前に、25kトークン程度の大きな初期プロンプトを送ることがある。--kv-disk-dirを有効にしておけば、最初の重いプリフィルが終わった後、ディスクのKVキャッシュのおかげで、続きやセッション再開時にプロンプト全体を再処理する代わりに、保存されたプレフィックスを再利用できるんだ。

10
lhl
11日前

SOTA AIの力を使ってカーネルを最適化できるようになった今、もっと多くの人が自分のハードウェアに合わせて推論を最適化することに挑戦すべきだと思う。

僕は古いW7900(RDNA3)を持っていて、48GBのVRAM以外にも、123 FP16 TFLOPS/INT8 TOPS、864 GB/s MBWとスペックはかなりいい。でもAMD(ROCm)からもllama.cppからもサポートが絶望的に悪いことで有名なんだ。

最近、このカードをエージェント/コーダー用の専用エンドポイントにしようと決めて、W8A8-INT8モデルのチューニングを始めた。数日間オートループさせて(いろんなフロンティア/SOTAモデルを800回くらい試した。Kimi K2.6が意外と優秀だったよ)、Qwen3.6 MoEにおいて、既存のllama.cppの最高数値をプリフィルで+20%、デコードで+50%上回る結果が出せた。

今はMTPとDFlashの最適化を追い込んでるところ。かなり結果に満足してるし、次はGemma 4を試してみるつもり。