HN256121

爆速でAIを使い倒せ！Jamesob流・最新LLMをローカル環境で動かす完全ガイド

Jamesob's guide to running SOTA LLMs locally

livestyle・1日前

議論

11件

0：livestyleスレ主▲2561日前

Jamesob氏による、最先端（SOTA）の大規模言語モデル（LLM）をローカル環境で実行するための包括的なガイドです。自身のマシンでAIを動かしたいエンジニアにとって必見の内容となっています。

リンク先:https://github.com/jamesob/local-llm

1：beardsciences1日前

自分はその中間の立ち位置かな。48GB/2000ドル以上のVRAMは欲しいけど、384GB/40000ドルも出すほどじゃないって感じ。GMKtecのEVO-X2なら約96GBのVRAMが使えるみたいだけど、3399ドルでこの用途の解決策としてアリなのか気になってる。

2：datadrivenangel1日前

「RTX 3090を2枚刺しで計48GBのVRAMにするのが一番の近道。そうすればQwen3.6-27Bのような最高なモデルも動かせるよ」

一応言っておくと、3000ドルあればメモリ48GBのMacBook Proが買えるし、場所も取らないよ。それに、その予算をクラウドホスティングに充てるのも検討してみて。よっぽど安く済むはずだし。まあ、ローカルでモデルを動かせるってのは最高なんだけどね。

3：kgeist1日前

4万ドル出せば「ほぼOpus」並みか

GLM 5.2は「ほぼOpus」だけど、快適に推論するには最低でもH200が8基必要（つまり4万ドルどころか40万ドルに近い）。

彼らはこの改変モデルを推奨してるみたいだね：

REAPで枝刈り（専門家ネットワークの約22%を削除）し、Int8-mix NVFP4で量子化したGLM-5.2（約594Bパラメータ）

ベンチマーク以外で実際にどう動くのか興味がある。Qwen3.6は6ビット量子化でも推論中にループすることがよくあるし、おまけに専門家ネットワークまで削ってあるからね。結局、8ビットや16ビットの小型モデルの方が、脳みそを削ぎ落とした巨大モデルより賢いなんてこともある。コーディング用途なら8ビット未満は避けるべき、というのが今のコンセンサスだと思ってる。

あと、RTX 6000を4枚に詰め込む場合、どれだけのコンテキストが残るのかも不明。100k未満だと、コンテキストを詰め込む前に圧縮でデータが落ちて使い物にならないことが多いから。ちなみにリポジトリによると240kコンテキストらしいけど。

4：Aurornis1日前

自分もローカルLLMをよくいじっていて、ハードウェアには必要以上に金をつぎ込んできた。もっとすごい額をかけてるコミュニティの仲間もいる。

みんなに警告しておきたいのは、期待値を下げて、細かい文字までちゃんと読むこと。記事に出てくる大きなビルドは4万ドル予算で始まってるけど、1枚1万2000ドルのGPUが4枚必要になる。計算すればわかるけど、実際には5万〜5万5000ドルくらいかかるはず。

あと、ローカル環境は量子化やREAPのような技術に頼ってモデルを無理やり収めていることが多い。4ビット量子化は可逆的だなんて主張をよく目にするけど、あれは小さなデータセットでのKLダイバージェンスに基づいたものに過ぎない。長文のコーディングタスクで4ビットモデルを使ってみれば、品質が明らかに落ちるのがわかるよ。データセット分析みたいな非コーディングタスクですら、4ビットモデル、8ビット量子化、そしてフル16ビットソースとの間には無視できない品質の差がある。

記事ではREAPモデルを推奨しているけど、これは重みを削ってサイズを小さくしているということ。特定のタスクに不要な重みを削るというアイデアだけど、結局は出力の全体的な品質を下げることになる。

怖いのは「ローカルでGLM-5.2を動かしてるぞ！」と周りに言いふらして、GLM-5.2のベンチマークを見て感動するパターンだ。実際にはGLM-5.2なんて動かしてなくて、ビットを大部分捨てて専門家ネットワークも間引いた「別物」を動かしてるんだから。ベンチマーク通りの性能は出ない。簡単なタスクや雑談なら誤差は気にならないかもしれないけど、小さなミスが積み重なる長文タスクで使い始めると、その乖離が本当に辛くなってくる。

そうやって5万ドル突っ込んだ後に、今度は「あと1、2枚GPUを足せば量子化のレベルが上がって品質も良くなるはず…」なんていう泥沼にハマっていくんだ。

5：turova1日前

Qwen3.6-27Bなら、q4量子化版を使って3090一枚でも250kのコンテキストをフルに使えるよ。ストレスを感じるような速度でもないから、3090を2枚刺しにして速度を稼ぐ価値は自分にはないかな。3090×2で速度を半分にしてコンテキストを小さくしてq6を動かすのも手だけど、結局SOTAモデルには勝てないし、今から3090を2枚用意するくらいなら、今の価格相場だと1枚で十分だと思う。設定次第でかなりいろいろできるしね。

6：chompychop1日前

Whisperってまだ音声認識（STT）のSOTA（最先端）なのかな？出てからもう何年も経つし、もっといいモデルがすでにあるものだと思ってた。

7：3eb7988a1663約23時間前

関連して質問。一番安全な隔離システムって何だろう？フルサイズのVMを積むしかないのか、それともFirecrackerみたいな軽いもので済むのか？

既存の選択肢はどれも、うっかり設定をミスったらセキュリティが崩壊するような罠がある気がしてならない。VMを使ってるのは、セキュリティが技術の基礎にあると信頼できるからであって、「これら20個のフラグを立てて、こうすれば安全」みたいな小細工は信用できないんだ。

8：jacobgold約23時間前

「約4万ドル。この価格帯なら、Claude Opusに近いインテリジェンスを備えた次のレベルのモデルが手に入る」

これって、月額200ドルのClaude Opus 4.8やCodex GPT 5.5を16.8年間利用するのと同じコストなんだよね。

ローカルモデルを動かすのは大好きだけど、現状ではあまりに高額だし、品質は低いし、バックドアが仕込まれていたら危険というリスクもある。この状況が早く変わってほしいと本気で思うよ。

9：GTP約22時間前

中間の選択肢も存在するよ。ユニファイドメモリアーキテクチャで128GBのVRAMを確保できれば、DwarfStar経由でDeepSeek V4 flashを高速に動かせる。自分はそこまで金は出さないけど、直感的にこれが多くの人にとってのベストな妥協点になるんじゃないかな。

10：ineptech約21時間前

今週ちょうどローカルLLMをセットアップしたところだから経験を共有するよ。自分はIntelのArc B70（32GB）を選んだ。3090より安くてRAMも多いけど、メモリバスは遅いね。

これにした理由は、使いたいモデルが24GBだと少し窮屈だったから。それに加えて、オートコンプリートや音声認識用に別の小さなモデルを動かす余裕も欲しかったし。それに、すでに持っていた安サーバーを活用したかったから、GPUを2枚にするとマザーボードや電源、ケースまで変える必要が出てきたんだ。

セットアップは確かに少し手間取った。Intel製は「level zero」というドライバパッケージが必要で、SYCL（Intel版のCUDAみたいなものらしい）を動かすのに苦労したよ。llama.cppをDockerコンテナで動かしているけど、コンテナにGPUを認識させるのも一苦労だった。あと数ヶ月以内の新しいカーネルも必須だね。

でも、動いてしまえば1000ドルの投資としては素晴らしい結果だよ。Qwen 3.6 35Bのq4量子化がRAMの4分の3くらいを使って、88トークン/秒くらいで動く。安くそこそこのサイズのモデルを動かしたいなら、一つの選択肢としておすすめ。