2026年、ローカルLLM構築でNVIDIA一強はもう古い？今選ぶべきGPUの最適解

同じく。5070tiと9070にするわ。

TheHiveFather

👍48日前

返信先:>>33

同じく、5090、GB10、Halo Strixでいくつもり。

DanceWithEverything

👍38日前

推論ワークロードはシャードしてるの？あと、学習は全部GB10でやってる？

TheHiveFather

👍68日前

返信先:>>35

一般的な意味とは違うかもだけど、自分はメインのインターフェース用に5つのモデルを会議形式で走らせてるよ。「草案」「検証」「推敲」「再検証」「論理構築」っていう流れで最後に統合される仕組み。タスクに応じて役割の異なるモデルを合計11個動かしてて、機能やハードウェアに合わせてスペシャリストを配置してるような感じかな。

super1701

👍28日前

gb10とHalo Strixの調子はどう？今のRTX 8000デュアル構成の置き換えか、あるいは補完として買おうか迷ってるんだよね。

TheHiveFather

👍48日前

返信先:>>37

どっちも好きだよ。Halo Strixをけなす人もいるけど、自分は全く問題なく使えてるし、正直一番信頼してるシステムだよ。GB10については、DGX Sparkを2台使ってるけど、セットアップや学習期間に少し手間取った以外は、低電力のAI用途には最高だよ。どっちもおすすめできる。

mastercoder123

👍28日前

返信先:>>38

Strix HaloがメモリのためにPCIeレーンを食っちゃってるのがマジで納得いかない。おかげでほとんどのマザーボードだとPCIeスロット用に4レーンしか残らないんだよ。Strix Haloをいくつかクラスタリングしたいんだけど、8GB/sじゃさすがに足りないよな。あと、gb10がInfiniBandに対応してないのもちょっと残念。スイッチを使うならEthernetに比べて劇的にレイテンシが下げられたはずなんだけど。

Excellent-Cup-1786

👍18日前

返信先:>>38

捨てられてたgb10を拾ったんだけど。たまたまかもしれないけど、みんなどれくらいのモデルを1枚で動かしてるのか気になる。

nasduia

👍18日前

返信先:>>37

SparkもThorも、今さらだけどNvidiaのソフトウェアサポートがひどい。NVFP4はいまだにお粗末で、まともに動かなくてエミュレートされちゃうし。MIGも、1月のJetpackリリースで対応するはずだったのにThorではまだサポートされてない。

Thor自体は悪くないし、省電力だから複数のモデルを常時ロードしておくインファレンス機としてはいいけど、特定のユースケースでニッチな機能が必要（俺はそうなんだけど）ってわけじゃないなら、コスパがいいとは言えないかな。メモリ帯域が絶望的に狭いから、基本的には4-bit量子化されたMoEで凌ぐ必要があるね。

とはいえ、64GBのM2 Max Mac StudioよりはThorの方がいい感じ。MLXのエコシステムはnvidiaやvLLMに比べると全然発展途上だしね。ただoMLXは期待できそうだし、自分が使ってる中ではApple系のインファレンスエンジンの中で一番ツール呼び出しが安定してる。

totosse17

👍48日前

インフィニティ・ストーンでも集めてるの？

TheHiveFather

👍18日前

返信先:>>42

はは、まさにそんな感じ。次はDGX Stationがリスト入りだね…

xXDennisXx3000

👍38日前

なんか混同してるみたいだね。「Halo Strix」じゃなくて「Strix Halo」だよ。

TheHiveFather

👍38日前

返信先:>>44

はは、そうそう、補足ありがとう。そのシステムに「Halo」って名前を付けたんだけど、今思えばGorgon Haloと被っててあんまり意味なかったな。リネームするのが面倒でつい適当にしちゃうんだ。

Ell2509

👍28日前

返信先:>>33

マジで！？どういう仕組み？レイヤーを分割できるのか、それとも単なる並列化ってこと？

quantgorithm

👍28日前

それ詳しく教えてよ。使い心地はどう？遅かったりしない？

Vaguswarrior

👍78日前

返信先:>>47

正直まだ初心者で、セットアップを動かし始めたばかりなんだ。16GBの9070 XTをPCIe 5スロットに挿してるんだけど、ケースがミドルタワーだから残念ながら他のPCIe 5.0 16xスロットと並ぶ拡張スロットの空きがなくて、結局新しいケースが必要になりそう。今はM.2 Oculink経由でeGPUドックに繋いで、そこに古い1080 Tiを挿してVRAMを11GB足してる状態。PCIe 3.0の速度になっちゃうけどね。テストしてみたら、qwen3.6 27b q6で30t/sは出てる。ただ正直、基本的なセットアップすら苦戦してて、全然最適化されてないと思う。

arcanemachined

👍18日前

Vulkanはどう？

Vaguswarrior

👍28日前

返信先:>>49

そうそう！「とにかく動く™」って感じだったよ。

Much-Researcher6135

👍38日前

同感。自分は3060 + 3090 + 2xR9700を積んでるから、12 + 24 + 2x32 = 100GB VRAMってとこかな。ああ、自分も少しやりすぎたね。

cleversmoke

👍18日前

厳密には私もミックス構成だけど、AMDのiGPUをディスプレイとソフトウェアアクセラレーション専用にして、RTXをヘッドレスにしてるんだ。これってカウントされるよね？

BannedByOP

👍38日前

同じく！自分は推論にVulkanを使って3090+9070XTを動かしてて、1070tiをシステム用に分けて使ってる。これでVRAM 40GB。1070tiからあと4-5GB捻出できそうだけど、今の設定でいくことにしたよ。

こんなふうにレーンを分割してPCIE速度が制限されても、フローにはそれほど影響ないみたいだしね。

モデルはQwen3.6の4_Bit量子化を使ってる。巨大なコンテキストウィンドウを使ってもCPUオフロードが発生しないスイートスポットみたいだ。

Ollama経由で実行してClineに繋いでるから、コンテキストウィンドウは大きくないとね。

自分も初心者だけど、Ollamaで正しいフラグを見つけるのには苦労したよ。Vulkan対応デバイスだって明示しても、Nvidiaカード向けにCUDAを使おうとしてきやがって。魔法の環境変数は「Ollama_LLM_Library=Vulkan」だった。

追記：そうそう、3090にはライザーケーブルを使ってる。それがないと上の2つのスロットを使えないからね。間違いなくフランケンシュタインな構成だよ。

pmv143

👍18日前

メモリを合算して使うことはできないよ。

Vaguswarrior

👍28日前

返信先:>>54

いや違うんだけど、それなら数千ドル節約できるからいいかなって思ってさ。

pmv143

👍18日前

返信先:>>55

なるほどね。NvidiaのGPUは消費電力が高いって聞いたことがあるけど、実際どうなの？

Vaguswarrior

👍28日前

返信先:>>56

正直、1080 Tiが最後に使ったNvidia製品かな。その後は6900 XTにして、今は9070 XTを使ってる。Nvidiaは供給網の問題で手に入りにくかったから、選択肢として考えもしなかったよ。現実的な話、自分にとってローカルLLMは余ったパーツでやる趣味みたいなもんだし、そこまでメインの関心事じゃないからね。

rwa2

👍38日前

最先端機能を試すならその通り。でも、確立されたパイプラインで純粋にトークンあたりの単価を追求するなら、大抵はそうじゃないね。

totosse17

👍28日前

返信先:>>58

TPS（トークン毎秒）と価格で比較すると、やっぱりNvidiaが優勢だね。高いけど、その分TPSも出るし。唯一の違いはsparkかhaloかってところだけど、そこはプロンプト処理に差が出るね。

opossum_cz

👍48日前

返信先:>>59

自分はHalo Strixを使ってるけど、これに対抗できるものがあるのか疑問だな。そんなに速くはないけど、巨大なモデルをロードできるし、価格もそこまで高くないし、消費電力も低い。もしAMDがもっと高いメモリ帯域幅と高クロックの256GB RAMを積んだやつを出してきたら、キラーデバイスになるだろうね。

fazalmajid

👍18日前

返信先:>>60

新しいStrix Halo 495なら192GBまでいけるぞ。

opossum_cz

👍18日前

返信先:>>61

うん、Gordonのスペック表は読んだよ。

j_osb

8日前

返信先:>>59

いや、そうでもないかな。俺のところだと5060TI 16GBと9070が同じ価格なんだよ。あらゆる面で9070が5060TIを圧倒してるし、唯一勝ってるとしたらFP4くらい？地域差があるのは間違いないけど、それは論点じゃない。全体的にそうとは言い切れないって話。あとMI50は価格の割にトークン生成速度がかなり優秀だし、特にメモリサイズを考えれば尚更だよ。今の価格帯でNVIDIAの同等品となるとP40になるけど、あっちの方がすべてにおいて劣ってるしね。

ycnz

👍18日前

返信先:>>63

5060と比べた時のスピードはどう？

Slow-Ability6984

👍38日前

うん、そうだよ。

noctrex

👍68日前

彼らは20年もかけてCUDAエコシステムを築き上げてきたんだ。もう誰も手が付けられない状態だよ。今後何年もね。足元にも及ぶものなんてない。ブランド間の市場シェアを見れば一目瞭然だ。実質的な独占状態だよ。https://preview.redd.it/xj4cb22ar43h1.png?width=2989&format=png&auto=webp&s=ee6871fcf277fc8103b7f483c32e7719f74def8b とはいえ、自分は7900XTXを選んだけどね。安くで24GBが手に入るからさ。

BoogerheadCult

👍48日前

いやいや、NVIDIA信者が価格をありえないレベルまで吊り上げてるよ。VRAMあたりのコストは競合の2〜3倍だし、もう別の選択肢を探してる。決め手になったのは、マイニングで使われてたことを隠そうともしない3090の中古が1200ドルで売られてたこと。冗談だろって思ったよ。

SolemnFuture

👍28日前

返信先:>>67

7900 xtxかarc pro b70を買おうか迷ってるんだよね。どっちがいいか分からないな。

New_Comfortable7240

👍28日前

返信先:>>68

AMDの方がサポートはいいよ。ノートPCでIntelのGPUを使ってるけど、サポートはいまいちだし。

Momsbestboy

👍28日前

返信先:>>68

R9700はB70と同じ価格帯だけど、あっちの方が速いよ。Nvidia信者の速度自慢は無視しとけ。彼らの自慢の4090 24GBで32GB必要なLLMを動かしてみろよ。途端にt/s（トークン毎秒）なんて大した数字じゃなくなるからさ。

No-Refrigerator-1672

👍68日前

返信先:>>67

Alibabaから3080 20GBをペアで直接注文すれば、送料と税込みで1枚500ユーロで済むよ。自分にとってはこれが文句なしのコスパ最強。2080Ti 22GBを選べば100ユーロくらい浮くけど、Tensorコアが古いせいでプロンプト処理性能がかなり落ちるからね。新品を買うよりも、改造無しの中古を買うよりも、こういうカードを買う方が圧倒的に合理的だよ。AMDやIntelじゃ価格性能比で勝負にならないし、ソフトウェアの互換性を考えたら尚更だね。

sooki10

👍28日前

返信先:>>71

でも、カードの代わりに中身が米袋みたいな詐欺品が届くリスクはないの？どうやってそのリスクを減らしてるんだい？

No-Refrigerator-1672

👍28日前

返信先:>>72

そのあたりは簡単だよ。Alibabaで買うときは必ず公式プラットフォームを通して取引すること。そうすればeBayみたいな購入者保護が受けられるから。自分も過去に2回Alibaba経由でGPUを買ったことがある。これが決定的な証拠になるとは言わないけど、まともに動くGPUが届く確率は決してゼロじゃない。ここのAlibabaカードのレビューに詳しく書いたから読んでみて。購入フローの詳細は最後の段落にあるよ。あと、コメント欄を見ると自分の推奨でカードを購入した人たちが他にもいるはずだから、彼らに直接メッセージを送って経験を聞いてみるのもいいかも。

Sooperooser

👍58日前

M4ってどうやったら22Wだけで動くのさ！？

Dry_Yam_4597

8日前

返信先:>>74

パフォーマンスが悪いな

Fast-Throat-7752

👍18日前

返信先:>>74

十中八九Mac miniじゃないかな。

llama-of-death

👍28日前

現時点では最高だけど、2027年までには状況が大きく変わるような気がする。GPUを完全にバイパスする手法がブレイクスルーを起こせば、Nvidiaの株主たちを大いに震撼させることになるだろうね。

CatConfuser2022

👍28日前

返信先:>>77

どんなブレイクスルーを想定してるの？BitNetの量子化とか、光学GPUとか？

Loud-Swim-2932

👍18日前

結局NVIDIAが一番手っ取り早い解決策ってことなんだろうな。

usa_reddit

👍48日前

MシリーズかNvidiaか、その二択だね。

HaggardSummaries

👍78日前

だよね。でも、このコメント欄には現実逃避してる奴らが多すぎ。

Kal-LZ

👍108日前

俺のDual R9700 32GB構成は、2500ユーロ＋税だけで組めて、今までで一番最高の投資だったよ。

migsperez

👍68日前

返信先:>>82

自分もすごく迷ってるんだ。でもQwen 3.6 27bのリアルな実測データが見つからなくて、購入に踏み切れないでいる。入力コンテキストはいつも32kから80kくらいなんだけど、何か統計データ持ってない？

sloptimizer

👍78日前

返信先:>>83

R9700を2枚使ってコンテキスト36kトークンのテキストを処理した時の結果をサクッと載せるね。

./build/bin/llama-server \
    --alias Qwen3.6-27B \
    --model /models/unsloth/Qwen3.6-27B/Qwen3.6-27B-Q8_0.gguf \
    --mmproj /models/unsloth/Qwen3.6-27B/Qwen3.6-27B-mmproj-BF16.gguf \
    --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.04 \
    --repeat-penalty 1.04 --repeat-last-n 256 \
    --spec-type draft-mtp --spec-draft-n-max 3 \
    --ctx-size 256000 \
    --cache-ram 11000 \
    -fa on \
    -b 1024 -ub 1024 \
    --n-gpu-layers 99 \
    -sm tensor \
    --device ROCM0,ROCM1 \
    --kv-unified \
    --parallel 1 \
    --threads 32 \
    --host 127.0.0.1

Prompt Processing: 504.75 トークン/秒
Token generation: 47.54 トークン/秒

こっちはR9700を4枚使って同じく36kコンテキストのテストをした結果:

Prompt Processing: 807.42 トークン/秒
Token generation: 56.40 トークン/秒

migsperez

👍28日前

返信先:>>84

わお、それはすごいな。トークン生成速度については予想以上だ。情報共有ありがとう！

Much-Researcher6135

👍28日前

返信先:>>82

そう、私も2枚買っちゃった。すごく満足してるよ。3090も素晴らしいけど、24GBから36GBのVRAMになれば、少し遅くなったとしても恩恵は大きいからね。それに最近のMoEモデルは優秀だから、スピードはそこまで重要じゃない。とはいえ、5090のスピードは信じられないほど速いけどな。

oxygen_addiction

👍18日前

返信先:>>86

3090 RTXと比べてどれくらい遅いの？

RoaRene317

👍48日前

推論？いや、Appleにしたほうがいい。Appleシリコンの方が安上がりだしね。学習やファインチューニングならCUDAがいい。CUDAでの学習なら箱から出してすぐ動くし、GPUコードのデバッグの手間も少ない。

Happy_Brilliant7827

👍98日前

ユニファイドメモリを積んだmLx macでしか動かないような最先端ツールもあるよ。Qwen3.6のMoEルーティングとかね。

DanceWithEverything

👍98日前

返信先:>>89

Strix HaloでのMLX推論サポート（ROCm経由）が、もうすぐ実現しそうだよ。

Vaguswarrior

👍38日前

返信先:>>90

お、それは楽しみだね。

DanceWithEverything

👍48日前

返信先:>>91

もし事前にテストしてみたいならこれを使って：https://github.com/lemonade-sdk/lemon-mlx-engine

_hephaestus

👍68日前

返信先:>>89

ここでいうルーティングってどういう意味？

ttkciar

👍388日前

差はかなり縮まってきたけど、AMD GPUを使うことの欠点はまだあるね。自分はホームラボ環境を全部AMD（MI60, MI50, V340）で固めてて、Vulkanバックエンドでコンパイルしたllama.cppで推論する分には素晴らしくて快適そのもの。でも、テキスト推論以外の、学習とか画像生成に手を出そうとすると、ROCmの面倒ごとに直面するし、AMDのサポートもまだまだ「発展途上」って感じ。とはいえ、AMDのハードはコスパが最強っていうメリットはある。例えばMI50ならたった600ドルで手に入るし、それで32GBのVRAMと1TB/sのメモリ帯域が手に入るんだから。それに、AMD GPUのISAは公開されていてドキュメントも揃ってるし、ドライバーもオープンソースだ。メーカー側の不透明なバイナリ・ブロブに依存しなくていいから、古いモデルのサポートが突然打ち切られるなんてこともない。少なくとも理論上は、AMDがどう決めようがコミュニティ側でサポートし続けられるはず。どっちが良いかなんて一概には言えない。自分ももっと学習をこなせるようになりたいし、そのためにNvidia GPUを買おうかと迷うこともある。何年も「llama.cppのネイティブ学習機能がそのうち戻ってくるはず」と思って、快適なVulkanバックエンドで学習できればいいなと期待してたけど、llama.cppの学習機能は中途半端なまま放置されそうな気配が強まってる。自分で開発に参加してみようかとも思うけど、専門外だし、これ以上プロジェクトを増やすのも勘弁って感じかな。Nvidia/AMD以外だと、Macのユニファイドメモリにも一理ある。ローカルで大規模モデルをそれなりの速度で動かすためのターンキーソリューションとしては最適だよ。512GB版のMac Studioが買えた頃は、多重GPU構成の化け物マシンを自作せずともGLM-5.1をフルコンテキストで動かしたい人にとっては定番だった。ただ、LoRAのファインチューニングとかnanoGPTみたいな学習用モデルは別として、Macはガチの学習用途には実用的じゃないと思う。Intelについては、よくわからないな。後追い状態だし、この分野でAMDやNvidiaと肩を並べるポテンシャルはあるかもしれないけど、現時点でそこに到達してるかは疑問。まあ、今後どうなるか見守るしかないね。

Responsible_Buy_7999

8日前

いいまとめだね。Intelには期待してないな。ここ25年で彼らが主導権を握れなかった、あるいは挑まなかったイノベーションは多いし、推論でも同じことになるだろう。数年以内にNvidiaが買収するんじゃないかな。現状で時価総額は1対9だし、Intelの衰退が続けばその差はさらに開くだろうし。

Far-Low-4705

👍68日前

MI50を2枚使ってllama.cppを動かしてるけど、それなりにクラッシュを経験してるよ。システム丸ごとのクラッシュもあって、特にQwen3.6 27bみたいな大規模な密モデルや、特にgemma 4 31bで酷い。VRAMはモデルを2回ロードしてもお釣りがくるくらい余裕があるのにね。

あとパフォーマンスも期待以下で、かなりポテンシャルを無駄にしている感じ。Qwen 35bで50-60 T/sしか出ないんだ。みんなMI50よりスペックの低いNvidiaカードで100 T/s以上出てるって報告してるのに。

でも価格を考えれば文句は言えないかな。他の方法じゃ30bモデルなんて動かせなかっただろうし。

HonestoJago

👍28日前

じゃあvLLMが使えないってこと？それはかなり痛いね。

ttkciar

👍68日前

返信先:>>97

vLLMを使いたいところだけど、vLLMのAMDサポートはROCmに依存してて、それがもう面倒くさくてたまらない。

幸いなことに自分はvLLMにこだわってないから、問題にはなってないけど。

TiagodePAlves

👍18日前

返信先:>>98

Arch LinuxでROCmを2年近く使ってるけど、これといった問題は起きてないよ。もしかして、他のソフトウェアスタックが原因なんじゃないかな？

100

SciPiTie

👍48日前

返信先:>>97

vLLM

これならいけるよ： https://docs.vllm.ai/en/v0.6.5/getting_started/amd-installation.html

101

buttplugs4life4me

👍38日前

AMDを使いたいんだけどね。もう10年近くAMD一筋だし。

でも、AMDで新しいことをやろうとすると本当に手間がかかりすぎるんだ。

102

Schlick7

👍18日前

MI50でVulkanだと！？俺が最後に確認したときは、ROCmと比べたらパフォーマンスは1/3くらいだったはずだけど。

103

yes_its_that_bad

👍18日前