ディスカッション (150件)
2026年現在、ローカルLLMを動かすためのGPUとして、NVIDIA製を選ぶのが依然としてデフォルトの正解と言えるのでしょうか?最新のGPU事情や環境の変化を踏まえた議論が必要です。
MSRP(メーカー希望小売価格)なんてここではほとんど役に立たない数字だよ。数年前の基準か、現行世代ならただの理想価格って感じだし。
発表されたローンチ時のMSRPに基づいているから、あくまで目安って感じだね。まあ実際の購入にはあんまり役立たないけど。
ああ、2k解像度で5090なんて夢のまた夢だよ。
NVIDIAのリストにメールアドレスを登録しときなよ。自分は去年2回当たったけど、結局買わなかったんだよね。めちゃくちゃ後悔してる。
それって無限にお金が増える裏技みたいなもんだな。
2000ドルでも自分には高すぎて信じられないよ。GPU込みのPC一式買った時の倍の値段だし。追記:おいおい、GPUに2000ドルも出せないってだけで誰がダウンボートしたんだよ…
私もそう思ってた。去年1800ドルで新しいノートPCを買った時、ショックで死ぬかと思ったよ。個人用PCに払った最高額の2倍だったしね。でも今週にはGB10に3500ドルもつぎ込んで、次は高速ストレージサーバーを組もうと計画してる。それも多分同じくらいかかるだろうな。インフラのアップグレードはその後だ。高くつく職業や趣味だけど、ある程度最新のものを追っておかないとね。
俺なんてAIサーバー用にAMDのMI50(32GB)を2枚、200ドルで買っただけで大金叩いた気分だったよ :')
2000ドルなんて想像もできない。まあ、そもそも金がないんだけどさ(笑)
まあ言いたいことはわかるよ。私も同じことをしたし…その値段でPC一式組めたよな。でも時代が変わったんだ…昔のような状況にはもうしばらく戻らないだろうね。
昔は5セントあればコーラ2本と俺の頭くらいデカいブラックリコリスの袋が買えて、お釣りまで返ってきたもんだぜ!
RTX 4090がその価格だったことなんて一度もないぞ。
デフォルトじゃないけど、9割はそんな感じだね。ここにまとめたよ: https://llmrequirements.com/state-of-local-ai/
素晴らしいリソースだね。ありがとう!
このガイド素晴らしいね。ユニファイドメモリ搭載のマシンを網羅してるけど、128GB RAM搭載のM3 Max MBPについては特に言及がないみたいだ。このマシンについて何かコメントはある?それともガイドの中のどのクラスに相当するのか教えてくれる?
Strix HaloやDGX Sparkと比較して、TPSが約2倍良いくらいかな。ただモデル自体は同じだし、denseでもそれなりの速度で動かせるかもしれない。でも、Spark 2個分やHalo 3個分くらいのコストがかかるし、その価格帯ならもっと良い選択肢があるよね。それにしても、おかげでM5 MacBooksがビルド対象外になってることに気づけたよ。追加しておく。Appleの選択肢についてだけど、以前のStudioは最大メモリ構成なら良かったんだけど、今はもう売ってないんだよね。新しいStudioのリフレッシュで何が出てくるか期待しよう。
--cpu-moeが足りないな。エキスパート層はVRAMに置く必要ないだろ。
ずっと疑問に思ってた変なことなんだけどさ…エキスパートってトークンごとに切り替えられないの?VRAMに載せておきたいんじゃないの?それとも切り替えはめったに発生しないのか、それともトークンごとに切り替えるだけの帯域幅があるのかどっちなんだろ?
切り替えてるんじゃなくて、CPUで計算してるんだよ。結構速いみたいで、16コア(5070 Tiとは別に)でQ8_0、コンテキスト150kの時にPP/TGで約2000/32 t/sが出てる。
そもそも、なぜこれがMoEモデルのエキスパートではうまくいくのに、MoEじゃないモデルの全結合層ではできないのかがわからないんだよね。何か見落としてる要素がある気がする。
アテンションレイヤーの方が圧倒的に負荷が高いからね。
理解はしたんだけど、自分の認識ではMoEはアテンション層の後のフィードフォワードネットワークを置き換えるもので、各エキスパートはMoEじゃないモデルのFFNと同じサイズのはずだと思ってる。だから、どこでゲインが出るのかが分からない。結局FFNの計算は必要だし、行列のサイズも変わらないよね?
https://huggingface.co/lmstudio-community/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-Q8_0.gguf ここの128(あるいは256?)あるエキスパートがそれぞれどのくらいのサイズなのか調べようとしたんだけど、分からなかった。
でもここを見てみて:
エキスパートは40GBくらいあるみたいで、128(あるいは256?)で割るとエキスパートあたり320MBって計算になるね。確かトークンごとに8つがアクティブになるんだったかな?
セットアップ内容をどこかに記録してたりする?
CPU: Ryzen 7950X RAM: 96 GB DDR5-5200 GPU: 5070 Ti [実行設定のコマンド類] set batchsize=4096 set cachetype=q8_0 llama-server ^ --model .lmstudio/models/lmstudio-community/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-Q8_0.gguf ^ --ctx-size 150000 ^ --n-predict 75000 ^ --no-mmap ^ --direct-io ^ --host 0.0.0.0 ^ --temperature 0.6 ^ --top-k 20 ^ --min-p 0.0 ^ --cpu-moe ^ --batch-size %batchsize% ^ --ubatch-size %batchsize% ^ --parallel 1 ^ --flash-attn on ^ --cache-type-k %cachetype% ^ --cache-type-v %cachetype%
30 tpsってシングルストリームでの数値?価格的にはStrix Haloより少し安そうに見えるね。アップグレードの自由度があるのはメリットだけど、30 tpsだと遅いのが難点だな。
シングルストリームならそうだよ。
ああ、そうだった。今PCを新調したらRAMの価格もバカにならないってことを一瞬忘れてたよ。追加投資なしで今の数値に達せていることに満足していただけだったわ。
すごく参考になった、ありがとう!
それはそうと、なんで5070 tiが検討候補に入っていないのか不思議だよ。自分にとっては良い選択肢だと思うんだけど。
5070 Tiより少し高い金を出せば、もっとメモリと帯域幅がある3090が手に入るよ。それに5070 Tiじゃまともなモデルとコンテキストを読み込めないから、結局RAMへのオフロードが発生しちゃう。パターンは2つあって、ローカルAI専用の別PCがあるなら、5070 Ti構成なんて意味がない。もう1つはメインPCでローカルAIを動かす場合だけど、それだとLLMが処理中にPCがほぼ使い物にならなくなる。だからあまり良い選択肢とは言えない。データ処理には使えるけど、エージェントやコーディングには向かないね。
確かにそうだけど、古いハードウェアだと中古を買わざるを得ないし、どんな扱いをされてきたか分からないでしょ…。それに自分のベンチマークだと、5070 Tiの方が3090よりわずかに性能が良いんだ。まあ、誤差レベルだけどね。自分のマシンは5070 Tiを2枚挿ししたAI専用機だけど、かなり満足してるよ。
いけるかもしれないけど、実際にそういう構成にしている人のデータってネット上だとなかなか見つからないよね。それに3090じゃないならArc B70かな。5070 Tiを2枚挿して、電源ユニットと残りのパーツを揃えるとまた一段と値段が上がるし。
俺はNvidiaとAMDをごちゃ混ぜにしたフランケン構成で使ってるわ。🤷🏽♂️
同じく。5070tiと9070にするわ。
同じく、5090、GB10、Halo Strixでいくつもり。
推論ワークロードはシャードしてるの?あと、学習は全部GB10でやってる?
一般的な意味とは違うかもだけど、自分はメインのインターフェース用に5つのモデルを会議形式で走らせてるよ。「草案」「検証」「推敲」「再検証」「論理構築」っていう流れで最後に統合される仕組み。タスクに応じて役割の異なるモデルを合計11個動かしてて、機能やハードウェアに合わせてスペシャリストを配置してるような感じかな。
gb10とHalo Strixの調子はどう?今のRTX 8000デュアル構成の置き換えか、あるいは補完として買おうか迷ってるんだよね。
どっちも好きだよ。Halo Strixをけなす人もいるけど、自分は全く問題なく使えてるし、正直一番信頼してるシステムだよ。GB10については、DGX Sparkを2台使ってるけど、セットアップや学習期間に少し手間取った以外は、低電力のAI用途には最高だよ。どっちもおすすめできる。
Strix HaloがメモリのためにPCIeレーンを食っちゃってるのがマジで納得いかない。おかげでほとんどのマザーボードだとPCIeスロット用に4レーンしか残らないんだよ。Strix Haloをいくつかクラスタリングしたいんだけど、8GB/sじゃさすがに足りないよな。あと、gb10がInfiniBandに対応してないのもちょっと残念。スイッチを使うならEthernetに比べて劇的にレイテンシが下げられたはずなんだけど。
捨てられてたgb10を拾ったんだけど。たまたまかもしれないけど、みんなどれくらいのモデルを1枚で動かしてるのか気になる。
SparkもThorも、今さらだけどNvidiaのソフトウェアサポートがひどい。NVFP4はいまだにお粗末で、まともに動かなくてエミュレートされちゃうし。MIGも、1月のJetpackリリースで対応するはずだったのにThorではまだサポートされてない。
Thor自体は悪くないし、省電力だから複数のモデルを常時ロードしておくインファレンス機としてはいいけど、特定のユースケースでニッチな機能が必要(俺はそうなんだけど)ってわけじゃないなら、コスパがいいとは言えないかな。メモリ帯域が絶望的に狭いから、基本的には4-bit量子化されたMoEで凌ぐ必要があるね。
とはいえ、64GBのM2 Max Mac StudioよりはThorの方がいい感じ。MLXのエコシステムはnvidiaやvLLMに比べると全然発展途上だしね。ただoMLXは期待できそうだし、自分が使ってる中ではApple系のインファレンスエンジンの中で一番ツール呼び出しが安定してる。
インフィニティ・ストーンでも集めてるの?
はは、まさにそんな感じ。次はDGX Stationがリスト入りだね…
なんか混同してるみたいだね。「Halo Strix」じゃなくて「Strix Halo」だよ。
はは、そうそう、補足ありがとう。そのシステムに「Halo」って名前を付けたんだけど、今思えばGorgon Haloと被っててあんまり意味なかったな。リネームするのが面倒でつい適当にしちゃうんだ。
マジで!?どういう仕組み?レイヤーを分割できるのか、それとも単なる並列化ってこと?
それ詳しく教えてよ。使い心地はどう?遅かったりしない?
正直まだ初心者で、セットアップを動かし始めたばかりなんだ。16GBの9070 XTをPCIe 5スロットに挿してるんだけど、ケースがミドルタワーだから残念ながら他のPCIe 5.0 16xスロットと並ぶ拡張スロットの空きがなくて、結局新しいケースが必要になりそう。今はM.2 Oculink経由でeGPUドックに繋いで、そこに古い1080 Tiを挿してVRAMを11GB足してる状態。PCIe 3.0の速度になっちゃうけどね。テストしてみたら、qwen3.6 27b q6で30t/sは出てる。ただ正直、基本的なセットアップすら苦戦してて、全然最適化されてないと思う。
Vulkanはどう?
そうそう!「とにかく動く™」って感じだったよ。
同感。自分は3060 + 3090 + 2xR9700を積んでるから、12 + 24 + 2x32 = 100GB VRAMってとこかな。ああ、自分も少しやりすぎたね。
厳密には私もミックス構成だけど、AMDのiGPUをディスプレイとソフトウェアアクセラレーション専用にして、RTXをヘッドレスにしてるんだ。これってカウントされるよね?
同じく!自分は推論にVulkanを使って3090+9070XTを動かしてて、1070tiをシステム用に分けて使ってる。これでVRAM 40GB。1070tiからあと4-5GB捻出できそうだけど、今の設定でいくことにしたよ。
こんなふうにレーンを分割してPCIE速度が制限されても、フローにはそれほど影響ないみたいだしね。
モデルはQwen3.6の4_Bit量子化を使ってる。巨大なコンテキストウィンドウを使ってもCPUオフロードが発生しないスイートスポットみたいだ。
Ollama経由で実行してClineに繋いでるから、コンテキストウィンドウは大きくないとね。
自分も初心者だけど、Ollamaで正しいフラグを見つけるのには苦労したよ。Vulkan対応デバイスだって明示しても、Nvidiaカード向けにCUDAを使おうとしてきやがって。魔法の環境変数は「Ollama_LLM_Library=Vulkan」だった。
追記:そうそう、3090にはライザーケーブルを使ってる。それがないと上の2つのスロットを使えないからね。間違いなくフランケンシュタインな構成だよ。
メモリを合算して使うことはできないよ。
いや違うんだけど、それなら数千ドル節約できるからいいかなって思ってさ。
なるほどね。NvidiaのGPUは消費電力が高いって聞いたことがあるけど、実際どうなの?
正直、1080 Tiが最後に使ったNvidia製品かな。その後は6900 XTにして、今は9070 XTを使ってる。Nvidiaは供給網の問題で手に入りにくかったから、選択肢として考えもしなかったよ。現実的な話、自分にとってローカルLLMは余ったパーツでやる趣味みたいなもんだし、そこまでメインの関心事じゃないからね。
最先端機能を試すならその通り。でも、確立されたパイプラインで純粋にトークンあたりの単価を追求するなら、大抵はそうじゃないね。
TPS(トークン毎秒)と価格で比較すると、やっぱりNvidiaが優勢だね。高いけど、その分TPSも出るし。唯一の違いはsparkかhaloかってところだけど、そこはプロンプト処理に差が出るね。
自分はHalo Strixを使ってるけど、これに対抗できるものがあるのか疑問だな。そんなに速くはないけど、巨大なモデルをロードできるし、価格もそこまで高くないし、消費電力も低い。もしAMDがもっと高いメモリ帯域幅と高クロックの256GB RAMを積んだやつを出してきたら、キラーデバイスになるだろうね。
新しいStrix Halo 495なら192GBまでいけるぞ。
うん、Gordonのスペック表は読んだよ。
いや、そうでもないかな。俺のところだと5060TI 16GBと9070が同じ価格なんだよ。あらゆる面で9070が5060TIを圧倒してるし、唯一勝ってるとしたらFP4くらい?地域差があるのは間違いないけど、それは論点じゃない。全体的にそうとは言い切れないって話。あとMI50は価格の割にトークン生成速度がかなり優秀だし、特にメモリサイズを考えれば尚更だよ。今の価格帯でNVIDIAの同等品となるとP40になるけど、あっちの方がすべてにおいて劣ってるしね。
5060と比べた時のスピードはどう?
うん、そうだよ。
彼らは20年もかけてCUDAエコシステムを築き上げてきたんだ。もう誰も手が付けられない状態だよ。今後何年もね。足元にも及ぶものなんてない。ブランド間の市場シェアを見れば一目瞭然だ。実質的な独占状態だよ。https://preview.redd.it/xj4cb22ar43h1.png?width=2989&format=png&auto=webp&s=ee6871fcf277fc8103b7f483c32e7719f74def8b とはいえ、自分は7900XTXを選んだけどね。安くで24GBが手に入るからさ。
いやいや、NVIDIA信者が価格をありえないレベルまで吊り上げてるよ。VRAMあたりのコストは競合の2〜3倍だし、もう別の選択肢を探してる。決め手になったのは、マイニングで使われてたことを隠そうともしない3090の中古が1200ドルで売られてたこと。冗談だろって思ったよ。
7900 xtxかarc pro b70を買おうか迷ってるんだよね。どっちがいいか分からないな。
AMDの方がサポートはいいよ。ノートPCでIntelのGPUを使ってるけど、サポートはいまいちだし。
R9700はB70と同じ価格帯だけど、あっちの方が速いよ。Nvidia信者の速度自慢は無視しとけ。彼らの自慢の4090 24GBで32GB必要なLLMを動かしてみろよ。途端にt/s(トークン毎秒)なんて大した数字じゃなくなるからさ。
Alibabaから3080 20GBをペアで直接注文すれば、送料と税込みで1枚500ユーロで済むよ。自分にとってはこれが文句なしのコスパ最強。2080Ti 22GBを選べば100ユーロくらい浮くけど、Tensorコアが古いせいでプロンプト処理性能がかなり落ちるからね。新品を買うよりも、改造無しの中古を買うよりも、こういうカードを買う方が圧倒的に合理的だよ。AMDやIntelじゃ価格性能比で勝負にならないし、ソフトウェアの互換性を考えたら尚更だね。
でも、カードの代わりに中身が米袋みたいな詐欺品が届くリスクはないの?どうやってそのリスクを減らしてるんだい?
そのあたりは簡単だよ。Alibabaで買うときは必ず公式プラットフォームを通して取引すること。そうすればeBayみたいな購入者保護が受けられるから。自分も過去に2回Alibaba経由でGPUを買ったことがある。これが決定的な証拠になるとは言わないけど、まともに動くGPUが届く確率は決してゼロじゃない。ここのAlibabaカードのレビュー に詳しく書いたから読んでみて。購入フローの詳細は最後の段落にあるよ。あと、コメント欄を見ると自分の推奨でカードを購入した人たちが他にもいるはずだから、彼らに直接メッセージを送って経験を聞いてみるのもいいかも。
M4ってどうやったら22Wだけで動くのさ!?
パフォーマンスが悪いな
十中八九Mac miniじゃないかな。
現時点では最高だけど、2027年までには状況が大きく変わるような気がする。GPUを完全にバイパスする手法がブレイクスルーを起こせば、Nvidiaの株主たちを大いに震撼させることになるだろうね。
どんなブレイクスルーを想定してるの?BitNetの量子化とか、光学GPUとか?
結局NVIDIAが一番手っ取り早い解決策ってことなんだろうな。
MシリーズかNvidiaか、その二択だね。
だよね。でも、このコメント欄には現実逃避してる奴らが多すぎ。
俺のDual R9700 32GB構成は、2500ユーロ+税だけで組めて、今までで一番最高の投資だったよ。
自分もすごく迷ってるんだ。でもQwen 3.6 27bのリアルな実測データが見つからなくて、購入に踏み切れないでいる。入力コンテキストはいつも32kから80kくらいなんだけど、何か統計データ持ってない?
R9700を2枚使ってコンテキスト36kトークンのテキストを処理した時の結果をサクッと載せるね。
./build/bin/llama-server \
--alias Qwen3.6-27B \
--model /models/unsloth/Qwen3.6-27B/Qwen3.6-27B-Q8_0.gguf \
--mmproj /models/unsloth/Qwen3.6-27B/Qwen3.6-27B-mmproj-BF16.gguf \
--temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.04 \
--repeat-penalty 1.04 --repeat-last-n 256 \
--spec-type draft-mtp --spec-draft-n-max 3 \
--ctx-size 256000 \
--cache-ram 11000 \
-fa on \
-b 1024 -ub 1024 \
--n-gpu-layers 99 \
-sm tensor \
--device ROCM0,ROCM1 \
--kv-unified \
--parallel 1 \
--threads 32 \
--host 127.0.0.1
Prompt Processing: 504.75 トークン/秒
Token generation: 47.54 トークン/秒
こっちはR9700を4枚使って同じく36kコンテキストのテストをした結果:
Prompt Processing: 807.42 トークン/秒
Token generation: 56.40 トークン/秒
わお、それはすごいな。トークン生成速度については予想以上だ。情報共有ありがとう!
そう、私も2枚買っちゃった。すごく満足してるよ。3090も素晴らしいけど、24GBから36GBのVRAMになれば、少し遅くなったとしても恩恵は大きいからね。それに最近のMoEモデルは優秀だから、スピードはそこまで重要じゃない。とはいえ、5090のスピードは信じられないほど速いけどな。
3090 RTXと比べてどれくらい遅いの?
推論?いや、Appleにしたほうがいい。Appleシリコンの方が安上がりだしね。学習やファインチューニングならCUDAがいい。CUDAでの学習なら箱から出してすぐ動くし、GPUコードのデバッグの手間も少ない。
ユニファイドメモリを積んだmLx macでしか動かないような最先端ツールもあるよ。Qwen3.6のMoEルーティングとかね。
お、それは楽しみだね。
もし事前にテストしてみたいならこれを使って:https://github.com/lemonade-sdk/lemon-mlx-engine
ここでいうルーティングってどういう意味?
差はかなり縮まってきたけど、AMD GPUを使うことの欠点はまだあるね。自分はホームラボ環境を全部AMD(MI60, MI50, V340)で固めてて、Vulkanバックエンドでコンパイルしたllama.cppで推論する分には素晴らしくて快適そのもの。でも、テキスト推論以外の、学習とか画像生成に手を出そうとすると、ROCmの面倒ごとに直面するし、AMDのサポートもまだまだ「発展途上」って感じ。とはいえ、AMDのハードはコスパが最強っていうメリットはある。例えばMI50ならたった600ドルで手に入るし、それで32GBのVRAMと1TB/sのメモリ帯域が手に入るんだから。それに、AMD GPUのISAは公開されていてドキュメントも揃ってるし、ドライバーもオープンソースだ。メーカー側の不透明なバイナリ・ブロブに依存しなくていいから、古いモデルのサポートが突然打ち切られるなんてこともない。少なくとも理論上は、AMDがどう決めようがコミュニティ側でサポートし続けられるはず。どっちが良いかなんて一概には言えない。自分ももっと学習をこなせるようになりたいし、そのためにNvidia GPUを買おうかと迷うこともある。何年も「llama.cppのネイティブ学習機能がそのうち戻ってくるはず」と思って、快適なVulkanバックエンドで学習できればいいなと期待してたけど、llama.cppの学習機能は中途半端なまま放置されそうな気配が強まってる。自分で開発に参加してみようかとも思うけど、専門外だし、これ以上プロジェクトを増やすのも勘弁って感じかな。Nvidia/AMD以外だと、Macのユニファイドメモリにも一理ある。ローカルで大規模モデルをそれなりの速度で動かすためのターンキーソリューションとしては最適だよ。512GB版のMac Studioが買えた頃は、多重GPU構成の化け物マシンを自作せずともGLM-5.1をフルコンテキストで動かしたい人にとっては定番だった。ただ、LoRAのファインチューニングとかnanoGPTみたいな学習用モデルは別として、Macはガチの学習用途には実用的じゃないと思う。Intelについては、よくわからないな。後追い状態だし、この分野でAMDやNvidiaと肩を並べるポテンシャルはあるかもしれないけど、現時点でそこに到達してるかは疑問。まあ、今後どうなるか見守るしかないね。
いいまとめだね。Intelには期待してないな。ここ25年で彼らが主導権を握れなかった、あるいは挑まなかったイノベーションは多いし、推論でも同じことになるだろう。数年以内にNvidiaが買収するんじゃないかな。現状で時価総額は1対9だし、Intelの衰退が続けばその差はさらに開くだろうし。
MI50を2枚使ってllama.cppを動かしてるけど、それなりにクラッシュを経験してるよ。システム丸ごとのクラッシュもあって、特にQwen3.6 27bみたいな大規模な密モデルや、特にgemma 4 31bで酷い。VRAMはモデルを2回ロードしてもお釣りがくるくらい余裕があるのにね。
あとパフォーマンスも期待以下で、かなりポテンシャルを無駄にしている感じ。Qwen 35bで50-60 T/sしか出ないんだ。みんなMI50よりスペックの低いNvidiaカードで100 T/s以上出てるって報告してるのに。
でも価格を考えれば文句は言えないかな。他の方法じゃ30bモデルなんて動かせなかっただろうし。
じゃあvLLMが使えないってこと?それはかなり痛いね。
vLLMを使いたいところだけど、vLLMのAMDサポートはROCmに依存してて、それがもう面倒くさくてたまらない。
幸いなことに自分はvLLMにこだわってないから、問題にはなってないけど。
Arch LinuxでROCmを2年近く使ってるけど、これといった問題は起きてないよ。もしかして、他のソフトウェアスタックが原因なんじゃないかな?
AMDを使いたいんだけどね。もう10年近くAMD一筋だし。
でも、AMDで新しいことをやろうとすると本当に手間がかかりすぎるんだ。
MI50でVulkanだと!?俺が最後に確認したときは、ROCmと比べたらパフォーマンスは1/3くらいだったはずだけど。
投稿の要点くらいはわかるよ。Intelに関しては、B580をVulkanで動かしてみたけど、動作確認以外には時間の無駄だった。古い1080 Tiの方がよっぽどマシ。まあ、B580は動画エンコードにはかなりいい仕事してくれるけど。
ベンダーロックインって本当にクソだよね…結局、ほとんどのワークロードはCUDAで動かすのが一番だよ。
基本的にはやめておいたほうがいいかな。NVFP4にどうしてもこだわる理由がない限りね。現状はAMDのほうがコスパが良くてサポートもしっかりしてる。Appleも長所はあるけど、AMDほど万能で高コスパとは言えないし、Intelはまだサポートが微妙。
CUDAを活用するワークフローがあるなら、NvidiaのGPUがないと後悔すると思うよ。そうじゃないなら必要性は薄いし、性能差も縮まってはいるけど、当面はまだNvidiaが優位(価格は高いけど)かな。
具体的にどんなワークフローがCUDAの恩恵を受けるの?
Mac Ultraがあるだろ。
予算が潤沢ならNvidia、コスパ重視ならIntel、その中間がいつものAMDって感じだね。
コスパを求めるならIntel
泣きたくなるならIntelだね。コスパなんてこれっぽっちもないよ。
Intel Arc Pro B60 24GBを使ってるけど、後悔はしてないよ。同性能のNvidiaカードを買おうとしたら数倍のコストがかかるけど、性能が数倍になるわけじゃないし。単純な計算だよ。
そもそも今はNvidiaを買う予算がないから、議論するまでもないんだけどね。
A770を2枚持ってるけど泣けてくるよ。遅すぎるんだ。eBayで50ドルで買えるGPUより遅いんじゃないかってくらい。B60もA770と大して変わらない。計算は単純だよ。中古でもA770より安くて、何倍も高性能な50ドルのカードがあるのに、なんでA770を使う必要があるんだ?どっちもVRAMの容量は同じなのにさ。
同等のNvidiaカードは数倍の値段がかかる
いや、そのNvidiaカードは「同等」じゃない。もっと優れてるんだ。ずっと速いよ。
でも性能が数倍出るわけじゃない
同じ価格のNvidiaカードなら、性能は何倍も出るよ。
B60は約700ドル。5070tiも700ドルで見つかる。価格が同じなら、5070tiの方が何倍も速いんだ。
B60 522.36 ± 3.60 68.55 ± 0.01 (SYCL) 2861.84 ± 1.66 82.24 ± 0.03 (IPEX)
5070ti 6952.38 ± 13.73 176.85 ± 0.07
B60は約700ドルだけど、5070tiも同じくらいの価格で見つかるよ。5070tiの方がPP(プロンプト処理)では桁違いに性能がいいし、TG(テキスト生成)でも3倍くらい速い。
5070tiはたった16GBしかないだろ。VRAMにすべて収まらないなら、理論上の性能なんて何の意味もないよ。B60の他に10GBというゴミみたいなVRAMの3080も持ってるけど、全部システムメモリに吐き出して、生成速度が1~2トークン/秒という絶望的な遅さになるんだ。マジで、それが君の最高の反論なの?
ローカルLLMに関しては話は単純で、十分なVRAMがあるかないか、それだけだよ。
動作がずっと遅いのに、RAMが少し多いことに何の意味があるんだ?もしRAMが4倍、8倍あるなら話はわかるけど、そうじゃないだろ。
全部システムメモリに吐き出して、生成速度が1~2トークン/秒という絶望的な遅さになるんだ。
それは単に使い方が間違ってるだけだ。5070tiみたいな高速なカードで16GBあれば、8GBをそこそこまともなCPUにオフロードしたとしてもB60よりは速いよ。
マジで、それが君の最高の反論なの?
(笑)マジで、それが君の言い分?
ローカルLLMに関しては話は単純で、十分なVRAMがあるかないか、それだけだよ。
それは完全なデタラメだね。llama.cppがそもそも何の目的で作られたか忘れたのか?それとも、それを知らないくらい初心者なのか?VRAMに収まらなくてもLLMをうまく動かす方法については山ほどスレッドがあるだろ、初心者でも少し調べればわかるはずだよ。
3090で24GB VRAMだったのに。それから約6年経って、Nvidiaの一般向けカードの最大が32GBか。失望でしかないし、もう一日が台無しだよ。
1080ti以降、彼らは利益のために容量を制限するセグメント化を始めたからな。
(なぜコンシューマー向けカードが優先されなくなったのか、その理由を見てみて)https://images.contentstack.io/v3/assets/blt40263f25ec36953f/blt7e88bd55cc4bec01/673f38042452f90e790a453e/NVIDIA_Revenue_Breakdown.jpg
2023年から2024年にかけてが転換点だったみたいだね。チャートを見る限り、今のゲーミング需要はおまけ程度にしか思われてない感じ。
そうそう、Gamers Nexusが動画で解説してたけど 、NVIDIAはコンシューマー向け製品を全部ロボティクスとひとまとめにして「エッジ」と呼ぶことにしたみたいだね。もう財務レポートでゲーミングGPUの内訳は見られなくなるだろうな。
なんでRTX 3060が一番使われてるの?
12GBのRAMがあるっていうのが大きいんだよ。3070や4060は8GBしかないからね。これが大きなボトルネックで、12GBを超えるには3090か4080が必要になるけど、そこへのステップアップはかなり大きい。その予算があれば3060をもう1枚買ってもまだお釣りがくるよ。
イエスでありノーでもあるね。自分は3090 24GBとAMD v620 32GBを持ってる。コンテキストとモデルが完全に3090に収まるなら、2〜3倍速いけど価格も2〜3倍する。3090だとqwen 35b + 250kコンテキスト + ビジョンローダーを全部載せるのは無理だから、そうなるとアドバンテージは一気に落ちるよ。12GBの4070を使ってる人たちも知ってるけど、モデルをオフロードしなきゃいけないから20t/sくらいしか出てないね。
RTX 3060を2枚使ってて、もうすぐAMD R9700も追加してペアにする予定。
今のところ何の問題もなく動いてるよ。Llama.cpp(ROCmとVulkanを並行利用)、TTS、Hermes、Piなんかも全部マイクロVMや開発環境でサンドボックス化してる。
NixOSを使ってて、環境を全部宣言的かつ再現可能に保ってるのが効いてるのかも。
いや、最近はAMDでもNvidiaでも大抵のものはローカルでかなりうまく動かせるよ。Intelカードは効率は落ちるけど改善してきてる。Apple製品は使わないから何とも言えないけど、LLMを動かすには悪くないって聞くね。
3060勢、立ち上がれ!
場合によるね。
性能と互換性ならNvidiaが最高。
でも価格を考慮して、中規模や大規模モデルを動かしたいとなった途端に、Nvidia以外の選択肢がすごく魅力的に見えてくる。
3000ドルあるとして、14Bモデルを爆速でデバッグの手間なく動かせるRTX 4090を1枚買うか、それとも他の選択肢を真剣に検討するか。B70を2枚?MI50 32GBを4枚?Radeon R9700を2枚?Strix Haloボックス?それともミドルレンジのMac?どれを選んでも、もっと大きくて実用的なモデルが扱えるようになるからね。
とりあえず遊ぶ目的なら今の個人的なオススメはStrix Haloボックス。これまで試した中で一番柔軟だよ。唯一動画生成だけは動かせなかったけど。
もちろん、最高のグラフィックボードだよ。
xAIはそれらを月額15億ドルでレンタルしてるよ。
もしAMD RX 7900 XTXが見つかるなら、めちゃくちゃコスパいいし、LLM推論なら自分の経験上3090より大抵速いよ。
自分も2枚使ってるけど、VulkanでもROCmでも最高だ。だから、住んでる地域で一番コスパがいいやつを選ぶのがベストじゃないかな。
2枚持ってたけど、さらにもう2枚追加したよ(破格の値段だったから)。特にgfx1100向けにvLLMが最適化されたPRのおかげで、爆速になってきてる。Qwen3.6-27Bで300トークン/秒以上の生成ができてるよ。
あなたの投稿が人気を集めているので、私たちのDiscordで紹介させてもらいました! ぜひチェックしてみてください!
貢献してくれたあなたには特別なフレアを付与しました。投稿ありがとうございます!
私はBotであり、このアクションは自動的に実行されました。
自分で電気代を払う立場ならそうはいかないよ。
単にユニット数で並べ替えているだけだけど、それだと能力が桁違いに違うハードウェアを比較することになるぞ。
条件を揃えてみれば、AMDは圧倒的に遅れをとってるよ。
Appleとの比較はもっと厄介だね。あっちの方が高いし、RAMは多いし、電力効率もいいから。
最高かって?そうだよ。
価格に対して最高かって?それはじっくり話し合う必要がありそうだね。
意外かもしれないけど、最近ホームラボで3060/12から6800/16に乗り換えたんだ。最大の理由はCUDAとの格闘に疲れたから(特にホスト側とコンテナ側のバージョン不整合問題)。Vulkanの方が自分にはずっとクリーンでいいよ。
自分は5090FEを2枚使ってる。ただ、2つのスロットでPCIe 5 x8を扱える新しいマザーボードを待ってるところ。そうじゃないと、vLLM環境下で2枚目のGPUが連携動作する際に問題が出まくるんだ。
「一番でかいGPUを買って、モデルを常駐させ続ける」っていう前提が今も根強いのは興味深いね。別のやり方として、ハイエンドGPUをスライスして、小さいモデルには必要な分だけのVRAMを割り当てる手法もある。これだと経済性がかなり変わるんだよね。inferx.netでもそのあたりをよく考えてるよ。そうすれば専用インスタンスで最高のパフォーマンスを引き出せるから。
そう、間違いなく比較にならないレベルだね。全然違う。速度が重要なら絶対こっち。コストパフォーマンスで言っても間違いなくそう。好き嫌いは別として、結局Nvidia一択っていうのが現実だよね。
ああ、金持ちで、モデルの量子化が小さくても気にせず、しかも電気代が極端に安いならね。
とはいえ、速度に関しては今でも無敵だけど。
ローカルAIの最大のメリットって、安くて性能が良いことだと思ってたんだけどな。
皮肉で言ったんだよ。NvidiaのGPUって電力バカ食いだし、買うと高いうえにVRAMは少ないからさ。
ああ、確かにその通り。でも依然として彼らが優勢みたいだな。これは30万人のユーザーから得たデータだし。トレードオフが何なのかはよく分からないけど。
スピードに関しては断然速いよ。でも経済性はスピードだけじゃないんだ。コンシューマー向けのNvidia GPUはVRAMに制限があって、動かせるモデルがかなり限られる。それに、不完全なモデルを超高速で回せたところで、それが役に立つとは限らないしね。
だから、人生のすべてがそうであるように、答えは「ケースバイケース」だよ。
NvidiaならvLLMやSGLANG、工夫すればTensorRT-LLMだって使える。これらはデータセンター品質のインファレンスエンジンで、ハードウェアの性能を最大限に引き出せる。ハードウェア固有のCUDAグラフを構築して効率的に処理をリプレイする仕組みだし、スマートなメモリキャッシュやページングのおかげでプロンプトの再処理も防げる。コンシューマー向けハードウェア(といってもかなり高価だけど)で得られる速度は圧倒的だね。
とはいえLlama.cppもすごい。MoEの専門家(エキスパート)をRAMにオフロードして、どんなハードウェアでも使いこなせるのは最高だよ。ただ、スピードはそこまでじゃない。家庭用ゲーム機とPCの比較に近いかな。ゲーム機(CUDA上のvLLM)はターゲットが明確だから商用バックアップもあって極限までチューニングできるけど、PC(Linuxでllama-serverを動かしたり、AMDやIntel、あるいはAppleのMetalでllama-serverを使う環境)はハードウェア構成がバラバラだから、特定の環境に特化したチューニングまではできてないんだ。
ちょっとぶっ飛んだアイデアだけど、3060でモデルを動かす代わりにH100のインスタンスを切り出して使うのはどうだ?モデルに必要なだけのVRAMを確保できて、無駄がない。使う分だけ支払えばいいし、専用インスタンスだから共有もなし。冗談抜きで、inferx.netならそれが可能だよ。どれだけのユーザーがそういう環境を求めてるかは分からないけど、少なくともインフラ設定をまるごと抽象化できるのはいいと思う。
面白い補足だけど、ソフト側で明示的にモデル並列化をサポートしてない限り、複数のGPUを積んでもVRAMは合算されないよ。24GBの4090と24GBの3090を挿しても、魔法のように48GBのメモリとして使えるわけじゃない。それぞれのGPUが独立したメモリ領域を持ってるからね。実際のところ、ほとんどのローカル環境では、意図的にテンソル並列化やモデル並列化を使わない限り、上限はあくまでシングルGPUの容量のままになるよ。
いや、もし手元にあるなら、今のこの状況で手放すなんてことはまずないでしょ。
コスパや消費電力の面で言えば、今はMac MiniかMacBookにしておくのが一番だよ。単純にRTX 5090より安いし、VRAMよりも多くのRAMを積めるから、より大きなモデルをロードできるしね。
Appleシリコンは、いつの間にかローカル用途の選択肢としてコスパ最強になってるね。ユニファイドメモリのおかげで、1600ドルのM4ならVRAMの壁を気にせず32Bモデルをデバイス単体で、それなりの速度で、たった22Wで動かせる。RTX 5090は純粋な処理能力では勝ってるけど、価格は3倍するし575Wも食う。
エコシステムも追いついてきてる。MLXやllama.cppのMetal対応、あとConifer(conifer.build)みたいな新しいランタイムも、Appleのユニファイドメモリ・アーキテクチャに特化して構築されてる。単純なスピードがすべてなら依然としてNVIDIAが上だけど、個人のユースケースで言えば、もうAppleシリコンを否定する理由はあんまりないよね。