r/LocalLLaMA🔥 222
💬 74

V100でQwen3.6 27Bをぶん回す!秒間1000トークン生成の限界に挑んでみた

Simple_Library_2700
1日前

ディスカッション (66件)

0
Simple_Library_2700OP🔥 222
1日前

この環境で生成速度をどこまで叩き出せるか限界に挑戦してみましたが、結果は期待以上でした。128もの同時リクエストを処理させるのは正直私のユースケースではオーバースペックですが、とてつもない数字を見るのは面白いものです。シングルユーザー(バッチサイズ1)で運用した場合、MTPなしでも生成速度は約80 t/s、プロセッシング速度は3000 t/sに達しました。

1
habachilles👍 55
1日前

V100は何枚あるの?

4
twnznz👍 65
1日前

これでeBayのV100の相場が上がっちゃったな。やっちまった

5
danish334
👍251日前

この投稿消してくれ😢

6
Simple_Library_2700
👍361日前

君たちがMi50sにしたことへの報復だよ /s

俺が使ってる16GB版のカードはまだかなり手頃なんだけど、32GB版はずっと高騰し続けてるんだよね。価格が下がって4枚セットで買えれば最高なんだけど、現状は高すぎて正当化できないよ。

7
DistanceSolar1449
👍51日前

いや、V100はもう時代遅れだよ。

一番の問題は、BF16で112 TFLOPSしか出ないこと。INT8サポートもFP4サポートもないし。それにパフォーマンスの割に消費電力が半端ないんだ。

112TFLOPSだとMTPを使ってもあまり意味がない。MTPは計算量を基本的に倍にするからね。GPUコアから十分にデータを供給できないと、900GB/secのVRAM帯域幅があっても意味がないんだ(これ、AMD MI50で起きる問題と同じやつ)。

8
slimpickins28
👍11日前

ハハハ。俺なんてP100を4枚動かせるようになっただけで喜んでるよ。笑。V100かぁ…いつか手に入れたいな。

9
beryugyo619
👍11日前

(112TFって、MI50の5〜10倍速いってことじゃないの?)

10
Simple_Library_2700
👍2約20時間前

112 TFLOPSのFP16っていうのは、MI50じゃなくて3090の数値に近いね。だからカタログスペックだけで見れば、V100で苦戦するなら3090でも同じはずだよ。MTPについては試してないから数値は持ってない。今はとにかくコンテキストが全部必要な状態だから、ドラフトモデルを動かす余裕はないんだ。言っておくと、すでに27Bのデンスモデルで1枚のカードの理論上の限界(900GB/sの帯域で66.7 t/s)を超えちゃってるんだよね。

11
DistanceSolar1449
👍1約15時間前

もっと重要なのはINT8とINT4だよ。3090ならINT8で284 TOPS、INT4で569 TOPS叩き出せる。V100にはそのハードウェアがないから、BF16にフォールバックするしかないんだ。

つまり、4bit量子化モデルを使った場合、3090のほうがINT4演算のおかげで5倍くらい速いってこと。

12
Simple_Library_2700
👍2約15時間前

デコードがそんなに演算負荷の高い処理だって、みんな知ってるだろ(皮肉)

13
DistanceSolar1449
👍1約15時間前

MTPを使えばそうなるよ。MTPは基本的に、先読みするトークン数に比例して演算量が増えるから。重みのロードは同じだから、メモリ帯域幅は変わらないままね。

14
SSOMGDSJD
👍1約14時間前

シングルバッチ推論をGEMMの問題に落とし込めるほど精度の高いMTPの設定なんて見たことないな。だから帯域幅以外が重要になるケースなんてほとんどないと思う。INT4やINT8テンソルは、多くのアプリケーションでプリフィルにしか役立たないし、V100だとFP16にデ量子化するから小さなペナルティがあるのが普通だよ。

V100を使わない本当の理由は、llama.cpp以外のメインストリームなサービングインフラでのサポートが急速に打ち切られてるってことだろうね。

15
DistanceSolar1449
👍1約14時間前

それはかなり痛いね。Tensor Parallelが使えなくなるから。
それに、MTP=5でBF16にデ量子化するとなると、V100だと予測チェーンあたりINT4/8で20 TOPS程度しか出ない。これじゃMTPなしのMI50と変わらないよ。一方で3090なら同じ状況で約110 TOPS(5分割したネイティブINT4)は出るからね。

サブエージェントを使い始めると状況はもっと悪化する。単一のチャット応答なら演算もギリギリ耐えられるけど、並列で2つ以上回せば完全に詰むよ。

16
VoiceApprehensive893
👍391日前

V100について投稿するのやめてくれよ、適正価格で2枚欲しいんだから

17
LinkSea8324
👍71日前

Tesla V100じゃAWQは動かせないはずだよ。

VOLTAアーキテクチャだし、VoltaはAWQをサポートしてないからね

19
LinkSea8324
👍101日前

いや、それは予想外だったわ(笑)ありがとう

20
ratbastid2000
👍21日前

マジかよ…凄すぎる。PCIeアダプター付きのv100 32GB SXM2を4枚積んでて、2年間ずっと互換性に悩まされてたんだ。llama.cppに乗り換えようかと思ってた矢先にこの投稿だよ。新しいモデルアーキテクチャに対してturbomindの更新が追いついてなかったからね。

21
Simple_Library_2700
👍41日前

ホント、このフォークは最高だよね。別のvllmフォーク(flash attention v100とか)からflash attentionをパッチで当てようとしてたんだけど、1週間後にフォークを確認したら、もう向こうで実装してくれてたんだ(笑)

22
AttitudeImportant585
👍1約22時間前

たった一つのレポジトリがV100市場を独占的に買い占めてるな

23
FullstackSensei
👍31日前

P40が安かった頃や、Mi50が安く出回った時にも同じ議論を耳にしたな。

みんなこういう意見を鵜呑みにするのをやめるべきだよ。vLLMや派生プロジェクトは、あくまで元の実装の制限を引き継いで統合してるだけなんだ。FlashAttentionならDaoの実装を、AWQならAutoAWQを、それぞれの制限付きで取り込んでるってこと。

LLMにおいて特定のハードウェアで本当に重要なのは、どれだけの計算能力とメモリ帯域があるか、それだけだよ。

ほぼどんなアルゴリズムでも、ハードウェアに合わせてバックポートは可能だ。専用設計のハードウェアほど効率的ではないかもしれないけど、アルゴリズム自体に大きな利点があるなら、古いハードウェアでも大幅なパフォーマンス向上は見込める。

P40をeBayで100ドルで買った時、当時Pascal向けのFlashAttention実装がなかったから、まさに「ゴミを買った」って散々言われたよ。でも論文をちゃんと読んでたから、いずれ対応されるのは分かってた。案の定、構築を終えて1ヶ月もしないうちにllama.cppがPascal用のFAカーネルを追加したんだ。

Mi50の時も全く同じストーリーだった。Mi50は1TB/sのメモリ帯域と26 TFLOPSのfp16性能を持ってるのに、「AMDは使い物にならない」なんて言われてた。結局llama.cppが最適化を追加した途端に価格が爆上がりしたよね。

優れた計算能力とメモリ帯域を持っていて、何百万台も出荷されているような、特殊すぎないハードウェアを見つけたら、安いうちに買っておくべきだよ。ソフトウェアが充実するのを待っていたら、その便利さのために高い代償を払うことになるからね。

24
Future_Inflation9668
👍161日前

これ以降のV100の価格📈

25
Endlesscrysis
👍51日前

いくらで買ったの?あとeBayやAliExpressを使ったのか、それとも別のプラットフォームが好み?

26
Simple_Library_2700
👍91日前

eBayで3枚、AliExpressで1枚買ったよ。AliExpressのカードは少し高かったけど保証があるし、梱包も丁寧だった。eBayのカードはBIOSで変な電力制限がかかってて、Linux版のnvflashじゃ解除できなかったから、わざわざWindowsを入れてnvflashで解除しなきゃいけなくて面倒だったよ。

27
Endlesscrysis
👍51日前

最高だね!価格はどれくらいだった?こっちで探すと650から1100くらいで出てくるんだけど。

28
Simple_Library_2700
👍31日前

これは16GBのSXM2カードだから、もっと安いはずだよ。

29
philmarcracken
👍11日前

AliExpressのどこのセラー?「注文数順」に並び替えても詐欺に遭いたくないからさ。

30
Simple_Library_2700
👍21日前

家に帰ったら確認してみるよ。

31
philmarcracken
👍11日前

サンキュー!お礼にマックをデリバリーするよ。

32
Simple_Library_2700
👍11日前

ははっ、気にしないで(笑)

33
Theswiftygamer
👍11日前

これってNVLinkの2xか4xアダプター経由?それともSXM2からPCIe経由なの?

34
Simple_Library_2700
👍11日前

C4130を使ってるよ。専用の4x NVLinkボードが載ってるやつ。NVLinkがないとテンソル並列が使えないから詰むし、ここにあるような数字のスピードなんて絶対出せないよ。

35
mxforest
👍241日前

RTX PRO 6000を2枚使って似たようなテストをしたから数値を共有するね。

Qwen 3.6 27B BF16 (量子化なしのオリジナル)


MTP - Off | 並列数64 | 生成1600 tps

MTP - 2 | 並列数32 | 生成1400 tps

MTP - 2 | 並列数64 | 生成1800 tps


Qwen 3.6 35B BF16

MTP - Off | 並列数64 | 生成2700 tps

MTP - Off | 並列数128 | 生成3500 tps (プロンプト処理 30,000 tps)

36
Simple_Library_2700
👍81日前

自分のハードウェアがそんな高価なセットアップと張り合えるなんてクールだね。

カードとサーバー合わせて1200 AUDくらいで済んだから、コスパはめちゃくちゃ良いよ。

実務では相変わらずBlackwellと5090に頼ってる。あのカードが短縮してくれた時間は馬鹿にならないからね。まあ、Pro 6000があれば最高だろうけど。

37
Forever_Playful
👍31日前

BF16とQ8で、品質に明確な違いって感じる?(特にコーディング用途で)

38
xanduonc
👍21日前

コーディングタスクに関しては、フルウェイトとfp8、あとud q6量子化の間で実用的な差は感じないかな。今のところvllmよりllamacppの方がツールコーリングの出来がいいこと以外はね。

39
xanduonc
👍41日前

ランタイムエンジンは何を使ってるの?コンテキストサイズを大きく(128k - 200k)してもちゃんとスケーリングする?

40
mrmarkive
👍11日前

このモデルを使ってマルチユーザーエージェントをホストしたいんだけど、RTX Pro 6000が1枚あれば最大32ユーザーの同時接続はいける?その場合、メモリはどれくらい消費する?

41
mxforest
👍11日前

27BのモデルをBF16で動かすとなると、ほとんど余裕がないよ。VLLMだとモデルの90〜92%しか使えないし、残りはある程度のスパイクやキャッシュ用に残しておかないとダメだから、モデルの最大長でフルリクエストをこなすことすら怪しい。MoEをBF16で動かすか、27BをFP8で動かすのがいいよ。

42
Icy_Programmer7186
👍71日前

V100 32GBが4枚届く予定なんだけど、それでQwen3.6 27Bを動かそうと思ってるんだ。すごく有益な情報だよ、ありがとう。AWQを使った時のメモリ消費量ってどれくらいか教えてもらえる?

43
Simple_Library_2700
👍51日前

今回の実行だと各カードのメモリ使用量は15GBくらいまで埋まったよ。vLLMってかなりメモリを食うんだよね。

44
Icy_Programmer7186
👍11日前

ありがとう。V100のアーキテクチャの制限でFP16がFP32に拡張されちゃうから、FP16じゃなくてAWQを使う理由が分かった気がする。

45
Simple_Library_2700
👍11日前

そう、テンソルアクセラレーションがないとコストがかかるけど、カードが4枚あればそれを補うだけの計算能力が確保できるはずだよ。

46
PferdOne
👍11日前

Qwen系以外のモデルは試してみた?それともこのvllmのフォークはかなり特殊で、他のモデルじゃ動かないのかな?全体的な使用感に興味津々だよ。8年も前のカードだけど、128GBのVRAMは本当に魅力的だね。

47
Simple_Library_2700
👍11日前

今のところはまだかな。持ってる16GBのカードに対してはこれが最高のモデルだから。llama.cppを使ってCPU分割でminimaxみたいなもっと巨大なモデルを動かそうとしたこともあるけど、クアッドチャネルメモリでも全然速度が出なかったよ。

48
PferdOne
👍31日前

なるほどね、でも64GBでも十分すごいよ。結果をシェアしてくれてありがとう。2034年にみんなが今のカードで何をするのか見てみたいね :D

49
Which_Pitch1288
👍11日前

最高じゃん

50
WithoutReason1729
👍11日前

投稿が盛り上がってるね!Discordで紹介させてもらったよ。ぜひ見に来て!

貢献への感謝として特別なフレアも付与しておいたよ。投稿してくれてありがとう!

私は自動実行されるボットです。

51
Napster3301
👍41日前

辛口で言うけど、バッチ処理での1000 tpsって祝うような数字じゃないよ。実質的な数字はシングルユーザーでの80 t/sでしょ。それはそれで悪くはないけど、別に興奮するほどでもない。純粋な疑問なんだけど、ここで128同時ユーザー向けにセルフホストしてる人なんて本当にいるの?個人利用なら、batch=128のベンチマークなんて何の意味があるの?

52
Simple_Library_2700
👍31日前

何事も複数のリクエストが絡むものだよ。シングルユーザーで80っていうのは「悪くない」んじゃなくて「相当優秀」なんだ。mtpなしの数値だってこと忘れないで。

128同時リクエストについては、確かにクレイジーだってことは投稿にも書いたよ。でも自分は、問題を解決するためにエージェントを組み合わせて、同時並行数10でモデルを使ってるんだ。

シングルユーザーならどうでもいい使い捨てのプロンプトには十分だけど、環境を本格的に活用したいなら同時並行性は必須だよ。OpenWebUIだってデフォルトで同時実行が前提の設計になってる。モデルを使ってフォローアップの質問や要約なんかを生成するから、同時並行を捌けないとそもそもまともに動かないんだよ。

53
CheatCodesOfLife
👍1約23時間前

OpenWebUIはデフォルトで並列処理(concurrency)が必須になってるね。フォローアップの質問や要約などを生成するためにモデルを使うから、並列処理を扱えないとそもそも動かないんだ。タスクごとに別のモデルを指定するオプションはあるから、CPUで動く適当な4bモデルや1b未満のファインチューニング済みモデルでも大丈夫だよ。自分はllama.cppに--middle-out 800っていうフラグを強引に追加して、プロンプトの中間をカットするようにしたんだ(最初と最後の400トークンあれば十分だからね)。これで、最初のメッセージで5万トークンのプロンプトを投げても詰まらなくなった(タグやタイトル生成のために全メッセージをタスクモデルに送るっていう馬鹿げた仕様のせいなんだけど)。CUDAなしでCPUで動かしても-c 1024ならほぼ瞬時に終わるよ。Agenticなコーディングなら並列処理はもっと一般的になるだろうね。シングルユーザーで80 t/sってのは普通じゃないよ、めちゃくちゃ速い。mtpなしでこれだろ?同意するよ、デンスモデルで80 t/sは最高だね!シングルユーザーでのプロンプト処理速度はどんな感じ?

54
segmond
👍1約21時間前

ゆっくり言うぞ、エ・ー・ジ・ェ・ン・ト

55
sothisismyalt1
👍21日前

シングルユーザーで、テストと同じモデルを動かすならどのGPUがいいと思う?決めるのが本当に難しい…

候補は以下の通りで、今の予算は450ドルくらい。目標は40 tk/s以上ね。

V100 PCIE 16G 230ドル
RTX 2080Ti 22GB 305ドル
RTX 3080 20G 450ドル

サーバーには空きRAMが16GBあって、DDR4 3200のデュアルチャンネルだよ。

56
RiseStock
👍11日前

configを公開してくれない?使われていないDGX-2が手元にあるんだ。

57
Simple_Library_2700
👍2約24時間前

それ、処分したがってるのかな??

とりあえずこのフォークが必要だよ:https://github.com/1CatAI/1Cat-vLLM

中に設定の概要があるはず。自分はコンテキストを短縮して、同時接続を128に指定しただけ。それだけで動いたよ。

58
RiseStock
👍1約24時間前

そのマシンを使ってたチームがDOGEの削減と、RFK Jr.やJayantaとかの諸々のゴタゴタの犠牲になっちゃってね。生き残った数少ない人間(NIH)として、コーディング支援に使いたいんだ。

59
Simple_Library_2700
👍1約23時間前

間違いなく今でも超高性能なマシンだよ。巨大なQwen 397Bモデルも動かせるはずだから、もし動かしたら結果を教えてくれない?DGX-2でこのフォークを動かしてる人、まだ見たことないんだよね。

60
spaceman_
👍1約23時間前

80 t/sと3000 t/sっていうのはやっぱり驚異的だね。

61
ai_without_borders
約22時間前

興味深いスループットの数字だね。バッチサイズ128で1000 tpsが出るなら、高並列処理が必要なワークロードにおいてはコストパフォーマンスがヤバい。ネックになるのはKVキャッシュのメモリだね。バッチ128だとVRAMを猛烈に消費するし、長文のコンテキストだとV100のFP16帯域幅は正直厳しい。どこまでコンテキストを伸ばすとスループットが急落するのか気になるな。シングルユーザーでバッチサイズ1の時に80 t/s出るのは、カードの性能からしてかなり優秀だよ。

62
Okendoken
約21時間前

いい数字だけど、128並列で「1000 t/s」っていうのはあくまでスループットのベンチマークであって、ユーザー体験の指標とは言えないよ。同じt/sでもTTFT(最初のトークンが出るまでの時間)や出力の長さ、スケジューリング次第で体感は全く別物になるからね。TTFTやトークン数、あと「処理t/s」をどう測定しているのかを共有してくれたら、公平な比較がしやすくなると思う。

63
Simple_Library_2700
👍1約21時間前

そう、今回はスループットのベンチマークをとってたんだ。シングルユーザー時の速度も投稿に含めたけど、個人的にはこのモデルを使う時に単一のストリームだけで動かすことはまずないから、あまり重要じゃないかな。数値はこのオープンソースのベンチマークに基づいているから、比較したいなら見てみてよ。https://github.com/eugr/llama-benchy

64
sooki10
👍1約21時間前

FlashAttentionの不具合はどうやって回避してるの?

65
Impossible-Ad-3798
👍1約17時間前

V100の32GBを2枚持ってるんだけど、モデルはLMDeployで動かしてる?SGLangとvLLMはどっちもcc7.0をサポートしてないからさ。