大規模AI推論コストを「ナプキンの裏」でざっくり計算してみた

gmays

5日前

ディスカッション (6件)

gmaysOP👍 51

5日前

AIサービスの運用において推論コストをどう見込むか。詳細な設計に入る前に、まずはナプキンの裏に走り書きするようなシンプルな計算式で、大規模環境におけるコストの全体像を把握してみましょう。

🔗 リンク先:https://injuly.in/blog/napkin-inference-cost/index.html

smalltorch

約14時間前

これはハードウェアを所有しているか借りているかに大きく依存するね。B200が1台4万ドルだとすると、ユーザーあたりの生涯コストは40,000 / ユーザー数になる。稼働率100%（コスト的には最悪のケース）ならユーザーあたり6,000ドル。現実的にGPU1台で300ユーザーを捌くなら、ユーザーあたりの生涯コストは約133ドルで、それにデータセンターや維持費が加わる感じかな。もしGPUをレンタルするなら、コストはもっと単純だ。時給43ドルなら、ユーザーあたりの時間コストは43 / ユーザー数になる。300ユーザーなら時間あたり約0.013ドル、月額で9.36ドルだ。ところで、GPUを買ってデータセンターに持ち込むなんてことができるの？みんなそんなことしてるの？よくわからないな。それとも維持費＝オンプレミスの電気代ってこと？

BadBadJellyBean

約13時間前

その概算には、電力、冷却、保守、場所代といった運用コストも含めてほしいな。そのあたりもかなり大きな要因になるはずだし。

JBAnderson5

約13時間前

「現実的にGPU1台で300ユーザーを捌くと、ユーザーあたりの生涯コストは約133ドル＋データセンター/維持費になる」っていう部分だけど、運用コストはどれくらいで、どのタイミングで初期投資のCapexを上回るようになるんだろう？B200は最大1000W、アイドル時で140W、平均すると600Wくらいらしい（https://www.lightly.ai/blog/nvidia-b200-vs-h100 ）。米国の平均電気料金は3月時点で1kWhあたり0.14ドル（https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=epmt_5_6_a ）。つまり600/1000 * 0.14 = 1時間あたり0.084ドル。1日2.01ドルで、月額60.30ドルか。300ユーザーいれば、1ユーザーあたり月0.20ドル。電気代としてはかなり安そうだな。コロケーションやデータセンターのレンタル料を見積もる方法ってある？どこで計算を間違えてるんだろう？

breput

約12時間前

「プロダクション利用で十分優秀な32Bの密なモデルを想定し、B200なら余裕で動かせる。GemmaでもQwenでもDeepSeekでも何でもいい」って、記事の途中でいきなり重要な前提を出してくるのはどうなんだろう。Qwen 3.6 26BやGemma 4 31Bがユースケース次第で優秀なのは間違いないけど、概算をするならもう少し余裕を見た前提がほしいところだ。投稿者は計算をパラメータ化して、スライダーで値を調整できるようにしておくべきだったね。あと追記だけど、DeepSeek（など）に触れている以上、今のモデルに密なモデルなんてないし、MoEモデルだって最小のもので284Bパラメータ（アクティブなのは13B）だよね。そんなの使ったら、このざっくりした計算なんて一瞬で吹き飛ぶよ。

stevenaenns

約12時間前

2B = 562 => B = 331 って、どういう計算？なんで B = 562 / 2 = 281 にならないの？