【検証】AIはローカル環境で動かせるのか？自分だけの開発環境を手に入れよう

ricardbejarano

3か月前

ディスカッション (11件)

ricardbejaranoOP🔥 878

3か月前

「AIを自分のローカルPCで実行することは可能なのか？」という素朴な疑問についての投稿です。最近ではLlama 3などのLLM（大規模言語モデル）やStable Diffusionといった画像生成AIを、クラウドを使わずに自分のマシンで動かす『ローカルLLM』への注目が高まっています。PCのスペック要件やセットアップ方法について知りたいエンジニアが多いようです。

🔗 リンク先:https://www.canirun.ai/

sxates

3か月前

これいいね！いくつか提案があるんだけど。1. M3 Ultraの256GBメモリモデルを使ってるんだけど、選択肢が192GBまでしかない。M3 Ultraは512GBまでサポートしてるよ。2. 逆にモデルを先に選んでから、色んなプロセッサでのパフォーマンスを一覧できるモードがあると最高。購入検討の時にすごく役立つと思う！

twampss

3か月前

これって単にllmfitのWeb版ってことかな？https://github.com/AlexsJones/llmfit

LeifCarrotson

3か月前

モバイルGPUがかなり不足してるね。あと、CPUメモリをGPUと共有できることや、メモリ制限を回避するためにKVキャッシュのオフロード戦略を工夫できる点も考慮されてないみたい。自分のブラウザ描画に使われてるGPUのせいか、Arc 750で共有RAM 2GBって表示されるけど、実際は6GB GDDR6のRTX1000 Adaを積んでるんだ。RTX 4050（リストにない）の熱制限版みたいなやつ。メインメモリもLPDDR5 64GBあるし。一応ちゃんと動いてて、Qwen3 Coder NextとかDevstral Small、Qwen3.5 4BとかはノートPCでほぼリアルタイムで動くよ。最新モデルほど優秀じゃないし、もっと大きくて賢いモデル（最大24GB）を試した時はタイピング速度の半分くらいしか出なくてがっかりするほど遅かったけど。でも、トークンが足りなくなることはないかな。

meatmanek

3か月前

これ、メモリ帯域とモデルサイズに基づいて推定してるみたいだね。高密度（dense）モデルならいい推定だけど、GPT-OSS-20bみたいなMoEモデルは各トークンで全パラメータを使うわけじゃないから、同じハードウェアでももっとトークン/秒が出るはず。GPT-OSS-20Bはアクティブパラメータが3.6Bだから、パフォーマンス的には3-4Bのdenseモデルに近い。もちろんVRAMは20B丸ごと載る分が必要だけど。（賢さで言うと、だいたいフルサイズとアクティブパラメータの幾何平均くらいのdenseモデルと同等になる傾向がある。つまりGPT-OSS-20Bなら、sqrt(20b*3.6b) ≈ 8.5bくらいの賢さで、トークン生成速度は2倍速いって感じになる）。

mark_l_watson

3か月前

ここ2年、ローカルモデルの実験にめちゃくちゃ時間を溶かしてきた。いくつか学んだことを共有するね。1. 新しいqwen3.5:9bみたいな小型モデルは、ローカルでのツール利用や情報抽出、その他の組み込み用途に最高。2. コーディングツールなら、おとなしくGoogle Antigravityとかgemini-cli、あるいはAnthropic Claudeとかを使っとけ。はっきり言っておくと、去年1年で100時間はEmacsやClaude Code（ローカル設定）とかでローカルモデルをコーディングに使えるよう格闘したんだ。自分はリタイアしてて趣味でやってたから楽しかったけど、ローカルのみで結果を最大化しようとする苦労は他の人にはおすすめしない。実用的な小型アプリにローカルモデルを組み込んで使いこなすのはおすすめだよ。そこがスイートスポットだね。

andy_ppp

3か月前

M4 (+Pro/Max) と M5 (+Pro/Max) でパフォーマンスの向上がゼロなのは合ってる？データが全く同じに見えるんだけど。あと、大きなモデルでメモリを増やしてもパフォーマンスが上がらないみたいだけど、上がると思ってたな。アイデアは好きなんだけど！追記：というか、これ全体的にデタラメで、ただの粗い推測かLLMに予想させた数値だよね。実際のデータを使うべき（ここの住人なら協力できるはず）だし、推測値の組み合わせには「推定」って表示しなきゃダメだよ。

mopierotti

3か月前

これ（とllmfit）は良い試みだけど、一番シンプルでよくある「自分のハードウェアで、トークン/秒がx以上、コンテキスト制限がy以上で動く最高品質のモデルはどれ？」っていう問いへの答えがなかなか見つからないのがもどかしい。（結局、自分で試行錯誤するしかなくて時間がかかるし）。このツールだと、Qwen 3.5 27B Q6がコンテキスト100kで快適に動くのを知ってるのに、Qwen 2.5シリーズみたいな古い推奨モデルに埋もれちゃってるから、ちょっと疑っちゃうな。たぶんトークン/秒がそっちの方が高いからなんだろうけど、50 t/sを超えたら正直大した差はないし、品質でソートする方法がないのがね。

torginus

3か月前

へぇ、ブラウザが通知もなしに正確なハードウェアスペックをサイトに教えちゃうなんて知らなかったよ。

RagnarD

3か月前

VRAM 96GBのRTX 6000 Pro Max-Qを使ってる。ハードウェアは正しく認識されたけど、RAMのドロップダウンを見る限り4GBだと誤認されてるみたい。あと、フル解像度のモデルが表示されてるけど、ローカルでの推論なら量子化モデルを使うのが当たり前だし、そこを考慮すべきだね。まだまだ改善が必要かな。

3Sophons

3か月前

DockerやPythonより軽量な代替案として、Rust+Wasmスタックがあるよ。https://github.com/LlamaEdge/LlamaEdge