ディスカッション (10件)
LM Studioから待望の「ヘッドレスCLI」が登場しました。これにより、GUIを介さずにコマンドラインから直接ローカルLLMを制御できるようになります。今回は、Anthropicの爆速ターミナルツール「Claude Code」と組み合わせて、GoogleのGemma 4をローカル環境で動かすセットアップを解説します。開発フローをターミナルで完結させたいエンジニアにとって、プライバシーを確保しつつ高度なコーディング支援をローカルで実現できるこの構成は、まさに最強のツールスタックと言えるでしょう。
Gemma 4 26BをmacOSでローカル推論させて、Claude Codeと一緒に使うためのセットアップ方法はこんな感じ。
ollama launch claude --model gemma4:26b
ちょっと待って、GemmaとClaudeってどういう関係なの?
今はClaude Codeをフロントエンドとして使うのが流行ってるみたいだけど、Anthropicがアップデートを出して、今より手軽さを削ぎ落とす(自由にさせない)までどのくらいかかるかな?彼らは、自分たちが想定している特定のやり方以外で使われるのをあんまり歓迎してないってことを、かなり明確にしてるし。
参考までに、MoE(混合専門家)は別に(V)RAMを節約するわけじゃないよ。結局すべての重みをメモリにロードしておく必要があるのは変わらなくて、単に順伝播1回あたりの参照量が減るだけ。だからtok/s(推論速度)は上がるけど、VRAMの使用量は減らないんだ。
48GB以上のRAMを積んだFrameworkのデスクトップなら、これを試すのにいい感じのマシンかな?
小さい方のGemma 4Bモデルを、大きい31Bモデルの投機的デコード(speculative decoding)用として使える?
できるかできないか、理由も教えて。
なんでみんなわざわざClaude Codeを使ってるのか謎だな。
あれかなり動作がガタガタ(jank)だし、もっと優れたCLIコーディング環境なら他にもたくさんあるのに。
最高。デカいソフトウェアを動かすハードウェアが軽ければ軽いほど、ワクワクするよね。