ディスカッション (11件)
お遊びの実験ではなく、実際にClaudeやGPTを完全に捨てて、メインのコーディングツールをローカルモデル一本に絞ったという方はいますか?もし移行済みの方がいれば、具体的なセットアップ構成やパフォーマンス(トークン/秒など)をぜひ共有してください!
この質問に対して「真の」答えを得られることはないと思うよ。最新かつ最高のモデルを使わないことによる機会損失が、現時点ではあまりにも大きいからね。
毎月調べているけど、結論はいつも同じ。ローカルモデル(とそれに関連するコーディングツール)をClaude CodeのSonnetやOpusに近いレベルで動かすために必要な時間、労力、コストは、現時点では割に合わないんだ。もし割に合うなら、ニュースになるくらい普及しているはずだしね。
誰かが既に解決策を見つけていないと言っているわけじゃない。ただ、あまり深追いして迷宮入りするのを避けるために、オッカムの剃刀を適用しようとしているだけさ。
この問題の難しさは、期待値や求められる能力の幅が広すぎることにあるんだ。8Bモデルを動かして、雰囲気だけでコードを書かせたり、一発で完璧な回答を期待したりするのは無理があるよ。
もし30B規模のモデルを動かせる環境があるなら、適切にスコープを絞って定義されたタスクであればかなりうまくいく。今のところ、このレンジだとGemma4-31BとQwen3.6-27Bがベストだと思う。推論を速くするためにMoEモデルに切り替えることもできるけど、ほとんどのタスクで明らかに性能が落ちる。小規模なタスクなら雰囲気コーディングもこなせるけど、ガイドがあった方が断然いい結果が出るね。
もしフロンティアモデルに近い能力を求めるなら、最低でも128GBのメモリと、莫大なコンピューティングリソースか、あるいはかなりの忍耐力が必要になる。ほとんどの人は、ローカルモデルを実用レベルにするための資金も忍耐力も持ち合わせていないのが現実さ。
それに、ローカルモデルを使う際の忍耐力は、トークンの生成を待つだけじゃない。ワークフローやハードウェアに合わせて設定を最適化するのにも、かなりの労力が必要になるからね。
いけるよ。Llama.cpp + Qwen3.6-35b (MTP) + OpenCodeならかなり優秀だし、RTX 3090一枚で動いて、ほとんどのクラウドモデルより速い。品質は8〜12ヶ月前のエッジモデルといったところだね。セットアップの詳細はここにあるよ: https://github.com/pierotofy/LocalCodingLLM/
個人利用なら、イエスだね。
月額100ドルのClaudeのサブスクをやめて、今はUnsloth Studioに向けたpi harnessを走らせているよ。気分に合わせてqwen (unsloth/Qwen3.6-35B-A3B-MTP-GGUF) とgemma (unsloth/gemma-4-26B-A4B-it-GGUF) を使い分けているんだ。
5年前に自作したRTX 3090を2枚刺ししたマシンを使ってるんだけど(もともと新しいゲーミングPCを組むつもりだったし、ちょうどllamaがリリースされたから中古の3090を買い足したんだ)、どちらのモデルでも約150tok/s(UD-Q4_K_XL量子化時)は出るし、VRAMから溢れることなく300kのコンテキスト長をフルに使えるよ。
はっきり言っておくけど、Claudeほどではない。でも無料だし、わざわざ課金するほどひどい差があるわけでもないんだ。
自分のニーズにとっては、100ドル払うより無料の方がいい。
同じ推論サーバーに向けたopenclawインスタンスも使っているけど、これはこれで最高だよ(ローカルモデルの非常に堅実な活用例だね)。
プロジェクトの例を挙げると:
- Android TV用のカスタムランチャー(子供の利用時間制限・監視付き)
- k8sクラスターサービス用のカスタム管理ポータル
- Home Assistantのカスタム統合・自動化(最近は電力監視とスイッチング用にShellyデバイスを使ってる)
- 買い物リスト管理と献立作成(主にopenclaw経由)
- ComfyUIでの3Dアセット生成向けのカスタムワークフロー
手短に言えば、ソフトウェアで稼ごうとしているなら……今でも有料のプロバイダーを勧めるよ。でも、ローカルモデルでも十分に面白いことができるよ。
私のコーディングの9割はQwen 3.6 27bとOpen Code、それにいくつかのカスタムスキルとSembleで行っているよ。CCやCodexほど賢くはないけど、仕事の大半をこなすには十分だ。CCやCodexを置き換えようとして始めたわけじゃない(RTX 6000を持っていたからTPSは十分すぎるほど速かったし、このGPUはもともと別の作業用だった)。ただ実験として「ローカルでどこまでフロンティアモデルに近づけるか」を試しただけだったけど、十分実用的だったからそのまま使い続けているんだ。すごく複雑な作業や、UIのブラッシュアップについては依然としてCodexに頼っているよ。UI系はQwenが一番弱いみたいだからね。
RTX 6000なんて普通持っていないだろうし、コストを考えれば何年もMAX CCやCodexを契約できるくらいの額になるから、万人に勧めるわけじゃない。でも、少なくとも可能だということは分かった。数年後にはもっと実用的になっているかもしれないね。
その他の注意点:256kのコンテキストウィンドウでコンパクションターゲットを75%に設定している。会話が100kを超えると品質と速度が落ち始めるし、150kを超えるとかなり問題になってくるからだ。Qwen 3.5 122bも試したけど、サイズは大きいのに3.6 27bよりコーディング能力がかなり低い気がする。4bit量子化を使っているせいか、設定がうまくいっていないだけなのかは分からない。3.6の方が新しいとはいえ、前の世代の大型モデルより性能が良いとは思わなかったよ。Gemma 4 31bは他のタスクにはいいモデルだけど、個人的な経験ではコーディングはQwenの方が上だね。Nemotron Super 120bも万能だけど、やっぱりコーディングに関してはQwenほどではないみたい。これはかなり意外だった。
使ってるよ!データのプライバシーとLLMが自由であることは重要だよね。僕はPiのコーディング用ハーネスをコンテナ化してサンドボックス環境で使ってる。完全にオフラインで動かせるようにね。Mac Studio(128GB RAM)やMacBook(36GB RAM)でQwen3.6 35bを動かしてるんだけど、アクティブなパラメータを3bに絞って爆速で動かしてる。Django + Wagtailで自分のサイトのホームページとブログを完全に作り直したよ。Wagtailってあまり知られてないから、インターネットアクセスなしのAIエージェントだと、Wagtail向けのコードの書き方がわからないことがあるのが面白いところ。もっと複雑な作業が必要なときはQwen3.5 122bを使ってるけど、アクティブなパラメータが10bになるとやっぱりかなり遅くなるね。
Claudeみたいな巨大モデルと比較していくつか気づいたことがある。まず、何をしてほしいかを正確に指示しないとダメ。AIが代わりに考えてくれることは期待しない方がいい。曖昧な指示をすると、一番簡単な方法(HTMLにCSSを直書きするみたいな)でゴールしようとするから、アーキテクチャ的にベストじゃないことがよくある。
ループに陥ることも多いし、驚くほど頻繁に編集ツール呼び出しでミスをする。そのあと、システムプロンプトで再試行するように促されているにもかかわらず、考え込むトークンを大量消費してファイルを読み直しちゃうんだ。
エージェント化したQwen3.6 35bとClaude Opusを比較すると、Opusがアーキテクチャまで一緒に考えてくれるシニアエンジニアなら、Qwenは全体的な知識はあるけど細かく指示出しが必要なジュニアエンジニアって感じかな。Opusが15倍のスピードアップをもたらすなら、ローカルで完全オフラインのQwenは5倍のスピードアップってところ。とはいえ、完全に無料であることを考えれば驚異的だよ:)
OpenCode + OhMyOpenCode + Qwen 3.6 35B-A3B Q_4_KMをAda 4000(20GB VRAM)で使って、生成速度は55 tok/secくらい。OpenCodeがコンテキストをどんどん追加していくから、見た目ほど速くはないんだよね。最近よく名前を聞くから、時間ができたらPiもチェックしてみるつもり。
今のやり方は、Opusで計画を立てて、それをローカルのエージェントに実行させ、最後にOpusで検証するスタイル。だから100%ローカルというわけじゃないけど、こうしたモデルは確実に仕事のワークフローの一部になってる。いじるのが好きな趣味人じゃない限り、まだコストに見合うかは微妙かもね。
今のセットアップはOpusや他のフロンティアモデルほど「高性能」じゃないけど、定型的なタスクが増えるにつれて「十分使える」レベルにはなってる。スーパーの買い物に行くのにロールス・ロイスは不要で、中古のカローラで十分なのと同じだよ。
これによって、フロンティアLLMだとコスト的に厳しかった新しいワークフローも可能になった。例えば、夜間にChrome devtoolsのMCPと今のセットアップを使って、何時間もユーザーのふりをしてファズテストさせたり。マルチモーダルにも対応させてスクリーンショットの確認までやらせてる。これには本当に驚いたよ(Claudeでスクリーンショットを使うと料金がすぐ飛ぶから、財布にも優しい)。
「フロンティアモデルから12〜18ヶ月遅れ」というのは妥当な感覚で、僕がgpt-4oと基本的なハーネスを使ってた頃と同じくらいだね。次の12〜18ヶ月で、Opusレベルのモデルをローカルで5000ドル以下で動かせるようになると予想してる。まあ、フロンティアモデルはその頃にはもっと先に進んでいるだろうけどね(政府が規制しない限り)。面白い時代になったものだ。
ローカルLLMを1年ほど使ってきて、今はMac Studio(512GB RAM)でQwen3.6 27bの密なモデルをGGUF形式で、ハーネスにOpen Code、LLM環境にllmster (LM Studio) を使ってるよ。Qwen 3.6 35B-A3Bも試したけど、denseモデルの方が精度が一段上で、tokens/secとのトレードオフかな。Qwen3.6 27bならだいたい25-40 tokens/sec出る。最初は単純なツール作成に使ってたけど、ここ3〜4ヶ月はC/C++(自動車向けソフトウェアスタック)やPythonツールの本格的な開発にも使ってる。
tokens/secは低いかもしれないけど、それがかえって自分にはいいペースになってる。新規開発やリライトの時は、まずSonnetとペアを組んで設計やアーキテクチャの検討、論理構築、詳細な実行計画を練る。そのあと、細かくプロンプトを投げて少しずつ実装させるんだ。既存コードの改修は判断が難しいこともあるね。ローカルモデルの限界を感じる時はClaude Codeに頼ってる。
Qwen 3.6を使って最近やったこと:
- 既存のC++コードを参照してのC言語によるパワーマネジメントサービスの完全書き換え
- 非常に複雑なExcel仕様書の内容をパースするツール
- CJK(中日韓)のコンテンツを英語に翻訳してKG(ナレッジグラフ)に投入するツール
ここのコメントを読んでると、どれがAI提供側の差し金でネガキャンしてるボットなのか、単にローカルAIでひどい目に遭った人なのか、もう判別がつかなくなってきた。
個人的な意見だけど、Mac Studio(64GB RAM)でQwen 3.6 27B 8k量子化モデルを動かすのは最高じゃないかって?いや、これはフロンティアなスーパーAIなんかじゃなくて、ただの「いい」モデルだよ。それだけ。無料だしプライベートだし、経験豊富なエンジニアを「怠け者」から「ガチで怠け者」にしてくれる。それが魔法だよ。llama.cppとopencodeを使って、コード変更を計画して放置して、ハンモックでくつろいだり、皿洗ったり、オナニーしたり、何でも好きなことをしてる間に終わってる。tmuxとsshで状況を確認する。これが最高に楽しいんだ。そうじゃないと言ってるやつがいたら、そいつの動機を疑った方がいい。僕は別に儲けようとしてるわけじゃないし、ただ楽をしてのんびりしたいだけさ。
みんなQwenの話をしてるから、僕も乗っかるよ。Strix Haloでllama.cppを使ってQwen 3.6 35B Q8 (MTP) を動かしてる。だいたい40-50 t/sで動くし、パフォーマンスは素晴らしい。その能力にはいつも驚かされるよ。zshから直接forge-codeと一緒に使ってる。ただ、コンテキストが長くなる(150k超え)と、性能が劣化して忘れっぽくなってくるね。