ディスカッション (11件)
最近、ローカル環境でLLMを動かすのが驚くほど快適になりました。ハードウェアの進化とソフトウェアの最適化が進み、もはや誰でも手軽に自分だけのAIモデルを操れる時代です。
これこそAnthropicたちが危惧すべき事態だよね。ローカルモデルの実行がどんどん簡単になれば、彼らが請求できる価格の上限はどんどん下がっていく。誰も月額料金を払いたくないというわけじゃないけど、多くの人は「月額料金×12または24ヶ月」を計算して、「これ以下のコストでローカル環境を構築して、1〜2年で元を取れるんじゃないか?」って考えるようになる。もし顧客のかなりの割合が、借りるのではなく購入する道を選んだら、レンタルだけにビジネスモデルを依存している企業は、突然顧客離れに直面することになるよ。
実際にそれらを使って書いたコードを見せてよ!:) ローカルモデルを使いたいしハードウェアも持ってるけど、GPT-5.5-xhighやOpusといったSOTA(最先端)モデルの代替として試しても、残念ながらまだ入れ替える準備はできていないんだよね。品質のムラやエラーのせいでワークフローが大幅に遅れるし、ツールの呼び出し構文を間違えることだってあるし。
ただ、より小規模で明確なワークフローや、「この部分を正確にこう書き換えて」といった単純な編集作業なら十分すぎるほど使える。今あるSOTAを完全に置き換えられるレベルになるまで待っているところだけど、そこまで行けば移行するつもり。
ローカルモデルといえば、DiffusionGemma(というか拡散モデル全般)をローカルで使うのも見逃せないよ!ローカル環境のLLMは大抵、リクエストをバッチ処理して並列で走らせない限りハードウェア性能を効率的に引き出せないのが難点だけど、それにはまた別のアプローチが必要になる。その点、拡散モデルなら個別のプロンプトに対してはるかに高速に動作するし、その差はかなり大きいよ。
今日ようやくdiffusiongemma-26B-A4B-itのサポートをTransformersからCandleへ移植し終えたんだ。最適化を加えた結果、HFのTransformersライブラリでは約180 tok/s (11 it/s) だったのが、Candleでの推論なら約450 tok/s (19 it/s) で爆速動作するようになった。同サイズのLLMでvLLMを使っても、単一プロンプトで250 tok/sの壁を超えたことはないから、ローカルモデル界隈はかなり熱いね :)
数週間Qwen3.6-27Bを快適に使ってたんだけど、出先でハードウェアが使えなくて、今は仕方なくClaude Sonnet 4.6を使ってる。
これがもう、あまりのダウングレードっぷりに驚いてるよ。なんでこんなことになってるのか理解できない。
余計な主張が強すぎて、頼んでもないことを話しすぎるし、全体的になんだか賢さも劣っているような気がする。
もちろんモデルサイズが大きければそれだけ知識量は多いんだろうけど、やり取りしててイライラする相手だと意味がないよね。
しかも、これらすべてに実際の金がかかってるわけだし。
なんでこんなに嫌悪感を抱くのか考えてみたんだけど、もしかして自分がツールじゃなくて対等な存在だと勘違いしてるからかな?まるでモデルの意見に価値があるかのような態度というか。
Qwenも時々おせっかいな新人のように振る舞うことはあるけど、「お前はバカか」と言えばすぐにその態度を改めてくれる。少なくとも自分の経験上、Claudeはそうはいかない。
とにかく、見出しの内容には完全に同意。
能力を過大評価しすぎじゃないかな。自分もStrix HaloのホームサーバーでGemma 4やQwen 3.6を結構使ってるよ。確かに素晴らしいモデルだし、密な構成のバリアントはかなり優秀だけど、それでも最先端のモデルとはまだ大きな差がある。Gemma 4 MoEやOpenCode/Piを立ち上げて、Claude CodeやCodexのようなパフォーマンスを期待するとかなりガッカリすることになるよ。
「良い」かどうかはさておき、ローカルモデルはかなり使ってるけど、ローカルで運用するのはまだまだ苦痛が多いよ。
密なモデル(Qwen 27B, Gemma 31B)はかなり賢いけど、動作がかなり遅い。
MoEモデル(Gemma 26B, Qwen 35B, North Mini Code 30B)はかなり速いけど、ミスが多い。
これらをうまく動かすにはメモリがたくさん必要だし、量子化するとツール呼び出しの精度が落ちる。だからみんな4bit量子化で動かして「なんか微妙だな」と悩むことになる。それは基本的にモデルをロボトミー手術で脳いじりしてるようなもんだからね(Unslothの量子化を勧めるよ。MoEには6bit、密なモデルには5bitがいい)。
つまり、プリフィル(初期生成)を速くするには計算力、デコードを速くするには帯域幅、すべてを保持するには大容量のメモリが必要……と条件が多すぎる。
それに加えて、ラップトップはうるさくて熱いマシンになって、作業が快適じゃなくなる。
結論として、良いのかって? まあ微妙だね。動くのかって? それはイエス。
編集:補足しておくと、オープンモデルこそが未来だと思ってるし、ものすごく重要だと思ってる。自分もエコシステムに常時貢献してるし、みんなもモデルをいじってみるべきだと思う。piを使って仕組みを学ぶのもいい。でも、箱から出してすぐに完璧に使えるモデルなんて期待してダウンロードしちゃダメだ。ほとんどの人が期待している「コーディングエージェント」として使うなら、かなりのチューニングと設定が必要になるからね。
自分はローカルでQwen3.6 27B 8bit(密)とQwen3.6 35B 4bit(MoE)の2つを使い分けるのが好きだね。
27Bはより賢くて信頼性も高いけど、動作が遅い。
35Bは速くて賢いけど、27Bには及ばず信頼性は少し落ちる。その理由はMoEアーキテクチャのおかげで、パラメータの一部しかアクティブにならないから圧倒的に高速なんだ。
27BはMacBook Pro M5 Max(GPU 40コア、RAM 128GB)で動かしてる。このモンスターマシンなら27Bと35Bを同時にメモリに乗せても他に余裕があるくらい。ただ、ラップトップだからずっと動かし続けるのは熱と騒音が厳しくて無理だね。
もっとワクワクしているのは、Mac Mini M4(RAM 64GB)で35Bモデルを動かしていること。高速だし、メールのスキャン・抽出・分類など、かなり実用的な仕事をしてくれる。あと、パーソナルなHermesアシスタントとして「次のStarshipの打ち上げはいつ?」「今日のワールドカップの試合は?トリビアを教えて」みたいな使い方もしてるよ。
次のステップとして、地下に置くRTX Pro 6000 Blackwellのワークステーションを計画中だ。Qwenをマルチスレッドや複数のプロンプト・エージェントで爆速で回したい。予算が許せば、DeepSeek v4 Flashを走らせてリサーチ用に使うためにRTX Pro 6000を2枚刺しにしたいと思ってる。
[メタ] 「良いエージェントコーディング」に対するハードルが人によってこうも違う理由は何なんだろうね。
Apple Musicで「タイマーセットして」って頼むレベルから、チューリングテストをパスしそうなレベルまで進化したのは驚異的だけど、実用的な面で見ると、今の小さなモデルは技術デモ以上のものとしては「良い」とは言い難い。
自分にとって、7BクラスのモデルはWikipediaのぼやけた残響のようなものだ。4bitのGemmaは、ツール呼び出し用のJSONを確実に生成したり、コードを一行コピーしてパッチを当てたりするのすら不器用すぎる。
Qwenは、無限ループや話の脱線を防ぐために細かく指示しすぎると、結局自分で書いた指示文の方が実際に残したコードより長くなってしまうんだよね。
何か自分が知らない魔法のプロンプトでもあるのかな? それともみんなが単に忍耐強いか、期待値が極端に低いだけなのか?
誰も聞いてないだろうけど、自分は私たちがコーディングやほとんどのタスクにSoA(最先端)モデルを使うべきじゃないと思ってる。むしろ、特定のタスクや学習、執筆、描画などを、骨で作られた指と肉で作られた脳を使って行うためのオープンモデルを開発すべきだ。大企業や研究機関なら、専門家が成果物をチェックする前提でコードや計算のためにそれらを使ってもいい。とはいえ、オープンモデルがこれだけ迫ってきていてAIブーム全体が詐欺的な要素を出し尽くしている状況では、それすらコストに見合わないかもしれない(昨年のOpenAIの360億ドルの赤字を見ればね)。
かなり小さなモデルでも使えることはたくさんあるはずだし、そこには狂ったような計算リソースやメモリは必要ない。でも、その研究をしている人が少なすぎるんだ。
プログラマーはツールに金を払わないことに慣れすぎている。普通のラップトップ(SSD、マルチコア、RAM 16GB)だって、C/C++/RustやPythonで開発する分には十分強力だ。なのに、突然それが役に立たなくなったかのように他人のコンピュータを使い、ツールを日貸しで借りるようになった。さらに悪いことに、毎日違うモデルを渡されるし、特定の mafioso(既得権益者)が製造元を脅かしているせいで、良いツールを借りることすらできない日があるかもしれない。
他の専門職はみんなツールにかなりの投資をしているものだよ。まともな開発環境が欲しいなら、64GBのGPUメモリ(5090を2枚など)と96GBのRAMは必要だろう。もし20万ドルの年収をもらうエンジニアなら、ツールに2年ごとに5万ドル払うのはかなり理にかなった投資だと思うけどね。
2600ドルあれば、AMD 9700 GPUを2枚買える。カードあたり32GBのRAMで、消費電力は約285Wだ。コストも電力も5090より低い。AITER用にパッチを当てたVLLMをビルドすれば、OpenCodeやPIを使った実際のコーディングセッションで、フルコンテキストウィンドウを維持しながらQwen3.6 27B FP8を約45〜50TPSで動かせるよ。30Bクラスの密なモデルがもっとリリースされることを願うけど、Qwen3.6ならエージェントとしてかなりの距離を走れるはずだ。
ただ、ROCmスタックは自分で深く掘り下げてパッチを当てる気がない人には向いていないけどね。