ディスカッション (100件)
最近いろいろなモデルを試しているのですが、エージェント用途において『Qwen3.6 35B A3B』の右に出るものは今のところ見当たりません。他のモデルだと、ごく稀にループに陥る程度で済むQwenに対し、Gemma4はツール呼び出しが壊れることがあり、GLM 4.7 Flash REAPに至っては2〜3回やり取りしただけでループが始まってしまい使い物になりませんでした。ちなみにすべてUnslothのIQ4_NL量子化版を使用しています。Hermes AgentやPiで運用していますが、完璧とは言わないまでも、ローカルモデルとしては驚異的な性能です。このサイズ感(できればMoEモデル)で、他に試すべき有力なモデルがあればぜひ教えてください!
うん。
寡黙な男だね…でも、良いこと言うじゃないか。
「Ones」?
*good one(良いこと言ったね)
それ良いね。X。それは良いものだ。^
効率的なトークン使用だね。
ノートPCのRTX 3070ti(8GB)、RAM 32GBでエージェントコーディングをして、300+ pp、33-34 tgが出せた事実に本当に驚いてる。Qwen3.6-35B-A3B Q4_K_XLモデルを使ってるんだけど、サイドプロジェクトの開発で純粋に役立つアシスタントとして期待以上だね。無料でセキュアなんて、本当にいい時代になったもんだ。
自分の経験から言えばそう。試したローカルモデルの中では、Qwenの右に出るものはないよ。
しかも動作が速いなんてヤバいよね。
ステマ業者も10点満点中10点で同意してるね。
別の提案はある?Qwen 3.6 27bにはすごく満足してるんだけど、VRAM 32GB以下で本当にこれより良い選択肢があるなら、ぜひ聞いてみたい。
真面目な話、オープンウェイトモデルでアストロターフィング(偽の世論工作)をして何の得があるんだ?ホストされたQwenモデルに人を集めたいなら分かるけど、今のところDeepseekよりそっちを推奨してる人なんていないし。
もしかしてAlibabaがコミュニティマネージャーを募集してるんじゃない?
工作活動(アストロターフィング)だとは思わないな。Qwen 3.6が単に今一番イケてるってだけでしょ。とはいえ、そうしたくなる理由はたくさんあるだろうけど。
いつものようにSilicon Valley にいい解説があるよ。オープンソース(少なくともオープンウェイト)に関する盛り上がりは、間違いなく株価を吊り上げるだろうからね。
現状、このウェイトのローカルMoEモデルとしては最高だよ。
もちろん違うけど、小規模モデルなら今のところQwen3.6 27Bと35BA3が正解だね。ローカルでのコーディングとエージェント機能ならGLM5.1が最強だけど、ほとんどのユーザーにはローカルで動かすには重すぎるみたい。
でも大抵のユーザーにとってはローカルで動かすには大きすぎるよね。
ああ、ちょっとメモリが足りなくてね。=)
いいな、こっちは少し金欠なんだ。
俺もだ。4歳のときに頭にピアノが落ちてきてさ。4歳のときに頭にピアノが落ちてきたって言ったっけ?
ローカル環境で512GB以上のRAMを持ってる人はまずいないでしょ。エージェントってことはある程度の速度が必要だし、ストレージからモデルの重みを読み込むのはエージェント用途としては必然的に遅すぎる。GLM5.1の2bit版でさえ256GBのRAMが必要だし、2bit版じゃ多くの場合27Bモデルには及ばない。特に速度低下を考慮に入れるとね。だからGLM5.1がエージェント最強ってわけじゃないよ。
ダメだね。このサブレ、最近こういうのが増えすぎてて「貧乏人のローカルAI」の集まりみたいになってるよ。VRAMをどれだけ積んでるかなんてどうでもいいんだよ。400GiB以上のVRAMを持ってるユーザーだってたくさんいるんだから、当然2bit量子化なんて使わないし。ゲーミングGPUでモデルを弄ぶのは、本当のローカルLLMじゃない。
GLM 5.1を60 tps以上で回せるリグっていくらかかるんだ?GPUを持ってるかどうかの問題じゃないよ。H100だってエージェントソリューションとしては不十分だし、もし10万ドル以上かかるならレンタルした方が安いしローカルで動かす意味がない。貧乏人の setupとかそういう話じゃなくて、GPUコストとトークン単価を考えたら、ローカルハードウェアでそのモデルを動かす合理性がないってこと。コスト、速度、エンジニアリングの労力を考えれば全く割に合わないよ。
勘弁してくれ。所有するよりレンタルする方が安いかどうかじゃないんだよ、ローカルモデルの意義は「独立性」にあるんだ。このサブレはゲーミングGPUの再利用方法を探す場所じゃないはずなのに、時間が経つほどに、貧乏人が門番(ゲートキーパー)になろうと必死になってる気がする。繰り返し言うけど、あんたが5090や4090、あるいは電子レンジで何を動かそうが誰も興味ないんだよ。GLM 5.1はコーディングやエージェントタスクにおいて現時点で最も高性能なローカルモデルだし、dsv4.1だってすぐそこまで来てるのに、また脳死したREAP-TURBOQ0.1のリクエストが来るのかと思うとね。多くのユーザーが買えないなんてことは全く無意味な事実なんだよ。実際、そんなこと誰が気にするの?
データセンターがローカルにあると思ってるのかよ、勘違いも甚だしいな。
このサブレのユーザーのほとんどは気にしてるはずだぞ。ユーザーの大多数がローカルで動かせないモデルなんて、(好奇心以外には)ほぼ無意味だろ。あんたが「ローカル」という言葉をどう解釈してるのか、少しズレてるんじゃないか。巨大モデルを語るなって言ってるわけじゃない。実際に動かせるやつもいるだろうしね。ただ、「コンシューマー向けハードウェアで動かせる能力」が「ローカルでのエージェント利用における最強」を定義する一つの要素であることは明らかだろ。それが全てじゃないにしてもさ。
お前ら大多数の「ローカル」の定義なんて誰が気にするんだよ?「自分に金がないから」という立場から勝手にデタラメを捏造してるだけだろ。ローカルLLMっていうのは、中規模企業がファインチューニングされた中国製モデルを運用して調整するものなんだよ。個人の遊びのことじゃない。なんて傲慢な考え方なんだ。
あんた、コミュニティベースの掲示板がどういうものか、どう機能してるのかを理解するのに苦労してるみたいだね。
最近の投稿者の質を見る限り、舗装路に頭から突っ込むようなレベルに落ちてるってことだね。わかるよ。平均的な層が流入してくると、面白いエッジケースを扱っていたほとんどのサブレディットで同じことが起きるんだ。
そういう見方もあるね。でも、そう捉える必要はないよ。結局、これは数え切れないほどのユースケースがある大きなトピックだし、このサブレディットが趣味レベルの視点に偏ってきているのは事実、ただそれだけのことさ。背景を理解していれば、今でもここでより大規模なモデルやワークフローについて議論している人たちはいるよ。
このサブレにおけるローカルモデルの分類基準はこれだよ:Unlimited: 128GB VRAM超、XL: 64〜128GB VRAM、L: 32〜64GB VRAM、M: 8〜32GB VRAM、S: 8GB VRAM未満。
は?
サイドバーのリンクをチェックしてみなよ。
Local Llama
ローカルでホスト可能なLLMを議論するためのサブレディット
はい、そういうこと。
それじゃあ……現存するすべてのモデルってことか? xD
いや、君の言う通りだよ。ただ、今の言い方だと論拠があんまり強くないから、もっとうまく伝えたほうがいいかも。
5万ドル以上の構成で動かしておいて、ローカルとは何かを定義して制限しようとしてるの?
ローカルってのはホストもサーバーも介さないってことだ。別に俺は何かを言いくるめようとしてるわけじゃない。いつものことだけど、結局は金の問題だよ。自分に買えないものを他人が持っていると面白くないから、話の論点をすり替えて自分も会話に参加しようとしてるんだ。投稿者はQwen3.6がローカルでのエージェント利用において最強かって聞いてるけど、そうじゃない。コンシューマー向けグラボで動かすローカルエージェント利用において最強なんだよ。ゲートキーピングが起きてるとか言われてるけど、実際はその逆だ。このサブは、ローカルモデルでできることを最大限に引き出す場所だったはずだろ。巨大テック企業に中指を立てて、サブスクだのといった消費主義的なクソには屈しないっていう姿勢だよ。今じゃ手っ取り早く儲けたい、なんでも無料で今すぐ手に入れたいっていう連中が入り込んできててさ。マジでクソだな。
ローカルっていうのは、ホストされてない/外部サービスじゃないってことだぞ。
他のコメントを見る限り、君はそれを認めたくないみたいだけどな。
彼がglm 5.1をエージェントとして走らせてるなら、5万ドルじゃ全然足りないよ。最低でも8万ドル、快適に動かすなら15万ドルはいくはず。
5万ドルっていうのはあくまで「動く」ための最低ライン(それにいつ買ったかにもよるし。昨日5万ドルだったものが今日は8万ドルになる世界だしね)。でも、君の言う通りもっと高額になるだろうな。
どっちにせよ、小規模ビジネス並みの設備投資が必要なのが「真の」ローカルLLMっていうのは極端な話だよな。
GLM5.1をローカルで動かすにはどうすればいいんだ?クラウド版しか見当たらないんだけど。
H100が6枚は必要だと思うよ。クラウドGPUをレンタルしたほうがマシじゃないかな。
君のハードウェアでDS4が選択肢に入らない場合のみだね。
そうだよ。DeepSeek v4 Flashともそこまで差はないと思う。追記:ごめん、27bの話をしてた。
DSv4は、少なくともコーディング用途で目指すべきものではないな。
Qwenはコーディング向きで、Gemmaは一般的なユーザー対応に向いてると思う。どっちも使ってるし、ファインチューニングもしてるよ!厄介な隠れた問題として、チャットテンプレートで不具合が出ることがあるんだ。エージェントとしてのコーディングやツール呼び出しを改善するために、QwenとGemma両方のテンプレートを作り直したよ。使い方によっては、デフォルトのチャットテンプレートでアプリ側が変な挙動をすることがあるから注意が必要だね。
チャットテンプレートにどんな変更を加えたのか詳しく教えてくれない?何を変えたのかすごく気になる!
Gemma 4: Gemma 4 Chat Template Gist
Qwen用のはプライベートな作業分を削って整理する必要があるな。ツール呼び出しのエージェント的なワークフローとコーディング寄りに調整して、企業向けの案件に使ってる。今日もっと検証する必要があるけど、修正点はちゃんとドキュメント化してあるよ!
Qwen3.6: Qwen 3.6 Chat Template
共有してくれてありがとう。自分は汎用用途でGemma4 MoE、コーディング用にQwen 27B denseという構成に移行してたところなんだ。エージェントワークフローでQwen MoEを試すつもりだけど、Gemma4 31B denseは使い道がよく分からないな。KVキャッシュのメモリ消費がエグすぎる。みんなどうやって使ってるの?
自分はModal上でB200/B300を使っていろいろ回してるよ。小さいモデルだとE4BでoMLXをいじったりね。今週はMoE関連のセットアップと、他の作業の根拠理論(ground theory)のためにエキスパートをターゲットにしたファインチューニングをやるつもり。MoEモデルは能力的にはdenseモデルとそんなに遜色ないよ。長期間のタスクでその差を埋められるようなツールを近々オープンソースにする予定だ。今週はGemmaとQwenのMoEモデルをかなり掘り下げるつもり。あと、ドメイン特化のファインチューニングにはdenseモデルを使うことが多いかな。ユーザー名がそのヒントになってるよ!MoEは他の領域を劣化させずにエキスパートをうまく調整するのが難しいんだ。
nemotron 3シリーズをチェックしてみて。多くのユースケースでかなり優秀だし、速度もまずまずだよ。
NemotronsとDevstralを忘れてるよ
個人的にはUnslothの27B Q4 KXLと35B-A3Bを試したけど、MOEの方が速いし個人的にはこっちの勝ちだな。Mi50のプロンプト処理がもっと速ければいいんだけど、27Bはめちゃくちゃ時間かかる割に最後にはちゃんと仕事してくれる。まあ時代遅れのハードウェアで動かしてるからそのせいかもしれないけどね。とにかく、Qwenチームが大好きだし、結局それが一番大事だよ。
自分のテストだと、Gemma 4 26b e4b Q8の方がコーディングには向いてるね。Q8であるってところが重要。16GBのVRAMになら、こんな感じで収められるよ:
llama-server -m /path_to_/gguf/gemma-4-26B-A4B-it-Q8_0.gguf --host 0.0.0.0 --port 8080 --no-mmap -c 131072 -np 1 -ngl 999 --n-cpu-moe 13 -t 8 --cpu-range 0-7 --cpu-strict 1 --reasoning off --batch-size 1024 --ubatch-size 256 --flash-attn on --no-context-shift --cache-type-k q4_0 --cache-type-v q4_0
必要なコンテキストの量に応じて、CPUに割り当てるエキスパートの数を調整してみて。トレードオフは常に速度だね。VRAM上のエキスパートが多ければ減速は抑えられるけど、その分コンテキストは減るよ。
A4B MoEモデルで推論なし?しかもコーディングで?コンテキスト上限ギリギリまで何度も繰り返すような長時間のセッションで試したことある?もしあるなら、どんな感じのパフォーマンスだった?
普段はタスクを分割してるんだけど、言われてみれば試してみるよ。推論をオフにしてみたんだ。というのも、モデルが余計なことを考えて正解から遠ざかる傾向があるから。スレッドを拾い上げてると思ったら、途中で迷子になる感じ。両方試した結果、推論なしで書かせたコードの方が質が高くて、時間も大幅に短縮できた。誰かがQwenのツール使用能力は高いって言ってたけど、それには同意。ただ、Gemma 4 Q8の方がコードは綺麗に書くね。少なくとも自分のハードウェア予算の範囲内では。
Qwen 3.5 122Bの方がずっといいよ。
まだ3.6 122Bを期待してるよ
俺もそうだけど、もう希望を捨てかけてる
どういうこと?ベンチマークだと3.6 27bの方が上なんだけど(ちょっと気になる)
デカいモデルほど賢い。デカいモデルほどコンテキストを覚えられる。
コンテキストがめちゃくちゃでかい。RAMが必要だな。
この巨大モデルを3-bit量子化してまで使う価値ってあるの?それとも劣化しすぎてて、素直にQwen 3.6 27bを使ってた方がマシかな?
Sparkなら4bitで問題なく動くし、40 TPSくらい出るよ。個人的には27Bより賢いと思うし、速いね。もちろん環境によるだろうけど。
自分はbyteshapeの2bit版をopencodeで使ってるけど、ツール呼び出しも相変わらずしっかりしてるよ。
うん
SuperGemma4は読んだ感じチェックしてみる価値あるよ
個人的にはGemma 4 31Bがベストなモデルだけど、コーディング用途では使ってないかな
ファインチューニング以外にこれの用途が全く分からない。
俺の場合は社会科学系の仕事。Qwenより良いよ。
Gemma4が壊れたツールコールを生成した
テンプレートの問題だね
27b q6使いの集まりだ
ローカルモデルってどれも良さげに見えるけど、実際に5分以上エージェントを動かしてみるとボロが出るよな
Gemma 4とQwen 3.6 27Bだね
VRAMは24GBしか積んでないんだけど、qwen 3.6 35B A3B (unsloth Q4 XL quant) とpi harnessの組み合わせに行き着いて、かなり満足してるよ。Gemma 4も悪くないんだけど、前述の通りツールコーリングなら断然qwenだね。これが最適解かどうかは分からないけど、自分のローカル環境でこれ以上ないくらい引き出せてる実感はあるよ。フロンティアモデルと比べると作業を「分割」する必要はあるかもしれないけど、コストを気にしなくていいし、実際に実用的なコードをこれでガンガン書いてる。
全く同じ状況だ。こっちはVRAM 16GBしかないけどね。モデルの量子化とharnessも同じ構成だよ。
よお、その設定を共有してくれないか?こっちも16GB積んでるんだけど、35BのMoEがどうもうまく動かなくて。27Bならちょっとしたタスクには問題ないんだけどね。
もちろん、共有するよ。こっちはRTX 4080 Super(16GB VRAM)でllama-server.exeを動かしてる。MTP版を使ってるよ。
もし35BモデルがMTP版じゃないなら、以下のフラグは消して大丈夫だ。
--spec-type draft-mtp--spec-draft-n-max 2
16GBでOOM(メモリ不足)を起こさずに35Bモデルを動かすコツは、GPUのレイヤー数を減らしてシステムRAMに負荷を肩代わりさせることと、KVキャッシュをbf16に縮小することだね。
あと、起動前に環境変数GGML_CUDA_FORCE_MMQ=1も設定してる。
正確な起動コマンドはこれだよ:llama-server.exe --model "YOUR_MODEL.gguf" --host 127.0.0.1 --port 8000 --n-gpu-layers 24 --ctx-size 16384 --cache-type-k bf16 --cache-type-v bf16 -np 1 --spec-type draft-mtp --spec-draft-n-max 2 --reasoning on
それでも落ちるようなら、--n-gpu-layersを20に下げるか、--ctx-sizeを8192まで削ってみて。幸運を祈る!
プロンプト処理は遅くなるけど、エージェント系のタスクにはすごく良いよ。
pi harnessは全然ダメだった…開いたフォルダ内のファイルを探すだけでループに陥って動かなくなったんだ。Q8のQwen3.6 27Bでさえこれだからね…open code、QwenCode、ClaudeCodeはどれも問題なく動いたんだけど。
Gemmaでツールを正しく動かすまで少し手間取ったけど、今は特に問題なし。Qwen MoEでうまく動いてる具体的な量子化バージョンを誰か教えてくれない?できれば適切なvllmコマンドもセットで知りたい。
いや、それはQwen3.5-122B-A10Bだよ。27Bだと知識を保持するには容量が足りないし、MoEでもない。122B-A10BはMoEだけどね。
何に使うかによるかな。俺はカレンダーイベントの分類にローカルモデルをドイツ語で使ってるけど、その用途だとGemma 4はQwen 3.6を完全に圧倒してるよ(どちらもMoEバリアントの方ね)。
自分はエージェントタスク(Hermes)用に使ってるけど、それとコーディング以外だと、Gemmaの方が多言語サポートは優れてるって聞いたよ。
たぶんそうだろうね。Gemmaはツール呼び出しが本当にダメだ。
妙なことに35B-A3Bに関してはQwen3.5の方が良い結果が出てる。長時間のタスクをよりうまく処理できるんだけど、Qwen3.6の方は途中で止まっちゃうんだよね。誰かトラブルシューティングを手伝ってくれない?
ds4とAntirezのオプティマイザを使ってみて https://github.com/antirez/ds4
Qwen3.6-27B(デンス版)だけはより優れているよ。(ただし速度は落ちるけど)
ああ、会計に使ってるよ。Claudeのスキルを使って90%くらいは正確にこなせてる。それを移植して、残りはClaudeに掃除させる感じ。基本的にはベゾスやサム・アルトマンをギャフンと言わせるためにオープンソースでやってるだけ。あと彼らが嫌いだからというのもあるけど。あー、余計なこと言ったかもだけど、どうしても吐き出したかったんだ。ベゾスがCNBCのインタビューで仕事について語ってたのが本当に腹立たしくてさ。
それはキングじゃない、クイーンでもないよ!
そうそう、これはデンスモデル(密なモデル)だから、LoRAを使ってさらにアップグレードして、自分のユースケースに特化させることもできるよ。
今はたぶんそんなとこだろ。
32GB VRAMに収まる限りのQwen3.6 27b(今はQ4_K_Mあたり)を使ってるけど、完全に信用しきれないんだよね…
だから、結局「もっと賢い」別のモデルに監視役をさせてる。今はgpt-oss-120を使ってるよ。指示に従う能力が時々異常なほど高いからね。一緒に使うとかなり良いチームになるよ!
エージェント的なコーディングを効率的にこなせる、最小のQwenモデルや一番安いGPUってどれくらいだと思う?
35B A3Bはクラウドモデルの代替として一番しっくりきてる。MoEだからRAMにオフロードしても十分速いし。全部で22GB程度のメモリと、コンテキスト用に数GB使うから、VRAMとRAMの価格を考えれば計算できるはず。現状、ローカルAIの推論には16GBのGPUがスイートスポットだと思うな。
そうみたいだね。35b a3bにはかなり感動してる。でも、他の競合モデルも出てきたら面白そう。
64GBのMacBookを使ってる環境だけど、汎用エージェントとしてはQwen3.6 35B A3B Q8_0をフルコンテキストで使ってる。
モデルに実質的な知識が必要な場合や難しいコーディングタスクには、Qwen3.6 27B Q8_0を100kで運用してる。もっとコンテキストが必要なときはQ6_0まで落とすけど、OpenCodeに一時的なタスクファイルで調査させてから作業するほうが一貫性があるよ。100kを超えると精度がガタ落ちするからね。
Gemma 4 MoE 26B A4B Q8_0は、他の人に渡すテキストを書くときに使ってる。Qwenはあくまで実用重視のモデルで、文章のスタイルとかは気にしないからね。中国語でさえGemmaのほうが綺麗に書くよ。
あとはllmfan46のQwen3.6 35B A3B Q8_0 Hereticも持ってる。セキュリティ関係を含め、モデルに説教されたくないような作業は全部これでやってる。
おまけとして、Q&Aや雑談のために知識量が必要なときは、unsloth Qwen 3.5 122BのIQ3_XXSを100kで動かすこともできるけど、ツールコーリングに関しては3.6 27B Q8_0のほうが圧倒的に優れてるよ。
自分の環境でどちらのモデルも動かせるなら、短〜中程度のコンテキストとタスクの複雑さであれば35b a3b Moe Qwenの圧勝だと思うよ。高速だし、ループから抜け出して自分で障害を解決できるくらい賢い。タスクがより複雑でオープンエンドになったり、「このコードと数個のMDファイルを読んでバグを見つけて」みたいな作業になると、密な(dense)27B Qwenのほうが効率的でスコープ決めの判断も的確だと感じたね。結局はコンテキストエンジニアリング次第だよ。タスクが短くて単純なほど高速なMOEモデルが適してるし、リクエストが複雑でニュアンスを汲み取る必要があるほど密なモデルに頼りたくなる。
これは単純に、リクエストごとに使われるアクティブなパラメータの総量の違いだね。MOEは3Bしか使わないけど、Denseは27Bすべてを使うからね(ただし、その分遅いけど)。
Jackrongのqwopus3.6-35bを試してみて。自分はうまくいってるよ。
ベースの3.6とQwopusで何か違いを感じる?
27Bでのローカルエージェント運用は確かにアリだけど、高いコンテキストサイズ(128kや200kとかね)で快適なレスポンスを得ようとすると、それなりのガチなハードウェアが必要になるよ。