r/LocalLLaMA🔥 111

💬 109

ローカルLLMでエージェント構築するならQwen3.6一択？最強モデルの座を検証

HornyGooner4402

約23時間前

ディスカッション (100件)

HornyGooner4402OP🔥 111

約23時間前

最近いろいろなモデルを試しているのですが、エージェント用途において『Qwen3.6 35B A3B』の右に出るものは今のところ見当たりません。他のモデルだと、ごく稀にループに陥る程度で済むQwenに対し、Gemma4はツール呼び出しが壊れることがあり、GLM 4.7 Flash REAPに至っては2〜3回やり取りしただけでループが始まってしまい使い物になりませんでした。ちなみにすべてUnslothのIQ4_NL量子化版を使用しています。Hermes AgentやPiで運用していますが、完璧とは言わないまでも、ローカルモデルとしては驚異的な性能です。このサイズ感（できればMoEモデル）で、他に試すべき有力なモデルがあればぜひ教えてください！

LeMochileiro🔥 141

約23時間前

うん。

ForsookComparison

👍10約16時間前

返信先:>>1

寡黙な男だね…でも、良いこと言うじゃないか。

MathmoKiwi

約15時間前

返信先:>>2

「Ones」？

*good one（良いこと言ったね）

Glittering_Focus1538

👍1約15時間前

返信先:>>3

それ良いね。X。それは良いものだ。^

Fluffywings

👍14約15時間前

返信先:>>2

効率的なトークン使用だね。

MuDotGen

👍4約13時間前

返信先:>>1

ノートPCのRTX 3070ti（8GB）、RAM 32GBでエージェントコーディングをして、300+ pp、33-34 tgが出せた事実に本当に驚いてる。Qwen3.6-35B-A3B Q4_K_XLモデルを使ってるんだけど、サイドプロジェクトの開発で純粋に役立つアシスタントとして期待以上だね。無料でセキュアなんて、本当にいい時代になったもんだ。

RANDVR

👍7約22時間前

自分の経験から言えばそう。試したローカルモデルの中では、Qwenの右に出るものはないよ。

Creative-Type9411

👍7約22時間前

返信先:>>7

しかも動作が速いなんてヤバいよね。

DinoAmino

👍6約22時間前

ステマ業者も10点満点中10点で同意してるね。

TripleSecretSquirrel

👍13約21時間前

返信先:>>9

別の提案はある？Qwen 3.6 27bにはすごく満足してるんだけど、VRAM 32GB以下で本当にこれより良い選択肢があるなら、ぜひ聞いてみたい。

Deep90

👍10約18時間前

返信先:>>10

真面目な話、オープンウェイトモデルでアストロターフィング（偽の世論工作）をして何の得があるんだ？ホストされたQwenモデルに人を集めたいなら分かるけど、今のところDeepseekよりそっちを推奨してる人なんていないし。

Karyo_Ten

👍2約18時間前

返信先:>>11

もしかしてAlibabaがコミュニティマネージャーを募集してるんじゃない？

TripleSecretSquirrel

👍2約17時間前

返信先:>>11

工作活動（アストロターフィング）だとは思わないな。Qwen 3.6が単に今一番イケてるってだけでしょ。とはいえ、そうしたくなる理由はたくさんあるだろうけど。

いつものようにSilicon Valley にいい解説があるよ。オープンソース（少なくともオープンウェイト）に関する盛り上がりは、間違いなく株価を吊り上げるだろうからね。

Snoo_81913

👍6約22時間前

現状、このウェイトのローカルMoEモデルとしては最高だよ。

twack3r

👍36約22時間前

もちろん違うけど、小規模モデルなら今のところQwen3.6 27Bと35BA3が正解だね。ローカルでのコーディングとエージェント機能ならGLM5.1が最強だけど、ほとんどのユーザーにはローカルで動かすには重すぎるみたい。

the_derby

👍27約21時間前

返信先:>>15

でも大抵のユーザーにとってはローカルで動かすには大きすぎるよね。

ああ、ちょっとメモリが足りなくてね。=)

Karyo_Ten

👍2約18時間前

返信先:>>16

いいな、こっちは少し金欠なんだ。

corpo_monkey

👍10約18時間前

返信先:>>16

俺もだ。4歳のときに頭にピアノが落ちてきてさ。4歳のときに頭にピアノが落ちてきたって言ったっけ？

Current_Ferret_4981

👍19約19時間前

返信先:>>15

ローカル環境で512GB以上のRAMを持ってる人はまずいないでしょ。エージェントってことはある程度の速度が必要だし、ストレージからモデルの重みを読み込むのはエージェント用途としては必然的に遅すぎる。GLM5.1の2bit版でさえ256GBのRAMが必要だし、2bit版じゃ多くの場合27Bモデルには及ばない。特に速度低下を考慮に入れるとね。だからGLM5.1がエージェント最強ってわけじゃないよ。

twack3r

約19時間前

返信先:>>19

ダメだね。このサブレ、最近こういうのが増えすぎてて「貧乏人のローカルAI」の集まりみたいになってるよ。VRAMをどれだけ積んでるかなんてどうでもいいんだよ。400GiB以上のVRAMを持ってるユーザーだってたくさんいるんだから、当然2bit量子化なんて使わないし。ゲーミングGPUでモデルを弄ぶのは、本当のローカルLLMじゃない。

Current_Ferret_4981

👍20約19時間前

返信先:>>20

GLM 5.1を60 tps以上で回せるリグっていくらかかるんだ？GPUを持ってるかどうかの問題じゃないよ。H100だってエージェントソリューションとしては不十分だし、もし10万ドル以上かかるならレンタルした方が安いしローカルで動かす意味がない。貧乏人の setupとかそういう話じゃなくて、GPUコストとトークン単価を考えたら、ローカルハードウェアでそのモデルを動かす合理性がないってこと。コスト、速度、エンジニアリングの労力を考えれば全く割に合わないよ。

twack3r

約19時間前

返信先:>>21

勘弁してくれ。所有するよりレンタルする方が安いかどうかじゃないんだよ、ローカルモデルの意義は「独立性」にあるんだ。このサブレはゲーミングGPUの再利用方法を探す場所じゃないはずなのに、時間が経つほどに、貧乏人が門番（ゲートキーパー）になろうと必死になってる気がする。繰り返し言うけど、あんたが5090や4090、あるいは電子レンジで何を動かそうが誰も興味ないんだよ。GLM 5.1はコーディングやエージェントタスクにおいて現時点で最も高性能なローカルモデルだし、dsv4.1だってすぐそこまで来てるのに、また脳死したREAP-TURBOQ0.1のリクエストが来るのかと思うとね。多くのユーザーが買えないなんてことは全く無意味な事実なんだよ。実際、そんなこと誰が気にするの？

Educational_Song_407

👍9約18時間前

返信先:>>22

データセンターがローカルにあると思ってるのかよ、勘違いも甚だしいな。

gothlenin

👍6約18時間前

返信先:>>22

このサブレのユーザーのほとんどは気にしてるはずだぞ。ユーザーの大多数がローカルで動かせないモデルなんて、（好奇心以外には）ほぼ無意味だろ。あんたが「ローカル」という言葉をどう解釈してるのか、少しズレてるんじゃないか。巨大モデルを語るなって言ってるわけじゃない。実際に動かせるやつもいるだろうしね。ただ、「コンシューマー向けハードウェアで動かせる能力」が「ローカルでのエージェント利用における最強」を定義する一つの要素であることは明らかだろ。それが全てじゃないにしてもさ。

twack3r

約18時間前

返信先:>>24

お前ら大多数の「ローカル」の定義なんて誰が気にするんだよ？「自分に金がないから」という立場から勝手にデタラメを捏造してるだけだろ。ローカルLLMっていうのは、中規模企業がファインチューニングされた中国製モデルを運用して調整するものなんだよ。個人の遊びのことじゃない。なんて傲慢な考え方なんだ。

gothlenin

👍10約18時間前

返信先:>>25

あんた、コミュニティベースの掲示板がどういうものか、どう機能してるのかを理解するのに苦労してるみたいだね。

twack3r

約18時間前

返信先:>>26

最近の投稿者の質を見る限り、舗装路に頭から突っ込むようなレベルに落ちてるってことだね。わかるよ。平均的な層が流入してくると、面白いエッジケースを扱っていたほとんどのサブレディットで同じことが起きるんだ。

gothlenin

👍5約17時間前

返信先:>>27

そういう見方もあるね。でも、そう捉える必要はないよ。結局、これは数え切れないほどのユースケースがある大きなトピックだし、このサブレディットが趣味レベルの視点に偏ってきているのは事実、ただそれだけのことさ。背景を理解していれば、今でもここでより大規模なモデルやワークフローについて議論している人たちはいるよ。

Gargle-Loaf-Spunk

👍2約18時間前

返信先:>>22

このサブレにおけるローカルモデルの分類基準はこれだよ：Unlimited: 128GB VRAM超、XL: 64〜128GB VRAM、L: 32〜64GB VRAM、M: 8〜32GB VRAM、S: 8GB VRAM未満。

twack3r

約18時間前

返信先:>>29

は？

Gargle-Loaf-Spunk

👍3約18時間前

返信先:>>30

サイドバーのリンクをチェックしてみなよ。

twack3r

👍1約17時間前

返信先:>>31

Local Llama

ローカルでホスト可能なLLMを議論するためのサブレディット

はい、そういうこと。

gothlenin

👍1約17時間前

返信先:>>29

それじゃあ……現存するすべてのモデルってことか？ xD

Dabber43

約15時間前

返信先:>>22

いや、君の言う通りだよ。ただ、今の言い方だと論拠があんまり強くないから、もっとうまく伝えたほうがいいかも。

Deep90

👍10約18時間前

返信先:>>20

5万ドル以上の構成で動かしておいて、ローカルとは何かを定義して制限しようとしてるの？

twack3r

約18時間前

返信先:>>35

ローカルってのはホストもサーバーも介さないってことだ。別に俺は何かを言いくるめようとしてるわけじゃない。いつものことだけど、結局は金の問題だよ。自分に買えないものを他人が持っていると面白くないから、話の論点をすり替えて自分も会話に参加しようとしてるんだ。投稿者はQwen3.6がローカルでのエージェント利用において最強かって聞いてるけど、そうじゃない。コンシューマー向けグラボで動かすローカルエージェント利用において最強なんだよ。ゲートキーピングが起きてるとか言われてるけど、実際はその逆だ。このサブは、ローカルモデルでできることを最大限に引き出す場所だったはずだろ。巨大テック企業に中指を立てて、サブスクだのといった消費主義的なクソには屈しないっていう姿勢だよ。今じゃ手っ取り早く儲けたい、なんでも無料で今すぐ手に入れたいっていう連中が入り込んできててさ。マジでクソだな。

Deep90

👍3約16時間前

返信先:>>36

ローカルっていうのは、ホストされてない／外部サービスじゃないってことだぞ。

他のコメントを見る限り、君はそれを認めたくないみたいだけどな。

Current_Ferret_4981

👍2約16時間前

返信先:>>35

彼がglm 5.1をエージェントとして走らせてるなら、5万ドルじゃ全然足りないよ。最低でも8万ドル、快適に動かすなら15万ドルはいくはず。

Deep90

👍4約16時間前

返信先:>>38

5万ドルっていうのはあくまで「動く」ための最低ライン（それにいつ買ったかにもよるし。昨日5万ドルだったものが今日は8万ドルになる世界だしね）。でも、君の言う通りもっと高額になるだろうな。

どっちにせよ、小規模ビジネス並みの設備投資が必要なのが「真の」ローカルLLMっていうのは極端な話だよな。

Several_Industry_754

👍2約16時間前

返信先:>>15

GLM5.1をローカルで動かすにはどうすればいいんだ？クラウド版しか見当たらないんだけど。

ResearcherFantastic7

👍4約15時間前

返信先:>>40

H100が6枚は必要だと思うよ。クラウドGPUをレンタルしたほうがマシじゃないかな。

j_tb

👍8約22時間前

君のハードウェアでDS4が選択肢に入らない場合のみだね。

ComfyUser48

👍30約22時間前

そうだよ。DeepSeek v4 Flashともそこまで差はないと思う。追記：ごめん、27bの話をしてた。

KURD_1_STAN

👍1約14時間前

返信先:>>43

DSv4は、少なくともコーディング用途で目指すべきものではないな。

HVACcontrolsGuru

👍24約22時間前

Qwenはコーディング向きで、Gemmaは一般的なユーザー対応に向いてると思う。どっちも使ってるし、ファインチューニングもしてるよ！厄介な隠れた問題として、チャットテンプレートで不具合が出ることがあるんだ。エージェントとしてのコーディングやツール呼び出しを改善するために、QwenとGemma両方のテンプレートを作り直したよ。使い方によっては、デフォルトのチャットテンプレートでアプリ側が変な挙動をすることがあるから注意が必要だね。

sir-draknor

👍6約21時間前

返信先:>>45

チャットテンプレートにどんな変更を加えたのか詳しく教えてくれない？何を変えたのかすごく気になる！

HVACcontrolsGuru

👍22約21時間前

返信先:>>46

Gemma 4: Gemma 4 Chat Template Gist

Qwen用のはプライベートな作業分を削って整理する必要があるな。ツール呼び出しのエージェント的なワークフローとコーディング寄りに調整して、企業向けの案件に使ってる。今日もっと検証する必要があるけど、修正点はちゃんとドキュメント化してあるよ！

Qwen3.6: Qwen 3.6 Chat Template

drdemolicion

👍5約19時間前

返信先:>>47

共有してくれてありがとう。自分は汎用用途でGemma4 MoE、コーディング用にQwen 27B denseという構成に移行してたところなんだ。エージェントワークフローでQwen MoEを試すつもりだけど、Gemma4 31B denseは使い道がよく分からないな。KVキャッシュのメモリ消費がエグすぎる。みんなどうやって使ってるの？

HVACcontrolsGuru

👍4約19時間前

返信先:>>48

自分はModal上でB200/B300を使っていろいろ回してるよ。小さいモデルだとE4BでoMLXをいじったりね。今週はMoE関連のセットアップと、他の作業の根拠理論（ground theory）のためにエキスパートをターゲットにしたファインチューニングをやるつもり。MoEモデルは能力的にはdenseモデルとそんなに遜色ないよ。長期間のタスクでその差を埋められるようなツールを近々オープンソースにする予定だ。今週はGemmaとQwenのMoEモデルをかなり掘り下げるつもり。あと、ドメイン特化のファインチューニングにはdenseモデルを使うことが多いかな。ユーザー名がそのヒントになってるよ！MoEは他の領域を劣化させずにエキスパートをうまく調整するのが難しいんだ。

tiebird

👍1約22時間前

nemotron 3シリーズをチェックしてみて。多くのユースケースでかなり優秀だし、速度もまずまずだよ。

jacek2023

👍2約22時間前

NemotronsとDevstralを忘れてるよ

exaknight21

👍19約22時間前

個人的にはUnslothの27B Q4 KXLと35B-A3Bを試したけど、MOEの方が速いし個人的にはこっちの勝ちだな。Mi50のプロンプト処理がもっと速ければいいんだけど、27Bはめちゃくちゃ時間かかる割に最後にはちゃんと仕事してくれる。まあ時代遅れのハードウェアで動かしてるからそのせいかもしれないけどね。とにかく、Qwenチームが大好きだし、結局それが一番大事だよ。

DeathGuppie

👍9約17時間前

返信先:>>52

自分のテストだと、Gemma 4 26b e4b Q8の方がコーディングには向いてるね。Q8であるってところが重要。16GBのVRAMになら、こんな感じで収められるよ：

llama-server -m /path_to_/gguf/gemma-4-26B-A4B-it-Q8_0.gguf --host 0.0.0.0 --port 8080 --no-mmap -c 131072 -np 1 -ngl 999 --n-cpu-moe 13 -t 8 --cpu-range 0-7 --cpu-strict 1 --reasoning off --batch-size 1024 --ubatch-size 256 --flash-attn on --no-context-shift --cache-type-k q4_0 --cache-type-v q4_0

必要なコンテキストの量に応じて、CPUに割り当てるエキスパートの数を調整してみて。トレードオフは常に速度だね。VRAM上のエキスパートが多ければ減速は抑えられるけど、その分コンテキストは減るよ。

drizz

👍3約15時間前

返信先:>>53

A4B MoEモデルで推論なし？しかもコーディングで？コンテキスト上限ギリギリまで何度も繰り返すような長時間のセッションで試したことある？もしあるなら、どんな感じのパフォーマンスだった？

DeathGuppie

👍1約13時間前

返信先:>>54

普段はタスクを分割してるんだけど、言われてみれば試してみるよ。推論をオフにしてみたんだ。というのも、モデルが余計なことを考えて正解から遠ざかる傾向があるから。スレッドを拾い上げてると思ったら、途中で迷子になる感じ。両方試した結果、推論なしで書かせたコードの方が質が高くて、時間も大幅に短縮できた。誰かがQwenのツール使用能力は高いって言ってたけど、それには同意。ただ、Gemma 4 Q8の方がコードは綺麗に書くね。少なくとも自分のハードウェア予算の範囲内では。

the-username-is-here

👍3約21時間前

Qwen 3.5 122Bの方がずっといいよ。

tarruda

👍4約21時間前

返信先:>>56

まだ3.6 122Bを期待してるよ

the-username-is-here

👍2約20時間前

返信先:>>57

俺もそうだけど、もう希望を捨てかけてる

Zc5Gwu

👍2約20時間前

返信先:>>56

どういうこと？ベンチマークだと3.6 27bの方が上なんだけど（ちょっと気になる）

the-username-is-here

👍4約20時間前

返信先:>>59

デカいモデルほど賢い。デカいモデルほどコンテキストを覚えられる。

MuDotGen

👍1約13時間前

返信先:>>60

コンテキストがめちゃくちゃでかい。RAMが必要だな。

Jorlen

👍2約19時間前

返信先:>>56

この巨大モデルを3-bit量子化してまで使う価値ってあるの？それとも劣化しすぎてて、素直にQwen 3.6 27bを使ってた方がマシかな？

the-username-is-here

👍1約18時間前

返信先:>>62

Sparkなら4bitで問題なく動くし、40 TPSくらい出るよ。個人的には27Bより賢いと思うし、速いね。もちろん環境によるだろうけど。

silentus8378

👍2約21時間前

自分はbyteshapeの2bit版をopencodeで使ってるけど、ツール呼び出しも相変わらずしっかりしてるよ。

Potential-Leg-639

👍1約21時間前

うん

jarec707

約21時間前

SuperGemma4は読んだ感じチェックしてみる価値あるよ

LoveMind_AI

👍2約20時間前

個人的にはGemma 4 31Bがベストなモデルだけど、コーディング用途では使ってないかな

drdemolicion

👍1約19時間前

返信先:>>67

ファインチューニング以外にこれの用途が全く分からない。

LoveMind_AI

👍2約18時間前

返信先:>>68

俺の場合は社会科学系の仕事。Qwenより良いよ。

Jipok_

👍5約20時間前

Gemma4が壊れたツールコールを生成した
テンプレートの問題だね

hurdurdur7

約20時間前

27b q6使いの集まりだ

Interesting-Sock3940

約20時間前

ローカルモデルってどれも良さげに見えるけど、実際に5分以上エージェントを動かしてみるとボロが出るよな

szansky

👍1約20時間前

Gemma 4とQwen 3.6 27Bだね

wasnt_in_the_hot_tub

👍8約19時間前

VRAMは24GBしか積んでないんだけど、qwen 3.6 35B A3B (unsloth Q4 XL quant) とpi harnessの組み合わせに行き着いて、かなり満足してるよ。Gemma 4も悪くないんだけど、前述の通りツールコーリングなら断然qwenだね。これが最適解かどうかは分からないけど、自分のローカル環境でこれ以上ないくらい引き出せてる実感はあるよ。フロンティアモデルと比べると作業を「分割」する必要はあるかもしれないけど、コストを気にしなくていいし、実際に実用的なコードをこれでガンガン書いてる。

Wrong_Mushroom_7350

👍1約19時間前

返信先:>>74

全く同じ状況だ。こっちはVRAM 16GBしかないけどね。モデルの量子化とharnessも同じ構成だよ。

maximus_reborn

👍1約16時間前

返信先:>>75

よお、その設定を共有してくれないか？こっちも16GB積んでるんだけど、35BのMoEがどうもうまく動かなくて。27Bならちょっとしたタスクには問題ないんだけどね。

Wrong_Mushroom_7350

👍3約16時間前

返信先:>>76

もちろん、共有するよ。こっちはRTX 4080 Super（16GB VRAM）でllama-server.exeを動かしてる。MTP版を使ってるよ。

もし35BモデルがMTP版じゃないなら、以下のフラグは消して大丈夫だ。

--spec-type draft-mtp
--spec-draft-n-max 2

16GBでOOM（メモリ不足）を起こさずに35Bモデルを動かすコツは、GPUのレイヤー数を減らしてシステムRAMに負荷を肩代わりさせることと、KVキャッシュをbf16に縮小することだね。

あと、起動前に環境変数GGML_CUDA_FORCE_MMQ=1も設定してる。

正確な起動コマンドはこれだよ：llama-server.exe --model "YOUR_MODEL.gguf" --host 127.0.0.1 --port 8000 --n-gpu-layers 24 --ctx-size 16384 --cache-type-k bf16 --cache-type-v bf16 -np 1 --spec-type draft-mtp --spec-draft-n-max 2 --reasoning on

それでも落ちるようなら、--n-gpu-layersを20に下げるか、--ctx-sizeを8192まで削ってみて。幸運を祈る！

プロンプト処理は遅くなるけど、エージェント系のタスクにはすごく良いよ。

DeSibyl

👍1約14時間前

返信先:>>74

pi harnessは全然ダメだった…開いたフォルダ内のファイルを探すだけでループに陥って動かなくなったんだ。Q8のQwen3.6 27Bでさえこれだからね…open code、QwenCode、ClaudeCodeはどれも問題なく動いたんだけど。

reddit_kwr

👍1約19時間前

Gemmaでツールを正しく動かすまで少し手間取ったけど、今は特に問題なし。Qwen MoEでうまく動いてる具体的な量子化バージョンを誰か教えてくれない？できれば適切なvllmコマンドもセットで知りたい。

MDSExpro

👍3約18時間前

いや、それはQwen3.5-122B-A10Bだよ。27Bだと知識を保持するには容量が足りないし、MoEでもない。122B-A10BはMoEだけどね。

Regular_Working6492

👍1約18時間前

何に使うかによるかな。俺はカレンダーイベントの分類にローカルモデルをドイツ語で使ってるけど、その用途だとGemma 4はQwen 3.6を完全に圧倒してるよ（どちらもMoEバリアントの方ね）。

HornyGooner4402

👍1約13時間前

返信先:>>81

自分はエージェントタスク（Hermes）用に使ってるけど、それとコーディング以外だと、Gemmaの方が多言語サポートは優れてるって聞いたよ。

NNN_Throwaway2

👍1約18時間前

たぶんそうだろうね。Gemmaはツール呼び出しが本当にダメだ。

Constant-Simple-1234

👍1約18時間前

妙なことに35B-A3Bに関してはQwen3.5の方が良い結果が出てる。長時間のタスクをよりうまく処理できるんだけど、Qwen3.6の方は途中で止まっちゃうんだよね。誰かトラブルシューティングを手伝ってくれない？

zerubeus

👍1約18時間前

ds4とAntirezのオプティマイザを使ってみて https://github.com/antirez/ds4

patchedgg

👍1約18時間前

Qwen3.6-27B（デンス版）だけはより優れているよ。（ただし速度は落ちるけど）

Available_Hornet3538

👍3約18時間前

ああ、会計に使ってるよ。Claudeのスキルを使って90%くらいは正確にこなせてる。それを移植して、残りはClaudeに掃除させる感じ。基本的にはベゾスやサム・アルトマンをギャフンと言わせるためにオープンソースでやってるだけ。あと彼らが嫌いだからというのもあるけど。あー、余計なこと言ったかもだけど、どうしても吐き出したかったんだ。ベゾスがCNBCのインタビューで仕事について語ってたのが本当に腹立たしくてさ。

coolasabreeze

👍8約17時間前

それはキングじゃない、クイーンでもないよ！

allenasm

👍1約16時間前

そうそう、これはデンスモデル（密なモデル）だから、LoRAを使ってさらにアップグレードして、自分のユースケースに特化させることもできるよ。

No_Elephant_7530

👍1約16時間前

今はたぶんそんなとこだろ。

farkinga

👍3約16時間前

32GB VRAMに収まる限りのQwen3.6 27b（今はQ4_K_Mあたり）を使ってるけど、完全に信用しきれないんだよね…

だから、結局「もっと賢い」別のモデルに監視役をさせてる。今はgpt-oss-120を使ってるよ。指示に従う能力が時々異常なほど高いからね。一緒に使うとかなり良いチームになるよ！

MathmoKiwi

👍1約15時間前

エージェント的なコーディングを効率的にこなせる、最小のQwenモデルや一番安いGPUってどれくらいだと思う？

HornyGooner4402

👍1約13時間前

返信先:>>92

35B A3Bはクラウドモデルの代替として一番しっくりきてる。MoEだからRAMにオフロードしても十分速いし。全部で22GB程度のメモリと、コンテキスト用に数GB使うから、VRAMとRAMの価格を考えれば計算できるはず。現状、ローカルAIの推論には16GBのGPUがスイートスポットだと思うな。

Hylleh

👍2約15時間前

そうみたいだね。35b a3bにはかなり感動してる。でも、他の競合モデルも出てきたら面白そう。

jonydevidson

👍2約14時間前

64GBのMacBookを使ってる環境だけど、汎用エージェントとしてはQwen3.6 35B A3B Q8_0をフルコンテキストで使ってる。

モデルに実質的な知識が必要な場合や難しいコーディングタスクには、Qwen3.6 27B Q8_0を100kで運用してる。もっとコンテキストが必要なときはQ6_0まで落とすけど、OpenCodeに一時的なタスクファイルで調査させてから作業するほうが一貫性があるよ。100kを超えると精度がガタ落ちするからね。

Gemma 4 MoE 26B A4B Q8_0は、他の人に渡すテキストを書くときに使ってる。Qwenはあくまで実用重視のモデルで、文章のスタイルとかは気にしないからね。中国語でさえGemmaのほうが綺麗に書くよ。

あとはllmfan46のQwen3.6 35B A3B Q8_0 Hereticも持ってる。セキュリティ関係を含め、モデルに説教されたくないような作業は全部これでやってる。

おまけとして、Q&Aや雑談のために知識量が必要なときは、unsloth Qwen 3.5 122BのIQ3_XXSを100kで動かすこともできるけど、ツールコーリングに関しては3.6 27B Q8_0のほうが圧倒的に優れてるよ。

myziot

👍1約14時間前

自分の環境でどちらのモデルも動かせるなら、短〜中程度のコンテキストとタスクの複雑さであれば35b a3b Moe Qwenの圧勝だと思うよ。高速だし、ループから抜け出して自分で障害を解決できるくらい賢い。タスクがより複雑でオープンエンドになったり、「このコードと数個のMDファイルを読んでバグを見つけて」みたいな作業になると、密な（dense）27B Qwenのほうが効率的でスコープ決めの判断も的確だと感じたね。結局はコンテキストエンジニアリング次第だよ。タスクが短くて単純なほど高速なMOEモデルが適してるし、リクエストが複雑でニュアンスを汲み取る必要があるほど密なモデルに頼りたくなる。

これは単純に、リクエストごとに使われるアクティブなパラメータの総量の違いだね。MOEは3Bしか使わないけど、Denseは27Bすべてを使うからね（ただし、その分遅いけど）。

Sudden-Echo-8976

👍1約14時間前

Jackrongのqwopus3.6-35bを試してみて。自分はうまくいってるよ。

HornyGooner4402

👍1約13時間前

返信先:>>97

ベースの3.6とQwopusで何か違いを感じる？

Tema_Art_7777

👍1約12時間前

27Bでのローカルエージェント運用は確かにアリだけど、高いコンテキストサイズ（128kや200kとかね）で快適なレスポンスを得ようとすると、それなりのガチなハードウェアが必要になるよ。