ディスカッション (11件)
Qwen3.6-27Bがついに登場。わずか27Bのパラメータ数でありながら、フラッグシップモデルにも匹敵する驚異的なコーディング能力を実現しています。効率性とパフォーマンスを両立させたいエンジニアにとって、新たな選択肢になりそうです。
モデルの発表があるときは、今すぐ手元の(一般向け)ハードウェアで動かせるのか、コストはいくらか、tok/s(トークン毎秒)はどれくらいなのかを全部明記してほしい。
自転車に乗るペリカンのSVGを生成:https://codepen.io/chdskndyq11546/pen/yyaWGJx
車を運転しながらホットドッグを食べるドラゴンのSVGを生成:https://codepen.io/chdskndyq11546/pen/xbENmgK
完璧とは程遠いけど、今のモデルがどれだけすごいかよくわかる。
QwenやMinimaxなんかがOpenAI/Anthropicに近い(とはいえ少し劣る)ベンチマーク結果を出したモデルをオープンソース化してる中で、OpenAIやAnthropicの競争優位性ってどこにあるんだろう?
しかも、こうしたオープンソースモデルのトークン単価は、AnthropicのOpus 4.6の数分の一だしね1。
M4 MBPでQwen 3.6 35BとGemma 4 26Bを使ってるけど、Opusには及ばないにしても、やりたいことの95%はこれで片付く。全部完全にローカルで動いてるって考えるとマジでヤバい。
このペリカン、16.8GBの量子化ローカルモデルにしてはめちゃくちゃ優秀だよ:https://simonwillison.net/2026/Apr/22/qwen36-27b/
M5 Proのメモリ128GBで動かしたけど、実際は20GBくらいしか使ってない。32GBのマシンでも普通に動くはず。
パフォーマンスはこんな感じ:
読み込み:20トークン、0.4秒、54.32トークン/秒
生成:4,444トークン、2分53秒、25.57トークン/秒
この前Opus 4.7に出させたペリカンより気に入ってる:https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
ローカルでのコーディング用に少し大きめの31Bモデルを動かしてる:
ollama launch claude --model qwen3.6:35b-a3b-nvfp4
Appleシリコン向けに最適化されてて、メモリ32GBのシステムでもサクサク動く。ローカルモデル、どんどん良くなってるね!
llamaサーバーでQ4_K_Mを動かすと、24GBでコンテキストが約91k確保できる。計算すると1Kコンテキストあたり約70MB(KVキャッシュ)ってところかな。Q5にすることもできたけど、そうすると多分コンテキスト領域が30Kくらい減るはず。かなり印象的だと思う。
イースターにGemma 4が登場してから、セルフホストモデルとClaudeの差はかなり縮まったと思う。まだ大きな開きはあるけど、イースター前はローカルモデルなんて全く勝負にならなかったからね。今回のQwen 3.6はGemma 4からさらに一歩進んだ感じだし、本当に期待できる。もちろんOpusも手放せない。ローカルモデルはたまに迷走して失敗するけど、Opusならまずそんなことないからね。
でも、ローカルモデルが自分の要求に応えてくれるたびに、あるべき姿に近づいている気がする。コーディングは自由であるべきだしね。ビールみたいなタダの無料(free beer)という意味でも、自由(freedom)という意味でも。
今のセットアップはRTX 5090を積んだ専用のUbuntuマシン。Qwen 3.6:27bを動かしてる今の時点ではVRAMを29/32GB使ってる。Ollamaは非rootのpodmanインスタンスで動かしてて、エディタにはOpenCodeをACPサービスとして使ってる。これマジでおすすめ。ACP(Agent Client Protocol)こそ、こうあるべきっていう理想の形だよ(誰にも聞かれてないけど)。
エキサイティングな時代だね。サム・アルトマンだらけの世界を少しでも良くしてくれて、Qwenチームには感謝しかない。
今のところローカル推論にはガッカリしてる。M5 Proのメモリ128GBでomlxを使ったら11トークン/秒しか出なくて、何百行かのコードを書かせるのに1時間もかかった挙げ句、動かなかったよ。OpusとSonnetなら同じタスクを数分で完璧にこなしてくれる。3.6:35bモデルは昨日のollamaではマシだったけどね。
claude code以外のツールも試してみる必要があるけど、ローカルモデルはとにかく遅すぎて話にならない。
ローカルLLMはまだ初心者なんだけど、昨日Qwen3.6-35B-A3Bのモデル(mlxの4b/8bと、ggufのQ4_K_M/Q4_K_XLだったかな)をセットアップしてテストしてみた。
メモリ64GBのM4で動いたことには驚いた。
今回のモデルは(TFAの表を見る限り)少し「賢く」なってるみたいだけど、その分VRAMが必要になったってこと?「dense」な構造が重要ってことかな?
27Bより35Bってことは、そのうちVRAM要件を抑えた量子化モデルも出てくるよね?