HN🔥 519
💬 268

Qwen 3.6 Max Preview登場!さらに賢く、鋭くなった最強AIの進化を徹底解説

mfiguiere
約21時間前

ディスカッション (11件)

0
mfiguiereOP🔥 519
約21時間前

ついに「Qwen 3.6 Max Preview」が公開されました。前モデルから推論能力や精度が格段に向上しており、まさに「より賢く、より鋭く」進化を続けています。今後のAI開発や業務効率化において、欠かせない選択肢になりそうです。

1
jjice
約21時間前

Opus 4.5と比較して語ってるけど、正直あまり誠実な比較とは思えないな。4.7は出たばかりだから期待しないけど、4.6はもうだいぶ前からあるんだし。

2
trvz
約21時間前

面白いのが、ローカルで動かせるQwenモデルのラインナップには詳しくても、クラウド版のモデルは全然知らないってケースがあることだね。3.5系とか3.6のことは知ってたけど、Plusについては今初めて聞いたわ。

3
0xbadcafebee
約20時間前

みんなSOTA(最高性能)を追いかけてるけど、自分は月額10ドルでMiniMax M2.5を並列セッションで使いまくって、制限なんて全く気にせずコーディングしてるよ。

4
ninjahawk1
約20時間前

この界隈の定石は、最初は無料で配って名を売って、そこから全部プロプライエタリ(独自仕様)にしちゃうことみたいだな。オープンウェイトの公開を続けてくれることを祈るよ。もし誰もオープンウェイトを出さなくなったら人類にとって悲劇だ。そんなことになったら、一般人は自分の計算資源なんて持てなくなるからね。

5
alex7o
約19時間前

モデル同士を比較して「Opus 4.7がSOTAで断然上だ」みたいに言うのが面白いよな。自分はGLM 5.1(OpusとCodexの両方で学習してるからだと思うけど)をOpusで無理だったタスクに使ったけど、より良いコードを書いてくれたよ。Qwen Maxシリーズは試してないけど、ローカルで動く122Bモデルの方がドキュメントに基づいた賢くて正確な動きをするのを見たしね。ベンチマークなんてあくまで指標で、現実はモデルが実際にどう動くかだよ。モデルの本当の強みを知るべき。結局は道具なんだから、トンカチの方がレンチより優れてるなんて議論は無意味だろ。どっちも釘は打てるんだから。

6
wg0
約19時間前

中国のプロバイダーの傾向だけど、1. モデルをクローズドソースにする。2. 価格を大幅に釣り上げる(時には100%増も)。このパターンに注目だな。

7
jdw64
約18時間前

https://www.alibabacloud.com/help/en/model-studio/context-cache
自分もOpusやCodex、Qwenを試してるけど、Qwenはコーディングタスク全般で強力だね。ただ、長時間セッションでの挙動が一番気になる。大きなコンテキストウィンドウを謳ってるけど、実際にはコンテキストキャッシングの挙動にかなり依存してる感じだ。公式ドキュメントを見ると、キャッシュは暗黙的・明示的なものがあるけど、TTLが短い(数分程度)とか、プレフィックスマッチングが必要とか、トークン数の最低閾値があるとか制約が厳しい。コーディングエージェントみたいにコンテキストがどんどん増えるワークフローだと、キャッシュの再利用が期待通りにいかないことも多い。トークン単価は安くても、キャッシュヒット率が下がって再計算が増える分、実質的なコストは高くつく可能性がある。とはいえ、セキュリティ関連のタスクなんかだと、個人的にはOpusよりQwenの方が良い結果が出たケースもあった。単純なメソッドや関数単体ならOpusより圧倒的にQwenの方が優秀だと思うけど、全体のコーディング体験としては、Claudeのような自律型エンドツーエンド・アシスタントというよりは、関数単位のジェネレーターとして使うのがベストな気がする。

8
seanw265
約16時間前

Kimi K2.6も今日出たね。この2つを比較するのは妥当だと思う。Qwenの方がずっと高価だな。
Qwen: 入力1.3ドル / 出力7.8ドル
Kimi: 入力0.95ドル / 出力4ドル

発表ポストには2つの重複するベンチマーク結果しかないけど、SWE-Bench ProとTerminal-Bench 2.0ではQwenの方がスコアが少し低い。
Qwen:
Terminal-Bench 2.0: 65.4
SWE-Bench Pro: 57.3
Kimi:
Terminal-Bench 2.0: 66.8
SWE-Bench Pro: 58.6
モデルによって得意分野は違うしベンチマークが全てじゃないけど、数値的にはKimiの方が断然魅力的に見えるな。

9
fr3on
約15時間前

この発表の皮肉なところは「Max-Preview」という名前だよ。これ、プロプライエタリでクラウド専用だからね。本当に重要なQwenモデル、つまりみんなが自分のハードウェアで動かしてるのはオープンウェイトの方だ。自分は32Bと72BのモデルをローカルのデュアルA4000で動かしてるけど、ホスト型のMaxとの差は確かにあっても、リリースごとに縮まってきてる。興味深いのはMaxとOpusの比較じゃなくて、オープンウェイト版がいつクラウド版を不要にするレベルまで到達するかだよね。

10
greyskull
約11時間前

Claude Codeは仕事で数ヶ月ずっと使ってて、少し前の個人のWebサイト制作プロジェクトでも大活躍したよ。先週末初めてセルフホスティングを試してみたんだ。CC/Codexなんかを使い込んでて、それと同じくらい満足できるセルフホスティング環境を作れた人っていない?ちょっと苦戦してるんだ。
環境はDDR5 32GB(今の時代これじゃ足りない気がする)、AMD 7800X3D、RTX 4090。Windows環境でWSLは有効にしてる。
ollamaやdocker desktopのモデルランナー、pi-coding-agent、opencodeと色々組み合わせてみたけど、モデルもGemma 4やQwen、GLM-5.1をいくつか試したよ。ただ、普段使いのアプリでRAMを食っててGemma4-31Bみたいな高性能モデルを動かす余裕がなかった。
Windowsだけでやるとそこそこ動くけど、エージェントがファイルパスを正しく認識できないことが多かった。WSLでpi/opencodeを動かしつつ、Dockerでollamaを動かすのが一番うまくいったかな。
実際の性能面では、使い慣れたCCと比べると痛いほど遅いし、ツール周りもCCのハーネスほど使い勝手が良くなかった。まあ、セットアップに時間をかけすぎて実際に試した時間が短かったのもあるけど、実験としては面白かったよ。