ディスカッション (11件)
Googleから最新のオープンモデル「Gemma 4」が正式にリリースされました!軽量かつ高性能なモデルとして注目を集めるGemmaシリーズの最新作ということで、開発者コミュニティでの活用に期待が高まっています。
思考・推論 + マルチモーダル + ツール呼び出し。みんなが手元で動かせるように、https://huggingface.co/collections/unsloth/gemma-4 で量子化モデル(quants)を作ってみたよ。かなりいい感じに動く! 興味がある人はこのガイドを見てみて:https://unsloth.ai/docs/models/gemma-4 あと、使うときは temperature = 1.0, top_p = 0.95, top_k = 64 にして、EOS(終了トークン)は "<turn|>" を指定してね。思考のトレースには "<|channel>thought\n" も使われてるよ!
最高なのは、これがApache 2.0ライセンスだってこと(追記:ベースモデルも公開されてる。Gemma 3はファインチューニングに最適だった)。サイズはE2BとE4B(gemma3nアーキテクチャ継承でモバイル重視)、それに26BA4のMoEと31Bのdenseがある。モバイル向けのモデルはオーディオ入力に対応してるから、プライバシー重視のローカル翻訳アプリとかが作れそう。31Bはエージェント系のタスクに強そうだし、26BA4はその中間くらいで、VRAM使用量は同じだけど推論がめちゃくちゃ速い。
チャートのメインベンチマークにELOスコアを持ってくるのは、かなり紛らわしい(誤解を招く)と思う。Gemma 4の大きな31B denseモデルでも、ほとんどのベンチマークでQwen 3.5 27B denseモデルに届いてないみたいだし。結局そこが一番重要でしょ。小さい2B / 4Bモデルは面白そうで、特化型モデルよりも優れたASR(音声認識)モデルになる可能性があるかも(パフォーマンスだけじゃなく、llama.cppやMLX、フロントエンド経由で動かしやすいしね)。ビジョンモデルでもあるから「高速な」OCRとしても良さそう。でもそれ以外は、今回のリリースはちょっとガッカリかな。
ついに待ち時間が終わったね。あと1、2回アップデートが来れば、セルフホスト環境での日常的なニーズは言語モデルが完全に満たしてくれるって自信を持って言えそう。Gemmaチーム、ありがとう!
Gemma 4とQwen 3.5のベンチマーク比較を、それぞれのHugging Faceモデルカードからまとめてみたよ:
| モデル | MMLUP | GPQA | LCB | ELO | TAU2 | MMMLU | HLE-n | HLE-t |
|----------------|-------|-------|-------|------|-------|-------|-------|-------|
| G4 31B | 85.2% | 84.3% | 80.0% | 2150 | 76.9% | 88.4% | 19.5% | 26.5% |
| G4 26B A4B | 82.6% | 82.3% | 77.1% | 1718 | 68.2% | 86.3% | 8.7% | 17.2% |
| G4 E4B | 69.4% | 58.6% | 52.0% | 940 | 42.2% | 76.6% | - | - |
| G4 E2B | 60.0% | 43.4% | 44.0% | 633 | 24.5% | 67.4% | - | - |
| G3 27B no-T | 67.6% | 42.4% | 29.1% | 110 | 16.2% | 70.7% | - | - |
| GPT-5-mini | 83.7% | 82.8% | 80.5% | 2160 | 69.8% | 86.2% | 19.4% | 35.8% |
| GPT-OSS-120B | 80.8% | 80.1% | 82.7% | 2157 | -- | 78.2% | 14.9% | 19.0% |
| Q3-235B-A22B | 84.4% | 81.1% | 75.1% | 2146 | 58.5% | 83.4% | 18.2% | -- |
| Q3.5-122B-A10B | 86.7% | 86.6% | 78.9% | 2100 | 79.5% | 86.7% | 25.3% | 47.5% |
| Q3.5-27B | 86.1% | 85.5% | 80.7% | 1899 | 79.0% | 85.9% | 24.3% | 48.5% |
| Q3.5-35B-A3B | 85.3% | 84.2% | 74.6% | 2028 | 81.2% | 85.2% | 22.4% | 47.4% |
MMLUP: MMLU-Pro
GPQA: GPQA Diamond
LCB: LiveCodeBench v6
ELO: Codeforces ELO
TAU2: TAU2-Bench
MMMLU: MMMLU
HLE-n: Humanity's Last Exam (ツール/CoTなし)
HLE-t: Humanity's Last Exam (検索/ツールあり)
no-T: 思考なし
みんな、こんにちは! 私はGemmaチームで働いているよ。今回はメインラインのリリースだったから、かなり大きなプロジェクトだったんだ。答えられる範囲で質問に回答するよ!
BlackwellやAMD MI355で最速のオープンソース実装を使いたいなら、ModularのMAX nightlyをチェックしてみて。pip installですぐに入るし、ここから詳細が見れるよ: https://www.modular.com/blog/day-zero-launch-fastest-performance-for-gemma-4-on-nvidia-and-amd?utm_campaign=day0&utm_source=hn_chris ― Chris Lattner(そう、Modularの人間だよ 笑)
LM Studioでこれらを試してみたんだけど、2Bと4Bモデルは判別不能なペリカンを出力した一方で、26b-a4bモデルは最高のペリカンを出してくれた。自分のノートPCで動くモデルの中では今までで一番かも。 https://simonwillison.net/2026/Apr/2/gemma-4/ ただ、gemma-4-31bモデルは完全に壊れてるみたいで、どんなプロンプトを投げても "---\n" しか出てこない。AI Studio API経由のホスト型モデルを使ったら、そっちではちゃんとペリカンが出せたよ。
Gemma-4 26bとQwen 3.5 27bに、OpenCode経由で同じプロンプト(簡単すぎず、でも複雑すぎないRustの小さなプロジェクト)を投げてみた。Qwen 3.5は1時間以上動いてたから途中で止めたけど、Gemma 4は20分くらいで諦めちゃった。ツール呼び出しの失敗も多かった。両方のコードについてCodexに要約を書いてもらったよ。「Dev 1」がQwen 3.5、「Dev 2」がGemma 4。Dev 1の方が全体的にエンジニアとして優秀。アーキテクチャの判断、完成度、保守性のセンスがいい。弱点は実行の厳密さ。たくさん作ったけど検証が不十分で、大事なところが実際にはうまく動かない。「Dev 2」は初期段階のプロトタイプ作成者って感じ。強みはラフな初版を作る速さだけど、実装の完成度が低くて、磨き込みも信頼性も足りない。最大の弱点は仕上げと技術的な厳密さの欠如。開発者として選ぶなら、迷わずDev 1を取るね。自分でコードを見た感じでも、Codexに同意かな。
プロンプト:2026-04-01T16:00:00ZのUnixタイムスタンプを教えて。 Qwen 3.5-27b-dwq:8分34秒考えて7074トークン。答えは 1775059200(俺の注釈:2026年4月1日水曜 16:00:00)。 Gemma-4-26b-a4b:33.81秒考えて694トークン。答えは 1775060800(俺の注釈:2026年4月1日水曜 16:26:40)。 Gemmaはこの問題を解くのに3つの選択肢を検討してた。思考トレースを見ると: オプションA:手動計算(ミスしやすい)。 オプションB:プログラミング言語(Python/JavaScript)を使う。 オプションC:特定の日付の知識。 それでPythonスクリプトを書いた(中略)。そのあと date -u -d @1775060800 というコマンドで検証。これだけやって結局間違った結果を出してる。書いたPythonスクリプトを動かせば正しい結果が出るのに。検証用コマンドはランタイムエラー(存在しない構文のハルシネーション)。一方でQwenは真っ先にオプションAを選んで、ずっと考えすぎの状態。全ステップを10回くらい確認して、メンタル崩壊気味になりながらも、最終的に正しい答えを返した。Gemmaはツールを使っているふり(ハルシネーション)をせず、自分で考えたツールをちゃんと使えば間違いなくこっちの方が優れてるんだけどな。