HN🔥 429
💬 195

Gemma 4を爆速化!マルチトークン予測ドラフターによる推論高速化テクニック

amrrs
8日前

ディスカッション (11件)

0
amrrsOP🔥 429
8日前

Gemma 4の推論性能を限界突破させる方法を紹介します。マルチトークン予測(Multi-token prediction)を行うドラフターを導入することで、従来よりも効率的で高速な推論が可能になりました。大規模言語モデルのレスポンスに不満がある方は、ぜひこのアプローチを試してみてください。

1
these
8日前

誰かこれLM Studioで動かせた人いる?UIにオプションはあるんだけど、どうしても有効化できないんだよね。

2
zdw
8日前

MTPサポートがllama.cppに追加されつつあるね。少なくともQwenモデル向けには(https://github.com/ggml-org/llama.cpp/pull/20533 )。Gemma 4もすぐ来ると思う。ローカルやセルフホスト環境でのモデルの品質と速度の向上は、ここ数ヶ月で本当にすごいことになってる。

3
skybrian
8日前

PCが文字を書き出すのを見てると、昔モデムでBBSに繋いでた頃を思い出すよ。300ボーから1200ボーになったような感じ。かなりの改善ではあるけど、まだ結構遅いよね。いつか、なんであんなもの我慢してたんだろうって思う日が来るんだろうな。

4
christina97
8日前

最近、ローカルモデルから少し離れてたんだけど、RTX3090(4bit)でvLLMを使って26B A4Bモデルを動かしてみた。1000ドル以下の投資でここまで速くて高品質なものが手に入るなんて、正直ぶっ飛んでる。最初はQwenで試したんだけど、不安定だし推論トレースがめちゃくちゃ長くて参った。

5
julianlam
8日前

llama.cppにマージされたら試すのが楽しみ。Gemma 4 26B-A4Bは自分の環境だとQwen3.6-35B-A3Bよりだいぶ速い(3倍くらい)。だから1.5倍の高速化って聞くとワクワクするね。ドラフトモデルも試したけど、効果は限定的だった(14Bの密なMinistralモデルに加えて3Bの小さいドラフトモデルを入れると、オーバーヘッドが大きすぎた)。

6
msp26
8日前

Googleが単独で西側のオープンソースモデルを支えてるね。Gemma 4 31Bは最高。ただ、最高性能のバージョンを24GBのVRAMに収めようとするのは、Vision+このドラフターの組み合わせだとちょっと厳しい。これ以上GPUを増設できないし、性能を追求するなら高すぎる4090をもう一枚足すか、システムごと入れ替えるしかない気がしてる。

7
Patrick_Devine
8日前

自分で試した感じだと、コーディングタスクにおいてはOllamaとMLXランナーの組み合わせでGemma 4 31bが一番スピードアップした(約2倍)。ただ残念ながら、量子化すると正解率がガクッと落ちるから、かなりパワーのあるMacが必要。他の小さいモデルはドラフトモデルの検証時間でパフォーマンス向上が相殺されちゃうから、あまり性能が出なかった。まだいろいろ調整して、もっと速くならないか探ってる。Ollama 0.23.1で ollama run gemma4:31b-coding-mtp-bf16 を実行すれば試せるよ。

8
vhiremath4
8日前

これってOSでいう分岐予測みたいなものかな?モデル自体に確率が組み込まれてるから、さらに信頼性が高そう。

9
WarmWash
8日前

あまり話題になってないけど、Gemma(とGemini)は他のモデルに比べて圧倒的にトークン消費量が少ないのに、トップレベルのベンチマーク性能に近いところをキープしてるんだよね。GemmaとQwenを比べると、Qwenの方が少し成績はいいけどタスクに22分かかってるのに対し、Gemmaは回答の調整が甘い部分はあってもたった4分で終わらせる、みたいなことがよくある。表面的に見ればGemmaは主要なオープンモデルに5-10%ほど負けてるけど、かかる時間は1/10なんだよ。

10
aleksiy123
8日前

Googleの戦略は他のフロンティアAI企業とは少し違うのかもと思い始めてる。純粋な性能よりも、計算効率に重きを置いてるというか。Geminiが(一見)遅れてるように見えるのもそのせいかな?他の企業はインフラのキャパシティ限界に達してて、推論コストの補助も限界に来てそうだし。Googleはモデルをスケーリングして、既存の何十億人ものユーザーに配布することを目指してるみたいだね。