HN4014

【Launch HN】エッジデバイスで巨大モデルを動かす！「General Instinct」が登場

Launch HN: General Instinct (YC P26) – Frontier models on edge devices

guanming0717・約2か月前

議論

9件

0：guanming0717スレ主▲40約2か月前

皆さんこんにちは、General Instinct (https://general-instinct.com/) のGuanmingとBillです。長年ロボティクス分野で開発を続けてきましたが、常に「最高のAIモデルが、手元のハードウェアで動かない」という壁にぶつかってきました。高性能なモデルはデータセンターのGPUや広帯域メモリ、安定したネットワーク環境を前提に設計されていますが、現実の物理システムにはそれらが存在しません。そこで私たちは、「巨大なモデルの性能を維持したまま、いかにしてエッジデバイスで実用的に動かすか」という課題に取り組みました。その成果の一部として、InstinctRazor (https://github.com/General-Instinct/InstinctRazor) をオープンソース化しました。特に注目してほしいのは、約245GBもあるBF16 MoEモデル「Qwen3.5-122B-A10B」を、わずか48GiBのGGUFサイズにまで圧縮した点です。結果として、Gemma-4-26B-A4Bよりも小さくなったにもかかわらず、MMLU-ProやGPQA-Dなどのベンチマークではそれを上回る性能を記録しました。これは、アクティブな層（ルーター、正規化層、Gated-DeltaNet/SSM層、ビジョンパスなど）を維持しつつ、ルーティング対象の専門家（Expert）層を強力に量子化し、オンポリシー蒸留によって性能を回復させる手法をとっています。このモデルは、ExpertをシステムRAMからストリーミングする「スモールGPU」構成でも動作可能です。8kのコンテキストウィンドウであれば、VRAMの使用量は最大でも7.6〜8GB程度に収まります。技術的な詳細については、こちらのブログ記事 (https://general-instinct.com/blog/frontier-moe-sub-4-bit) で解説しています。現在、ロボットやエッジデバイスにAIモデルを組み込んでいる方々から、ぜひお話を聞かせてください。皆さんは今、どのようなモデルをローカルで動かそうとしていますか？また、本番環境への導入における最大のボトルネックは何でしょうか？

1：VikRubenfeld約2か月前

これたぶん聞いたことあると思う。彼はきっと君と話したがってるだろうし、もしかしたら良いPR（パブリックリレーションズ）に繋がるかもしれないよ。

https://www.youtube.com/watch?v=rAzT5lcezPs&t=467s

2：XenophileJKO約2か月前

MoEモデルをエッジ環境へデプロイしようとする動きには、正直まだ驚かされるよ。定義上、MoEはメモリ効率を犠牲にして計算コストを最適化するものだからね。エッジ環境では一般的にその逆が求められるはずなんだけど。

個人的には、サイクリック/ループ型トランスフォーマーや、他のメモリ集約的なアプローチといった方向の研究がもっと進むことを期待してる。

3：rohansood15約2か月前

Unslothみたいな他の3bit動的量子化とベンチマーク比較した？申し訳ないけど、フル精度のより新しい、かつ軽量なMoEと比較するっていうこの打ち出し方は、誤解を招くようにしか思えない。それに、Gemma-4-26B-A4Bはエッジ向けのSOTA（最新最高性能）じゃないし。リリース当時でさえ、31Bの方がその地位だったはず。

4：BoorishBears約2か月前

ここで解説されてる量子化からの回復に蒸留を使う手法はいいと思う。だけど、なぜLLMに対して損失のある圧縮をし続けて、なおかつポストトレーニングの前から既に飽和に近いベンチマークでその影響を測ろうとするのかが理解できないな。

最近のモデルの中には、計算リソースを半分費やした分のゲインをすべて消し去ってしまうようなケースもあるし、MMLU-ProやGPQA-Dの結果にはほとんど影響がないんだよね。

5：rdksu約2か月前

オンポリシー蒸留がパフォーマンスに与える実際の影響や効果について、アブレーション（構成要素の削り出し）実験はしてみた？純粋に興味があって！MoEモデル向けのUnslothベースの混合量子化手法はコミュニティで広く使われていて評価も高いからね。

6：gesai約2か月前

少しトピックから外れるかもしれないけどごめん：

Bonsaiのパラメータ数とGBの比率から推測すると、もし同じ比率でGemma4:12bのサイズを持つモデルがあったら、54.125Bパラメータ（16GBのRAMで動作可能）っていうすごくいい数字になるよね。こういうのを目指してる組織ってどこかにあるかな？

7：debo_約2か月前

余談だけど、「General Instinct」って名前、自分がやってるサイバーパンクのTTRPGキャンペーンに出てくる巨大企業にぴったりな名前だね。

8：a_t48約2か月前

Guanming、Bill、やあ。君たちが実際にモデルを動かすために何をしているのか、ぜひ話を聞かせてほしい。自分も似たような領域にいて、エッジデバイスでの推論デプロイにおけるdocker pullの高速化（他にも色々やってるけど！）に取り組んでいるんだ。もし興味があったら、kyle@clipper.dev までメールをくれないかな。