ディスカッション (11件)
iPhone 17 Pro上で、なんと400B(4000億パラメータ)クラスの巨大言語モデル(LLM)を動作させるデモが公開されました。通常、この規模のモデルを動かすにはサーバーグレードのGPUが大量に必要ですが、モバイル端末で動作している事実は驚きを隠せません。Appleの次世代チップ「A19 Pro」の凄まじいAI性能や、高度な最適化技術の進化を感じさせる内容となっています。詳細は元投稿(https://xcancel.com/anemll/status/2035901335984611412 )から確認可能です。
SSDからGPUへのストリーミング
このソリューションって、Appleが2023年の論文「LLM in a flash」[1]で説明してた内容に基づいたもの?
400BだけどMoE(混合エキスパート)だよね。実際、常にどれくらいのパラメータがアクティブになってるの?
これ最高だね! このレベルの性能のモデルが100 t/sで動くようになるまであとどれくらいかな? モデルの小型化が先か、ハードウェアの進化が先か、どっちだろう。
M2搭載のiPad AirでローカルLLMを動かしてるけど、結構いい感じだよ。でも数秒でめちゃくちゃ熱くなって、スロットリングが始まっちゃうんだよね。
先週、古いAndroidスマホ(LineageOS)にTermuxを入れて、そこからOllamaと軽量モデルをインストールしてみた。動作は最悪だったけど、一応動いたよ。
みんながポケットに超知能AIを持ってるのに、結局やってることはドゥームスクロールとなりすましだけ……っていう、すべてが滅びる直前の夢を見たよ。
llama.cが最初に登場したとき、みんながローカルでモデルを動かせるって盛り上がってたのを思い出すな。
anemllをチェックしてないなら教えるけど、iPhoneで動く実用的なOpenClawも出してるよ。ハードウェアとモデルの改善が進めば、未来は明るいね。
QwenのMoEモデル、推論時にアクティブなのが2Bとかその程度までスケールダウンしてるときの挙動はマジでひどい。実際に推論してるときのパラメータ数が何桁も少ないなら、それはもう400Bモデルとは呼べないでしょ……
Qwen3.5-397B-A17Bの挙動は、どっちかっていうと17Bモデルに近い。見出しからMoEの部分を省くのは嘘だし、ただのくだらない煽りだよ。量子化も数字を誤魔化すチートコードみたいなもんだし、そのうち1ビット量子化のモデルを動かして「巨大モデルを動かした」なんて言い出す奴が出てくるだろうね。