iPhone 17 Proで400B（4000億パラメータ）の巨大LLMが動作！？衝撃のデモが公開

anemll

2か月前

ディスカッション (11件)

anemllOP🔥 464

2か月前

iPhone 17 Pro上で、なんと400B（4000億パラメータ）クラスの巨大言語モデル（LLM）を動作させるデモが公開されました。通常、この規模のモデルを動かすにはサーバーグレードのGPUが大量に必要ですが、モバイル端末で動作している事実は驚きを隠せません。Appleの次世代チップ「A19 Pro」の凄まじいAI性能や、高度な最適化技術の進化を感じさせる内容となっています。詳細は元投稿（https://xcancel.com/anemll/status/2035901335984611412 ）から確認可能です。

🔗 リンク先:https://twitter.com/anemll/status/2035901335984611412

firstbabylonian

2か月前

SSDからGPUへのストリーミング

このソリューションって、Appleが2023年の論文「LLM in a flash」[1]で説明してた内容に基づいたもの？

1: https://arxiv.org/abs/2312.11514

cj00

2か月前

400BだけどMoE（混合エキスパート）だよね。実際、常にどれくらいのパラメータがアクティブになってるの？

_air

2か月前

これ最高だね！このレベルの性能のモデルが100 t/sで動くようになるまであとどれくらいかな？モデルの小型化が先か、ハードウェアの進化が先か、どっちだろう。

andix

2か月前

M2搭載のiPad AirでローカルLLMを動かしてるけど、結構いい感じだよ。でも数秒でめちゃくちゃ熱くなって、スロットリングが始まっちゃうんだよね。

illwrks

2か月前

先週、古いAndroidスマホ（LineageOS）にTermuxを入れて、そこからOllamaと軽量モデルをインストールしてみた。動作は最悪だったけど、一応動いたよ。

CrzyLngPwd

2か月前

みんながポケットに超知能AIを持ってるのに、結局やってることはドゥームスクロールとなりすましだけ……っていう、すべてが滅びる直前の夢を見たよ。

lainproliant

2か月前

llama.cが最初に登場したとき、みんながローカルでモデルを動かせるって盛り上がってたのを思い出すな。

fudged71

2か月前

anemllをチェックしてないなら教えるけど、iPhoneで動く実用的なOpenClawも出してるよ。ハードウェアとモデルの改善が進めば、未来は明るいね。

avazhi

2か月前

QwenのMoEモデル、推論時にアクティブなのが2Bとかその程度までスケールダウンしてるときの挙動はマジでひどい。実際に推論してるときのパラメータ数が何桁も少ないなら、それはもう400Bモデルとは呼べないでしょ……

yencabulator

2か月前

Qwen3.5-397B-A17Bの挙動は、どっちかっていうと17Bモデルに近い。見出しからMoEの部分を省くのは嘘だし、ただのくだらない煽りだよ。量子化も数字を誤魔化すチートコードみたいなもんだし、そのうち1ビット量子化のモデルを動かして「巨大モデルを動かした」なんて言い出す奴が出てくるだろうね。