メモリ24GBのM4チップでローカルLLMを爆速運用する方法

shintoist

約21時間前

ディスカッション (9件)

shintoistOP👍 52

約21時間前

M4チップ搭載機（メモリ24GB）でローカル環境のAIモデルをどこまで快適に動かせるのか、その実力を検証します。

🔗 リンク先:https://jola.dev/posts/running-local-models-on-m4

sbassi

約21時間前

このセットアップで知りたい役立つデータは、1秒間に何トークン生成できるかだな。

NBJack

約21時間前

よく分からないな。知る限りだとM4には24GBモデルなんてないはずだけど。筆者はM40のことでも言ってるのかな？

canpan

約21時間前

最近のモデル（Qwen 3.6やGemma）は本当にローカルでコーディングをこなせるよ。1年前のSOTA（最高性能）レベルって感じかな？ただ、合計で32～40GBのメモリは欲しいところ。24GBだと少し足りない。16GBのグラボと32GBのRAMを積んだゲーミングPCなら、実用的なコーディング環境にかなり近づけるよ。

sourc3

約21時間前

自分はM4 Proの48GBでQwen 3.6 9bの量子化モデルを動かしてるけど、pi.dev/ccを使った基本的な開発ですら、やっとの思いでこなしている感じ。実務で成果を出すなら128GBのデスクトップが理想的なセットアップだと思う。まあ、今のところそういったマシンを手に入れるのは難しいけどね。

ローカルでこういったモデルを動かすのは楽しいけれど、自分の時間は無料じゃないってことも忘れちゃいけない。最近はユースケースを徐々にopenrouterへ移行していて、個人プロジェクトの本格的な作業でも1日あたり2～3ドル以下で最大のQwenモデルを使えてるよ。

nu11ptr

約20時間前

128GB積んだMacbook Pro M5 Maxで、Codexを解約したり、月20ドルのプランに落としても問題なくコーディングモデルを動かせるのか、いまだに判断がつかないな。

rtpg

約20時間前

みんなローカルモデルでどんなハーネス（制御ツール）を使ってるの？自分はコーディング用にはClaude Codeの権限モデルとUIがかなり気に入ってるんだけど（チャット形式のUIについては特にこだわりはないかな）。

約20時間前

ローカルモデル、特に筆者が使っているような9Bサイズのモデルで何ができるか、現実的に考えるのは大切だと思う。9BモデルだとSonnet 3.6レベルくらいで、オートコンプリートや小さな関数なら書けるけど、大きな問題になると文脈を見失っちゃう。

でも、いじってて面白いのは確か！自分もローカルエージェントのハーネスなどを結構作って遊んでいるよ。

今取り組んでいるのは「インストール不要」のエージェントで、これ：https://gemma-agent-explainer.nicklothian.com/ (https://gemma-agent-explainer.nicklothian.com/) 。Python、SQL、Reactがすべてブラウザ内で動作する。最高の体験のためにGemma E4Bが推奨だよ！

まだ鋭意開発中だし、HTML5 Filesystem APIとLiteRTの両方をサポートするためにChromeが必要だけど（ほとんどのChromiumベースのブラウザでも動かせるはず）。

他のエージェントと違うのはインストール不要な点。モデルはLiteRT/LiteLLMを使ってブラウザ内で実行されるし（Transformers.jsよりパフォーマンスがいい）、Filesystem APIでディレクトリへの読み取り用サンドボックスアクセスも可能。

「このシステムプロンプトはどう使われているか」といった質問をライブヘルプウィンドウから投げればソースコードを参照して答えてくれる、自己ドキュメント化機能もあるよ。

機能はかなり豊富だから、「Tour」ボタンを押して確認してみて。

来週にはオープンソースにする予定。

soganess

約20時間前

かなりいい線いってきてる！

Gemma 4 31B（デンスモデル／MoEなし）が、ローカルモデルの新たな基準になると思ってる。最先端モデルより劣るのは当然だけど、今まで自分が動かしてきたどのローカルモデル（GPT OSS 120BやNemotron Super 120B含む）よりも、「科学実験」っぽさが薄れているんだ。

M5 Max（メモリ128GB）でフル256Kのコンテキストウィンドウを使うと、RAM使用量は約70GBまで跳ね上がって、システムオーバーヘッドが14GBくらい消費される。64GBのPanther LakeマシンにArc B390を積んだ構成や、48GBのSnapdragon X2 Eliteマシンなら、128K～256Kのコンテキストウィンドウで動かせそう。32Kのコンテキストウィンドウなら32GBでもいけるかな？

去年までは、メインストリームに近い構成でこのパフォーマンスを見るなんて夢物語だと思ってたよ。