ディスカッション (9件)
M4チップ搭載機(メモリ24GB)でローカル環境のAIモデルをどこまで快適に動かせるのか、その実力を検証します。
このセットアップで知りたい役立つデータは、1秒間に何トークン生成できるかだな。
よく分からないな。知る限りだとM4には24GBモデルなんてないはずだけど。筆者はM40のことでも言ってるのかな?
最近のモデル(Qwen 3.6やGemma)は本当にローカルでコーディングをこなせるよ。1年前のSOTA(最高性能)レベルって感じかな?ただ、合計で32~40GBのメモリは欲しいところ。24GBだと少し足りない。16GBのグラボと32GBのRAMを積んだゲーミングPCなら、実用的なコーディング環境にかなり近づけるよ。
自分はM4 Proの48GBでQwen 3.6 9bの量子化モデルを動かしてるけど、pi.dev/ccを使った基本的な開発ですら、やっとの思いでこなしている感じ。実務で成果を出すなら128GBのデスクトップが理想的なセットアップだと思う。まあ、今のところそういったマシンを手に入れるのは難しいけどね。
ローカルでこういったモデルを動かすのは楽しいけれど、自分の時間は無料じゃないってことも忘れちゃいけない。最近はユースケースを徐々にopenrouterへ移行していて、個人プロジェクトの本格的な作業でも1日あたり2~3ドル以下で最大のQwenモデルを使えてるよ。
128GB積んだMacbook Pro M5 Maxで、Codexを解約したり、月20ドルのプランに落としても問題なくコーディングモデルを動かせるのか、いまだに判断がつかないな。
みんなローカルモデルでどんなハーネス(制御ツール)を使ってるの?自分はコーディング用にはClaude Codeの権限モデルとUIがかなり気に入ってるんだけど(チャット形式のUIについては特にこだわりはないかな)。
ローカルモデル、特に筆者が使っているような9Bサイズのモデルで何ができるか、現実的に考えるのは大切だと思う。9BモデルだとSonnet 3.6レベルくらいで、オートコンプリートや小さな関数なら書けるけど、大きな問題になると文脈を見失っちゃう。
でも、いじってて面白いのは確か!自分もローカルエージェントのハーネスなどを結構作って遊んでいるよ。
今取り組んでいるのは「インストール不要」のエージェントで、これ:https://gemma-agent-explainer.nicklothian.com/ (https://gemma-agent-explainer.nicklothian.com/) 。Python、SQL、Reactがすべてブラウザ内で動作する。最高の体験のためにGemma E4Bが推奨だよ!
まだ鋭意開発中だし、HTML5 Filesystem APIとLiteRTの両方をサポートするためにChromeが必要だけど(ほとんどのChromiumベースのブラウザでも動かせるはず)。
他のエージェントと違うのはインストール不要な点。モデルはLiteRT/LiteLLMを使ってブラウザ内で実行されるし(Transformers.jsよりパフォーマンスがいい)、Filesystem APIでディレクトリへの読み取り用サンドボックスアクセスも可能。
「このシステムプロンプトはどう使われているか」といった質問をライブヘルプウィンドウから投げればソースコードを参照して答えてくれる、自己ドキュメント化機能もあるよ。
機能はかなり豊富だから、「Tour」ボタンを押して確認してみて。
来週にはオープンソースにする予定。
かなりいい線いってきてる!
Gemma 4 31B(デンスモデル/MoEなし)が、ローカルモデルの新たな基準になると思ってる。最先端モデルより劣るのは当然だけど、今まで自分が動かしてきたどのローカルモデル(GPT OSS 120BやNemotron Super 120B含む)よりも、「科学実験」っぽさが薄れているんだ。
M5 Max(メモリ128GB)でフル256Kのコンテキストウィンドウを使うと、RAM使用量は約70GBまで跳ね上がって、システムオーバーヘッドが14GBくらい消費される。64GBのPanther LakeマシンにArc B390を積んだ構成や、48GBのSnapdragon X2 Eliteマシンなら、128K~256Kのコンテキストウィンドウで動かせそう。32Kのコンテキストウィンドウなら32GBでもいけるかな?
去年までは、メインストリームに近い構成でこのパフォーマンスを見るなんて夢物語だと思ってたよ。