【YC W26】Apple SiliconでAIを爆速化！llama.cppやMLXを凌駕する新エンジン「RunAnywhere」登場

sanchitmonga22

3か月前

ディスカッション (11件)

sanchitmonga22OP🔥 175

3か月前

HNの皆さん、こんにちは。SanchitとShubham（YC W26）です。Apple Silicon向けに特化した爆速の推論エンジンを開発しました。LLM、音声認識（STT）、音声合成（TTS）の全方位において、私たちの「MetalRT」はllama.cpp、Apple公式のMLX、Ollama、そしてsherpa-onnxを上回るパフォーマンスを叩き出しています。秘密はカスタムMetalシェーダーにあり、フレームワークのオーバーヘッドを徹底的に排除しました。\n\nまた、Apple Silicon上で動作する世界最速のエンドツーエンド音声AIパイプライン「RCLI」をオープンソース化しました。マイク入力から音声応答まで、すべてデバイス内で完結。クラウド不要、APIキーも不要です。\n\nクイックスタート：\n\n\n brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git\n brew install rcli\n rcli setup # 約1GBのモデルをダウンロード\n rcli # Push-to-Talkによる対話モード\n\n\nまたは：\n\n\n curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash\n\n\n驚異のベンチマーク結果（M4 Max, 64 GB, rcli benchで再現可能）：\n\nLLMデコード性能 - llama.cppより1.67倍、Apple MLXより1.19倍高速（同一モデル使用）：\n- Qwen3-0.6B: 658 tok/s (mlx-lm 552, llama.cpp 295)\n- Qwen3-4B: 186 tok/s (mlx-lm 170, llama.cpp 87)\n- LFM2.5-1.2B: 570 tok/s (mlx-lm 509, llama.cpp 372)\n- Time-to-first-token (初回トークン生成時間): 6.6 ms\n\nSTT（音声認識） - 70秒の音声をわずか101ミリ秒で処理。これはリアルタイムの714倍速に相当し、mlx-whisperの4.6倍の速さです。\n\nTTS（音声合成） - 178ミリ秒で生成。mlx-audioやsherpa-onnxより2.8倍高速です。\n\n開発の背景：デバイス上でのAIデモを作るのは簡単ですが、実際にプロダクトとして「出荷」するのは至難の業です。特に音声AIは最難関。STT、LLM、TTSを順に実行するため、どこか一箇所でも遅延があればユーザーは違和感を覚えます。多くのチームがクラウドAPIに頼るのは、ローカルモデルが悪いからではなく、ローカルの推論インフラが未熟だからです。\n\n解決すべきは「遅延の累積」です。音声パイプラインでは3つのモデルが直列に並びます。各工程で200msかかれば、ユーザーが音声を耳にするまでに600msのラグが生じ、体験が損なわれます。私たちはMetalに直行し、カスタムGPUコンピュートシェーダーを作成。初期化時に全メモリを事前確保（推論中のアロケーションをゼロに）し、3つのモダリティを一つのエンジンで統合しました。\n\nMetalRTは、Apple Silicon上でこれら3つのモダリティをネイティブに処理する初のエンジンです。\n\nなぜ速いのか？多くの推論エンジンはGPUとの間にグラフスケジューラなどのレイヤーを挟みますが、MetalRTはそれらをすべてスキップします。量子化matmul、attention、activationのためのカスタムMetalシェーダーを事前にコンパイルし、直接ディスパッチしています。\n\nRCLIはMetalRT上に構築されたMITライセンスのオープンソース音声パイプラインです。3つの並列スレッド、ロックフリーのリングバッファ、20種類のモデル切り替え、ローカルRAG、そしてレイテンシをリアルタイム表示するTUIを備えています。MetalRTがインストールされていない環境ではllama.cppにフォールバックします。\n\nリポジトリ: https://github.com/RunanywhereAI/RCLI (MIT)\nデモ動画: https://www.youtube.com/watch?v=eTYwkgNoaKg\n\nもしローカルAIがクラウド並みに速くなったら、あなたなら何を作りますか？

🔗 リンク先:https://github.com/RunanywhereAI/rcli

stingraycharles

3か月前

何を提供しようとしてるのか、ちょっと混乱してるかな。GitHubにあるような音声アシスタント/AIなの？それとももっと汎用的なLLM？RAGがどう絡んでくるのかも気になる。音声からRAGっていう機能は、ちょっと唐突な感じがするし。別にけなしてるわけじゃなくて、純粋に何を提供してるのかが分からなくて聞いてるんだ。

vessenes

3か月前

さっそく試してみた。めっちゃいいし、rcliのテックデモとしても面白いね。バグ報告もしといたよ。homebrew経由でインストールすると、全部がちゃんと読み込まれないみたい。あと要望なんだけど、unslothの量子化版がほしい。ビット単位の効率がそっちの方がいいから。あるいはもっと広く、Hugging Faceのモデルを選べるUIとか。全部をカバーするのは無理だと思うけど、いろいろ組み合わせて使いたいんだ！あとグラウンディングについて。「Safariを開いて」は成功した（Safariが開いて、音声で『Safariを開きました』と言った）けど、「SafariでGoogleを開いて」は何も起きないのに、音声だけ「Googleに移動しました」って言っちゃう。まあ、全体的にはすごく楽しいよ。

tiku

3か月前

個人的には、ローカルAIの現状にはがっかりしてる。古いモデルなら「そこそこ」動くけど、その「そこそこ」ですら実用レベルには程遠いほど遅いんだよね。

jonhohle

3か月前

Portfileのパッチを送ったら、MacPortsでの配布も検討してくれるかな？

rushingcreek

3か月前

すごいね、おめでとう！Appleの未公開APIがたくさんある中で、どうやってこれを実現したのか気になるな。プライベートなNeural Engine APIを使ってるのか、それとも完全に公開されてるMetal APIなのか？どっちにしろ素晴らしい成果だし、機密情報を自分のマシンから出したくないOpenClawの世界ではめちゃくちゃ重要なことだと思う。

RationPhantoms

3か月前

試したどの方法でも動かなかったよ。

mips_avatar

3か月前

Mac Studioで本当にでかいモデルを試したことある？メモリが十分にある場合、巨大なQwenモデルのレイテンシがどれくらいになるのか気になってるんだ。

shekhar101

3か月前

試してみたけど、今のところすごく気に入ってる。質問なんだけど、TUIアプリやMetalRtがサポートしてるモデルの中に、話者分離（ダイアライゼーション）のサポートはある？もし未対応なら、追加する予定はあるかな？

shubham2802

3か月前

メモリ管理もしっかりやろうとしてるみたいだね。過去のコンテキスト保持とか、自動圧縮機能とか。あと、パーソナリティ機能も試してみて！超楽しいから。:)

mnafees

3か月前

WebデモでElevenLabsのAPIキーが漏れてるっぽいよ。OpenAIのCompletionsエンドポイントもリクエストヘッダーにAPIキーが入ってるけど、こっちはもう無効化されてるみたいで401エラーが返ってくるね。