HN🔥 175
💬 82

【YC W26】Apple SiliconでAIを爆速化!llama.cppやMLXを凌駕する新エンジン「RunAnywhere」登場

sanchitmonga22
約12時間前

ディスカッション (11件)

0
sanchitmonga22OP🔥 175
約12時間前

HNの皆さん、こんにちは。SanchitとShubham(YC W26)です。Apple Silicon向けに特化した爆速の推論エンジンを開発しました。LLM、音声認識(STT)、音声合成(TTS)の全方位において、私たちの「MetalRT」はllama.cpp、Apple公式のMLX、Ollama、そしてsherpa-onnxを上回るパフォーマンスを叩き出しています。秘密はカスタムMetalシェーダーにあり、フレームワークのオーバーヘッドを徹底的に排除しました。\n\nまた、Apple Silicon上で動作する世界最速のエンドツーエンド音声AIパイプライン「RCLI」をオープンソース化しました。マイク入力から音声応答まで、すべてデバイス内で完結。クラウド不要、APIキーも不要です。\n\nクイックスタート:\n\n\n brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git\n brew install rcli\n rcli setup # 約1GBのモデルをダウンロード\n rcli # Push-to-Talkによる対話モード\n\n\nまたは:\n\n\n curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash\n\n\n驚異のベンチマーク結果(M4 Max, 64 GB, rcli benchで再現可能):\n\nLLMデコード性能 - llama.cppより1.67倍、Apple MLXより1.19倍高速(同一モデル使用):\n- Qwen3-0.6B: 658 tok/s (mlx-lm 552, llama.cpp 295)\n- Qwen3-4B: 186 tok/s (mlx-lm 170, llama.cpp 87)\n- LFM2.5-1.2B: 570 tok/s (mlx-lm 509, llama.cpp 372)\n- Time-to-first-token (初回トークン生成時間): 6.6 ms\n\nSTT(音声認識) - 70秒の音声をわずか101ミリ秒で処理。これはリアルタイムの714倍速に相当し、mlx-whisperの4.6倍の速さです。\n\nTTS(音声合成) - 178ミリ秒で生成。mlx-audioやsherpa-onnxより2.8倍高速です。\n\n開発の背景:デバイス上でのAIデモを作るのは簡単ですが、実際にプロダクトとして「出荷」するのは至難の業です。特に音声AIは最難関。STT、LLM、TTSを順に実行するため、どこか一箇所でも遅延があればユーザーは違和感を覚えます。多くのチームがクラウドAPIに頼るのは、ローカルモデルが悪いからではなく、ローカルの推論インフラが未熟だからです。\n\n解決すべきは「遅延の累積」です。音声パイプラインでは3つのモデルが直列に並びます。各工程で200msかかれば、ユーザーが音声を耳にするまでに600msのラグが生じ、体験が損なわれます。私たちはMetalに直行し、カスタムGPUコンピュートシェーダーを作成。初期化時に全メモリを事前確保(推論中のアロケーションをゼロに)し、3つのモダリティを一つのエンジンで統合しました。\n\nMetalRTは、Apple Silicon上でこれら3つのモダリティをネイティブに処理する初のエンジンです。\n\nなぜ速いのか?多くの推論エンジンはGPUとの間にグラフスケジューラなどのレイヤーを挟みますが、MetalRTはそれらをすべてスキップします。量子化matmul、attention、activationのためのカスタムMetalシェーダーを事前にコンパイルし、直接ディスパッチしています。\n\nRCLIはMetalRT上に構築されたMITライセンスのオープンソース音声パイプラインです。3つの並列スレッド、ロックフリーのリングバッファ、20種類のモデル切り替え、ローカルRAG、そしてレイテンシをリアルタイム表示するTUIを備えています。MetalRTがインストールされていない環境ではllama.cppにフォールバックします。\n\nリポジトリ: https://github.com/RunanywhereAI/RCLI (MIT)\nデモ動画: https://www.youtube.com/watch?v=eTYwkgNoaKg\n\nもしローカルAIがクラウド並みに速くなったら、あなたなら何を作りますか?

1
stingraycharles
約12時間前

何を提供しようとしてるのか、ちょっと混乱してるかな。GitHubにあるような音声アシスタント/AIなの?それとももっと汎用的なLLM?RAGがどう絡んでくるのかも気になる。音声からRAGっていう機能は、ちょっと唐突な感じがするし。別にけなしてるわけじゃなくて、純粋に何を提供してるのかが分からなくて聞いてるんだ。

2
vessenes
約12時間前

さっそく試してみた。めっちゃいいし、rcliのテックデモとしても面白いね。バグ報告もしといたよ。homebrew経由でインストールすると、全部がちゃんと読み込まれないみたい。あと要望なんだけど、unslothの量子化版がほしい。ビット単位の効率がそっちの方がいいから。あるいはもっと広く、Hugging Faceのモデルを選べるUIとか。全部をカバーするのは無理だと思うけど、いろいろ組み合わせて使いたいんだ!あとグラウンディングについて。「Safariを開いて」は成功した(Safariが開いて、音声で『Safariを開きました』と言った)けど、「SafariでGoogleを開いて」は何も起きないのに、音声だけ「Googleに移動しました」って言っちゃう。まあ、全体的にはすごく楽しいよ。

3
tiku
約11時間前

個人的には、ローカルAIの現状にはがっかりしてる。古いモデルなら「そこそこ」動くけど、その「そこそこ」ですら実用レベルには程遠いほど遅いんだよね。

4
jonhohle
約11時間前

Portfileのパッチを送ったら、MacPortsでの配布も検討してくれるかな?

5
rushingcreek
約10時間前

すごいね、おめでとう!Appleの未公開APIがたくさんある中で、どうやってこれを実現したのか気になるな。プライベートなNeural Engine APIを使ってるのか、それとも完全に公開されてるMetal APIなのか?どっちにしろ素晴らしい成果だし、機密情報を自分のマシンから出したくないOpenClawの世界ではめちゃくちゃ重要なことだと思う。

6
RationPhantoms
約10時間前

試したどの方法でも動かなかったよ。

7
mips_avatar
約8時間前

Mac Studioで本当にでかいモデルを試したことある?メモリが十分にある場合、巨大なQwenモデルのレイテンシがどれくらいになるのか気になってるんだ。

8
shekhar101
約7時間前

試してみたけど、今のところすごく気に入ってる。質問なんだけど、TUIアプリやMetalRtがサポートしてるモデルの中に、話者分離(ダイアライゼーション)のサポートはある?もし未対応なら、追加する予定はあるかな?

9
shubham2802
約7時間前

メモリ管理もしっかりやろうとしてるみたいだね。過去のコンテキスト保持とか、自動圧縮機能とか。あと、パーソナリティ機能も試してみて!超楽しいから。:)

10
mnafees
約5時間前

WebデモでElevenLabsのAPIキーが漏れてるっぽいよ。OpenAIのCompletionsエンドポイントもリクエストヘッダーにAPIキーが入ってるけど、こっちはもう無効化されてるみたいで401エラーが返ってくるね。