HNの皆さん、こんにちは。SanchitとShubham(YC W26)です。Apple Silicon向けに特化した爆速の推論エンジンを開発しました。LLM、音声認識(STT)、音声合成(TTS)の全方位において、私たちの「MetalRT」はllama.cpp、Apple公式のMLX、Ollama、そしてsherpa-onnxを上回るパフォーマンスを叩き出しています。秘密はカスタムMetalシェーダーにあり、フレームワークのオーバーヘッドを徹底的に排除しました。\n\nまた、Apple Silicon上で動作する世界最速のエンドツーエンド音声AIパイプライン「RCLI」をオープンソース化しました。マイク入力から音声応答まで、すべてデバイス内で完結。クラウド不要、APIキーも不要です。\n\nクイックスタート:\n\n```\n brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git\n brew install rcli\n rcli setup # 約1GBのモデルをダウンロード\n rcli # Push-to-Talkによる対話モード\n```\n\nまたは:\n\n```\n curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash\n```\n\n驚異のベンチマーク結果(M4 Max, 64 GB, `rcli bench`で再現可能):\n\nLLMデコード性能 - llama.cppより1.67倍、Apple MLXより1.19倍高速(同一モデル使用):\n- Qwen3-0.6B: 658 tok/s (mlx-lm 552, llama.cpp 295)\n- Qwen3-4B: 186 tok/s (mlx-lm 170, llama.cpp 87)\n- LFM2.5-1.2B: 570 tok/s (mlx-lm 509, llama.cpp 372)\n- Time-to-first-token (初回トークン生成時間): 6.6 ms\n\nSTT(音声認識) - 70秒の音声をわずか101ミリ秒で処理。これはリアルタイムの714倍速に相当し、mlx-whisperの4.6倍の速さです。\n\nTTS(音声合成) - 178ミリ秒で生成。mlx-audioやsherpa-onnxより2.8倍高速です。\n\n開発の背景:デバイス上でのAIデモを作るのは簡単ですが、実際にプロダクトとして「出荷」するのは至難の業です。特に音声AIは最難関。STT、LLM、TTSを順に実行するため、どこか一箇所でも遅延があればユーザーは違和感を覚えます。多くのチームがクラウドAPIに頼るのは、ローカルモデルが悪いからではなく、ローカルの推論インフラが未熟だからです。\n\n解決すべきは「遅延の累積」です。音声パイプラインでは3つのモデルが直列に並びます。各工程で200msかかれば、ユーザーが音声を耳にするまでに600msのラグが生じ、体験が損なわれます。私たちはMetalに直行し、カスタムGPUコンピュートシェーダーを作成。初期化時に全メモリを事前確保(推論中のアロケーションをゼロに)し、3つのモダリティを一つのエンジンで統合しました。\n\nMetalRTは、Apple Silicon上でこれら3つのモダリティをネイティブに処理する初のエンジンです。\n\nなぜ速いのか?多くの推論エンジンはGPUとの間にグラフスケジューラなどのレイヤーを挟みますが、MetalRTはそれらをすべてスキップします。量子化matmul、attention、activationのためのカスタムMetalシェーダーを事前にコンパイルし、直接ディスパッチしています。\n\nRCLIはMetalRT上に構築されたMITライセンスのオープンソース音声パイプラインです。3つの並列スレッド、ロックフリーのリングバッファ、20種類のモデル切り替え、ローカルRAG、そしてレイテンシをリアルタイム表示するTUIを備えています。MetalRTがインストールされていない環境ではllama.cppにフォールバックします。\n\nリポジトリ: https://github.com/RunanywhereAI/RCLI (MIT)\nデモ動画: https://www.youtube.com/watch?v=eTYwkgNoaKg\n\nもしローカルAIがクラウド並みに速くなったら、あなたなら何を作りますか?