ディスカッション (10件)
僕たちの新しい音声認識(STT)モデルと、それを効率的に使うためのライブラリを公開したのでシェアさせてください。僕たちはたった6人の小さなスタートアップで、月間のGPU予算も10万ドル以下という限られたリソースでやっています。そんな中、チームが一丸となって、OpenAIの最強モデルであるWhisper Large v3よりも低い単語誤り率(WER)を実現するストリーミングSTTモデルを作り上げたことを誇りに思っています。正直なところ、Large v3は数年前のモデルではありますが、僕たちのモデルはHugging FaceのOpenASRリーダーボードで上位にランクインしており、NvidiaのParakeetシリーズとも互角以上に渡り合っています。モデルやソフトウェアへのフィードバックはもちろん、これを使って皆さんがどんな面白いものを作るのか、ぜひ教えてください!
ライセンスがないならお話にならないな。
MicrosoftのVibeVoice ASRと比べてどうなんだろう? https://news.ycombinator.com/item?id=46732776 (https://news.ycombinator.com/item?id=46732776)
これ最高だね、みんなお疲れさま!自作してるローカル音声アシスタントのASRコンポーネントとして試してみるよ https://github.com/acatovic/ova (https://github.com/acatovic/ova)。示されてるストリーミングの低レイテンシ、めちゃくちゃヤバいな。
なんでラズパイへの推奨インストール方法が 'sudo pip install --break-system-packages moonshine-voice' なのか謎だな。作者もその点は認めてて、サンプルプロジェクトでuvを使ったちょっと複雑な方法を提示してるけど(ちなみに、uv runを使うならsourceは不要だよ)。
CPUでも快適に動くParakeetと比べるとどう?
まだ試してないけど、IT用語や技術的な略称が多い場合にどうなるか気になるな。そのせいで、これまではSTTの後にLLMを噛ませることが多かったけど、それだとParakeetの推論が遅くなっちゃってたんだよね。じゃないと、CoreML、int8、fp16、ハーフフロート、ARKit、AVFoundation、ONNXとかについて話すと、たまにうまく認識されないことがあったから。
ブラウザ用のONNXモデルっていけるかな?
言語サポートが気になってる人向けに書いとくと、今は英語、アラビア語、日本語、韓国語、中国語、スペイン語、ウクライナ語、ベトナム語が使えるよ(ほとんどがBaseサイズで58Mパラメーター)。
OpenASRリーダーボード[1]によると、Parakeet V2/V3とCanary-Qwen(Qwenのファインチューン版)がMoonshineを余裕で上回ってるみたい。3つともオープンなモデルだけど、Parakeetが一番軽量だね。自分はHandyと一緒にParakeet V3を使ってるけど、ローカルでいい感じに動いてるよ。[1]: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard (https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)