【打倒Whisper】OpenAI超えの精度を叩き出す新星STTモデル「Moonshine」が公開！

petewarden

3か月前

ディスカッション (10件)

petewardenOP👍 66

3か月前

僕たちの新しい音声認識（STT）モデルと、それを効率的に使うためのライブラリを公開したのでシェアさせてください。僕たちはたった6人の小さなスタートアップで、月間のGPU予算も10万ドル以下という限られたリソースでやっています。そんな中、チームが一丸となって、OpenAIの最強モデルであるWhisper Large v3よりも低い単語誤り率（WER）を実現するストリーミングSTTモデルを作り上げたことを誇りに思っています。正直なところ、Large v3は数年前のモデルではありますが、僕たちのモデルはHugging FaceのOpenASRリーダーボードで上位にランクインしており、NvidiaのParakeetシリーズとも互角以上に渡り合っています。モデルやソフトウェアへのフィードバックはもちろん、これを使って皆さんがどんな面白いものを作るのか、ぜひ教えてください！

🔗 リンク先:https://github.com/moonshine-ai/moonshine

cyanydeez

3か月前

ライセンスがないならお話にならないな。

lostmsu

3か月前

MicrosoftのVibeVoice ASRと比べてどうなんだろう？ https://news.ycombinator.com/item?id=46732776 (https://news.ycombinator.com/item?id=46732776)

armcat

3か月前

これ最高だね、みんなお疲れさま！自作してるローカル音声アシスタントのASRコンポーネントとして試してみるよ https://github.com/acatovic/ova (https://github.com/acatovic/ova) 。示されてるストリーミングの低レイテンシ、めちゃくちゃヤバいな。

ac29

3か月前

なんでラズパイへの推奨インストール方法が 'sudo pip install --break-system-packages moonshine-voice' なのか謎だな。作者もその点は認めてて、サンプルプロジェクトでuvを使ったちょっと複雑な方法を提示してるけど（ちなみに、uv runを使うならsourceは不要だよ）。

g-mork

3か月前

CPUでも快適に動くParakeetと比べるとどう？

pzo

3か月前

まだ試してないけど、IT用語や技術的な略称が多い場合にどうなるか気になるな。そのせいで、これまではSTTの後にLLMを噛ませることが多かったけど、それだとParakeetの推論が遅くなっちゃってたんだよね。じゃないと、CoreML、int8、fp16、ハーフフロート、ARKit、AVFoundation、ONNXとかについて話すと、たまにうまく認識されないことがあったから。

sroussey

3か月前

ブラウザ用のONNXモデルっていけるかな？

asqueella

3か月前

言語サポートが気になってる人向けに書いとくと、今は英語、アラビア語、日本語、韓国語、中国語、スペイン語、ウクライナ語、ベトナム語が使えるよ（ほとんどがBaseサイズで58Mパラメーター）。

Karrot_Kream

3か月前

OpenASRリーダーボード[1]によると、Parakeet V2/V3とCanary-Qwen（Qwenのファインチューン版）がMoonshineを余裕で上回ってるみたい。3つともオープンなモデルだけど、Parakeetが一番軽量だね。自分はHandyと一緒にParakeet V3を使ってるけど、ローカルでいい感じに動いてるよ。[1]: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard (https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)