HN🔥 66
💬 11

【打倒Whisper】OpenAI超えの精度を叩き出す新星STTモデル「Moonshine」が公開!

petewarden
約19時間前

ディスカッション (10件)

0
petewardenOP👍 66
約19時間前

僕たちの新しい音声認識(STT)モデルと、それを効率的に使うためのライブラリを公開したのでシェアさせてください。僕たちはたった6人の小さなスタートアップで、月間のGPU予算も10万ドル以下という限られたリソースでやっています。そんな中、チームが一丸となって、OpenAIの最強モデルであるWhisper Large v3よりも低い単語誤り率(WER)を実現するストリーミングSTTモデルを作り上げたことを誇りに思っています。正直なところ、Large v3は数年前のモデルではありますが、僕たちのモデルはHugging FaceのOpenASRリーダーボードで上位にランクインしており、NvidiaのParakeetシリーズとも互角以上に渡り合っています。モデルやソフトウェアへのフィードバックはもちろん、これを使って皆さんがどんな面白いものを作るのか、ぜひ教えてください!

1
cyanydeez
約18時間前

ライセンスがないならお話にならないな。

4
ac29
約17時間前

なんでラズパイへの推奨インストール方法が 'sudo pip install --break-system-packages moonshine-voice' なのか謎だな。作者もその点は認めてて、サンプルプロジェクトでuvを使ったちょっと複雑な方法を提示してるけど(ちなみに、uv runを使うならsourceは不要だよ)。

5
g-mork
約17時間前

CPUでも快適に動くParakeetと比べるとどう?

6
pzo
約17時間前

まだ試してないけど、IT用語や技術的な略称が多い場合にどうなるか気になるな。そのせいで、これまではSTTの後にLLMを噛ませることが多かったけど、それだとParakeetの推論が遅くなっちゃってたんだよね。じゃないと、CoreML、int8、fp16、ハーフフロート、ARKit、AVFoundation、ONNXとかについて話すと、たまにうまく認識されないことがあったから。

7
sroussey
約17時間前

ブラウザ用のONNXモデルっていけるかな?

8
asqueella
約17時間前

言語サポートが気になってる人向けに書いとくと、今は英語、アラビア語、日本語、韓国語、中国語、スペイン語、ウクライナ語、ベトナム語が使えるよ(ほとんどがBaseサイズで58Mパラメーター)。

9
Karrot_Kream
約17時間前

OpenASRリーダーボード[1]によると、Parakeet V2/V3とCanary-Qwen(Qwenのファインチューン版)がMoonshineを余裕で上回ってるみたい。3つともオープンなモデルだけど、Parakeetが一番軽量だね。自分はHandyと一緒にParakeet V3を使ってるけど、ローカルでいい感じに動いてるよ。[1]: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard (https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)