【打倒Whisper】OpenAI超えの精度を叩き出す新星STTモデル「Moonshine」が公開!
僕たちの新しい音声認識(STT)モデルと、それを効率的に使うためのライブラリを公開したのでシェアさせてください。僕たちはたった6人の小さなスタートアップで、月間のGPU予算も10万ドル以下という限られたリソースでやっています。そんな中、チームが一丸となって、OpenAIの最強モデルであるWhisper Large v3よりも低い単語誤り率(WER)を実現するストリーミングSTTモデルを作り上げたことを誇りに思っています。正直なところ、Large v3は数年前のモデルではありますが、僕たちのモデルはHugging FaceのOpenASRリーダーボードで上位にランクインしており、NvidiaのParakeetシリーズとも互角以上に渡り合っています。モデルやソフトウェアへのフィードバックはもちろん、これを使って皆さんがどんな面白いものを作るのか、ぜひ教えてください!