HN🔥 302
💬 102

「Kitten TTS」から25MB以下の超軽量モデルが登場!GPU不要でエッジ端末でも表現力豊かな音声を

rohan_joshi
約14時間前

ディスカッション (11件)

0
rohan_joshiOP🔥 302
約14時間前

Kitten TTS(https://github.com/KittenML/KittenTTS )は、オンデバイス向けに開発された、オープンソースの超軽量・高表現力なテキスト読み上げ(TTS)モデルシリーズです。昨年もこちら(https://news.ycombinator.com/item?id=44807868 )で紹介しましたが、本日、新たに80M、40M、14Mパラメーターの3つのモデルをリリースしました。\n\n最大モデル(80M)は最高品質を誇り、最小モデル(14M)は25MB未満という驚異的な小ささながら、同サイズ帯ではSOTA(State-of-the-Art)レベルの表現力を実現しています。今回のリリースは前回からの大幅なアップグレードとなっており、英語の8つのボイス(男性4、女性4)をサポートしています。\n\nデモ動画はこちら:https://www.youtube.com/watch?v=ge3u5qblqZA\n\nほとんどのモデルはint8 + fp16に量子化されており、ONNXランタイムで動作します。Raspberry Pi、ローエンドのスマートフォン、ウェアラブル端末、ブラウザなど、あらゆる環境で「GPUなし」で動作するよう設計されています。クラウドに頼らず、オンデバイスで完結するTTSアプリケーションの可能性を広げることが狙いです。多言語対応モデルも近日公開予定です。\n\nオンデバイスAIの最大の壁は「実際に使えるレベルの小型モデルが不足していること」です。私たちは、プロダクションレベルのボイスエージェントやアプリを完全にオンデバイスで動かせるよう、さらなるモデルをオープンソース化していきます。ぜひフィードバックをお願いします!

1
kevin42
約13時間前

OpenClawのいいところは、このGitHubのURLをDiscordで送るだけで、数分で音声メッセージを返してくれたこと。ベンチマークやサンプル音声もたくさん送ってくれた。このサイズでこのクオリティはすごい。声はそんなに好みじゃないけど、悪くはない。Intel 9700 CPUだと80Mモデルでリアルタイムの1.5倍くらい。3080 GPUで動かしてもこれ以上速くはならなかったけど。

2
daneel_w
約9時間前

少し前にリリースされた最初のモデルセットから、明らかに良くなってるね。本当に感動した。共有してくれてありがとう。

3
boutell
約9時間前

素晴らしいね。チームとしてSTT(音声文字変換)にも興味ある?

4
amelius
約8時間前

これをArduinoプロジェクト用のチップとして買えるようになるまで、あとどれくらいかかるかな?

5
__fst__
約7時間前

ちょっと触ってみたけど、このサイズにしてはかなりすごい。ただ、数字の発音に問題があるかな。「Startup finished in 135 ms.」を生成させようとしたんだけど、「ms」を正しく発音できないのは予想してたけど、数字の部分がただのノイズみたいに聞こえた。最終的に「one hundred and thirty five seconds」にしたら、納得できる結果になったよ。

6
PunchyHamster
約7時間前

インストール手順通りにやったら依存関係で7.1GBも食ったんだけど、これで「tiny(極小)」ってどういうこと?

7
arcanemachiner
約6時間前

今回こそは普通の感じの声だといいな。可愛いKittenボイスもいいけど、オーディオブックを聴くときはちゃんとした声がいいんだ。

8
_hzw
約6時間前

将来的には日本語に特化したモデルが見てみたいな。Qwen3-ttsはだいたい日本語でいけるけど、時々中国語が混ざるから、そうなると使い物にならないんだよね。

9
jamamp
約6時間前

GitHubのREADMEに載ってないんだけど、何のデータで学習させたの?制作者の声?それともネットとかのアーカイブからスクレイピングしたデータ?

10
dawdler-purge
約6時間前

Kitten TTSのCLIラッパーを作ってみた:https://github.com/newptcai/purr 。ところで、kitten(Pythonパッケージ)の依存関係は kittentts → misaki[en] → spacy-curated-transformers って繋がってるみたい。だからuvで直接インストールすると、kittenの実行には必要ないはずのTorchやNVIDIA CUDA(数GBもあるやつ)まで落としてきちゃうよ。