HN302102

「Kitten TTS」から25MB以下の超軽量モデルが登場！GPU不要でエッジ端末でも表現力豊かな音声を

Show HN: Three new Kitten TTS models – smallest less than 25MB

rohan_joshi・4か月前

議論

11件

0：rohan_joshiスレ主▲3024か月前

Kitten TTS（https://github.com/KittenML/KittenTTS ）は、オンデバイス向けに開発された、オープンソースの超軽量・高表現力なテキスト読み上げ（TTS）モデルシリーズです。昨年もこちら（https://news.ycombinator.com/item?id=44807868 ）で紹介しましたが、本日、新たに80M、40M、14Mパラメーターの3つのモデルをリリースしました。\n\n最大モデル（80M）は最高品質を誇り、最小モデル（14M）は25MB未満という驚異的な小ささながら、同サイズ帯ではSOTA（State-of-the-Art）レベルの表現力を実現しています。今回のリリースは前回からの大幅なアップグレードとなっており、英語の8つのボイス（男性4、女性4）をサポートしています。\n\nデモ動画はこちら：https://www.youtube.com/watch?v=ge3u5qblqZA\n\nほとんどのモデルはint8 + fp16に量子化されており、ONNXランタイムで動作します。Raspberry Pi、ローエンドのスマートフォン、ウェアラブル端末、ブラウザなど、あらゆる環境で「GPUなし」で動作するよう設計されています。クラウドに頼らず、オンデバイスで完結するTTSアプリケーションの可能性を広げることが狙いです。多言語対応モデルも近日公開予定です。\n\nオンデバイスAIの最大の壁は「実際に使えるレベルの小型モデルが不足していること」です。私たちは、プロダクションレベルのボイスエージェントやアプリを完全にオンデバイスで動かせるよう、さらなるモデルをオープンソース化していきます。ぜひフィードバックをお願いします！

リンク先:https://github.com/KittenML/KittenTTS

1：kevin424か月前

OpenClawのいいところは、このGitHubのURLをDiscordで送るだけで、数分で音声メッセージを返してくれたこと。ベンチマークやサンプル音声もたくさん送ってくれた。このサイズでこのクオリティはすごい。声はそんなに好みじゃないけど、悪くはない。Intel 9700 CPUだと80Mモデルでリアルタイムの1.5倍くらい。3080 GPUで動かしてもこれ以上速くはならなかったけど。

2：daneel_w4か月前

少し前にリリースされた最初のモデルセットから、明らかに良くなってるね。本当に感動した。共有してくれてありがとう。

3：boutell4か月前

素晴らしいね。チームとしてSTT（音声文字変換）にも興味ある？

4：amelius4か月前

これをArduinoプロジェクト用のチップとして買えるようになるまで、あとどれくらいかかるかな？

5：__fst__4か月前

ちょっと触ってみたけど、このサイズにしてはかなりすごい。ただ、数字の発音に問題があるかな。「Startup finished in 135 ms.」を生成させようとしたんだけど、「ms」を正しく発音できないのは予想してたけど、数字の部分がただのノイズみたいに聞こえた。最終的に「one hundred and thirty five seconds」にしたら、納得できる結果になったよ。

6：PunchyHamster4か月前

インストール手順通りにやったら依存関係で7.1GBも食ったんだけど、これで「tiny（極小）」ってどういうこと？

7：arcanemachiner4か月前

今回こそは普通の感じの声だといいな。可愛いKittenボイスもいいけど、オーディオブックを聴くときはちゃんとした声がいいんだ。

8：_hzw4か月前

将来的には日本語に特化したモデルが見てみたいな。Qwen3-ttsはだいたい日本語でいけるけど、時々中国語が混ざるから、そうなると使い物にならないんだよね。

9：jamamp4か月前

GitHubのREADMEに載ってないんだけど、何のデータで学習させたの？制作者の声？それともネットとかのアーカイブからスクレイピングしたデータ？

10：dawdler-purge4か月前

Kitten TTSのCLIラッパーを作ってみた：https://github.com/newptcai/purr 。ところで、kitten（Pythonパッケージ）の依存関係は kittentts → misaki[en] → spacy-curated-transformers って繋がってるみたい。だからuvで直接インストールすると、kittenの実行には必要ないはずのTorchやNVIDIA CUDA（数GBもあるやつ）まで落としてきちゃうよ。