ディスカッション (43件)
個人プロジェクトで使えるまともなTTS(音声合成)のベンチマークが見当たらず、結局自分で作ることにしました。ローカル環境でTTSツールを動かしたいと思っている人の助けになれば幸いです。現在、WindowsとMacでの検証結果を公開しており、Linux環境(5900XTと3090を搭載したワークステーションを使用)についても近々テスト予定です。結果は以下のHTMLページから確認できます(現在も一部検証を継続中です)。https://github.com/5uck1ess/tts-bench 追記:タイトルに「all known」と書きましたが、あくまで私が把握している範囲という意味です。もし見落としている重要なツールがあればぜひ教えてください。随時追加していきます!
「既知のすべてのTTS」と言いつつFish S2を飛ばしてQwen3 TTSやVoxtralが含まれていないのは、ちょっとひどいな。
フィードバックありがとう。Qwenは今まさに追記中だよ。Fish Speech 1.5は前に入れてたんだけど、今のところは注釈の通りスキップしてる。
u/daywalker313 fish s2は現在進行中。qwenとvoxtralを追加したよ。
14モデルって、既知のすべてのTTSには程遠すぎるでしょ。
「私が知る限り」の全モデルってこと。表現を修正するよ。ありがとう。
u/chensium 今25個だね。他に何が足りないか教えて
速度しかテストしてないの?TTSを使うときの一番の問題って速度じゃなくて、過去に試したものはどれも機械っぽい独特の響きがあることなんだよね。聞いているとどうしても違和感があって。
評価はかなり主観的なものになるけど、両方やってるよ。ハードウェアでどう動くか知るための速度テストと、結果やレポートから実際に聞き直してどれがベストか自分で選べるようにしてる。
リポジトリにも自分の見解は書いてるけど、それもかなり主観的になっちゃうからね。
あのロボットっぽいノイズが出る特定の周波数帯があるんだよね。TTSモデルやプロバイダー全体で一貫しているのかは分からないけど、この問題の周波数帯は自然な音声には含まれていない。これは主観的な話ではなくて、TTS LLMが生成するデジタルオーディオのアーティファクトとして数値化できる問題だと思う。自然な音にはない不快な付加物だし、ベンチマークできるかは別として調査する価値はあるはず。
ロボットみたいなボーカルフライだね
これを測定するためにレポートに新しいカラムを追加してるよ。「Naturalness-Artifact Quotient(自然さとアーティファクトの比率)」って呼んでいて、サンプルに対して客観的に計測するつもり。これで何とか解決の助けになればいいんだけど。
TTSを使う時の最大の悩みはスピードじゃなくて、過去に試したものはどれもロボットっぽいニュアンスが混ざることなんだ。聴いているだけで不快になってしまう。
個人的に、今までで「これならいける」と思ったものはある?詳細を教えて!
正直、どれもしっくりこないんだよね。KittenTTS、Kokoro、Chatterbox(ベースとターボ両方)を試したけど、全部にあのロボットっぽいニュアンスがあって、心の中で「うわっ」てなってしまう。もう諦めちゃった。Kokoroが一番マシだったけど、それでも十分とは言えないし。
ボイスクローンには興味がなくて、アーティファクトを感じさせない十分な品質の男女の声を1つずつ持っておきたいんだ。ボイスクローンは無制限に声を作れるかもしれないけど、結局ベース部分にあのロボットっぽい質感が乗ってしまうから。
もっと混乱するのは、質の低い動画をたくさん見かけるのに、昔のバイデンやオバマ、トランプのマイクラミーム動画なんかはいい音声だったこと。ポストプロセッシングしてるのか、なんなのか分からないけど。
ボイスクローンは今や簡単になったね。自分の声でモデルを学習させれば、ライブ環境でも90ms程度までいけるし。でも、TTSへのコメントは本当にその通り。長いフレーズになると、ほとんどのモデルで違和感が残るんだよね。
どっちも大事だよ。ほぼリアルタイムなレスポンスが必要なら特にね。だから両方テストすべきっていうのには賛成。
今のところOmivoiceが一番自然に聞こえるかな。Kokoroもかなりいいけど。
せっかくここまでリストにまとめてくれたんだし、ついでに推論時のメモリ使用量とデモサンプルも追加する余裕はある?
ああ、実は今まさに8つほど追加してるところ。ストレージを100GBも食ってるよ :/
リクエストのあった統計情報も追加しておくね。デモサンプルはもうGitHubページに入れてあるよ。
投稿者さん、ありがとう。OmnivoiceをStrix Haloで動かすのには本当に苦労したよ。一応出力はされるようになったけど、全部めちゃくちゃに混ざった音になっちゃう。もし上手く動かせたら教えてよ。
自分はOmnivoice、今のところ最高だと思う。最速ではないけど、ボイスクローニングの精度はほぼ完璧だよ。声のトーンもアクセントもしっかり再現してくれる。
NVIDIA Blackwellで動かせたよ、クオリティの高いクローンができるね。でもStrix版も求めてるんだ。
なるほどね。残念ながら自分はStrix Haloを持ってないから動作確認できないけど、将来手に入れたら絶対に対応させたいな。ユニファイドメモリが128GB以上サポートされていればいいんだけどね。
Strix HaloでZipvoiceを使ってるよ。クローニングとフィンランド語のファインチューニングをして、RealTimeTTSで動かしつつ、ストリーミング用に独自のFastAPIインターフェースを組んでる。
今日まさに検索を始めようとしていたところにこれが必要だったんだ。最高のタイミングだよ、おかげで少し作業が楽になった。これからも頑張って!
シェアしてくれてありがとう。今後リリースされるモデルもどんどんリポジトリに追加していってほしい!
TTS関連だけど、MI50で使う場合、PyTorchの依存関係とかでかなりカオスになるよね。でもこれはggmlを使っているから(https://github.com/ServeurpersoCom/omnivoice.cpp )、Vulkan、CUDA、Metal、CPUでも動くんだ。今のところ自分の言語にはこれが一番合ってるよ(アクセントを出すためにボイスクローンをしたけど)。
将来の実装リストに入れとくよ。
自分でも何十種類ものTTSモデルをテストしてきた経験から言うと、このリストはかなり的確だと思う。CPUでの純粋なスピードと「許容範囲」の品質を求めるなら、Piper TTSに勝るものはない。あれはめちゃくちゃ速い。Pixel 9のCPUだけでも3x RTF以上で動いてるし、TTSとしてはかなり印象的。その非力なCPUでもレイテンシは300ms程度だからすごいよ。小さくて「高品質」なTTSならSupertonic 3を選びたいところだけど、Pixel 9だと2000msくらいかかってかなり遅いのが難点。チャンク分割を最適化すれば1000msくらいまで下げられるけど、それでも遅いかな。でも、小さくて高速、かつ高品質なTTSが必要ならSupertonic 3は検討する価値がある。サイズが小さい割にとても優秀なモデルだよ。
都合の良いデモクリップよりも、リアルタイム係数・メモリ使用量・品質のトレードオフの方がずっと重要だよね。ようやくこれらをまとめてくれた人がいて嬉しい。
いくつか抜けているのがあると思うよ:https://huggingface.co/models?pipeline_tag=text-to-speech
オリジナルのQwenTTSのリポジトリはコードがひどいし遅いよ。https://github.com/andimarafioti/faster-qwen3-tts を使ってみな。リアルタイムよりずっと速いよ、起動時のコストはめちゃくちゃ高いけど。
このリポジトリのカスタムTritonカーネルを組み合わせたfasterqwen3-ttsもあるよ:https://github.com/newgrit1004/qwen3-tts-triton
ハイブリッドモード (Triton + CUDA Graphで約5倍速)
ウォームアップとハイブリッドモード、インテリジェントなチャンキングを駆使して、自分のカスタム音声モデルで3090TIを使ってTTFA約120msを実現してる。いろいろ試したけど、自分にとってはこれが品質と速度のバランスが最高だった。フットプリントはそれなりに大きいけど、Qwen3.6 27Bと組み合わせて毎日のアシスタントとして使えてるよ。
ヘッドレスのUbuntu 26.04上で、https://github.com/zeropointnine/tts-audiobook-tool からのvibevoice 7BのDockerイメージを使ってる。RTX 3090のVRAMを23.7GB使って、4バッチ同時に処理できてるよ。音楽検出とエラーチェック機能があって、CPUで動かしてるWhisperで再生成もしてくれる。かなりいい結果が出ていて、2~3.8倍速で動いてる。例えば53.2秒の音声を14秒で生成できる感じ。速度は多少上下するけど、常に1倍速は超えてるね。
すごいね。自分のUbuntu 3090環境でもテストして結果をアップするよ。共有してくれてありがとう。
どういたしまして😉 このツールはオーディオブック作成用なんだ。ヘッドレスで実行するとVRAMを全部節約できるよ。自分はtmuxで実行してるから、スマホからSSHでPCに接続してセッションを監視できてる。もう50時間分のオーディオブックを生成済みだし、今も別の長編を70時間連続で生成させてるけど問題ないよ。あと30時間はかかるかな。ちなみに、単語エラーを検知したら生成をリトライする「厳格なエラーなし」設定にしてる。1セグメント最大75単語で、単語生成を最大化する設定だね。ボイスクローニングもやってるよ。エラー検知はCPUでWhisper v3 largeを使って行ってる。他の設定についても知りたければ教えて。今のところ順調だし、かなり気に入ってる。今まで試した他のTTSソリューションよりも表現力がある感じがするよ。
それはいいね。自分はVibevoiceが合ってて、ボイスクローニングを使ったソーシャルエンジニアリングのプロジェクトで使ってるよ。詳細をぜひ教えてほしい。あと、あえて7bを使ってる理由は何かある?Microsoftが削除したモデル(確か9bだと思ってたんだけど)じゃない理由って何だろう。
それはコミュニティエディション版だよ。Hugging Faceの名前を指定すればフォーク版もロードできるし、他のバージョンをロードするオプションもあるよ。
了解、ありがとう。以前は普通のTTSとクローニングの両方で一番良い結果が出たモデルなんだけど、最近は新しいモデルが多すぎるよね。
aoi-otからVibevoice-largeに切り替えたところ。4バッチでVRAMを23.4GB消費してるから、今のところ順調だね。このアプリにはHFからモデルをダウンロードするオプションがあって、モデル名を入れるだけでいいから楽だよ。
Pocket TTSは100Mパラメータのモデルで、ボイスクローニングと多言語対応もしてるよ。
うん、すでにリストに入ってるよ。教えてくれてありがとう。
Pocket-TTS は現時点で最高のCPU用TTSモデルだよ。リアルタイムの4倍以上のパフォーマンスが出るからね。
ただし、クローンする音声の品質にかなり依存するよ。デフォルトのやつはひどいから。一番いい方法は、Kokoroみたいな別の超クリーンなTTSエンジンから音声サンプルを持ってくることかな。
例えば、Kokoroのaf_heartをPocket(4月モデル)でクローンしたのがこれ:https://vocaroo.com/1ny4cDRycRmj