r/LocalLLaMA🔥 48

💬 42

【2026年5月最新版】主要TTSエンジンを一挙比較！ローカル環境での最適解を探せ

UkieTechie

1日前

ディスカッション (43件)

UkieTechieOP

👍481日前

個人プロジェクトで使えるまともなTTS（音声合成）のベンチマークが見当たらず、結局自分で作ることにしました。ローカル環境でTTSツールを動かしたいと思っている人の助けになれば幸いです。現在、WindowsとMacでの検証結果を公開しており、Linux環境（5900XTと3090を搭載したワークステーションを使用）についても近々テスト予定です。結果は以下のHTMLページから確認できます（現在も一部検証を継続中です）。https://github.com/5uck1ess/tts-bench 追記：タイトルに「all known」と書きましたが、あくまで私が把握している範囲という意味です。もし見落としている重要なツールがあればぜひ教えてください。随時追加していきます！

daywalker313

👍61日前

「既知のすべてのTTS」と言いつつFish S2を飛ばしてQwen3 TTSやVoxtralが含まれていないのは、ちょっとひどいな。

UkieTechie

👍81日前

返信先:>>1

https://preview.redd.it/ynfigoqqc03h1.png?width=866&format=png&auto=webp&s=e71e6ed54ec6a25372e62671ac6f72a0a2fd7c9c

フィードバックありがとう。Qwenは今まさに追記中だよ。Fish Speech 1.5は前に入れてたんだけど、今のところは注釈の通りスキップしてる。

UkieTechie

👍1約17時間前

返信先:>>2

u/daywalker313 fish s2は現在進行中。qwenとvoxtralを追加したよ。

chensium

👍21日前

14モデルって、既知のすべてのTTSには程遠すぎるでしょ。

UkieTechie

👍41日前

返信先:>>4

「私が知る限り」の全モデルってこと。表現を修正するよ。ありがとう。

UkieTechie

👍1約17時間前

返信先:>>5

u/chensium 今25個だね。他に何が足りないか教えて

Equivalent-Repair488

👍211日前

速度しかテストしてないの？TTSを使うときの一番の問題って速度じゃなくて、過去に試したものはどれも機械っぽい独特の響きがあることなんだよね。聞いているとどうしても違和感があって。

UkieTechie

👍21日前

返信先:>>7

評価はかなり主観的なものになるけど、両方やってるよ。ハードウェアでどう動くか知るための速度テストと、結果やレポートから実際に聞き直してどれがベストか自分で選べるようにしてる。

リポジトリにも自分の見解は書いてるけど、それもかなり主観的になっちゃうからね。

Equivalent-Repair488

👍11日前

返信先:>>8

あのロボットっぽいノイズが出る特定の周波数帯があるんだよね。TTSモデルやプロバイダー全体で一貫しているのかは分からないけど、この問題の周波数帯は自然な音声には含まれていない。これは主観的な話ではなくて、TTS LLMが生成するデジタルオーディオのアーティファクトとして数値化できる問題だと思う。自然な音にはない不快な付加物だし、ベンチマークできるかは別として調査する価値はあるはず。

llama-impersonator

👍11日前

返信先:>>9

ロボットみたいなボーカルフライだね

UkieTechie

👍21日前

返信先:>>10

これを測定するためにレポートに新しいカラムを追加してるよ。「Naturalness-Artifact Quotient（自然さとアーティファクトの比率）」って呼んでいて、サンプルに対して客観的に計測するつもり。これで何とか解決の助けになればいいんだけど。

pmttyji

👍11日前

返信先:>>7

TTSを使う時の最大の悩みはスピードじゃなくて、過去に試したものはどれもロボットっぽいニュアンスが混ざることなんだ。聴いているだけで不快になってしまう。

個人的に、今までで「これならいける」と思ったものはある？詳細を教えて！

Equivalent-Repair488

👍11日前

返信先:>>12

正直、どれもしっくりこないんだよね。KittenTTS、Kokoro、Chatterbox（ベースとターボ両方）を試したけど、全部にあのロボットっぽいニュアンスがあって、心の中で「うわっ」てなってしまう。もう諦めちゃった。Kokoroが一番マシだったけど、それでも十分とは言えないし。

ボイスクローンには興味がなくて、アーティファクトを感じさせない十分な品質の男女の声を1つずつ持っておきたいんだ。ボイスクローンは無制限に声を作れるかもしれないけど、結局ベース部分にあのロボットっぽい質感が乗ってしまうから。

もっと混乱するのは、質の低い動画をたくさん見かけるのに、昔のバイデンやオバマ、トランプのマイクラミーム動画なんかはいい音声だったこと。ポストプロセッシングしてるのか、なんなのか分からないけど。

UkieTechie

👍11日前

返信先:>>13

ボイスクローンは今や簡単になったね。自分の声でモデルを学習させれば、ライブ環境でも90ms程度までいけるし。でも、TTSへのコメントは本当にその通り。長いフレーズになると、ほとんどのモデルで違和感が残るんだよね。

theSurgeonOfDeath_

👍11日前

返信先:>>7

どっちも大事だよ。ほぼリアルタイムなレスポンスが必要なら特にね。だから両方テストすべきっていうのには賛成。

UkieTechie

👍21日前

返信先:>>15

今のところOmivoiceが一番自然に聞こえるかな。Kokoroもかなりいいけど。

EndlessZone123

👍11日前

せっかくここまでリストにまとめてくれたんだし、ついでに推論時のメモリ使用量とデモサンプルも追加する余裕はある？

UkieTechie

👍31日前

返信先:>>17

ああ、実は今まさに8つほど追加してるところ。ストレージを100GBも食ってるよ :/
リクエストのあった統計情報も追加しておくね。デモサンプルはもうGitHubページに入れてあるよ。

sword-in-stone

👍11日前

投稿者さん、ありがとう。OmnivoiceをStrix Haloで動かすのには本当に苦労したよ。一応出力はされるようになったけど、全部めちゃくちゃに混ざった音になっちゃう。もし上手く動かせたら教えてよ。

UkieTechie

👍31日前

返信先:>>19

自分はOmnivoice、今のところ最高だと思う。最速ではないけど、ボイスクローニングの精度はほぼ完璧だよ。声のトーンもアクセントもしっかり再現してくれる。

sword-in-stone

👍11日前

返信先:>>20

NVIDIA Blackwellで動かせたよ、クオリティの高いクローンができるね。でもStrix版も求めてるんだ。

UkieTechie

👍1約22時間前

返信先:>>21

なるほどね。残念ながら自分はStrix Haloを持ってないから動作確認できないけど、将来手に入れたら絶対に対応させたいな。ユニファイドメモリが128GB以上サポートされていればいいんだけどね。

MarkoMarjamaa

👍1約22時間前

返信先:>>19

Strix HaloでZipvoiceを使ってるよ。クローニングとフィンランド語のファインチューニングをして、RealTimeTTSで動かしつつ、ストリーミング用に独自のFastAPIインターフェースを組んでる。

EmPips

👍21日前

今日まさに検索を始めようとしていたところにこれが必要だったんだ。最高のタイミングだよ、おかげで少し作業が楽になった。これからも頑張って！

pmttyji

👍21日前

シェアしてくれてありがとう。今後リリースされるモデルもどんどんリポジトリに追加していってほしい！

brahh85

👍11日前

TTS関連だけど、MI50で使う場合、PyTorchの依存関係とかでかなりカオスになるよね。でもこれはggmlを使っているから（https://github.com/ServeurpersoCom/omnivoice.cpp ）、Vulkan、CUDA、Metal、CPUでも動くんだ。今のところ自分の言語にはこれが一番合ってるよ（アクセントを出すためにボイスクローンをしたけど）。

UkieTechie

👍1約19時間前

返信先:>>26

将来の実装リストに入れとくよ。

no_witty_username

👍31日前

自分でも何十種類ものTTSモデルをテストしてきた経験から言うと、このリストはかなり的確だと思う。CPUでの純粋なスピードと「許容範囲」の品質を求めるなら、Piper TTSに勝るものはない。あれはめちゃくちゃ速い。Pixel 9のCPUだけでも3x RTF以上で動いてるし、TTSとしてはかなり印象的。その非力なCPUでもレイテンシは300ms程度だからすごいよ。小さくて「高品質」なTTSならSupertonic 3を選びたいところだけど、Pixel 9だと2000msくらいかかってかなり遅いのが難点。チャンク分割を最適化すれば1000msくらいまで下げられるけど、それでも遅いかな。でも、小さくて高速、かつ高品質なTTSが必要ならSupertonic 3は検討する価値がある。サイズが小さい割にとても優秀なモデルだよ。

No-Implement9967

👍21日前

都合の良いデモクリップよりも、リアルタイム係数・メモリ使用量・品質のトレードオフの方がずっと重要だよね。ようやくこれらをまとめてくれた人がいて嬉しい。

Zulfiqaar

👍31日前

いくつか抜けているのがあると思うよ：https://huggingface.co/models?pipeline_tag=text-to-speech

rngesius

👍41日前

オリジナルのQwenTTSのリポジトリはコードがひどいし遅いよ。https://github.com/andimarafioti/faster-qwen3-tts を使ってみな。リアルタイムよりずっと速いよ、起動時のコストはめちゃくちゃ高いけど。

Timely-Perception-26

👍1約23時間前

返信先:>>31

このリポジトリのカスタムTritonカーネルを組み合わせたfasterqwen3-ttsもあるよ：https://github.com/newgrit1004/qwen3-tts-triton

ハイブリッドモード (Triton + CUDA Graphで約5倍速)

ウォームアップとハイブリッドモード、インテリジェントなチャンキングを駆使して、自分のカスタム音声モデルで3090TIを使ってTTFA約120msを実現してる。いろいろ試したけど、自分にとってはこれが品質と速度のバランスが最高だった。フットプリントはそれなりに大きいけど、Qwen3.6 27Bと組み合わせて毎日のアシスタントとして使えてるよ。

NewtoAlien

👍3約22時間前

ヘッドレスのUbuntu 26.04上で、https://github.com/zeropointnine/tts-audiobook-tool からのvibevoice 7BのDockerイメージを使ってる。RTX 3090のVRAMを23.7GB使って、4バッチ同時に処理できてるよ。音楽検出とエラーチェック機能があって、CPUで動かしてるWhisperで再生成もしてくれる。かなりいい結果が出ていて、2～3.8倍速で動いてる。例えば53.2秒の音声を14秒で生成できる感じ。速度は多少上下するけど、常に1倍速は超えてるね。

UkieTechie

👍2約22時間前

返信先:>>33

すごいね。自分のUbuntu 3090環境でもテストして結果をアップするよ。共有してくれてありがとう。

NewtoAlien

👍2約21時間前

返信先:>>34

どういたしまして😉 このツールはオーディオブック作成用なんだ。ヘッドレスで実行するとVRAMを全部節約できるよ。自分はtmuxで実行してるから、スマホからSSHでPCに接続してセッションを監視できてる。もう50時間分のオーディオブックを生成済みだし、今も別の長編を70時間連続で生成させてるけど問題ないよ。あと30時間はかかるかな。ちなみに、単語エラーを検知したら生成をリトライする「厳格なエラーなし」設定にしてる。1セグメント最大75単語で、単語生成を最大化する設定だね。ボイスクローニングもやってるよ。エラー検知はCPUでWhisper v3 largeを使って行ってる。他の設定についても知りたければ教えて。今のところ順調だし、かなり気に入ってる。今まで試した他のTTSソリューションよりも表現力がある感じがするよ。

UkieTechie

👍1約21時間前

返信先:>>35

それはいいね。自分はVibevoiceが合ってて、ボイスクローニングを使ったソーシャルエンジニアリングのプロジェクトで使ってるよ。詳細をぜひ教えてほしい。あと、あえて7bを使ってる理由は何かある？Microsoftが削除したモデル（確か9bだと思ってたんだけど）じゃない理由って何だろう。

NewtoAlien

👍2約21時間前

返信先:>>36

それはコミュニティエディション版だよ。Hugging Faceの名前を指定すればフォーク版もロードできるし、他のバージョンをロードするオプションもあるよ。

UkieTechie

👍2約19時間前

返信先:>>37

了解、ありがとう。以前は普通のTTSとクローニングの両方で一番良い結果が出たモデルなんだけど、最近は新しいモデルが多すぎるよね。