日本語TTSモデル比較ツールをOSSで公開——Parler TTS・Canary TTS・Fish-Speechをブラウザで試せるWeb Server
はじめに
日本語対応の音声合成(TTS)モデルが急速に増えています。Parler TTS、Fish-Speech、Canary TTS、Kokoro——選択肢は豊富ですが、実際に比較しようとすると、モデルごとに環境構築やAPI設定が必要で、手軽に試せる状態にはなっていません。
この課題を解決するため、Furious Greenでは複数の日本語TTSモデルをブラウザ上でワンクリック切り替え・比較できるWebサーバをオープンソースとして公開しました。
🔗 GitHub:japanese-tts-webserver
なぜこのツールを作ったのか
当社では、音声AIを活用したプロジェクト(社内ボットの音声対応、eラーニング教材の音声化など)の相談を受けることが増えてきました。
その中で毎回発生するのが「どのTTSモデルを使うべきか?」という選定作業です。クライアントに説明するためにも、同じテキストを複数モデルで生成し、音質・速度・自然さを比較する必要があります。
しかし、モデルごとに環境構築をするのは非効率。そこで社内ツールとして開発していたFastAPIベースのTTS比較サーバを整理し、一般公開することにしました。
対応モデルと特徴
現在、以下の3モデルに対応しています。
Parler TTS
Hugging Face発のオープンソースTTSモデル。テキストプロンプトで話し方のスタイル(速度、ピッチ、感情など)を制御できるのが特徴です。日本語版(Japanese Parler-TTS)はコミュニティにより開発されており、Mini版とLarge版があります。
- 強み: スタイル制御の柔軟性が高い。プロンプトで「ゆっくり、落ち着いた男性の声」のような指定が可能
- 弱み: Large版は品質が高いが動作が不安定な場合あり。Mini版が安定動作には推奨
- 向いている用途: プロトタイピング、スタイル比較の実験
Canary TTS
NVIDIAのNeMoフレームワークをベースとしたモデル。GPU最適化されており、高速な推論が特徴です。
- 強み: 推論速度が速い。NVIDIA GPU環境との相性が良い
- 弱み: 日本語の音質はParler TTS・Fish-Speechに比べるとやや劣る場合がある
- 向いている用途: リアルタイム性が求められるアプリケーション
Fish-Speech
日本語の発音精度で評価が高いTTSモデル。文脈依存のイントネーション処理に強く、長文でも自然な読み上げが可能です。
- 強み: 日本語の自然さ・イントネーションの精度が高い
- 弱み: 初回セットアップにやや手間がかかる
- 向いている用途: ナレーション、教材音声、プロダクション向け
機能一覧
- ブラウザUI: テキスト入力→音声生成→再生がブラウザ上で完結
- ワンクリックモデル切替: 同じテキストで複数モデルを即座に比較
- 日本語テキスト前処理: 漢字の読み仮名処理、句読点の正規化など、より自然な発音のための自動整形
- リアルタイム生成: 生成した音声をその場で再生可能
セットアップ手順
FastAPIベースのシンプルな構成で、3ステップで起動できます。
1. リポジトリをクローン
bash
git clone https://github.com/Furious-Green/japanese-tts-webserver.git
cd japanese-tts-webserver2. 依存関係をインストール
bash
uv sync3. サーバを起動
bash
uv run python main.pyブラウザで http://localhost:8000 にアクセスすれば、すぐにTTSを試せます。
詳細なオプションや設定については、GitHubのREADMEをご覧ください。
どのモデルを選ぶべきか?——用途別ガイド
「結局どれを使えばいいのか」は最もよく聞かれる質問です。以下は、実際に複数のプロジェクトで検証した上での推奨です。
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 社内ボット・チャットの音声出力 | Fish-Speech | 日本語の自然さが最も重要。長文対応も安定 |
| eラーニング・教材ナレーション | Fish-Speech or Parler TTS | 品質重視ならFish-Speech、スタイル変更が必要ならParler |
| リアルタイム音声応答 | Canary TTS | 低レイテンシが最優先の場合 |
| モデル比較・研究開発 | 全モデル(本ツール) | 同一条件で比較→最適モデルを選定 |
| プロダクション(大量生成) | 商用API(Google TTS, Azure等) | SLA・サポートが必要な場合は商用が安全 |
補足: オープンソースTTSは進化が速く、半年で勢力図が変わります。Kokoro、Maya1、Chatterboxなど新しいモデルも続々登場しています。本ツールにも順次対応予定です。
商用TTSサービスとの使い分け
「オープンソースでいいのか、Google Cloud TTSやAzureを使うべきか」もよく聞かれます。
オープンソースTTSが向いているケース:
- コスト最優先(API課金なし、インフラ費のみ)
- データを外部に送信できない(オンプレ・閉域網運用)
- モデルのカスタマイズ(自社データでファインチューニング)が必要
- R&D・PoC段階で複数モデルを評価したい
商用TTSが向いているケース:
- SLA・サポート体制が必要
- 大量生成の安定性・可用性が重要
- 感情表現やSSMLによる細かい制御が必要
- 運用コストよりも開発コスト(人件費)を優先
多くの場合、PoCはオープンソースで検証→プロダクションは要件に応じて商用に移行という流れが合理的です。
今後の展開
現在対応している3モデルに加え、以下の追加を検討しています。
- Kokoro-82M:軽量で日本語品質が高く、Apache 2.0ライセンス
- Maya1:感情表現に強い最新モデル
- 出力音声の比較・可視化機能:波形やスペクトログラムの並列表示
フィードバックや追加モデルのリクエストは、GitHubのIssuesからお寄せください。
まとめ
Furious Greenでは、AI技術を「学ぶ」「試す」「使いこなす」ための環境づくりを支援しています。
今回の日本語TTS Web Serverも、その取り組みの一つです。
実際に動かしてみた感想や改善の提案など、ぜひGitHubのIssuesやPull Requestでお知らせください。まとめ
日本語TTS技術は急速に進化しており、オープンソースの選択肢も増えています。一方で、モデルごとの特性を理解し、自社の用途に最適なモデルを選定するのは簡単ではありません。
本ツールが、日本語TTSの評価・選定の手間を少しでも減らす一助になれば幸いです。
音声AI・TTSの導入でお困りの方へ
Furious Greenでは、音声AIを含むAIシステムの技術選定・PoC開発・社内実装の支援を行っています。
- 「社内ボットに音声応答を追加したいが、どのTTSを使うべきか分からない」
- 「オープンソースTTSで十分なのか、商用サービスが必要なのか判断したい」
- 「音声AIの技術トレンドをチームに共有する研修を実施したい」
このようなご相談に対応しています。