日本語TTS Web Serverを公開しました

Furious Greenでは、AI技術の教育や実践的なトレーニングを通じて、エンジニアが最新の技術を安心して試せる環境づくりを目指しています。
その一環として、このたび 日本語TTS(Text-to-Speech)モデルの比較と検証を簡単に行えるWebサーバ をオープンソースとして公開しました。
リポジトリはこちら:
https://github.com/Furious-Green/japanese-tts-webserver
背景
近年、音声合成(TTS)技術は急速に進化しており、日本語に対応したモデルも増えています。
しかし、モデルごとの動作確認や音質の比較を行うためには、それぞれの環境構築やAPI呼び出しの設定が必要で、初学者にとっては少しハードルが高いのが現状です。
Furious Greenの社内では、さまざまな日本語TTSモデルを検証する際に、手軽に試せる共通のUIが欲しいというニーズがありました。
そこで、社内ツールとして開発していたFastAPIベースのWebサーバを整理し、一般公開することにしました。
特徴
この「Japanese TTS Web Server」は、以下のような特徴を持っています。
- 複数モデル対応:Parler TTS、Canary TTS、Fish-Speechをサポート
- Webインターフェース:ブラウザ上でテキスト入力・音声再生が可能
- モデル切り替え機能:ワンクリックでモデルを変更し、音質を比較
- 日本語テキストの前処理:より自然な発音を実現するための自動整形処理
- リアルタイム生成:生成した音声をすぐに再生可能
研究開発やプロトタイピング、モデル比較のためのシンプルな環境として利用できます。
利用方法(概要)
- ブラウザで http://localhost:8000 にアクセスし、TTSを試すことができます。
モデルを設定し、サーバを起動します。
uv run python main.py
依存関係をインストールします。
uv sync
リポジトリをクローンします。
git clone https://github.com/Furious-Green/japanese-tts-webserver.git
cd japanese-tts-webserver
詳細なインストール手順やオプションについては、GitHubのREADMEをご覧ください。
今後の展開
今回の公開は「まずは試せる環境を広げる」ことを目的としています。
今後は、より多くのモデルへの対応や、出力音声の比較・可視化機能なども検討しています。
また、社内外問わず、教育現場での音声合成教材開発や、生成AIを活用した日本語音声プロジェクトの基盤としても活用していければと考えています。
まとめ
Furious Greenでは、AI技術を「学ぶ」「試す」「使いこなす」ための環境づくりを支援しています。
今回の日本語TTS Web Serverも、その取り組みの一つです。
実際に動かしてみた感想や改善の提案など、ぜひGitHubのIssuesやPull Requestでお知らせください。