Gemini 3.1 Flash Live発表——リアルタイム音声AIエージェント開発の新たな選択肢
2026年3月26日、GoogleはGemini 3.1 Flash Liveを発表しました。Live APIを通じてプレビュー提供が開始されたこのモデルは、低レイテンシのリアルタイム音声・ビジョンエージェントの構築に特化しています。
音声AIエージェントの開発は、2025年後半から急速に選択肢が広がっています。OpenAIのRealtime API、各社のTTSモデル、オープンソースの音声パイプライン——そして今回のGemini Live API。本記事では、Gemini 3.1 Flash Liveの技術的特徴を整理した上で、既存の音声AI開発手法との違いを比較し、エンジニアや技術リードが「自社の音声AIプロジェクトでどう使えるか」を判断するための材料を提供します。
Gemini 3.1 Flash Liveの概要
Gemini 3.1 Flash Liveは、音声入出力(audio-to-audio)に最適化されたリアルタイム対話モデルです。従来のGemini 2.5 Flash Native Audioをベースに、レイテンシ、信頼性、対話品質が大幅に改善されています。
モデルの基本情報:
| 項目 | 詳細 |
|---|---|
| モデルID | gemini-3.1-flash-live-preview |
| 入力 | テキスト、画像、音声、映像 |
| 出力 | テキスト、音声 |
| コンテキストウィンドウ | 約128Kトークン(Live APIセッション内) |
| 対応言語 | 90言語以上 |
| 提供形態 | Gemini API(Live API)、Google AI Studio |
| 料金 | 音声入力 $0.35/時間、音声出力 $1.40/時間 |
注目すべきは、このモデルが「テキスト→音声」の変換ではなく、音声から直接音声を生成するネイティブ音声モデルである点です。従来のASR(音声認識)→LLM→TTS(音声合成)のパイプラインとは根本的にアーキテクチャが異なります。
技術的な改善ポイント
Googleの発表に基づくと、前世代(Gemini 2.5 Flash Native Audio)からの主な改善点は以下の4つです。
1. ノイズ環境でのタスク完了率向上
交通音やテレビの音声など、実環境のバックグラウンドノイズがある状況でも、ユーザーの発話を正確に認識し、外部ツール呼び出しを含む処理を安定して実行できるようになりました。音声エージェントにおいて、ノイズ耐性は実用化の最大のハードルの一つです。
2. システム指示への忠実性向上
複雑なシステムプロンプトに対する遵守性が向上し、会話が予期しない方向に進んでも、設定したガードレールの範囲内で動作し続けます。企業向けの音声エージェントでは、コンプライアンスや応答範囲の制御が必須であり、この改善は実務上大きな意味を持ちます。
3. より自然で低レイテンシな対話
ピッチ、ペース、アクセントなどの音声的ニュアンスの認識精度が向上し、対話がより自然に感じられるようになっています。Artificial Analysisのベンチマークでは、最高品質設定(Thinking Level: High)でBig Bench Audio 95.9%を達成しています。
4. 90言語以上の多言語対応
リアルタイムのマルチモーダル会話で90言語以上に対応。日本語を含む多言語環境での音声エージェント構築が可能です。
OpenAI Realtime APIとの比較
現時点で、リアルタイム音声エージェントをAPIベースで構築する場合、主な選択肢はGemini Live APIとOpenAI Realtime APIの2つです。両者の主要な違いを整理します。
| 比較項目 | Gemini 3.1 Flash Live | OpenAI Realtime API |
|---|---|---|
| アーキテクチャ | ネイティブ音声モデル(audio-to-audio) | ネイティブ音声モデル(GPT-4o系) |
| マルチモーダル入力 | テキスト+画像+音声+映像 | テキスト+音声 |
| ビジョン(映像)入力 | ○(カメラ映像のリアルタイム処理可) | ✕ |
| 多言語対応 | 90言語以上 | 対応言語は限定的 |
| ツール呼び出し | Function Calling対応 | Function Calling対応 |
| 料金(音声入力) | $0.35/時間 | $0.06/分($3.60/時間) |
| 料金(音声出力) | $1.40/時間 | $0.24/分($14.40/時間) |
| セッション管理 | セッションレジューム対応 | セッションごと |
| パートナー連携 | LiveKit, Pipecat, Voximplant等 | LiveKit, Twilio, Agora等 |
コスト面の差は大きい。 音声入力でGeminiはOpenAIの約10分の1、音声出力で約10分の1の料金設定です。1時間の音声対話セッションで試算すると、Geminiは約$1.75に対し、OpenAIは約$18になります。長時間の対話やコールセンター用途では、このコスト差が事業性に直結します。
一方で、マルチモーダル性ではGeminiに優位性があります。 映像入力に対応しているため、カメラで映した画面を「見ながら」音声で応答するエージェント——たとえばデザインツールの操作支援や、物理環境のリアルタイムガイド——が構築可能です。OpenAI Realtime APIは現時点で音声+テキストのみの対応です。
品質面では用途次第。 英語の対話品質ではOpenAIも高い評価を得ていますが、多言語対応の幅広さではGeminiが上回ります。日本語の音声エージェントを構築する場合、両者を実際にテストして品質を比較することを推奨します。
従来のTTSパイプラインとの違い
Gemini Live APIのような「ネイティブ音声モデル」と、従来型の「ASR → LLM → TTS」パイプラインは、根本的に設計思想が異なります。
従来型パイプライン(ASR → LLM → TTS):
- 音声認識(ASR)でテキスト化 → LLMで応答生成 → 音声合成(TTS)で読み上げ
- 各コンポーネントを個別に選択・最適化できる柔軟性がある
- レイテンシは各段階の合計(通常1〜3秒程度)
- オープンソースTTSモデル(Fish-Speech、Parler TTS等)を使えばランニングコストを抑えられる
- 日本語に特化したTTSモデルの音質を細かく制御可能
💡 関連記事: 日本語TTSモデルの比較・選定については「日本語TTSモデル比較ツールをOSSで公開——Parler TTS・Canary TTS・Fish-Speechをブラウザで試せるWeb Server」で詳しく解説しています。
ネイティブ音声モデル(Gemini Live API / OpenAI Realtime API):
- 音声から直接音声を生成。中間のテキスト変換が不要
- エンドツーエンドのレイテンシが短い(数百ミリ秒レベル)
- 声のトーンや感情を入力音声から直接理解して応答に反映
- ただし「声」の選択肢はAPI側が提供するものに限定
- ランニングコストはAPI課金
どちらを選ぶべきか:
| ユースケース | 推奨アプローチ |
|---|---|
| リアルタイム対話エージェント(顧客対応、コンパニオン等) | ネイティブ音声モデル(Gemini Live API等) |
| ナレーション・教材音声の一括生成 | 従来型TTS(Fish-Speech、商用TTS等) |
| オンプレ・閉域網での音声AI | 従来型パイプライン(OSS構成) |
| 声質・話し方の細かいカスタマイズ | 従来型TTS(Parler TTS等) |
| カメラ映像+音声のマルチモーダルエージェント | Gemini Live API |
| コスト最優先の大量処理 | OSS TTS+自社インフラ |
実際のユースケース
Googleの発表では、すでにいくつかの開発事例が紹介されています。
**Stitch(Googleのデザインツール)**では、Live APIを活用してUIデザインの「ボイスデザイン」機能を実装。エージェントがキャンバスや選択中の画面を「見て」、デザインの批評やバリエーション提案を音声で行います。
Atoは高齢者向けAIコンパニオンデバイスで、Gemini 3.1 Flash Liveの多言語機能を活用し、日常会話を通じたつながりの創出を目指しています。
**Weekend社のRPG「Wit's End」**では、ゲームマスターの音声に独特の演劇的な表現を持たせるために、モデルのキャラクター表現力と自然な話し方を活用しています。
日本企業での活用を想定すると:
- 多言語対応のカスタマーサポートエージェント(インバウンド対応含む)
- 現場作業者向けのハンズフリー音声アシスタント(映像入力で状況把握)
- 社内ヘルプデスクの音声対応(FAQ+ツール呼び出し)
- 教育・研修プログラムの対話型コンテンツ
開発を始めるには
Gemini 3.1 Flash Liveは、以下の方法ですぐに試すことができます。
1. Google AI Studioで体験
AI Studioのライブモードで、ブラウザから直接音声対話を試せます。コードを書く前のクイックな評価に最適です。
2. Google GenAI SDKで実装
Python SDKを使った最小構成のコード例:
from google import genai
client = genai.Client()
# Live APIセッションの開始
async with client.aio.live.connect(
model="gemini-3.1-flash-live-preview"
) as session:
# マイク入力のストリーミング
await session.send_realtime_input(audio=audio_chunk)
# 応答の受信
async for response in session.receive():
if response.data:
play_audio(response.data)
3. パートナー連携(WebRTC等)
本番環境でのスケーリングには、WebRTCルーティングや接続管理を提供するパートナー統合が推奨されています。LiveKit、Pipecat、Voximplantなどとの連携が公式にサポートされています。
参考リンク:
まとめ
Gemini 3.1 Flash Liveの登場により、リアルタイム音声AIエージェントの開発において、コスト効率と機能の両面で有力な選択肢が加わりました。
特に、映像+音声のマルチモーダル入力への対応とOpenAI比で約10分の1の料金設定は、音声エージェントの事業性を検討するうえで大きなインパクトがあります。一方で、プレビュー段階であること、日本語の音声品質は実際に検証が必要であることには留意が必要です。
音声AI技術の選択肢は、2026年に入ってから急速に広がっています。ネイティブ音声モデル(Gemini Live API、OpenAI Realtime API)とオープンソースTTSパイプラインは競合するものではなく、用途に応じて使い分ける——あるいは組み合わせるアプローチが現実的です。
音声AI・リアルタイムエージェントの構築でお困りの方へ
Furious Greenでは、音声AIを含むAIシステムの技術選定・PoC開発・社内実装の支援を行っています。
「音声エージェントを検討しているが、Gemini Live APIとOpenAI Realtime APIのどちらが適切か判断できない」「オープンソースTTSとクラウドAPIの使い分けを整理したい」「音声AIの技術トレンドと実装ノウハウをチームに共有する研修を実施したい」——このようなご相談に対応しています。