Googleの最新オープンソースモデル「Gemma 3」技術紹介

本日は、Googleが新たにリリースした最新のオープンモデル「Gemma 3」についてご紹介いたします。Gemmaは、多様な生成AIタスクに対応する強力なモデルファミリーであり、質問応答、要約、推論など、幅広い用途で活用可能です。今回のGemma 3は前バージョンから大幅に進化し、より高性能かつ使いやすくなっております。

Gemma 3の主な特長

マルチモーダル入力対応

Gemma 3の最大の特長の一つは、画像とテキストの両方を入力として扱えるようになったことです。これにより、画像の解釈、オブジェクトの識別、画像内のテキスト抽出など、より複雑な分析や生成タスクが可能となりました。

128Kトークンのコンテキストウィンドウ

従来のGemmaモデルと比較して16倍となる128,000トークンの長大なコンテキストウィンドウをサポートしています。これにより、複数の記事、長文のドキュメント、あるいは多数の画像を一度に処理し、より複雑な問題解決に貢献します。

広範な言語サポート

140以上の言語をサポートしており、グローバルな展開を視野に入れたAIアプリケーションの開発を強力に後押しします。これにより、様々なお客様の言語に対応したテキストおよびビジュアルタスクの実行が可能になります。

開発者フレンドリーなモデルサイズ

用途や計算リソースに応じて、1B、4B、12B、27Bの4つのパラメータサイズと、32bitから4bitまでの5つの精度レベルを選択いただけます。これにより、タスクの要件と利用可能なハードウェアに最適なモデルを選択できます。ただし、1Bサイズのモデルはテキストのみをサポートし、画像入力には対応しておりませんのでご注意ください。

優れたパフォーマンス

Gemma 3はそのサイズクラスにおいて最先端のパフォーマンスを発揮し、単一のGPUまたはTPUでの実行に最適化されています。LMArenaのリーダーボードにおける人間による評価では、Llama3-405B、DeepSeek-V3、o3-miniといった他のモデルを上回る結果も示されています。

関数呼び出し (Function Calling) と構造化出力

関数呼び出しをサポートしており、タスクの自動化やエージェントのような体験の構築に役立ちます。また、構造化された出力を生成することも可能です。

量子化モデルによる高速化

公式に量子化されたバージョンが提供されており、モデルサイズと計算要件を削減しながら、高い精度を維持します。

多様な開発ツールとの統合

Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM、Gemma.cppなど、多くの既存の開発ツールやフレームワークとのシームレスな統合が可能です。

柔軟なデプロイオプション

Vertex AI、Cloud Run、Google GenAI API、ローカル環境など、様々なプラットフォームへのデプロイに対応しており、アプリケーションとインフラストラクチャに最適な方法を選択できます。また、NVIDIA GPU、Google Cloud TPU、AMD GPU、CPUなど、多くのハードウェアプラットフォームで最適化されたパフォーマンスを発揮します。

ShieldGemma 2による安全性強化

Gemma 3と並行して、ShieldGemma 2という4Bパラメータの画像安全性チェッカーもリリースされました。ShieldGemma 2はGemma 3を基盤として構築されており、危険なコンテンツ、性的に露骨なコンテンツ、暴力の3つのカテゴリで安全性ラベルを出力します。

これにより、画像生成モデルからの合成画像だけでなく、Gemma 3のようなVision-Language Modelへの入力フィルタとしても活用できるため、より安全なAIアプリケーションの開発を支援します。

拡大するGemmaverse

Gemmaの登場以来、コミュニティによって60,000以上もの派生モデルが作成されるなど、そのエコシステム「Gemmaverse」は急速に拡大しています。

例えば、AI SingaporeのSEA-LION v3は東南アジアの言語間のコミュニケーションを促進し、INSAITのBgGPTはブルガリア語に特化した大規模言語モデルであり、Nexa AIのOmniAudioはオンデバイスAIの可能性を示しています。

Googleは、学術研究をさらに推進するために、Gemma 3 Academic Programを開始し、Google Cloudクレジットを提供しております。

Gemma 3を始めるには

Gemma 3を体験し、開発に活用するための方法はいくつかございます：

Google AI Studio： ブラウザ上で直接Gemma 3を試すことができます。APIキーを取得してGoogle GenAI SDKで使用することも可能です。
Hugging FaceとKaggle： モデルのウェイトをダウンロードして、ローカル環境で利用できます。
各種フレームワークとの連携： Hugging Face Transformersなどのライブラリを利用して、簡単にファインチューニングや推論を行うことができます。
Ollama： Cloud Run上でGemma 3の推論を実行できます。
Vertex AI： カスタマイズしたGemma 3モデルを大規模にデプロイできます。
NVIDIA API Catalog： NVIDIA NIMsを利用して迅速なプロトタイピングが可能です。

まとめ

Gemma 3は、マルチモーダル入力、長大なコンテキストウィンドウ、広範な言語サポートといった強力な機能を備え、開発者の皆様にとって非常に魅力的な選択肢となるでしょう。安全性に配慮したShieldGemma 2の提供や、活発なGemmaverseの存在も、Gemma 3の可能性をさらに広げています。

ぜひこの機会にGemma 3を試していただき、新たなAIアプリケーションの開発にお役立てください。弊社でもGemma 3を活用したソリューション開発を進めており、お客様のビジネス課題解決に向けた取り組みを強化してまいります。