Google、16GBノートPCで動作するマルチモーダルAI「Gemma 4 12B」公開―エンコーダーフリー設計で省メモリ化、Apache 2.0で無償提供

2026年6月5日 10:03

印刷

記事提供元:Tech Times

米Googleは6月3日、テキストに加えて画像・音声・動画を直接処理できる120億パラメータのオープンウェイトモデル「Gemma 4 12B」を公開した。Photo by Growtika on Unsplash

米Googleは6月3日、テキストに加えて画像・音声・動画を直接処理できる120億パラメータのオープンウェイトモデル「Gemma 4 12B」を公開した。Photo by Growtika on Unsplash[写真拡大]

米Googleは6月3日(現地時間)、テキストに加えて画像・音声・動画を直接処理できる120億パラメータのオープンウェイトモデル「Gemma 4 12B」を公開した。本モデルはApache 2.0ライセンスを採用し、商用利用を含めて無償で提供される。

最大の特徴は、従来のマルチモーダルAIで標準的だった画像・音声用の独立したエンコーダーを排除し、処理を大幅に効率化した「エンコーダーフリー(Encoder-free)アーキテクチャ」の採用にある。これにより、16GBのRAMを搭載した一般的なノートPCやワークステーションで、クラウドAPIを介さないローカル環境での高度なマルチモーダル処理が可能になる。

■エンコーダーの排除:画像・音声をデコーダーへ直接投影

従来のマルチモーダルAI(テキスト、画像、音声など異なる種類の情報を同時に処理できるAI)システムの多くは、言語モデルのバックボーンに独立したサブシステム(エンコーダー)を組み合わせる設計を採用している。例えば、中規模モデルにおけるビジョンエンコーダー(画像認識エンジン。通常1.5億〜5.5億パラメータ)は画像のパッチ処理を担当し、さらに音声エンコーダー(約3億パラメータ、12層のコンフォーマー構成)が音声信号を処理した上で言語モデルにトークンを引き渡す。これらのエンコーダーが個別にフォワードパス(順伝播処理)を実行するため、VRAMを圧迫し、テキスト以外の入力が入るたびに遅延(レイテンシ)が増大するという課題があった。

「Gemma 4 12B」はこの両方のエンコーダーを排除した。その代わりにGoogleは、すべてのモダリティ(データ種別)をデコーダー専用トランスフォーマーに直接ルーティングする2つの軽量な投影層(プロジェクションレイヤー)を設計した。

画像処理(ビジョン)においては、従来の中規模Gemmaモデルで使用されていた27層のビジョントランスフォーマー(ViT)に代わり、3500万パラメータの埋め込み層が機能する。48×48ピクセルでサンプリングされた生の画像パッチは、単一の行列計算によって言語モデルの隠れ次元に投影される。その際、空間位置情報は投影時に座標ルックアップによって付与される。独立したフォワードパスも、固定されたエンコーダーの重みも存在しない。

音声処理ではさらに徹底したアプローチが取られており、音声用のエンコーダーそのものが完全に排除されている。生の16kHz音声は40ミリ秒のフレーム(各フレームは640個の浮動小数点ベクトル)に分割され、テキストトークンと同じ埋め込み空間へ線形に直接投影される。これにより、話し言葉での質問も、タイピングされた質問も、全く同じ入力経路と表現レベルでトランスフォーマーに入力される。

この統一設計(Unified Design)は、ローカル環境でモデルを動かすユーザーに具体的なメリットをもたらす。画像処理のオーバーヘッドは、27層のビジョントランスフォーマーから単一の行列計算へと縮小され、音声処理パイプラインも、従来の12層のコンフォーマー(Conformer)層から単一の線形投影へと削減された。その結果、モデル全体がフル16ビット精度でも16GBのVRAMに収まるようになった。さらに、Unslothがリリース初日に公開した4ビット量子化(モデルのパラメータ精度を下げてメモリ消費量を抑える技術)版を使用すれば、約8GBのメモリで推論が実行可能となり、一般的なゲーミングノートPCやMシリーズのチップを搭載したMacBook Proでも十分に動作する。

■ファインチューニングが単一パスで完了する利便性

このアーキテクチャの統合は、応用AI開発者にとってもう一つの大きな恩恵をもたらす。それは、ファインチューニング(微調整)が単一のパスで実行可能になったことだ。

従来のエンコーダー搭載型マルチモーダルモデルでは、下流タスクの学習時にビジョンエンコーダーや音声エンコーダーの重みは固定(フリーズ)されるのが一般的だった。言語モデルの重みのみが更新されるため、視覚的・音声的な表現は、事前学習済みのエンコーダーが獲得した表現に縛られてしまう。真のエンドツーエンドのマルチモーダル適応を実現するには、エンコーダーと記述バックボーンを同時に共同訓練(co-tuning)する必要があるが、これは必要なメモリ量を膨大にし、エンジニアリングの複雑さを跳ね上げていた。

これに対し、Gemma 4 12Bのビジョンおよび音声入力は、テキスト経路と全く同じ重みを共有しているため、LoRA(Low-Rank Adaptation)によるアダプター学習やフルファインチューニングを行うだけで、単一のパスで3つのモダリティすべてを自動的にカバーできる。例えば、医療画像のアシスタントを開発する場合、2つの独立したオプティマイザーループを管理したり、モデルの半分をフリーズさせたりすることなく、画像とテキストのペアデータを用いてファインチューニングを行うことができる。

■ローカル環境で何ができるか:25万6000トークンの広大な文脈

この統一アーキテクチャは、25万6000トークンのコンテキストウィンドウをサポートする。これは、約200ページのテキスト、大規模なコードベース、あるいは複数時間に及ぶ録音音声セッションをワンパスで処理できる容量に相当する。入力モダリティはテキスト、解像度可変の画像、音声、動画をサポートしている。一方、出力はテキストのみとなっており、画像や音声、動画の生成機能は備えておらず、あくまで入力情報の分析や推論に特化している。

標準的なベンチマークテストにおいて、GoogleはGemma 4 12Bがメモリ消費量を約半分に抑えながらも、Mixture-of-Experts(混合専門家)型の上位モデル「Gemma 4 26B」に近い性能を達成したと報告している。大学院レベルの科学的推論ベンチマークである「GPQA Diamond」では、このクラスのパラメータ数としては異例の78.8というスコアを記録した。

ただし、これらの数値はGoogle独自の評価に基づいている点に注意が必要である。米ITメディア「WinBuzzer」が2026年6月4日公開の記事で指摘しているように、リリース時点において、実世界でのレイテンシ、メモリ負荷、マルチタスク実行時のマルチモーダル精度を測定する第三者によるノートPC環境での独立ベンチマークはまだ実施されていない。

医療推論や法的分析、複雑な数学的誘導など、特定の専門領域で極めて高い性能が求められる用途では、依然として大規模な商用クローズドモデルに軍配が上がる。しかし、Gemma 4 12Bの価値は、これまでクラウドAPIを必要としていた「テキストと画像が混在するドキュメントの解析」「リアルタイム音声文字起こしおよび話者識別」「画面のスクリーンショットを読み取ってファイルを操作するローカルなエージェント型コーディングアシスタント」といったワークロードを、完全にローカル環境で実現できる点にある。

■推論レイテンシを低減する「マルチトークン予測」と「LiteRT-LM」

Googleは、推論の高速化に向けた技術も投入している。Gemma 4 12Bには、投機的デコーディング(Speculative Decoding)を実行する軽量な「マルチトークン予測(Multi-Token Prediction: MTP)ドラフターモデル」が付属する。ドラフターモデルが複数の次トークン候補を並列生成し、それをメインモデルが一括検証することで、シーケンシャル(順次)な生成に比べて実質的なスループットが向上する。

これは、何十回、何百回ものツール呼び出しを繰り返すAIエージェントのワークロードにおいて、遅延の蓄積を防ぐ上で特に有効だ。また、Googleがモデルと同時にリリースしたローカルサービング基盤「LiteRT-LM」は、ステートレス・プレフィックス・キャッシュ(Stateless Prefix Caching)を搭載している。これは、同一のコンテキストが再利用される際、トークン化されたプロンプトの接頭辞をメモリに保存して再プレフィル処理をスキップするもので、長大で固定的なシステムプロンプトを使用するコーディングアシスタントや文書解析エージェントにとって重要な最適化となる。

■オープンモデル市場における位置づけと「Apache 2.0」への移行

エンコーダーフリーのアプローチ自体はGoogle独自の試みではない。Metaが2026年初頭にリリースした「Llama 4 Scout」も、ビジョン処理において同様のアーキテクチャ思想を採用している。しかし、Gemma 4 12Bは、ノートPCクラスのデバイスに最適な120億パラメータのサイズでこの設計を実現し、さらにLlama 4 Scoutがサポートしていない音声入力までこの規模で拡張した点が特徴的だ。

Googleの製品ラインナップ内において、12Bはモバイル向けの「E4B」と、専用GPUワークステーションを必要とする「26B Mixture-of-Experts」の隙間を埋める存在となる。これによりGemma 4ファミリーはスマートフォンからサーバーまでをカバーするようになり、ライセンスもすべて一貫してApache 2.0が適用される。

このApache 2.0ライセンスへの移行は、以前のGemma世代からの大きな変更点である。Gemmaの初期世代(Gemma 1、2、3)はGoogle独自の「Gemma Terms of Use(利用規約)」のもとで提供されており、企業の法務チームから商用展開に不適合と判断されることが多かった。2026年4月2日のGemma 4ファミリー立ち上げ時から進められ、今回の12Bにも適用されたApache 2.0への移行により、商用利用の法的障壁は完全に取り除かれた。Googleによると、Gemma 4モデルは4月の立ち上げ以来、ダウンロード数が1億5000万件を突破しており、全世代の累計ダウンロード数は4億件を超えているという。

■ローカル環境での実行方法

Gemma 4 12Bのモデルウェイトは、2026年6月3日よりHugging FaceおよびKaggleで公開されている。リリース初日から「Hugging Face Transformers」「llama.cpp」「MLX」「SGLang」「vLLM」「Unsloth」といった推論・ファインチューニングフレームワークが対応している。また、個人開発者向けのGUIランチャーである「LM Studio」や「Ollama」でも利用可能だ。macOS(Apple Silicon)ユーザー向けには、音声入力インターフェースを備え、ローカル環境でモデルをネイティブ動作させるデスクトップアプリケーション「Google AI Edge Gallery」および「Google AI Edge Eloquent」がGoogleからリリースされている。

クラウド上の本番環境へのデプロイにおいては、Google Cloudの「Gemini Enterprise Agent Platform Model Garden」「Cloud Run」「Google Kubernetes Engine (GKE)」でサポートされている。また、ローカル環境でOpenAI互換のAPIサーバーを立ち上げたい場合は、LiteRT-LMの litert-lm serve コマンドを実行するだけでよく、これにより「Continue」や「Aider」といった既存のOpenAI API対応の開発支援ツールをそのままローカル環境で動作させることが可能となる。

■注目ポイントQ&A

●Google Gemma 4 12Bをローカル環境で実行するには、どの程度のRAM容量が必要ですか?

標準的な16ビット精度で動作させるには、16GBのVRAMまたはユニファイドメモリ(統一メモリ)を搭載したデバイスが必要です。Unslothやllama.cppが提供する4ビット量子化版を使用すれば、約8GBのメモリで動作するため、大半のゲーミングノートPCやMシリーズのApple Siliconを搭載したMacBook Proでも実行可能です。

●Google Gemma 4 12Bは商用利用でも無償で使用できますか?

はい、無償で使用可能です。このモデルはApache 2.0ライセンスでリリースされているため、ロイヤリティの支払いや利用制限なしで、無償での使用、改変、再配布、および商用環境へのデプロイが許可されています。これは、独自の利用規約(Gemma Terms of Use)を適用していた従来のGemma世代からの大きな変更点です。

●エンコーダーフリーのマルチモーダルAIモデルとは何ですか?

従来のマルチモーダルAIは、画像や音声を専用のエンコーダーネットワークで処理してから言語モデルにトークンを渡していました。これに対し、Gemma 4 12Bはそれらのエンコーダーを排除し、生の画像パッチや音声フレームを軽量な線形レイヤーを介して言語モデルの埋め込み空間に直接投影します。これにより、単一のデコーザー専用トランスフォーマーでテキスト、画像、音声、動画の4つの入力モダリティを処理できるようになり、メモリ使用量の削減と推論遅延の低減を同時に実現しています。

●Gemma 4 12Bは、より大規模なGemma 4 26Bモデルと比べてどのような性能差がありますか?

Googleの社内ベンチマークによれば、12Bモデルはメモリ要件を約半分に抑えながらも、Mixture-of-Experts(混合専門家)構成を採用する26Bモデルに近い性能を発揮します。大学院レベルの科学的推論ベンチマークであるGPQA Diamondでは、12Bモデルが78.8というスコアを記録しました。ただし、これらの数値はGoogleの自己評価に基づくものであり、実環境におけるレイテンシや同時負荷時の精度を検証した第三者による独立したノートPCベンチマークは、リリース時点(2026年6月4日現在)ではまだ公開されていません。

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事