2026.04.23 AI

Gemma 4とは｜モデル一覧・必要スペック(VRAM)・量子化(GGUF/AWQ)・ローカル実行を解説【2026年版】

Gemma 4は、GoogleがApache 2.0ライセンスで公開したオープンモデル群で、フラッグシップのGemini 3の研究を継承して構築されています。2026年4月初頭に登場し、ファミリー全体で累計1.5億回以上ダウンロードされています（Google公式ブログ）。この記事は「Gemma 4とは何か」から、検索で混同されやすい「Gemini」との違い、E2B〜31Bまでのモデル一覧と必要スペック（VRAM）、GGUF/AWQといった量子化フォーマット、Ollama・LM Studio・Transformersでのローカル実行、Gemma 3からの変化点までを、Google公式ドキュメント（ai.google.dev、2026年6月8日更新）とOllama公式モデルカードの一次情報に基づいて整理します。仕様が動きやすい領域のため、本番導入前は必ず公式の最新値を確認してください。

まとめ：Gemma 4の要点と、自分の環境で動かす最短ルート

結論から示します。Gemma 4は5サイズ（E2B / E4B / 12B / 26B A4B MoE / 31B Dense）で構成され、ライセンスはApache 2.0、コンテキストは小型が128K・中型が256Kトークンです。最高品質を狙うなら31B Dense、品質と速度を両立したいなら26B MoE（総25.2B・活性3.8B）、ノートPCやモバイルならE4B/E2Bを選びます。

とりあえず試す：Ollamaで ollama run gemma4。既定はE4B（約9.6GB）で、16GB RAMのPCでも動きます。
VRAMで選ぶ：4bit量子化なら31B=約17.5GB、26B=約14.4GB、E2B=約2.9GB（Google公式メモリ表・重みのみ）。256Kフル活用時はKVキャッシュが別途必要です。
配布フォーマット：ローカルGUI/CPUはGGUF、クラウドの高並列はAWQ等の4bit。公式はQAT版GGUF（-qat-q4_0-gguf）を提供します。

以降では、Gemini（Gemini 3）との違い、モデル一覧、VRAM早見表、量子化、実行ツール、Gemma 3との比較、用途別の選定基準を順に解説します。

Gemma 4とは何か：Gemini（Gemini 3系）・Gemma 3との位置づけ

Gemma 4は、Googleのフラッグシップである最新のGemini 3の研究基盤を引き継いだ「オープンウェイト」モデル群です（2026年4月公開）。重みが公開されているため、自分のサーバーやPCにダウンロードして動かし、商用利用やファインチューニングも行えます。クローズドなAPI専用モデルであるGemini本体とは、この一点で性格が大きく異なります。

「gemini 4」は誤記・混同：正しくはGemma 4とGemma 3の整理

まず前提を正します。2026年6月時点でGoogleの最新フラッグシップはGemini 3系であり、「Gemini 4」という製品はリリースされていません。検索クエリの「gemini 4」は、オープンモデルであるGemma 4の誤記・混同とみてよく、両者を比べたい場合の正しい対象はGemini（Gemini 3）とGemma 4です。Geminiはクラウド経由で使う非公開モデル、Gemmaは重みを配布するオープンモデルで、Gemma 4はそのGemini 3の研究成果を継承しています。この区別さえ押さえれば取り違えません。Gemma 4はテキストに加え画像を全モデルで、音声をE2B/E4B/12Bでネイティブに扱うマルチモーダル対応で、140言語以上をサポートします。Gemma 3との最大の違いはライセンスがApache 2.0へ変わった点と、全モデルが設定可能なThinking（思考）モードを備えた点です。詳細は後半の比較章で扱います。

Gemma 4のモデル一覧（E2B・E4B・12B・26B MoE・31B）

Gemma 4は用途別に5サイズあります。「E」はeffective（実効）パラメータの意味で、Per-Layer Embeddings（PLE）により小型でも効率を高めた設計です。サイズ選びを誤ると、過小なら品質不足、過大ならVRAM不足で起動すらできません。まずは構成を把握してください。

モデル	種別	総パラメータ	コンテキスト	音声入力	主な用途
E2B	edge	5.1B（実効2.3B）	128K	対応	モバイル・ブラウザ
E4B	edge	8B（実効4.5B）	128K	対応	ノートPC・T4 GPU
12B	unified	12B	256K	対応	マルチモーダル
26B A4B	MoE	25.2B（活性3.8B）	256K	非対応	高スループット推論
31B	Dense	30.7B	256K	非対応	最高品質・微調整基盤

31B Denseは60層・語彙262Kの最上位で、ファインチューニングの土台に向きます。26B A4Bは128エキスパート中8個＋共有1個を使うMoEで、総25.2Bを読み込みつつ生成時は約3.8Bしか動かさないため、31B並みの品質を高い速度で得られます。E2B/E4Bはモバイル・エッジ専用、12Bはマルチモーダル統合型です。

Gemma 4の必要スペック（VRAM早見表）

「gemma4 vram」「gemma 4 26b vram」「gemma4 16gb」は実需の高いクエリです。Google公式のメモリ表（重みの読み込みのみ・約20%のオーバーヘッド込み、2026年6月時点）を基準に整理します。実際にはこれにKVキャッシュ（文脈長ぶんのメモリ）が上乗せされる点に注意してください。

モデル	BF16(16bit)	8bit	4bit(Q4_0)	モバイル
E2B	11.4GB	5.7GB	2.9GB	1.1GB
E4B	17.9GB	8.9GB	4.5GB	2.5GB
12B	26.7GB	13.4GB	6.7GB	–
26B A4B	57.7GB	28.8GB	14.4GB	–
31B	69.9GB	34.9GB	17.5GB	–

読み取り方は単純です。31BをBF16でそのまま動かすにはH100 80GBクラスが要りますが、4bit量子化なら約17.5GBに収まり、RTX 3090/4090（24GB）の手元GPUでも現実的に動きます。「16GBで31Bを動かせるか」という問いには、重みは載っても文脈を広げるとすぐ足りなくなる、というのが正確な答えです。16GBクラスのGPUなら26Bの4bit（約14.4GB）が安全圏です。E2Bは4bitで2.9GB、モバイル版は1.1GBまで下がり、4GB RAMのAndroidでも動作します。

注意点を一つ。26B A4Bは活性3.8BのMoEですが、ルーティング高速化のため総25.2B分の重みをすべてメモリに載せる必要があります。「活性4B＝4Bモデル並みの軽さ」ではない点が、サイズ選定でつまずきやすい落とし穴です。

Gemma 4の量子化と配布フォーマット（GGUF・AWQ・QAT）

「gemma4 gguf」「gemma4 awq」「gemma4 4bit」も検索の中心です。量子化は重みの精度を落としてメモリと速度を稼ぐ手法で、どのフォーマットを選ぶかは実行環境で決まります。

GGUF・AWQ・QATの使い分け

GGUF：llama.cpp / LM Studio / Ollama 系で使う標準形式。CPU・Apple Silicon・コンシューマGPUでのローカル実行で最も実績が多く、Q4_K_Mが品質と容量のバランス点です。
AWQ（4bit）：vLLMなどクラウドの高並列推論向け。同じビット幅ではGPTQより精度が出やすく、31B AWQ-4bitは実測で約20GB前後の配布サイズです。
QAT（量子化対応学習）：Googleが公式提供する、学習段階で量子化を織り込んだ版。後段で圧縮するPTQと違い品質劣化が小さく、-qat-q4_0-gguf（ローカル）や -qat-w4a16-ct（vLLM/SGLang）として配布されています。

判断基準はシンプルです。手元のPCやMacで動かすならQAT版GGUF、サーバーで多数の同時リクエストを捌くならAWQまたはcompressed-tensors（w4a16）。「とにかく省メモリで動けばよい」段階ではGGUFのQ4から始め、品質が足りなければ8bitやBF16へ上げる順序が無駄になりません。なお「guff」はGGUFの誤記なので、ダウンロード時はファイル名のスペルを確認してください。

Gemma 4のローカル実行ツール（Ollama・LM Studio・Transformers）

Gemma 4は公開初日からOllama、LM Studio、Hugging Face Transformers、vLLM、llama.cpp、MLX、Transformers.js、SGLang、LiteRT-LMなどに対応しました。代表的な3経路を挙げます。

Ollama：コマンド一発で動かす最短経路

最も手軽なのがOllamaです。タグは gemma4:31b（約20GB）、gemma4:26b（約18GB）、gemma4:12b（約7.6GB）、gemma4:e4b（約9.6GB）、gemma4:e2b（約7.2GB）。クラウド実行用に gemma4:31b-cloud もあります。サイズを省くとE4Bが既定で入ります。

ollama run gemma4:31b

Ollamaはチャットテンプレートやサンプリングを内部処理するため、Thinkingモードの制御トークンを手書きする必要はありません。Claude CodeやCodex、OpenCodeといったエージェント系ツールへ ollama launch（Ollama v0.15以降）で接続することもできます。

LM Studio：GUIで量子化を選んで試す

GUIで使うならLM Studioが向きます。全サイズのGGUFをアプリ内のセレクタから選べ、量子化レベルを切り替えながら生成速度を比べられます。LM Studio側のGemma 4対応はバージョンで改善が続いており、当社では関連の更新内容を別記事で整理しています（後述の関連記事を参照）。

Transformers・MLX・Colab・API

Pythonで推論・微調整するならHugging Face Transformersのany-to-anyパイプラインが使えます。Apple SiliconのMacBookではMLX版（gemma4:e4b-mlx 等やmlx-communityの4bit版）が高速です。学習・検証はGoogle Colab、ブラウザ内実行はTransformers.js、Flutter製モバイルアプリにはflutter_gemmaが選択肢になります。クラウドAPIとしてはGemini API経由でGemma 4を呼び出せます。AMD GPUはROCm、NVIDIAはCUDA、GoogleはTPUに対応します。

Gemma 3 vs Gemma 4：性能とベンチマークの差

「gemma3 vs gemma4」「gemma3 thinking」の比較需要に答えます。Gemma 4はGemma 3から推論性能が大きく伸び、特に数学・コーディングで差が開きました。Ollama公式モデルカードのベンチマーク（指示チューニング版）を抜粋します。

ベンチ	31B	26B A4B	E4B	E2B	Gemma 3 27B
AIME 2026	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%

数学のAIME 2026では31BがGemma 3 27Bの約4.3倍、コーディングのLiveCodeBenchでも約2.7倍に達します。LMArenaのテキストランキングでは31Bがオープンモデル3位、26Bが6位に位置します（具体スコアは更新が速いため公式の最新値を確認してください）。質を分けるのはThinkingモードです。Gemma 4は全モデルがシステムプロンプト先頭の制御トークンで思考の有無を切り替えられ、Gemma 3より構造化された対話を扱えます。

用途別Gemma 4の選び方：採用すべき構成と避けるべき構成

ここからは一次情報を踏まえた当社の判断です。SERP上位の解説はスペックの羅列に留まりがちで、「結局どれを選べばよいか」の言い切りが手薄です。VRAMと品質要件から、現実的な最小構成を提示します。

環境・目的	推奨モデル	フォーマット	目安メモリ
スマホ・組込み	E2B	モバイル/Q4_0	1〜3GB
ノートPC・T4	E4B	QAT GGUF Q4	約4.5GB
16GB GPU	26B A4B	GGUF Q4_K_M	約14.4GB
24GB GPU	31B	QAT GGUF Q4	約17.5GB
サーバー高並列	31B	AWQ / w4a16	80GB級GPU

なお、24GB GPUで31Bの4bit（重み約17.5GB）を使う構成は短〜中文脈向けです。17.5GBはあくまで重みのみの値で、256Kに近い長文脈ではKVキャッシュが上乗せされるため、長文を扱うなら24GBでも余裕を見て文脈長を絞るか、26Bへ落とす判断が無難です。明確に言い切ります。16GBのGPUに31Bを載せるのは避けるべきです。重みだけで17.5GBを要し、文脈を広げればすぐ破綻します。この帯域では26Bの4bitが正解です。逆に、社内チャットボット程度の用途で31Bをフル精度で構える必要もありません。多くの実務はE4BかQAT版31B Q4で足り、過剰投資を避けられます。失敗パターンの典型は「活性3.8Bだから26Bは軽い」と誤解してVRAMを過小見積もりするケースで、前述のとおり総25.2B分が必要です。なお、コミュニティ派生として無修正（uncensored）モデルが存在しますが、安全層を外す利用は商用・コンプライアンス上のリスクを伴うため本記事では推奨しません。

よくある質問（FAQ）

Gemma 4とは何ですか？

GoogleがApache 2.0ライセンスで公開したオープンウェイトのAIモデル群です。Geminiの研究基盤を継承し、テキスト・画像（および一部モデルで音声）を扱うマルチモーダル対応で、140言語以上をサポートします。E2B/E4B/12B/26B MoE/31Bの5サイズがあり、重みをダウンロードして自分のPCやサーバーで動かせます。クラウド専用のGemini本体とは異なり、商用利用やファインチューニングが可能です。

Gemma 4の必要VRAMはどのくらいですか？

Google公式のメモリ表（重みのみ）では、4bit量子化で31B=約17.5GB、26B A4B=約14.4GB、E2B=約2.9GBです。BF16では31Bが約69.9GBでH100 80GB級が必要になります。これに文脈長ぶんのKVキャッシュが上乗せされるため、24GB GPUでは31Bの4bit、16GB GPUでは26Bの4bitが安全圏です。256Kフル活用時はさらに余裕が必要です。

Gemma 4のGGUFとAWQはどう違いますか？

GGUFはllama.cpp・LM Studio・Ollamaで使うローカル実行向けの標準形式で、CPUやApple Silicon、コンシューマGPUに適します。AWQはvLLMなどクラウドの高並列推論向けの4bit量子化で、同ビット幅ではGPTQより精度が出やすい傾向です。手元で動かすならGGUF（特に公式QAT版）、サーバーで同時多数を捌くならAWQまたはcompressed-tensorsを選びます。

Gemma 3とGemma 4の違いは何ですか？

主な違いは3点です。第一にライセンスがGemma独自規約からApache 2.0へ変わり、法務上の障壁が下がりました。第二に全モデルがThinking（思考）モードを備え、推論性能が大幅に向上しました。例えばAIME 2026では31BがGemma 3 27Bの約4.3倍です。第三にネイティブのシステムプロンプト対応が加わり、エージェント構築がしやすくなりました。

Gemma 4はどのツールで動かせますか？

公開初日からOllama、LM Studio、Hugging Face Transformers、vLLM、llama.cpp、MLX、Transformers.js、SGLang、LiteRT-LMなどに対応しています。最も手軽なのはOllamaで ollama run gemma4 の一行で始められます。Apple SiliconはMLX、ブラウザはTransformers.js、サーバー運用はvLLMやVertex AIが向きます。

資料請求