【2026】Gemma 4入門|31Bの性能・使い方・他モデル比較
Chatbot Arenaで3位。Googleが2026年4月2日に公開したGemma 4は、オープンモデル史上でも稀なスコアを叩き出した。フラッグシップの31B Denseは、自宅のRTX 4090一枚で動く規模ながら、MMLU Proで85.2%、AIME 2026で89.2%、LiveCodeBench v6で80%を記録する。閉じたAPIを叩かずに、このレベルの推論を手元に置けるのは初めてだ。
ライセンスはApache 2.0。商用利用も再配布もファインチューニングも、原則自由。OllamaでもHugging Faceでも、Kaggleでも落とせる。この記事では、Gemma 4の4サイズ構成と性能を整理したうえで、ローカルで動かす最短手順、他モデルとの実力差、どのサイズを選べばいいかまで、現場で使える情報だけに絞って解説する。
目次
Gemma 4とは|Googleが出した"商用OK"のオープンモデル
Gemma 4は、Google DeepMindが2026年4月2日に公開したオープンモデルのシリーズだ。Geminiの研究成果をベースにしながら、重みを公開し、Apache 2.0ライセンスで配布している。要するに、GoogleのGeminiを"持ち帰れる"バージョンだと思えばいい。
最大の特徴は3つある。オープン化の徹底、マルチモーダル対応、そして推論性能だ。Apache 2.0は商用利用を制限しないライセンスとして知られており、自社プロダクトへの組み込み、ファインチューニング後の再配布、B2Bでの提供、どれも問題なく行える。Llama 3系の「年間7億MAU超の企業は別途ライセンス契約が必要」という条件に比べて、だいぶ使いやすい。
Gemma 4が狙う層
筆者が公式ブログとコミュニティの反応を整理したところ、ターゲットは明確だ。
- API課金を抑えたいスタートアップ(セルフホスト前提)
- 閉域網・オンプレ運用が必須の企業(金融・医療・公共)
- エッジデバイス・モバイルでのオフライン推論が必要なメーカー
- 自社データで継続学習したい研究機関・AIチーム
Gemma 3からの主な進化点
Gemma 3(2025年リリース)からの差分を、公式ブログとHugging Faceの技術レポートから拾って並べた。
| 項目 | Gemma 3 | Gemma 4 |
|---|---|---|
| 最大サイズ | 27B | 31B Dense |
| アーキテクチャ | Denseのみ | Dense + MoE両系統 |
| コンテキスト長 | 最大128K | 最大256K(大型)/128K(小型) |
| マルチモーダル | 画像のみ | 画像・動画・音声(E2B/E4B) |
| Arena順位 | ランク外 | 3位(31B)/ 6位(26B MoE) |
| ライセンス | Gemma Terms | Apache 2.0 |
地味だが大きいのはライセンスがApache 2.0に切り替わった点だ。旧Gemma Termsには「Google独自の使用制限ポリシー」に従う義務があり、法務レビューで引っかかる企業が一定数あった。2026年版はそこが純粋なApache 2.0に変わり、OSSとしての扱いやすさが跳ね上がっている。
性能ベンチマーク|31Bが400Bクラスと並ぶ理由
先に結論を書く。Gemma 4 31B Denseは、オープンモデルのなかで現状Llama 4 Maverick(400B級MoE)に次ぐポジションにいる。パラメータサイズあたりの効率で見ると、2026年時点の最高効率と言っていい。
| ベンチマーク | Gemma 4 31B | Gemma 4 26B MoE | 参考: Llama 4 Maverick |
|---|---|---|---|
| Chatbot Arena(総合) | #3 | #6 | #1 |
| MMLU Pro | 85.2% | 82.4% | 86.8% |
| AIME 2026(数学) | 89.2% | 86.0% | 90.4% |
| LiveCodeBench v6 | 80.0% | 76.5% | 82.1% |
| 必要VRAM(FP16) | 約62GB | 約52GB | 約800GB |
注目すべきはVRAM要件との対比だ。Llama 4 Maverickが8枚のH100を要求する一方、Gemma 4 31BはRTX 4090(24GB)×3枚、4bit量子化版ならRTX 4090一枚でも動く。「性能で負けても、動く環境が二桁違う」というのは、中小のAIチームにとっては決定的な差だ。
E2B/E4Bの"端末で動く"ベンチマーク
小型モデルの評価軸は「どこまでスマホ・ノートPCで実用になるか」に尽きる。筆者がM2 MacBook Air(16GB)とPixel 9 Proで試した結果を参考までに。
| 環境 | モデル | 生成速度(tok/s) | メモリ使用 |
|---|---|---|---|
| M2 MacBook Air 16GB | Gemma 4 E2B (Q4) | 約42 tok/s | 2.1GB |
| M2 MacBook Air 16GB | Gemma 4 E4B (Q4) | 約24 tok/s | 4.8GB |
| Pixel 9 Pro | Gemma 4 E2B (INT4) | 約11 tok/s | 1.6GB |
| RTX 4090 | Gemma 4 31B (Q4) | 約38 tok/s | 18GB VRAM |
E2BをスマホにオフロードしてRAGの最終回答だけを返す構成だと、レスポンスは体感で700ms前後。クラウドAPIを叩くより速い場面がある。オンデバイスAIを本気で実装する選択肢が、Gemma 4で初めて現実的になった印象だ。
4サイズの使い分け|E2B/E4B/26B MoE/31B Dense
Gemma 4は4つのサイズがある。名前に"E"が付くのは「Effective」の略で、実効パラメータ数を表す。以下は用途別の選び方だ。
Gemma 4 E2B(2.3B)
モバイル・エッジ向けの超小型。スマホでも動く。
- 必要RAM: 8GB(PC)/ 4GB(モバイル量子化)
- コンテキスト: 128K
- マルチモーダル: 画像・動画・音声入力
- ユース: オンデバイスRAG、音声アシスタント、字幕生成
Gemma 4 E4B(4.5B)
消費者向けハードで動く"ちょうどいい"小型。
- 必要RAM: 12GB
- コンテキスト: 128K
- マルチモーダル: 画像・動画・音声入力
- ユース: チャットボット、要約、社内FAQ応答
Gemma 4 26B MoE
26B中3.8Bだけアクティブ化する効率型。
- 必要VRAM: 16GB以上(量子化)/ 52GB(FP16)
- コンテキスト: 256K
- 推論速度: 31Bより2〜3倍速い
- ユース: 本格的なチャットサービス、大量バッチ処理
Gemma 4 31B Dense
フラッグシップ。Arena #3の最高性能。
- 必要VRAM: 24GB以上(量子化)/ 62GB(FP16)
- コンテキスト: 256K
- 推論速度: 最遅だが品質最優先
- ユース: コード生成、数理推論、難問処理
MoEとDenseはどう使い分けるか
同じ「大きいモデル」に見えて、26B MoEと31B Denseは性格が真逆だ。MoEはスループット優先、Denseは品質優先と覚えておけばいい。
筆者の実測から言うと
同じRTX 6000 Ada(48GB VRAM)で両方動かしたとき、26B MoEは約70 tok/sに対し、31B Denseは約28 tok/sだった。APIエンドポイントとして複数ユーザーに提供するなら26B MoE、単発の難問を解かせるなら31B Dense。コード補完のように"速さが使い勝手"に直結する用途は26B MoE一択だ。
Ollamaで動かす|最短3コマンドのセットアップ
ローカルでGemma 4を触る一番簡単な方法はOllamaだ。インストール、pull、runの3コマンドで動く。
Step 1: Ollamaのインストール
macOS/Linuxなら公式のインストーラ一発。Windowsは公式サイトから.exeをダウンロードしてインストール。
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# インストール確認
ollama --version
# ollama version 0.6.8 以降を推奨
Step 2: モデルのpull
使いたいサイズに応じてtagを切り替える。初回はネットワーク次第で数分〜十数分かかる。
# スマホ・ノートPC向け
ollama pull gemma4:e2b
ollama pull gemma4:e4b
# ワークステーション向け
ollama pull gemma4:26b-moe
ollama pull gemma4:31b
# 量子化版(VRAMを節約したいとき)
ollama pull gemma4:31b-q4
Step 3: 対話 or APIサーバーとして起動
ターミナルで直接対話するか、OpenAI互換APIを立てて他ツールから叩く。
# 対話モードで起動
ollama run gemma4:e4b
# >>> Gemma 4の特徴を日本語で3つ教えて
# OpenAI互換APIとして使う(デフォルトで11434ポート)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [{"role": "user", "content": "こんにちは"}]
}'
つまずきポイント
- VRAM不足エラー:
Error: model requires more system memoryが出たら、一段小さいサイズまたは量子化版(:q4, :q5_k_m)に切り替える - 日本語出力が崩れる: 温度パラメータを0.6〜0.8に下げる。
/set parameter temperature 0.7 - 画像入力が通らない: Ollama 0.6.8以降が必要。
ollama -vで確認 - GPUを使わない: NVIDIAドライバとCUDA Toolkitが古いと起きる。
nvidia-smiで認識を確認
Hugging Faceから使う|Transformers・vLLM・量子化版
Pythonコードに組み込みたいなら、Hugging Faceからダウンロードしてtransformersやvllmで回すのが定石だ。
Transformersでの最短サンプル
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-4b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [{"role": "user", "content": "Pythonで素数判定を書いて"}]
inputs = tokenizer.apply_chat_template(
messages, return_tensors="pt", add_generation_prompt=True
).to(model.device)
outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
事前にhuggingface-cli loginで認証を済ませておく必要がある。GatedではないがAPIトークンは必須だ。
vLLMでのAPIサーバー化
同時接続が多いサービスに組み込むならvLLMが速い。OpenAI互換エンドポイントを立てる最短コマンドはこちら。
# vLLMインストール
pip install vllm
# Gemma 4 26B MoEをOpenAI互換で起動
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-26b-moe-it \
--tensor-parallel-size 2 \
--max-model-len 32768 \
--port 8000
NVIDIA公式の量子化版を使う
NVIDIAが公式にnvidia/Gemma-4-31B-IT-NVFP4というFP4量子化版を出している。精度劣化を最小限に抑えつつVRAMを半分以下にできるので、RTX 4090クラスでも31B Denseが快適に動く。H100系のFP8対応GPUなら、さらに速度が伸びる。
Llama 4・GPT-5.4・Claudeとの比較
選定で一番気になるのは「結局、他と比べてどうなのか」だろう。2026年4月時点の主要モデルと横並びで整理した。
| モデル | 公開形態 | MMLU Pro | コスト目安 | 商用利用 |
|---|---|---|---|---|
| Gemma 4 31B | Weight公開 | 85.2% | セルフホスト(電気代のみ) | Apache 2.0で原則自由 |
| Llama 4 Scout | Weight公開 | 83.8% | セルフホスト | MAU 7億未満なら可 |
| Llama 4 Maverick | Weight公開 | 86.8% | H100×8以上が必要 | MAU 7億未満なら可 |
| GPT-5.4 | API | 88.1% | $2.5/$10 per 1M token | API規約準拠 |
| Claude Sonnet 4.6 | API | 87.3% | $3/$15 per 1M token | API規約準拠 |
コストで選ぶならGemma 4一択の場面
月間50万リクエスト、平均入力1,500トークン・出力500トークンで試算すると、GPT-5.4はAPI費用で月20万円前後になる。Gemma 4 26B MoEをH100×2のインスタンスで運用した場合、AWS p5.xlarge換算で月15万円程度。量の多いB2Bサービスや社内ツールなら、セルフホストが普通に安くなる。
もったいないと感じるのが、多くのチームが「APIが手軽だから」だけの理由でGPT/Claudeを選び続けていることだ。Gemma 4のレベルに来ると、品質差はすでにタスクを選ばなくなった。コード生成・RAG・要約・分類あたりでは、Gemma 4 31Bで十分業務に耐える。
GPT/Claudeが依然強いタスク
Gemma 4が勝てない/苦手な領域
- 超長文の推論: 100Kトークンを超える資料の一貫した要約は、Claude Sonnet 4.6のほうが精度が高い
- エージェント的な複数ツール呼び出し: tool_useの安定性はGPT-5.4系が頭ひとつ抜けている
- 最新情報が必要なタスク: 2026年1月で学習が止まっているため、時事問題やニュース分析には弱い
- 規約解釈など誤答が許されない用途: 重要判断はAPI系の大型モデルと二重チェックするのが無難
実務でのユースケース|何に向いて、何に向かないか
Gemma 4が"効く"現場と、逆に避けたほうがいい現場を整理した。筆者が直近で関わった案件と、GitHub Discussions・Reddit r/LocalLLaMAでの議論を突き合わせた結果だ。
向いているユースケース
- 社内データのRAG(機密データが外に出せない)
- エッジデバイスでのオフラインAIアシスタント
- 高頻度バッチ処理(分類、要約、タグ付け)
- 独自ドメインでのファインチューニング起点モデル
- 教育現場・研究機関での公開教材
- 試作段階のコスト圧縮(PoCが月数万円で回る)
向かないユースケース
- トップ精度が要求される法務・医療の判断補助
- 毎月の利用が少量(APIのほうが安く済む)
- 運用エンジニアを確保できない環境
- 複雑なエージェント(tool_useが多段)
- 時事ニュースの速報要約
- GPUを持たないチームの新規導入
セルフホストに必要な運用コスト
ここは検討段階で見落としがちなポイントだ。Gemma 4自体は無料だが、動かす以上は運用コストがかかる。AWSでの目安は次の通り。
| 用途 | 推奨インスタンス | 月額目安(常時稼働) |
|---|---|---|
| E4B検証用 | g6.2xlarge(L4 24GB) | 約8万円 |
| 26B MoE運用 | p5.xlarge(H100 80GB) | 約15万円 |
| 31B Dense運用 | p5.2xlarge(H100×2) | 約30万円 |
| 自宅検証 | RTX 4090 1枚 | 初期30万円+電気代 |
Spotインスタンスで20〜40%安く済むが、推論APIの可用性を考えると本番はオンデマンドが安全。社内PoCなら自宅マシン+Tailscaleでリモート接続という構成も現実的だ。
よくある質問(FAQ)
Q1: Gemma 4は日本語の性能はどうですか?
E4B以上なら実用レベル。筆者が新聞記事の要約、カスタマーサポート応答、コードコメント生成で検証した限り、Claude Sonnet 4.6の85%前後の品質が出た。敬語や業界用語の扱いはGPT-5.4のほうが滑らかだが、一般的なビジネス文書は問題なく書ける。E2Bは若干カタコトが混じるので、高品質を求めるならE4B以上を推奨する。
Q2: 商用サービスに組み込む場合、何か制限はありますか?
Apache 2.0ライセンスなので、原則として制限はほぼない。有償サービスに組み込んでも、再配布しても、自社製品の一部として売っても問題ない。ただし「Gemma 4を使用している」旨の表示(著作権表示)は義務があり、改変した場合は変更内容を明記する必要がある。細かい点はLICENSE.txtを必ず確認してほしい。
Q3: GPUがない環境でも動かせますか?
E2BとE4BならCPUでも動く。16GB以上のRAMがあれば実用速度は出る。筆者のMacBook Air M2(16GB)でE4BをCPUで動かしたとき、生成速度は約8 tok/s。チャット用途としては十分だ。ただし26B MoE以上はGPUが必須。Apple Siliconなら統合メモリ48GB以上のMac Studioでも動く。
Q4: ファインチューニングはできますか?
できる。公式がLoRAとQLoRAのサンプルをHugging FaceのGemmaページで公開している。E4B程度なら、RTX 4090一枚で約10時間で1エポック回せる規模だ。社内データで追加学習する場合、5000〜10000サンプルあれば明確に品質が上がる。Unslothがライブラリをすでに対応させており、学習速度は素のTransformersより2倍近く速い。
Q5: Gemini APIとGemma 4の違いは?
Geminiは閉じたAPI、Gemma 4は重みが公開されたオープンモデル、というのが本質的な違い。Gemini 2.5やGemini 3のほうが総合性能は上だが、データを外部に出したくない場合や、月のトラフィックが多い場合はGemma 4のほうが合理的。Geminiは研究成果の"縮小版"として公開されているのがGemmaシリーズ、という関係だ。
Q6: Ollama以外に動かす選択肢は?
用途に応じていくつかある。
- LM Studio: GUIで管理したいとき。モデル切り替えが楽
- llama.cpp: C++で軽量に動かしたいとき。GGUF形式対応
- vLLM: 商用APIとして高スループットで運用したいとき
- MLX: Apple SiliconでネイティブMetal加速を効かせたいとき
- Google AI Studio: 手軽に試したいだけならホスト版がある
Q7: 他のオープンモデル(Llama 4, Qwen3, DeepSeek)と比べて強みは?
Gemma 4の強みは「小型サイズでの圧倒的な効率」と「ライセンスの自由度」に集約される。Llama 4 MaverickはMoE合計400B超で一般人には重すぎ、DeepSeek V3.2は中国発で法務上のハードルがあり、Qwen3はマルチモーダルで一歩劣る。Apache 2.0で、マルチモーダル対応で、個人でも動く、という三拍子揃っているのはGemma 4だけ、というのが2026年4月時点の位置付けだ。
まとめ|どのサイズを選ぶべきか
Gemma 4は、2026年4月時点で最もバランスのいいオープンモデルだ。Arena #3の31Bから、スマホで動くE2Bまで、どんな用途にも対応するサイズが揃っている。Apache 2.0ライセンスで商用の壁も低い。
筆者の推奨
- まず触ってみるなら:
ollama run gemma4:e4b。ノートPCでも体感できる - 本格的に社内運用するなら: 26B MoEをH100インスタンスで。コスパが最も良い
- 品質最優先なら: 31B DenseをvLLMで。コード生成や数理タスクはこれ一択
- エッジ・モバイル向けなら: E2B量子化版。スマホで1.6GB程度に収まる
自分ならまずollama run gemma4:e4bを叩くところから始める。インストールから対話開始まで、慣れていれば5分で完了する。性能に納得したら、本番用の26B MoEをクラウドに立てるか、ファインチューニングを検討すればいい。
オープンモデルの動向は速い。Gemma 4.1や次のLlamaが数カ月で出ても不思議ではない。だからこそ、セルフホストで動かす経験を今のうちに積んでおくと、次のモデルに切り替えるときの移行コストが跳ね上がらずに済む。手元で動くAIは、2026年のエンジニアにとって必須装備になりつつある。
関連記事
- ローカルLLMの導入に慣れていないなら、まずOllama入門2026で基礎を押さえるのがおすすめ
- クラウド推論を無料枠で試したい人はFoundry Local入門2026も合わせて読んでほしい
- ライバルモデルの詳細はLlama 4入門2026で解説している
- 国産LLMの選択肢を比較したい場合は国産LLM完全ガイド2026を参照