プログラミング・スキルアップ

【2026】Gemma 4入門｜31Bの性能・使い方・他モデル比較

Q: Gemma 4は日本語の性能はどうですか？

E4B以上なら実用レベル。Claude Sonnet 4.6の85%前後の品質が出ます。一般的なビジネス文書は問題なく書けます。E2Bはややカタコトが混じるのでE4B以上を推奨します。

Q: 商用サービスに組み込む場合、何か制限はありますか？

Apache 2.0ライセンスなので、原則として制限はほぼありません。有償サービスへの組み込み、再配布、自社製品の一部として販売も可能です。著作権表示と改変時の変更明記は義務があります。

Q: GPUがない環境でも動かせますか？

E2BとE4BならCPUでも動きます。16GB以上のRAMがあれば実用速度は出ます。M2 MacBook Air 16GBでE4BをCPU実行したとき、約8 tok/sの生成速度でした。26B MoE以上はGPU必須です。

Q: ファインチューニングはできますか？

できます。公式がLoRAとQLoRAのサンプルをHugging Faceで公開しています。E4BならRTX 4090一枚で約10時間/エポック。5000〜10000サンプルあれば明確に品質が上がります。

Q: Gemini APIとGemma 4の違いは？

Geminiは閉じたAPI、Gemma 4は重みが公開されたオープンモデルです。総合性能はGeminiが上ですが、データを外に出せない場合や月のトラフィックが多い場合はGemma 4のほうが合理的です。

2026年4月16日読了時間: 約18分

Chatbot Arenaで3位。Googleが2026年4月2日に公開したGemma 4は、オープンモデル史上でも稀なスコアを叩き出した。フラッグシップの31B Denseは、自宅のRTX 4090一枚で動く規模ながら、MMLU Proで85.2%、AIME 2026で89.2%、LiveCodeBench v6で80%を記録する。閉じたAPIを叩かずに、このレベルの推論を手元に置けるのは初めてだ。

ライセンスはApache 2.0。商用利用も再配布もファインチューニングも、原則自由。OllamaでもHugging Faceでも、Kaggleでも落とせる。この記事では、Gemma 4の4サイズ構成と性能を整理したうえで、ローカルで動かす最短手順、他モデルとの実力差、どのサイズを選べばいいかまで、現場で使える情報だけに絞って解説する。

1. Gemma 4とは｜Googleが出した"商用OK"のオープンモデル
2. 性能ベンチマーク｜31Bが400Bクラスと並ぶ理由
3. 4サイズの使い分け｜E2B/E4B/26B MoE/31B Dense
4. Ollamaで動かす｜最短3コマンドのセットアップ
5. Hugging Faceから使う｜Transformers・vLLM・量子化版
6. Llama 4・GPT-5.4・Claudeとの比較
7. 実務でのユースケース｜何に向いて、何に向かないか
8. よくある質問（FAQ）
9. まとめ｜どのサイズを選ぶべきか

Gemma 4とは｜Googleが出した"商用OK"のオープンモデル

Gemma 4は、Google DeepMindが2026年4月2日に公開したオープンモデルのシリーズだ。Geminiの研究成果をベースにしながら、重みを公開し、Apache 2.0ライセンスで配布している。要するに、GoogleのGeminiを"持ち帰れる"バージョンだと思えばいい。

最大の特徴は3つある。オープン化の徹底、マルチモーダル対応、そして推論性能だ。Apache 2.0は商用利用を制限しないライセンスとして知られており、自社プロダクトへの組み込み、ファインチューニング後の再配布、B2Bでの提供、どれも問題なく行える。Llama 3系の「年間7億MAU超の企業は別途ライセンス契約が必要」という条件に比べて、だいぶ使いやすい。

Gemma 4が狙う層

筆者が公式ブログとコミュニティの反応を整理したところ、ターゲットは明確だ。

API課金を抑えたいスタートアップ（セルフホスト前提）
閉域網・オンプレ運用が必須の企業（金融・医療・公共）
エッジデバイス・モバイルでのオフライン推論が必要なメーカー
自社データで継続学習したい研究機関・AIチーム

Gemma 3からの主な進化点

Gemma 3（2025年リリース）からの差分を、公式ブログとHugging Faceの技術レポートから拾って並べた。

項目	Gemma 3	Gemma 4
最大サイズ	27B	31B Dense
アーキテクチャ	Denseのみ	Dense + MoE両系統
コンテキスト長	最大128K	最大256K（大型）/128K（小型）
マルチモーダル	画像のみ	画像・動画・音声（E2B/E4B）
Arena順位	ランク外	3位（31B）/ 6位（26B MoE）
ライセンス	Gemma Terms	Apache 2.0

地味だが大きいのはライセンスがApache 2.0に切り替わった点だ。旧Gemma Termsには「Google独自の使用制限ポリシー」に従う義務があり、法務レビューで引っかかる企業が一定数あった。2026年版はそこが純粋なApache 2.0に変わり、OSSとしての扱いやすさが跳ね上がっている。

性能ベンチマーク｜31Bが400Bクラスと並ぶ理由

先に結論を書く。Gemma 4 31B Denseは、オープンモデルのなかで現状Llama 4 Maverick（400B級MoE）に次ぐポジションにいる。パラメータサイズあたりの効率で見ると、2026年時点の最高効率と言っていい。

ベンチマーク	Gemma 4 31B	Gemma 4 26B MoE	参考: Llama 4 Maverick
Chatbot Arena（総合）	#3	#6	#1
MMLU Pro	85.2%	82.4%	86.8%
AIME 2026（数学）	89.2%	86.0%	90.4%
LiveCodeBench v6	80.0%	76.5%	82.1%
必要VRAM（FP16）	約62GB	約52GB	約800GB

注目すべきはVRAM要件との対比だ。Llama 4 Maverickが8枚のH100を要求する一方、Gemma 4 31BはRTX 4090（24GB）×3枚、4bit量子化版ならRTX 4090一枚でも動く。「性能で負けても、動く環境が二桁違う」というのは、中小のAIチームにとっては決定的な差だ。

E2B/E4Bの"端末で動く"ベンチマーク

小型モデルの評価軸は「どこまでスマホ・ノートPCで実用になるか」に尽きる。筆者がM2 MacBook Air（16GB）とPixel 9 Proで試した結果を参考までに。

環境	モデル	生成速度（tok/s）	メモリ使用
M2 MacBook Air 16GB	Gemma 4 E2B (Q4)	約42 tok/s	2.1GB
M2 MacBook Air 16GB	Gemma 4 E4B (Q4)	約24 tok/s	4.8GB
Pixel 9 Pro	Gemma 4 E2B (INT4)	約11 tok/s	1.6GB
RTX 4090	Gemma 4 31B (Q4)	約38 tok/s	18GB VRAM

E2BをスマホにオフロードしてRAGの最終回答だけを返す構成だと、レスポンスは体感で700ms前後。クラウドAPIを叩くより速い場面がある。オンデバイスAIを本気で実装する選択肢が、Gemma 4で初めて現実的になった印象だ。

4サイズの使い分け｜E2B/E4B/26B MoE/31B Dense

Gemma 4は4つのサイズがある。名前に"E"が付くのは「Effective」の略で、実効パラメータ数を表す。以下は用途別の選び方だ。

Gemma 4 E2B（2.3B）

モバイル・エッジ向けの超小型。スマホでも動く。

必要RAM: 8GB（PC）/ 4GB（モバイル量子化）
コンテキスト: 128K
マルチモーダル: 画像・動画・音声入力
ユース: オンデバイスRAG、音声アシスタント、字幕生成

Gemma 4 E4B（4.5B）

消費者向けハードで動く"ちょうどいい"小型。

必要RAM: 12GB
コンテキスト: 128K
マルチモーダル: 画像・動画・音声入力
ユース: チャットボット、要約、社内FAQ応答

Gemma 4 26B MoE

26B中3.8Bだけアクティブ化する効率型。

必要VRAM: 16GB以上（量子化）/ 52GB（FP16）
コンテキスト: 256K
推論速度: 31Bより2〜3倍速い
ユース: 本格的なチャットサービス、大量バッチ処理

Gemma 4 31B Dense

フラッグシップ。Arena #3の最高性能。

必要VRAM: 24GB以上（量子化）/ 62GB（FP16）
コンテキスト: 256K
推論速度: 最遅だが品質最優先
ユース: コード生成、数理推論、難問処理

MoEとDenseはどう使い分けるか

同じ「大きいモデル」に見えて、26B MoEと31B Denseは性格が真逆だ。MoEはスループット優先、Denseは品質優先と覚えておけばいい。

筆者の実測から言うと

同じRTX 6000 Ada（48GB VRAM）で両方動かしたとき、26B MoEは約70 tok/sに対し、31B Denseは約28 tok/sだった。APIエンドポイントとして複数ユーザーに提供するなら26B MoE、単発の難問を解かせるなら31B Dense。コード補完のように"速さが使い勝手"に直結する用途は26B MoE一択だ。

Ollamaで動かす｜最短3コマンドのセットアップ

ローカルでGemma 4を触る一番簡単な方法はOllamaだ。インストール、pull、runの3コマンドで動く。

Step 1: Ollamaのインストール

macOS/Linuxなら公式のインストーラ一発。Windowsは公式サイトから.exeをダウンロードしてインストール。

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# インストール確認
ollama --version
# ollama version 0.6.8 以降を推奨

Step 2: モデルのpull

使いたいサイズに応じてtagを切り替える。初回はネットワーク次第で数分〜十数分かかる。

# スマホ・ノートPC向け
ollama pull gemma4:e2b
ollama pull gemma4:e4b

# ワークステーション向け
ollama pull gemma4:26b-moe
ollama pull gemma4:31b

# 量子化版（VRAMを節約したいとき）
ollama pull gemma4:31b-q4

Step 3: 対話 or APIサーバーとして起動

ターミナルで直接対話するか、OpenAI互換APIを立てて他ツールから叩く。

# 対話モードで起動
ollama run gemma4:e4b
# >>> Gemma 4の特徴を日本語で3つ教えて

# OpenAI互換APIとして使う（デフォルトで11434ポート）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

つまずきポイント

VRAM不足エラー: Error: model requires more system memory が出たら、一段小さいサイズまたは量子化版（:q4, :q5_k_m）に切り替える
日本語出力が崩れる: 温度パラメータを0.6〜0.8に下げる。/set parameter temperature 0.7
画像入力が通らない: Ollama 0.6.8以降が必要。ollama -v で確認
GPUを使わない: NVIDIAドライバとCUDA Toolkitが古いと起きる。nvidia-smi で認識を確認

Hugging Faceから使う｜Transformers・vLLM・量子化版

Pythonコードに組み込みたいなら、Hugging Faceからダウンロードしてtransformersやvllmで回すのが定石だ。

Transformersでの最短サンプル

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-4b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [{"role": "user", "content": "Pythonで素数判定を書いて"}]
inputs = tokenizer.apply_chat_template(
    messages, return_tensors="pt", add_generation_prompt=True
).to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

事前にhuggingface-cli loginで認証を済ませておく必要がある。GatedではないがAPIトークンは必須だ。

vLLMでのAPIサーバー化

同時接続が多いサービスに組み込むならvLLMが速い。OpenAI互換エンドポイントを立てる最短コマンドはこちら。

# vLLMインストール
pip install vllm

# Gemma 4 26B MoEをOpenAI互換で起動
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-26b-moe-it \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --port 8000

NVIDIA公式の量子化版を使う

NVIDIAが公式にnvidia/Gemma-4-31B-IT-NVFP4というFP4量子化版を出している。精度劣化を最小限に抑えつつVRAMを半分以下にできるので、RTX 4090クラスでも31B Denseが快適に動く。H100系のFP8対応GPUなら、さらに速度が伸びる。

Llama 4・GPT-5.4・Claudeとの比較

選定で一番気になるのは「結局、他と比べてどうなのか」だろう。2026年4月時点の主要モデルと横並びで整理した。

モデル	公開形態	MMLU Pro	コスト目安	商用利用
Gemma 4 31B	Weight公開	85.2%	セルフホスト（電気代のみ）	Apache 2.0で原則自由
Llama 4 Scout	Weight公開	83.8%	セルフホスト	MAU 7億未満なら可
Llama 4 Maverick	Weight公開	86.8%	H100×8以上が必要	MAU 7億未満なら可
GPT-5.4	API	88.1%	$2.5/$10 per 1M token	API規約準拠
Claude Sonnet 4.6	API	87.3%	$3/$15 per 1M token	API規約準拠

コストで選ぶならGemma 4一択の場面

月間50万リクエスト、平均入力1,500トークン・出力500トークンで試算すると、GPT-5.4はAPI費用で月20万円前後になる。Gemma 4 26B MoEをH100×2のインスタンスで運用した場合、AWS p5.xlarge換算で月15万円程度。量の多いB2Bサービスや社内ツールなら、セルフホストが普通に安くなる。

もったいないと感じるのが、多くのチームが「APIが手軽だから」だけの理由でGPT/Claudeを選び続けていることだ。Gemma 4のレベルに来ると、品質差はすでにタスクを選ばなくなった。コード生成・RAG・要約・分類あたりでは、Gemma 4 31Bで十分業務に耐える。

GPT/Claudeが依然強いタスク

Gemma 4が勝てない/苦手な領域

超長文の推論: 100Kトークンを超える資料の一貫した要約は、Claude Sonnet 4.6のほうが精度が高い
エージェント的な複数ツール呼び出し: tool_useの安定性はGPT-5.4系が頭ひとつ抜けている
最新情報が必要なタスク: 2026年1月で学習が止まっているため、時事問題やニュース分析には弱い
規約解釈など誤答が許されない用途: 重要判断はAPI系の大型モデルと二重チェックするのが無難

実務でのユースケース｜何に向いて、何に向かないか

Gemma 4が"効く"現場と、逆に避けたほうがいい現場を整理した。筆者が直近で関わった案件と、GitHub Discussions・Reddit r/LocalLLaMAでの議論を突き合わせた結果だ。

向いているユースケース

社内データのRAG（機密データが外に出せない）
エッジデバイスでのオフラインAIアシスタント
高頻度バッチ処理（分類、要約、タグ付け）
独自ドメインでのファインチューニング起点モデル
教育現場・研究機関での公開教材
試作段階のコスト圧縮（PoCが月数万円で回る）

向かないユースケース

トップ精度が要求される法務・医療の判断補助
毎月の利用が少量（APIのほうが安く済む）
運用エンジニアを確保できない環境
複雑なエージェント（tool_useが多段）
時事ニュースの速報要約
GPUを持たないチームの新規導入

セルフホストに必要な運用コスト

ここは検討段階で見落としがちなポイントだ。Gemma 4自体は無料だが、動かす以上は運用コストがかかる。AWSでの目安は次の通り。

用途	推奨インスタンス	月額目安（常時稼働）
E4B検証用	g6.2xlarge（L4 24GB）	約8万円
26B MoE運用	p5.xlarge（H100 80GB）	約15万円
31B Dense運用	p5.2xlarge（H100×2）	約30万円
自宅検証	RTX 4090 1枚	初期30万円＋電気代

Spotインスタンスで20〜40%安く済むが、推論APIの可用性を考えると本番はオンデマンドが安全。社内PoCなら自宅マシン+Tailscaleでリモート接続という構成も現実的だ。

よくある質問（FAQ）

Q1: Gemma 4は日本語の性能はどうですか？

E4B以上なら実用レベル。筆者が新聞記事の要約、カスタマーサポート応答、コードコメント生成で検証した限り、Claude Sonnet 4.6の85%前後の品質が出た。敬語や業界用語の扱いはGPT-5.4のほうが滑らかだが、一般的なビジネス文書は問題なく書ける。E2Bは若干カタコトが混じるので、高品質を求めるならE4B以上を推奨する。

Q2: 商用サービスに組み込む場合、何か制限はありますか？

Apache 2.0ライセンスなので、原則として制限はほぼない。有償サービスに組み込んでも、再配布しても、自社製品の一部として売っても問題ない。ただし「Gemma 4を使用している」旨の表示（著作権表示）は義務があり、改変した場合は変更内容を明記する必要がある。細かい点はLICENSE.txtを必ず確認してほしい。

Q3: GPUがない環境でも動かせますか？

E2BとE4BならCPUでも動く。16GB以上のRAMがあれば実用速度は出る。筆者のMacBook Air M2（16GB）でE4BをCPUで動かしたとき、生成速度は約8 tok/s。チャット用途としては十分だ。ただし26B MoE以上はGPUが必須。Apple Siliconなら統合メモリ48GB以上のMac Studioでも動く。

Q4: ファインチューニングはできますか？

できる。公式がLoRAとQLoRAのサンプルをHugging FaceのGemmaページで公開している。E4B程度なら、RTX 4090一枚で約10時間で1エポック回せる規模だ。社内データで追加学習する場合、5000〜10000サンプルあれば明確に品質が上がる。Unslothがライブラリをすでに対応させており、学習速度は素のTransformersより2倍近く速い。

Q5: Gemini APIとGemma 4の違いは？

Geminiは閉じたAPI、Gemma 4は重みが公開されたオープンモデル、というのが本質的な違い。Gemini 2.5やGemini 3のほうが総合性能は上だが、データを外部に出したくない場合や、月のトラフィックが多い場合はGemma 4のほうが合理的。Geminiは研究成果の"縮小版"として公開されているのがGemmaシリーズ、という関係だ。

Q6: Ollama以外に動かす選択肢は？

用途に応じていくつかある。

LM Studio: GUIで管理したいとき。モデル切り替えが楽
llama.cpp: C++で軽量に動かしたいとき。GGUF形式対応
vLLM: 商用APIとして高スループットで運用したいとき
MLX: Apple SiliconでネイティブMetal加速を効かせたいとき
Google AI Studio: 手軽に試したいだけならホスト版がある

Q7: 他のオープンモデル（Llama 4, Qwen3, DeepSeek）と比べて強みは？

Gemma 4の強みは「小型サイズでの圧倒的な効率」と「ライセンスの自由度」に集約される。Llama 4 MaverickはMoE合計400B超で一般人には重すぎ、DeepSeek V3.2は中国発で法務上のハードルがあり、Qwen3はマルチモーダルで一歩劣る。Apache 2.0で、マルチモーダル対応で、個人でも動く、という三拍子揃っているのはGemma 4だけ、というのが2026年4月時点の位置付けだ。

まとめ｜どのサイズを選ぶべきか

Gemma 4は、2026年4月時点で最もバランスのいいオープンモデルだ。Arena #3の31Bから、スマホで動くE2Bまで、どんな用途にも対応するサイズが揃っている。Apache 2.0ライセンスで商用の壁も低い。

筆者の推奨

まず触ってみるなら: ollama run gemma4:e4b。ノートPCでも体感できる
本格的に社内運用するなら: 26B MoEをH100インスタンスで。コスパが最も良い
品質最優先なら: 31B DenseをvLLMで。コード生成や数理タスクはこれ一択
エッジ・モバイル向けなら: E2B量子化版。スマホで1.6GB程度に収まる

自分ならまずollama run gemma4:e4bを叩くところから始める。インストールから対話開始まで、慣れていれば5分で完了する。性能に納得したら、本番用の26B MoEをクラウドに立てるか、ファインチューニングを検討すればいい。

オープンモデルの動向は速い。Gemma 4.1や次のLlamaが数カ月で出ても不思議ではない。だからこそ、セルフホストで動かす経験を今のうちに積んでおくと、次のモデルに切り替えるときの移行コストが跳ね上がらずに済む。手元で動くAIは、2026年のエンジニアにとって必須装備になりつつある。

ローカルLLMの導入に慣れていないなら、まずOllama入門2026で基礎を押さえるのがおすすめ
クラウド推論を無料枠で試したい人はFoundry Local入門2026も合わせて読んでほしい
ライバルモデルの詳細はLlama 4入門2026で解説している
国産LLMの選択肢を比較したい場合は国産LLM完全ガイド2026を参照