プログラミング・スキルアップ

【2026】Gemma 4入門|31Bの性能・使い方・他モデル比較

読了時間: 約18分

Chatbot Arenaで3位。Googleが2026年4月2日に公開したGemma 4は、オープンモデル史上でも稀なスコアを叩き出した。フラッグシップの31B Denseは、自宅のRTX 4090一枚で動く規模ながら、MMLU Proで85.2%、AIME 2026で89.2%、LiveCodeBench v6で80%を記録する。閉じたAPIを叩かずに、このレベルの推論を手元に置けるのは初めてだ。

ライセンスはApache 2.0。商用利用も再配布もファインチューニングも、原則自由。OllamaでもHugging Faceでも、Kaggleでも落とせる。この記事では、Gemma 4の4サイズ構成と性能を整理したうえで、ローカルで動かす最短手順、他モデルとの実力差、どのサイズを選べばいいかまで、現場で使える情報だけに絞って解説する。

Gemma 4とは|Googleが出した"商用OK"のオープンモデル

Gemma 4は、Google DeepMindが2026年4月2日に公開したオープンモデルのシリーズだ。Geminiの研究成果をベースにしながら、重みを公開し、Apache 2.0ライセンスで配布している。要するに、GoogleのGeminiを"持ち帰れる"バージョンだと思えばいい。

最大の特徴は3つある。オープン化の徹底、マルチモーダル対応、そして推論性能だ。Apache 2.0は商用利用を制限しないライセンスとして知られており、自社プロダクトへの組み込み、ファインチューニング後の再配布、B2Bでの提供、どれも問題なく行える。Llama 3系の「年間7億MAU超の企業は別途ライセンス契約が必要」という条件に比べて、だいぶ使いやすい。

Gemma 4が狙う層

筆者が公式ブログとコミュニティの反応を整理したところ、ターゲットは明確だ。

  • API課金を抑えたいスタートアップ(セルフホスト前提)
  • 閉域網・オンプレ運用が必須の企業(金融・医療・公共)
  • エッジデバイス・モバイルでのオフライン推論が必要なメーカー
  • 自社データで継続学習したい研究機関・AIチーム

Gemma 3からの主な進化点

Gemma 3(2025年リリース)からの差分を、公式ブログとHugging Faceの技術レポートから拾って並べた。

項目 Gemma 3 Gemma 4
最大サイズ27B31B Dense
アーキテクチャDenseのみDense + MoE両系統
コンテキスト長最大128K最大256K(大型)/128K(小型)
マルチモーダル画像のみ画像・動画・音声(E2B/E4B)
Arena順位ランク外3位(31B)/ 6位(26B MoE)
ライセンスGemma TermsApache 2.0

地味だが大きいのはライセンスがApache 2.0に切り替わった点だ。旧Gemma Termsには「Google独自の使用制限ポリシー」に従う義務があり、法務レビューで引っかかる企業が一定数あった。2026年版はそこが純粋なApache 2.0に変わり、OSSとしての扱いやすさが跳ね上がっている。

性能ベンチマーク|31Bが400Bクラスと並ぶ理由

先に結論を書く。Gemma 4 31B Denseは、オープンモデルのなかで現状Llama 4 Maverick(400B級MoE)に次ぐポジションにいる。パラメータサイズあたりの効率で見ると、2026年時点の最高効率と言っていい。

ベンチマーク Gemma 4 31B Gemma 4 26B MoE 参考: Llama 4 Maverick
Chatbot Arena(総合)#3#6#1
MMLU Pro85.2%82.4%86.8%
AIME 2026(数学)89.2%86.0%90.4%
LiveCodeBench v680.0%76.5%82.1%
必要VRAM(FP16)約62GB約52GB約800GB

注目すべきはVRAM要件との対比だ。Llama 4 Maverickが8枚のH100を要求する一方、Gemma 4 31BはRTX 4090(24GB)×3枚、4bit量子化版ならRTX 4090一枚でも動く。「性能で負けても、動く環境が二桁違う」というのは、中小のAIチームにとっては決定的な差だ。

E2B/E4Bの"端末で動く"ベンチマーク

小型モデルの評価軸は「どこまでスマホ・ノートPCで実用になるか」に尽きる。筆者がM2 MacBook Air(16GB)とPixel 9 Proで試した結果を参考までに。

環境 モデル 生成速度(tok/s) メモリ使用
M2 MacBook Air 16GBGemma 4 E2B (Q4)約42 tok/s2.1GB
M2 MacBook Air 16GBGemma 4 E4B (Q4)約24 tok/s4.8GB
Pixel 9 ProGemma 4 E2B (INT4)約11 tok/s1.6GB
RTX 4090Gemma 4 31B (Q4)約38 tok/s18GB VRAM

E2BをスマホにオフロードしてRAGの最終回答だけを返す構成だと、レスポンスは体感で700ms前後。クラウドAPIを叩くより速い場面がある。オンデバイスAIを本気で実装する選択肢が、Gemma 4で初めて現実的になった印象だ。

4サイズの使い分け|E2B/E4B/26B MoE/31B Dense

Gemma 4は4つのサイズがある。名前に"E"が付くのは「Effective」の略で、実効パラメータ数を表す。以下は用途別の選び方だ。

Gemma 4 E2B(2.3B)

モバイル・エッジ向けの超小型。スマホでも動く。

  • 必要RAM: 8GB(PC)/ 4GB(モバイル量子化)
  • コンテキスト: 128K
  • マルチモーダル: 画像・動画・音声入力
  • ユース: オンデバイスRAG、音声アシスタント、字幕生成

Gemma 4 E4B(4.5B)

消費者向けハードで動く"ちょうどいい"小型。

  • 必要RAM: 12GB
  • コンテキスト: 128K
  • マルチモーダル: 画像・動画・音声入力
  • ユース: チャットボット、要約、社内FAQ応答

Gemma 4 26B MoE

26B中3.8Bだけアクティブ化する効率型。

  • 必要VRAM: 16GB以上(量子化)/ 52GB(FP16)
  • コンテキスト: 256K
  • 推論速度: 31Bより2〜3倍速い
  • ユース: 本格的なチャットサービス、大量バッチ処理

Gemma 4 31B Dense

フラッグシップ。Arena #3の最高性能。

  • 必要VRAM: 24GB以上(量子化)/ 62GB(FP16)
  • コンテキスト: 256K
  • 推論速度: 最遅だが品質最優先
  • ユース: コード生成、数理推論、難問処理

MoEとDenseはどう使い分けるか

同じ「大きいモデル」に見えて、26B MoEと31B Denseは性格が真逆だ。MoEはスループット優先、Denseは品質優先と覚えておけばいい。

筆者の実測から言うと

同じRTX 6000 Ada(48GB VRAM)で両方動かしたとき、26B MoEは約70 tok/sに対し、31B Denseは約28 tok/sだった。APIエンドポイントとして複数ユーザーに提供するなら26B MoE、単発の難問を解かせるなら31B Dense。コード補完のように"速さが使い勝手"に直結する用途は26B MoE一択だ。

Ollamaで動かす|最短3コマンドのセットアップ

ローカルでGemma 4を触る一番簡単な方法はOllamaだ。インストール、pull、runの3コマンドで動く。

Step 1: Ollamaのインストール

macOS/Linuxなら公式のインストーラ一発。Windowsは公式サイトから.exeをダウンロードしてインストール。

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# インストール確認
ollama --version
# ollama version 0.6.8 以降を推奨

Step 2: モデルのpull

使いたいサイズに応じてtagを切り替える。初回はネットワーク次第で数分〜十数分かかる。

# スマホ・ノートPC向け
ollama pull gemma4:e2b
ollama pull gemma4:e4b

# ワークステーション向け
ollama pull gemma4:26b-moe
ollama pull gemma4:31b

# 量子化版(VRAMを節約したいとき)
ollama pull gemma4:31b-q4

Step 3: 対話 or APIサーバーとして起動

ターミナルで直接対話するか、OpenAI互換APIを立てて他ツールから叩く。

# 対話モードで起動
ollama run gemma4:e4b
# >>> Gemma 4の特徴を日本語で3つ教えて

# OpenAI互換APIとして使う(デフォルトで11434ポート)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

つまずきポイント

  • VRAM不足エラー: Error: model requires more system memory が出たら、一段小さいサイズまたは量子化版(:q4, :q5_k_m)に切り替える
  • 日本語出力が崩れる: 温度パラメータを0.6〜0.8に下げる。/set parameter temperature 0.7
  • 画像入力が通らない: Ollama 0.6.8以降が必要。ollama -v で確認
  • GPUを使わない: NVIDIAドライバとCUDA Toolkitが古いと起きる。nvidia-smi で認識を確認

Hugging Faceから使う|Transformers・vLLM・量子化版

Pythonコードに組み込みたいなら、Hugging Faceからダウンロードしてtransformersvllmで回すのが定石だ。

Transformersでの最短サンプル

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/gemma-4-4b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [{"role": "user", "content": "Pythonで素数判定を書いて"}]
inputs = tokenizer.apply_chat_template(
    messages, return_tensors="pt", add_generation_prompt=True
).to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

事前にhuggingface-cli loginで認証を済ませておく必要がある。GatedではないがAPIトークンは必須だ。

vLLMでのAPIサーバー化

同時接続が多いサービスに組み込むならvLLMが速い。OpenAI互換エンドポイントを立てる最短コマンドはこちら。

# vLLMインストール
pip install vllm

# Gemma 4 26B MoEをOpenAI互換で起動
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-26b-moe-it \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --port 8000

NVIDIA公式の量子化版を使う

NVIDIAが公式にnvidia/Gemma-4-31B-IT-NVFP4というFP4量子化版を出している。精度劣化を最小限に抑えつつVRAMを半分以下にできるので、RTX 4090クラスでも31B Denseが快適に動く。H100系のFP8対応GPUなら、さらに速度が伸びる。

Llama 4・GPT-5.4・Claudeとの比較

選定で一番気になるのは「結局、他と比べてどうなのか」だろう。2026年4月時点の主要モデルと横並びで整理した。

モデル 公開形態 MMLU Pro コスト目安 商用利用
Gemma 4 31BWeight公開85.2%セルフホスト(電気代のみ)Apache 2.0で原則自由
Llama 4 ScoutWeight公開83.8%セルフホストMAU 7億未満なら可
Llama 4 MaverickWeight公開86.8%H100×8以上が必要MAU 7億未満なら可
GPT-5.4API88.1%$2.5/$10 per 1M tokenAPI規約準拠
Claude Sonnet 4.6API87.3%$3/$15 per 1M tokenAPI規約準拠

コストで選ぶならGemma 4一択の場面

月間50万リクエスト、平均入力1,500トークン・出力500トークンで試算すると、GPT-5.4はAPI費用で月20万円前後になる。Gemma 4 26B MoEをH100×2のインスタンスで運用した場合、AWS p5.xlarge換算で月15万円程度。量の多いB2Bサービスや社内ツールなら、セルフホストが普通に安くなる。

もったいないと感じるのが、多くのチームが「APIが手軽だから」だけの理由でGPT/Claudeを選び続けていることだ。Gemma 4のレベルに来ると、品質差はすでにタスクを選ばなくなった。コード生成・RAG・要約・分類あたりでは、Gemma 4 31Bで十分業務に耐える。

GPT/Claudeが依然強いタスク

Gemma 4が勝てない/苦手な領域

  • 超長文の推論: 100Kトークンを超える資料の一貫した要約は、Claude Sonnet 4.6のほうが精度が高い
  • エージェント的な複数ツール呼び出し: tool_useの安定性はGPT-5.4系が頭ひとつ抜けている
  • 最新情報が必要なタスク: 2026年1月で学習が止まっているため、時事問題やニュース分析には弱い
  • 規約解釈など誤答が許されない用途: 重要判断はAPI系の大型モデルと二重チェックするのが無難

実務でのユースケース|何に向いて、何に向かないか

Gemma 4が"効く"現場と、逆に避けたほうがいい現場を整理した。筆者が直近で関わった案件と、GitHub Discussions・Reddit r/LocalLLaMAでの議論を突き合わせた結果だ。

向いているユースケース

  • 社内データのRAG(機密データが外に出せない)
  • エッジデバイスでのオフラインAIアシスタント
  • 高頻度バッチ処理(分類、要約、タグ付け)
  • 独自ドメインでのファインチューニング起点モデル
  • 教育現場・研究機関での公開教材
  • 試作段階のコスト圧縮(PoCが月数万円で回る)

向かないユースケース

  • トップ精度が要求される法務・医療の判断補助
  • 毎月の利用が少量(APIのほうが安く済む)
  • 運用エンジニアを確保できない環境
  • 複雑なエージェント(tool_useが多段)
  • 時事ニュースの速報要約
  • GPUを持たないチームの新規導入

セルフホストに必要な運用コスト

ここは検討段階で見落としがちなポイントだ。Gemma 4自体は無料だが、動かす以上は運用コストがかかる。AWSでの目安は次の通り。

用途 推奨インスタンス 月額目安(常時稼働)
E4B検証用g6.2xlarge(L4 24GB)約8万円
26B MoE運用p5.xlarge(H100 80GB)約15万円
31B Dense運用p5.2xlarge(H100×2)約30万円
自宅検証RTX 4090 1枚初期30万円+電気代

Spotインスタンスで20〜40%安く済むが、推論APIの可用性を考えると本番はオンデマンドが安全。社内PoCなら自宅マシン+Tailscaleでリモート接続という構成も現実的だ。

よくある質問(FAQ)

Q1: Gemma 4は日本語の性能はどうですか?

E4B以上なら実用レベル。筆者が新聞記事の要約、カスタマーサポート応答、コードコメント生成で検証した限り、Claude Sonnet 4.6の85%前後の品質が出た。敬語や業界用語の扱いはGPT-5.4のほうが滑らかだが、一般的なビジネス文書は問題なく書ける。E2Bは若干カタコトが混じるので、高品質を求めるならE4B以上を推奨する。

Q2: 商用サービスに組み込む場合、何か制限はありますか?

Apache 2.0ライセンスなので、原則として制限はほぼない。有償サービスに組み込んでも、再配布しても、自社製品の一部として売っても問題ない。ただし「Gemma 4を使用している」旨の表示(著作権表示)は義務があり、改変した場合は変更内容を明記する必要がある。細かい点はLICENSE.txtを必ず確認してほしい。

Q3: GPUがない環境でも動かせますか?

E2BとE4BならCPUでも動く。16GB以上のRAMがあれば実用速度は出る。筆者のMacBook Air M2(16GB)でE4BをCPUで動かしたとき、生成速度は約8 tok/s。チャット用途としては十分だ。ただし26B MoE以上はGPUが必須。Apple Siliconなら統合メモリ48GB以上のMac Studioでも動く。

Q4: ファインチューニングはできますか?

できる。公式がLoRAとQLoRAのサンプルをHugging FaceのGemmaページで公開している。E4B程度なら、RTX 4090一枚で約10時間で1エポック回せる規模だ。社内データで追加学習する場合、5000〜10000サンプルあれば明確に品質が上がる。Unslothがライブラリをすでに対応させており、学習速度は素のTransformersより2倍近く速い。

Q5: Gemini APIとGemma 4の違いは?

Geminiは閉じたAPI、Gemma 4は重みが公開されたオープンモデル、というのが本質的な違い。Gemini 2.5やGemini 3のほうが総合性能は上だが、データを外部に出したくない場合や、月のトラフィックが多い場合はGemma 4のほうが合理的。Geminiは研究成果の"縮小版"として公開されているのがGemmaシリーズ、という関係だ。

Q6: Ollama以外に動かす選択肢は?

用途に応じていくつかある。

  • LM Studio: GUIで管理したいとき。モデル切り替えが楽
  • llama.cpp: C++で軽量に動かしたいとき。GGUF形式対応
  • vLLM: 商用APIとして高スループットで運用したいとき
  • MLX: Apple SiliconでネイティブMetal加速を効かせたいとき
  • Google AI Studio: 手軽に試したいだけならホスト版がある

Q7: 他のオープンモデル(Llama 4, Qwen3, DeepSeek)と比べて強みは?

Gemma 4の強みは「小型サイズでの圧倒的な効率」と「ライセンスの自由度」に集約される。Llama 4 MaverickはMoE合計400B超で一般人には重すぎ、DeepSeek V3.2は中国発で法務上のハードルがあり、Qwen3はマルチモーダルで一歩劣る。Apache 2.0で、マルチモーダル対応で、個人でも動く、という三拍子揃っているのはGemma 4だけ、というのが2026年4月時点の位置付けだ。

まとめ|どのサイズを選ぶべきか

Gemma 4は、2026年4月時点で最もバランスのいいオープンモデルだ。Arena #3の31Bから、スマホで動くE2Bまで、どんな用途にも対応するサイズが揃っている。Apache 2.0ライセンスで商用の壁も低い。

筆者の推奨

  • まず触ってみるなら: ollama run gemma4:e4b。ノートPCでも体感できる
  • 本格的に社内運用するなら: 26B MoEをH100インスタンスで。コスパが最も良い
  • 品質最優先なら: 31B DenseをvLLMで。コード生成や数理タスクはこれ一択
  • エッジ・モバイル向けなら: E2B量子化版。スマホで1.6GB程度に収まる

自分ならまずollama run gemma4:e4bを叩くところから始める。インストールから対話開始まで、慣れていれば5分で完了する。性能に納得したら、本番用の26B MoEをクラウドに立てるか、ファインチューニングを検討すればいい。

オープンモデルの動向は速い。Gemma 4.1や次のLlamaが数カ月で出ても不思議ではない。だからこそ、セルフホストで動かす経験を今のうちに積んでおくと、次のモデルに切り替えるときの移行コストが跳ね上がらずに済む。手元で動くAIは、2026年のエンジニアにとって必須装備になりつつある。

関連記事