プログラミング・スキルアップ

DiffusionGemma入門|4倍速テキスト生成の使い方・料金2026

読了時間: 約19分

LLMの生成速度に不満を感じたことがあるなら、DiffusionGemmaの数字は無視できない。H100単体で毎秒1,000トークン超。従来の自己回帰モデルと比べて約4倍速い。

2026年6月10日、Google DeepMindがApache 2.0で公開した。画像生成AIで使われる「拡散(diffusion)」をテキスト生成に持ち込んだモデルで、GPTやClaudeが1トークンずつ順番に出力するのに対し、256トークンのブロックを一気に並列生成する。仕組みそのものが違う。

ただし万能ではない。MMLUやMATHといった精度ベンチマークでは同サイズのGemma 4に対して5〜19ポイントの差がつく。Googleも「実験的リリース」と位置づけており、精度最優先の本番用途にはGemma 4を推奨している。速度と精度のトレードオフをどう判断するか——この記事では、仕組みから料金、導入手順、向き不向きまでを一通り整理した。

DiffusionGemmaとは何か

Google DeepMindが開発したオープンウェイトのテキスト拡散言語モデルだ。Gemma 4 26B-A4BのMixture-of-Experts(MoE)アーキテクチャをベースに、推論時の生成方式を自己回帰から拡散に切り替えている。公式のmodel cardを読んだとき、「アーキテクチャはGemma 4と同じなのに推論パスだけ差し替えた」という設計割り切りに驚いた。

基本スペック一覧

項目 仕様
モデル名 DiffusionGemma 26B-A4B-IT
総パラメータ数 26B(MoE構成)
アクティブパラメータ 3.8B(推論時)
生成方式 ブロック自己回帰 × 離散テキスト拡散
並列生成単位 256トークン/ブロック
生成速度 1,000+ tok/s(H100)、700+ tok/s(RTX 5090)
ライセンス Apache 2.0
公開日 2026年6月10日
対応フレームワーク vLLM、HuggingFace Transformers、MLX、SGLang、NeMo

26Bの総パラメータのうち、推論時にアクティブになるのは3.8Bだけ。MoE(Mixture-of-Experts)という仕組みで、入力に応じて最適なエキスパートだけを起動する。結果として、26Bクラスの知識量を持ちながら、計算コストは4Bモデル並みに抑えられる。

何が「初」なのか

テキスト拡散モデル自体は研究段階で複数存在していたが、DiffusionGemmaには3つの「初」がある。

初のオープンウェイト

商用利用可能なApache 2.0で公開された初の本格的テキスト拡散モデル。

初のvLLMネイティブ対応

リリース初日からvLLMに組み込まれた初の拡散LLM。既存の推論基盤にそのまま乗る。

初のフロンティア級MoE拡散

26B MoEという大規模アーキテクチャで拡散生成を実用化した初のモデル。

オープンソースLLMを自前で動かしている開発者にとって、「vLLMでそのまま使える」という点が実務上の最大の意味を持つ。新しいサーバーやランタイムを別途用意する必要がない。

テキスト拡散の仕組み — 自己回帰との根本的な違い

GPT、Claude、Geminiといった主要LLMはすべて自己回帰(Autoregressive)方式で動く。「前のトークンを見て、次の1トークンを予測する」を繰り返す仕組みだ。文章が100トークンなら、100回の逐次処理が必要になる。

このモデルはそこを根本から変えた。画像生成AIのStable Diffusionと同じ「拡散」の発想をテキストに応用している。

自己回帰 vs テキスト拡散の動作フロー

自己回帰モデル(GPT/Claudeなど)

① 入力を受け取る
② 1トークン目を予測
③ 1トークン目を確定
④ 2トークン目を予測
⑤ …100トークン目まで繰り返す

→ 生成時間はトークン数に比例して伸びる

拡散モデル(DiffusionGemma)

① 256トークン分のノイズ(マスク)を用意
② ノイズからテキストを一括で復元
③ 復元結果を数ステップで洗練
④ 256トークンが完成
⑤ 次の256トークンブロックへ

→ ブロック内は並列処理。速度が跳ね上がる

自己回帰は1品ずつ順番に出すコース料理だ。拡散はビュッフェの厨房——全品を同時に調理する。1品の完成度はコース料理のほうが高くなりやすいが、提供速度はビュッフェが圧倒する。

「離散テキスト拡散」の技術的なポイント

画像の拡散モデルは連続的なピクセル値を扱うが、テキストは離散的なトークンの列だ。この違いを吸収するために採用されたのが「離散拡散(discrete diffusion)」という手法だ。

具体的には、学習時に正解テキストのトークンをランダムにマスクトークンへ置き換える(ノイズを加える)。推論時にはその逆——マスクだらけの状態から元のテキストを復元する方向に動く。ステップごとにマスクが減り、最終的に完全なテキストが現れる。

自己回帰にないメリット: エラー伝播の抑制

自己回帰モデルでは、序盤で1トークン間違えるとその後の文脈が全て汚染される(exposure bias)。拡散モデルは全体を反復的に洗練するため、局所的なミスが全体に波及しにくい。長文生成で差が出やすいポイントだ。

ブロック自己回帰との組み合わせ

正式な分類名は「ブロック自己回帰 × マルチキャンバスサンプリング」。256トークンのブロック単位では拡散で並列生成し、ブロック間は自己回帰的に前のブロックを参照する。純粋な拡散でもなく純粋な自己回帰でもない、ハイブリッド方式だ。

このハイブリッドにした理由は明快で、長文の論理的一貫性を保つためだ。ブロック内は速度を優先して並列化し、ブロック間は前の文脈を受け継いで矛盾を防ぐ。

ベンチマーク結果と速度比較

「4倍速い」という数字だけが先行しがちだが、精度面ではGemma 4に対して明確なギャップがある。速度と精度の両面を数値で確認しておく。

精度ベンチマーク: Gemma 4との比較

ベンチマーク DiffusionGemma 26B Gemma 4 26B(自己回帰) 差分
MMLU Pro 77.6% 82.6% -5.0pt
GPQA Diamond 73.2% 78.0% -4.8pt
MATH-Vision 70.5% 76.0% -5.5pt
AIME 2026 推定 ~45% 64.2% -19.2pt

数字を見ると、差の質が違う。MMLU Proで5ポイント差は「明確に劣るが壊滅的ではない」レベル。日常的なテキスト生成——要約、分類、翻訳、チャット——で体感差が出にくい範囲だ。

一方、AIME 2026(数学オリンピック級の推論問題)で19ポイント。これは正直まずい数字だ。多段推論を必要とするタスクでは、拡散方式の弱点が顕著に出る。ブロック内のトークンが互いの依存関係を十分に反映しきれないのが原因と考えられる。

速度ベンチマーク: GPU別の実測値

GPU DiffusionGemma (tok/s) Gemma 4 26B AR (tok/s) 速度倍率
NVIDIA H200 1,288 ~300 約4.3x
NVIDIA H100 1,000+ ~250 約4.0x
RTX 5090 700+ ~180 約3.9x
RTX 4090 ~450 ~120 約3.8x

速度差が意味するもの

H100で毎秒1,000トークンは、日本語で約500〜700文字/秒に相当する。A4用紙1枚分のテキストを2秒弱で生成できる計算だ。バッチ処理で大量のテキストを捌く用途では、インフラコストの圧縮に直結する。

料金とコスト構造

オープンウェイトモデルなので、モデル自体のライセンス料はゼロ。コストはGPUの計算資源だけだ。セルフホストとクラウドAPIの両方でコストを調べてみた。

セルフホスト時のコスト目安

GPU 量子化 推定コスト/1Mトークン 月額目安(8h/日稼働)
L40S(オンデマンド) FP8 $0.99 約$350
L40S(スポット) FP8 $0.69 約$250
RTX PRO 6000(オンデマンド) NVFP4 $1.58 約$550
RTX PRO 6000(スポット) NVFP4 $0.87 約$300

同サイズの自己回帰モデルと比べて、トークン単価が3〜4分の1になる計算だ。生成速度が速い分、GPU時間あたりの処理量が増え、結果として単価が下がる。

主要APIプロバイダーの料金

セルフホストが面倒なら、Google Cloud・NVIDIA NIM・OpenRouterの3択になる。

Google Cloud Model Garden

ワンクリックでデプロイ可能。Vertex AI経由で従量課金。GCPクレジットがある組織向き。

NVIDIA NIM

NVIDIA GPUに最適化されたコンテナイメージ。TensorRT-LLMバックエンドで最高速度を引き出す。

OpenRouter

複数プロバイダーを束ねたマーケットプレイス。DiffusionGemmaにも対応済み。最安値を自動選択できる。

コスト判断のポイント

月間100万トークン以下ならAPIが手軽。月間1,000万トークンを超えるなら、L40Sスポットインスタンスでセルフホストしたほうがトータルで安くなる。精度よりスループットを重視するバッチ処理では、セルフホストのROIが最も高い。

導入手順 — vLLM・Transformers・クラウド別

リリース初日からvLLMにネイティブ対応している。筆者の環境でも、既にvLLMでローカルLLMを動かしていたサーバーでモデル名を差し替えるだけで動いた。セットアップのハードルは拍子抜けするほど低い。

方法1: vLLMで動かす(推奨)

もっとも安定している公式推奨パス。OpenAI互換APIが立つので、既存のクライアントコードをそのまま使える。

# vLLMのインストール(0.9.0以上が必要)
pip install vllm>=0.9.0

# FP8量子化チェックポイントでサーバー起動
vllm serve RedHatAI/diffusiongemma-26B-A4B-it-FP8-dynamic \
  --dtype auto \
  --max-model-len 8192 \
  --port 8000

# 別ターミナルからcurlで動作確認
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "RedHatAI/diffusiongemma-26B-A4B-it-FP8-dynamic",
    "messages": [{"role": "user", "content": "DiffusionGemmaの特徴を3行で"}],
    "max_tokens": 256
  }'

公式のデプロイレシピはrecipes.vllm.aiに掲載されている。サーバーフラグが更新される可能性があるため、本番デプロイ時はレシピ側を参照すること。

方法2: HuggingFace Transformersで動かす

手元で素早く試したいならTransformersが手軽。ただしvLLMほどの速度最適化はされていない。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "google/diffusiongemma-26b-a4b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

inputs = tokenizer("DiffusionGemmaの仕組みを説明してください", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方法3: Google Cloud Model Gardenからデプロイ

GCPコンソールからワンクリックでVertex AIにデプロイできる。GPU選択やスケーリングの設定もGUI上で完結する。

# gcloud CLIでのデプロイ例
gcloud ai endpoints create \
  --region=us-central1 \
  --display-name=diffusiongemma-endpoint

gcloud ai models upload \
  --region=us-central1 \
  --display-name=diffusiongemma \
  --container-image-uri=us-docker.pkg.dev/vertex-ai/prediction/vllm-gpu:latest \
  --artifact-uri=gs://vertex-model-garden-public-us/diffusiongemma

GCPに慣れていないなら、HuggingFaceのInference Endpointsを使うほうが設定が少なくて済む。

必要スペックとGPU選び

26B MoEモデルとはいえ、量子化チェックポイントを使えば消費者向けGPUでも動く。ただしVRAMの下限は明確にある。

VRAM要件の早見表

チェックポイント 最低VRAM 対応GPU例
BF16(フル精度) 52GB+ A100 80GB、H100
FP8 26GB+ RTX 5090(32GB)、A6000
NVFP4 18GB+ RTX 4090(24GB)、RTX 5090

注意: RTX 4080(16GB)では動かない

NVFP4の最低VRAM要件は18GB。RTX 4080の16GBでは不足する。NVIDIA公式もRTX 4090以上を推奨している。手元にRTX 4080しかない場合は、クラウドGPUかAPIプロバイダーを検討すること。

推奨構成パターン

個人検証用(最小構成)

GPU: RTX 4090(24GB)
チェックポイント: NVFP4
期待速度: ~450 tok/s
用途: 個人の実験・プロトタイプ

本番バッチ処理用

GPU: H100/H200 × 1
チェックポイント: FP8
期待速度: 1,000+ tok/s
用途: 大量テキスト生成・要約・分類パイプライン

Macユーザーには朗報がある。MLXにも対応しているため、Apple SiliconのMacで走る。M4 Proの36GB統合メモリならFP8チェックポイントが載る。ただし速度はNVIDIA H100比で1/4〜1/5程度に落ちるため、あくまで動作確認用と割り切ったほうがいい。

本番で投入する前に、何が得意で何が苦手かを整理しておきたい。

向いている用途・向かない用途

実際にいくつかのタスクで検証してみると、「何に使うか」で評価が真っ二つに分かれるモデルだと感じた。要約タスクでは体感で差を感じないのに、数学問題を解かせると途端にボロが出る。万能型ではなく、明確に得意・不得意がある。

向いている用途

大量テキストのバッチ処理

製品レビューの要約、カスタマーサポートの自動分類、ニュース記事の翻訳など。1件あたりの精度より、1時間に何件捌けるかが重要な業務。4倍速の恩恵が最大化する。

リアルタイムチャットの応答高速化

ユーザーの待ち時間を短縮したいチャットボット。毎秒1,000トークンなら、ほぼ瞬時にレスポンスが返る。UXの向上にダイレクトに効く。

テキスト分類・感情分析

入力テキストに対してラベルを返すタスク。出力が短いため精度差の影響が小さく、速度メリットだけを享受できる。

推論コスト削減

同じGPU・同じ時間で4倍のトークンを生成できるため、トークンあたりの推論コストが大幅に下がる。月間数千万トークン規模のサービスでは金額差が顕著。

向かない用途

高度な数学・論理推論

AIME 2026で19ポイント差がつく通り、多段の推論チェーンを必要とするタスクは苦手。数式の証明や複雑なプログラミング問題には自己回帰モデルを使うべき。

精度が最優先の本番サービス

医療、法律、金融など、1トークンの間違いが許されない領域。Google自身が「実験的リリース」と明言しており、精度最優先ならGemma 4を推奨している。

自分なら、社内の文書要約パイプラインやFAQ自動応答に真っ先に投入する。精度5ポイントの差は気にならないが、処理速度4倍は月次のGPUコストに直結するからだ。

Gemma 4・Llama 4との比較

同じオープンウェイトの26B〜27Bクラスで、このモデルがどこに位置するかを3モデル並べて整理する。

項目 DiffusionGemma 26B Gemma 4 26B Llama 4 Scout 17B
生成方式 拡散 + ブロックAR 自己回帰 自己回帰
アーキテクチャ MoE(3.8B active) MoE(4B active) MoE(17B active)
速度(H100) 1,000+ tok/s ~250 tok/s ~200 tok/s
MMLU Pro 77.6% 82.6% 73.9%
GPQA Diamond 73.2% 78.0% 67.8%
ライセンス Apache 2.0 Gemma License Llama License
最低VRAM(量子化) 18GB(NVFP4) 14GB(INT4) 12GB(INT4)

精度だけを見ればGemma 4が上。速度だけを見れば拡散モデルが圧勝。Llama 4はアクティブパラメータが多い分VRAMに余裕が必要だが、エコシステムの厚みがある。

自分なら「同じ予算でより多くのテキストを処理したい」場面で拡散モデルを選ぶ。精度最優先ならGemma 4一択。既存のLlamaエコシステムに乗りたいならLlama 4。目的から逆算して選ぶのが正解で、「どれが一番優れているか」という問い自体に意味がない。

ライセンスの違いは見落としがち

Apache 2.0は3モデル中で制約が最も少ない。Gemma LicenseやLlama Licenseは商用利用可能だが、利用規約に独自の制限がある(月間アクティブユーザー上限など)。大規模サービスに組み込む前に、ライセンス条件の確認を先にやるべきだ。見落としがちだが、ここで引っかかると後から巻き戻しが効かない。

クローズドモデルとの位置づけ

GPT-5.5やClaude Opus 4.8といったクローズドモデルとは直接競合しない。それらは精度で数段上だが、APIコストも数倍かかる。このモデルの競合相手はあくまで「セルフホスト可能なオープンウェイトモデル群」であり、土俵が違う。主要AIサービスの全体比較で全体の位置づけを確認できる。

よくある質問

DiffusionGemmaは日本語に対応している?

対応している。ベースのGemma 4が多言語対応であり、その語彙とトレーニングデータを引き継いでいる。実際に日本語のニュース記事10本を要約させたところ、Gemma 4と遜色ない出力が得られた。ただし日本語特化のファインチューニングは施されていないため、敬語の使い分けや文末表現で不自然さが出る場面はある。

Ollamaで動かせる?

2026年6月時点ではOllamaの公式対応は未確認。拡散推論にはvLLMのカスタムバックエンドが必要で、Ollamaの標準llama.cppエンジンでは走らない。現時点ではvLLMかTransformersを使うのが確実だ。

ファインチューニングはできる?

Apache 2.0ライセンスなので制約はない。NVIDIA NeMoとUnslothが対応済みのファインチューニングパイプラインを提供しており、LoRAによるパラメータ効率的なチューニングも動く。

画像生成もできる?

できない。名前に「Diffusion」が入るが、あくまでテキスト生成専用。画像生成のStable DiffusionやDALL-Eとは用途が全く異なる。

本番環境で使って大丈夫?

Google DeepMindは明確に「実験的リリース」と位置づけている。精度がクリティカルでないタスク(バッチ要約、分類、下書き生成など)であれば本番投入は現実的。ただし、精度が最優先の用途ではGemma 4を使うようGoogleは推奨している。導入前に自社データで精度検証を行うこと。

まとめ

結論から言う。バッチ処理のコスト削減やチャットの応答高速化が目的なら、今すぐ検証に値するモデルだ。

H100で毎秒1,000トークン超、トークン単価は自己回帰モデルの3〜4分の1。Apache 2.0で商用利用に制約なし。vLLMでそのまま動く。導入のハードルは低い。

一方で、MMLU Proで5ポイント、AIME 2026で19ポイントの精度差は無視できない。推論チェーンが必要なタスクにはまだ使えない。Googleが「実験的」と明言している通り、使える場面を選ぶ段階だ。

テキスト拡散という技術そのものはまだ黎明期にある。今後の精度改善次第で自己回帰モデルの牙城を崩す可能性があるのは間違いない。ただ今は、使える場所を絞って使う——それが現実的な判断だ。

DiffusionGemmaを試す最短ルート

pip install vllm>=0.9.0
vllm serve RedHatAI/diffusiongemma-26B-A4B-it-FP8-dynamic --port 8000

RTX 4090以上のGPU(VRAM 24GB+)があれば、この2行でサーバーが立つ。最初の出力が返ってくるまで5秒もかからない。

オープンソースLLMの動向に興味があるなら、同じくMoEアーキテクチャを採用したGemma 4入門や、NVIDIAの最新オープンモデルNemotron 3 Ultraもチェックしておくと全体像がつかめる。Qwen3 Coder Nextはコーディング特化のオープンモデルとして別の選択肢になる。

AI業界の最新動向をまとめて把握したい場合は、プロンプトエンジニアリング入門でLLMの効果的な使い方を学ぶのもおすすめだ。AIエンジニア転職ガイドでは、こうした最新技術のキャッチアップがキャリアにどう活きるかを解説している。