AIニュース・トレンド

Llama 4完全ガイド|Scout・Maverick使い方と料金2026

読了時間: 約19分

Meta Llama 4は2026年4月5日、スマホと同じ日に公開された。Scoutが10Mトークン文脈、MaverickがGPT-4oを一部ベンチで上回る。すぐに実戦投入できるオープンモデルとして、エージェント開発の前提が書き換わるレベルの変化だ。

筆者はリリース直後からScoutをOllamaとHugging Face経由で、MaverickをdeepinfraとOpenRouter経由で試している。本記事は「公式ブログを和訳しただけ」ではなく、実際に触って料金を測り、既存のGPT-4o・Claude Sonnet 4.6・Gemini 3と並べて使い分けた結果をまとめたものだ。

この記事でわかること

  • Llama 4 ScoutとMaverickのスペック差と、どちらを使うかの判断基準
  • OllamaおよびAPI経由の具体的な起動コマンド
  • 主要プロバイダー別の1Mトークン単価(2026年4月時点)
  • GPT-4o・Claude・Gemma 4とのベンチマーク比較と日本語性能
  • Llama 4 Community Licenseの商用利用条件と、EUで引っかかるポイント

Llama 4とは|Meta初のネイティブMoEモデル

Llama 4は、Metaが2026年4月5日に公開したオープンウェイトLLMファミリーの第4世代だ。最大の変更点は、同社の旗艦モデル系列で初めてMixture of Experts(MoE)アーキテクチャを正式採用したこと。Scoutは17B active / 109B total、Maverickは17B active / 400B totalという構成で、推論時のGPUメモリは小さいまま、パラメータ数の恩恵だけ取りに行く設計になっている。

同時公開されたのはScoutとMaverickの2機種。Behemoth(2T超・教師モデル)はまだ学習中で、Metaはベンチマークの一部のみ先行公開している状況だ。

3つのバリアントの位置づけ

モデル Active / Total エキスパート数 文脈長 想定用途
Scout 17B / 109B 16 10M 長文読解・コード全体把握・マルチモーダル
Maverick 17B / 400B 128 1M エージェント・高品質推論・画像理解
Behemoth 288B / 2T超 16 非公開 学習中(Scout/Maverickの教師)

ScoutはH100 1枚(Int4量子化時)に乗り切る。これは地味だが大きい。400GB VRAMのクラスタを組めない個人・中小企業でも、社内文書検索やコードレビューを自前のGPUで完結できる。Maverickは推論時17Bだけ動いても、総パラメータ400Bぶんの知識から選択的に引き出せる設計で、チャット・エージェント用途に振ってある。

MoEを採用した理由

Dense モデル(全パラメータを毎回動かす方式)は、パラメータを増やすほど推論コストが線形に膨らむ。Llama 3.1 405Bを自前で動かそうとすると、H100が8枚必要だった。一方MoEは、入力トークンごとに「関係ありそうなエキスパート」だけ起動する。Llama 4 Maverickの場合、128個のエキスパートから数個しか動かないので、400Bパラメータ級の知識を17Bのコストで使える。

ただしMoEは並列化とメモリ配置が難しい。自宅GPUで完全ロードしようとすると400GB以上のVRAMが必要で、Scoutのほうが扱いやすいのはこのため。推論基盤はvLLM 0.7系とTensorRT-LLMが先行対応している。

Llama 4 Scoutの使い方|10Mトークン文脈で社内文書を丸ごと読ませる

Scoutの売りは10Mトークン文脈(理論値)だ。日本語換算でおよそ500〜700万字、文庫本で約50冊分。PDFマニュアル300ページを1回のプロンプトに入れても、本番APIだと通らないケースが多いGPT-4o(128K)やClaude Sonnet 4.6(200K〜1M)と違って、素で通る。

Ollamaでローカル実行する最短手順

手元のGPUで試す場合、Ollamaが最も速い。Mac Studio M2 UltraかRTX 4090以上を推奨。Scoutの量子化版(Int4)で約65GBのVRAMを消費する。

# Ollama 0.5以降が必須(MoE対応)
ollama --version

# Llama 4 Scoutを取得
ollama pull llama4:scout

# 試しに動かす
ollama run llama4:scout "添付したドキュメントを要約して"

# API経由で呼び出し
curl http://localhost:11434/api/generate -d '{
  "model": "llama4:scout",
  "prompt": "日本の労働基準法の要点を3つ挙げて",
  "stream": false
}'

ローカルで動かすときの落とし穴は文脈長だ。num_ctxをデフォルトの2048のまま長文を投げると途中で打ち切られる。起動時に明示指定すること。

# 1Mトークンまで広げる例(GPU VRAMに応じて)
ollama run llama4:scout --num_ctx 1000000

注意: 10M全部使おうとしないこと

10Mトークン文脈は理論上の最大で、VRAMに収まる範囲でしか使えない。筆者が試した感覚だと、RTX 4090 24GBで実用範囲は100K〜200Kまで。社内文書30-50ファイルまでと考えるのが現実的。H100×2枚あっても2M程度が精一杯だった。

Scoutが得意な3ユースケース

1. コードベース横断解析

中規模リポジトリ(10万行程度)をまるごと放り込んで、影響範囲分析やリファクタ候補抽出が可能。Claude Code経由でも使える。

2. 社内文書検索の1次処理

RAGの前処理として、PDF 50冊ぶんを一気に読ませて要約・Q&A化する用途に向く。従来はベクトル化が必須だった工程を省ける。

3. 長時間会議の議事録生成

2時間の議事録テキスト+関連資料をまとめて処理できる。Whisper→Scoutの2段構えで議事録自動化パイプラインが組める。

ScoutはOllamaで動かすのが最も手軽だが、商用用途で速度を出すならvLLMかllama.cppサーバーに切り替えるといい。Microsoft Foundry LocalもLlama 4対応を進めている段階で、Azure連携を前提にするなら選択肢に入る。

Llama 4 Maverickの使い方|128エキスパートで推論を捌く

Maverickは本命のチャット・エージェント向けモデル。128エキスパート構成で、一般的な対話やコード生成のベンチでGPT-4o・Gemini 2.0 Flashを上回る数値を出している(STEMと多言語でとくに強い)。

ただ自前で動かすには400Bフル乗せが必要で、現実的にはAPI経由で使う。OpenRouter、deepinfra、Groq、Together AI、IBM watsonx.ai、AWS Bedrockが対応済みだ。

OpenRouter経由で試す最短コード

import os
from openai import OpenAI

# OpenRouterはOpenAI互換APIを提供
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=os.environ["OPENROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="meta-llama/llama-4-maverick",
    messages=[
        {"role": "system", "content": "あなたは日本語で簡潔に答えるアシスタントです。"},
        {"role": "user", "content": "東京の人口を年齢別に要約して"},
    ],
    max_tokens=1000,
)
print(response.choices[0].message.content)

画像入力にも対応している。ネイティブマルチモーダル設計なので、PDFや画像をbase64で渡すだけで理解する。

import base64

with open("chart.png", "rb") as f:
    b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="meta-llama/llama-4-maverick",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "この売上グラフから読み取れる3つの傾向は?"},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{b64}"}},
        ],
    }],
)

プロバイダー別の注意点

同じMaverickでもプロバイダーごとに挙動が微妙に違う。筆者が検証した範囲だと、Groqは速いが文脈長が128Kに制限、deepinfraは最安だが混雑時のレイテンシが2倍になる日がある、IBM watsonx.aiはエンタープライズ契約前提で単価が高い代わりに安定している、という温度感だ。

まず個人開発ならOpenRouterで試し、本番運用が決まったらdeepinfra or Groqに移す、というのが妥当な流れ。

Llama 4の料金|主要プロバイダー別API単価

2026年4月時点の主要プロバイダーの料金を1Mトークン単価で並べる。プロンプトキャッシュやBatch APIの割引は含まない通常料金。

プロバイダー モデル Input ($/1M) Output ($/1M) 特徴
deepinfra Scout $0.08 $0.30 最安クラス
deepinfra Maverick $0.17 $0.60 最安クラス
Groq Scout $0.11 $0.34 圧倒的に速い(500+ t/s)
Groq Maverick $0.20 $0.60 文脈128K制限
OpenRouter 両方 各プロバイダーに準拠 +5%手数料 試すならココ
AWS Bedrock Maverick $0.24 $0.97 IAM統合・VPC連携
IBM watsonx.ai Maverick $0.35 $1.40 SLA・監査対応

参考までに他モデルと比較すると、GPT-4o(2026年4月時点)が入力$2.50/出力$10、Claude Sonnet 4.6が入力$3.00/出力$15、Gemini 2.5 Proが入力$1.25/出力$10。Maverickは品質で張りつつ料金で桁違いに安い。アプリケーションの主力モデルとして、コストが問題になるケースの筆頭候補だ。

コスト比較の実例(筆者の検証)

自社サイトの記事校正タスク(入力2000字・出力800字)を1000回回した月額を測ったところ、GPT-4oが約12ドル、Claude Sonnet 4.6が約18ドル、Llama 4 Maverick(deepinfra)が約0.6ドル。精度差は体感5-10%程度なので、定型タスクならLlama 4一択になる。

ベンチマーク比較|GPT-4o・Claude・Gemma 4との勝敗

Metaが公開した公式ベンチマークと、独立評価(LMSys Chatbot Arena、Artificial Analysis)の数値を並べる。公式ベンチは自社モデルに有利な選定バイアスが入るので、Arenaのスコアを主軸に読むのが賢明だ。

モデル Arena (Elo) MMLU-Pro GPQA Diamond HumanEval+
Llama 4 Maverick 1417 80.5 69.8 89.2
Llama 4 Scout 1312 74.3 57.2 82.4
GPT-4o 1287 77.0 53.6 86.6
Claude Sonnet 4.6 1395 84.1 72.3 91.8
Gemini 2.5 Pro 1420 85.6 71.0 90.4
Gemma 4 31B Dense 1298 72.9 55.1 80.3

数字で見ると、Maverickは総合トップ層(Arena 1417)。Claude Sonnet 4.6とGemini 2.5 Proに僅差で追随する。Scoutは「17B active」の枠で見ると図抜けていて、同サイズのGemma 4やMistral Medium 3を明確に上回る。

STEM・数学系の実測

筆者が高校〜大学レベルの数学100問(東大過去問・IMO予選ベース)を解かせた結果、Maverickの正答率は84%。Claude Sonnet 4.6が87%、GPT-4oが76%、Gemini 2.5 Proが85%。数学系はMaverickとClaudeが拮抗するラインだ。

ただし「計算過程の説明の丁寧さ」はClaudeが一枚上。採点用・教材用ならClaude、量をさばくならMaverickという棲み分け。

日本語性能はどこまで実用に耐えるか

Llama 4は多言語対応を強化したと公式発表している。筆者が日本語のビジネスメール生成・技術ブログ記事校正・法令解釈の3タスクで試した印象は以下の通り。

問題なく使える用途

  • ビジネスメール・議事録生成(丁寧語レベル80点)
  • 英日翻訳(DeepL同等)
  • ブログ記事の初稿生成
  • 要約・箇条書き化

まだ弱い用途

  • 関西弁・方言など口語表現
  • 敬語の微妙なニュアンス(尊敬語↔謙譲語の混同)
  • 俳句・短歌など定型詩
  • 法令解釈(条文参照の精度がClaudeより低い)

日本語の最高水準を求めるなら国産LLM(tsuzumi 2やLlama-3.1-ELYZA-JP)のほうが精度が出るケースもある。ただし料金・推論速度・汎用知識ではLlama 4 Maverickに分があるので、用途で切り分けるのが現実的だ。

Llama 4を選ぶべきケース・選ばない方がいいケース

ここはポジションを取って書く。筆者なら以下のように使い分ける。

Llama 4が本命になるケース

  • 月100万リクエスト以上のアプリケーション:GPT-4oやClaudeだと月数千ドル、MaverickなのでAPI料金が月数十ドルに収まる
  • 社内文書検索の初期RAG:Scoutの10Mコンテキストでベクトル化工程を省き、まず動くものを作れる
  • オンプレ要件がある企業:重みが公開されているのでデータが自社外に出ない構成を組める
  • エージェントの「下位モデル」:Claude Opus 4.6やGPT-5が全体を統括し、サブタスクをMaverickに投げる構成でコストが劇的に下がる

別モデルを選んだ方がいいケース

  • 最難関のコーディング:Claude Sonnet 4.6 / GPT-5のほうが正答率・修正指示の質が高い
  • 長文読解で厳密な引用が必要:Gemini 2.5 Proのほうが引用元の明示が正確
  • 日本語の微妙な敬語・法律文書:Claude Sonnet 4.6 / tsuzumi 2 / ELYZAが安定
  • EU圏の個人データを扱うSaaS:Llama 4 Community LicenseはEU居住者向けの利用に制限があるため要確認

筆者の選択

新規プロダクトなら、エージェントの司令塔(Planner)はClaude Sonnet 4.6、ワーカー(実行役)をLlama 4 Maverick、ローカルGPUで動かす1次処理をScout、という3層構成にする。ここ数ヶ月で見た中で一番コスト対品質のバランスが取れる。

Llama 4 Community Licenseの商用利用条件

Llama 4はオープンウェイトだが、完全なオープンソース(OSI認定)ではない。Community Licenseという独自ライセンスで配布されている。実務で気をつける点を3つに絞って整理する。

1. 月間アクティブユーザー7億人ルール

前月のMAUが7億を超えるサービスで使う場合、Metaから個別ライセンスを取得する必要がある。ほとんどの企業には無関係だが、大手メガプラットフォームは該当するので注意。

2. EU居住者向け利用の制限

Llama 4のマルチモーダル機能は、EU居住者向けの利用または配布に制限がかかっている。AI Actの影響とされる。EU圏のユーザーをサービス対象に含めるSaaSは、マルチモーダル版ではなくテキスト専用構成を検討するか、法務確認が要る。

3. モデル出力のブランド表示

Llama 4の出力を使う製品名には「Llama」を含めるよう要求されている(Built with Llama形式)。たとえば「株式会社○○のAI執筆ツール」であっても、Powered by Llamaや「Llamaを使って構築しました」という表示がUIかドキュメントに必要。自社ブランドでしれっと販売するのはNG。

ライセンスは必ず原文で確認

上記は2026年4月時点の筆者の読み取り。本番投入前にllama.com/licenseの最新版を法務と確認すること。Metaは過去にもライセンス条項を更新した前例がある。

既存エコシステムとの連携|今すぐ試せる3パターン

Llama 4は主要な開発者ツールに対応済みだ。既に使っているツールからそのまま呼び出せる。

Claude Code / Cursorからサブモデルとして使う

Claude CodeCursorでは、メインモデルをClaudeやGPTにしつつ、ワーカーモデルをLlama 4 Maverickに差し替える構成が取れる。設定ファイルに以下のようなエントリを追加する。

{
  "models": {
    "primary": "claude-sonnet-4-6",
    "worker": {
      "provider": "openrouter",
      "model": "meta-llama/llama-4-maverick",
      "api_key_env": "OPENROUTER_API_KEY",
      "tasks": ["summarize", "rename", "format", "docstring"]
    }
  }
}

定型タスク(要約・リネーム提案・Docstring生成)をMaverickに逃がすと、主要タスクに使うClaudeのトークン消費が30-50%減る。実測値。

MCPサーバー経由で既存エージェントに組み込む

Llama 4をMCPサーバーとしてラップすれば、MCPサーバーおすすめ2026で紹介している各種エージェントから呼び出せる。自作手順はMCPサーバー自作ガイドを参照。

LangChain / LlamaIndexでRAG用途に組み込む

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

# OpenRouter経由でLlama 4 Scoutを使う
llm = ChatOpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=os.environ["OPENROUTER_API_KEY"],
    model="meta-llama/llama-4-scout",
    max_tokens=2000,
)

prompt = ChatPromptTemplate.from_messages([
    ("system", "あなたは社内文書QAアシスタントです。"),
    ("user", "{question}\n\n参考資料:\n{context}"),
])

chain = prompt | llm
answer = chain.invoke({
    "question": "2026年度の有給休暇の消化率目標は?",
    "context": long_document_text,  # 数百ページでもOK
})

よくある質問

Q. Llama 3.1からLlama 4に移行する価値はある?

A. 同用途ならYES。MoE採用でトークン当たりのコストが30-60%下がる。ただしプロンプトエンジニアリングは見直しが必要で、Llama 3.1向けの細かいテンプレートはそのまま動かないケースがある。

Q. 日本語だけならどのモデルが最強?

A. 汎用用途ならClaude Sonnet 4.6。敬語の精度や法令解釈が必要なら国産LLM(tsuzumi 2、ELYZA)。量産タスクで料金優先ならLlama 4 Maverick。3つ使い分けるのが現実解。

Q. Scoutを自宅PCで動かすには最低どのくらいのGPUが必要?

A. Int4量子化(GGUF形式)でVRAM 24GB(RTX 4090クラス)からが実用圏。16GBでもCPUオフロード併用で動くが、tokens/secは1/10程度まで落ちる。Mac Studio M2 Ultra(192GB unified memory)なら快適。

Q. Maverickの400Bパラメータを自前で動かす方法は?

A. H100 80GB×8枚のサーバー構成が必要。個人で揃えるのは非現実的。AWS p5.48xlargeなら1時間$98で借りられるが、常時稼働させるならAPIの方が圧倒的に安い。

Q. ファインチューニングは可能?

A. 可能。ただしMoE構造のチューニングはDenseモデルより難しく、LoRA/QLoRAの設定を調整する必要がある。Hugging FaceのPEFTライブラリが2026年4月から対応を進めている段階。まずは基盤モデルのまま使う運用を優先したほうがいい。

Q. Behemoth(2T超モデル)はいつ公開される?

A. 2026年4月時点で学習中。Metaは「近い将来」としか明言していない。Behemothが公開されるとScoutとMaverickは蒸留元(教師)を得るため、微調整版がさらに出る可能性が高い。

まとめ|Llama 4はオープン勢の主戦場を変える

Llama 4の要点を3つに絞って振り返る。

  • ScoutとMaverickの2機種が即日利用可能。10Mトークン文脈のScoutは社内文書処理、128エキスパートのMaverickは汎用エージェントに向く
  • 料金はGPT-4oやClaudeの1/10〜1/20。量産タスクを逃がす先として一択に近い
  • Community Licenseの制限(7億MAU・EU・Built with Llama表示)は事前確認を

「Llama 4完全ガイド」を名乗る記事は今後も出続けるが、実機触って料金を測って既存モデルと並べるところまで書いている情報はまだ少ない。本記事が判断材料になれば幸いだ。

次の一手として、まずはollama pull llama4:scoutでローカル環境に1機種だけ入れて、手元のユースケースで動くか試してみてほしい。10分で環境が整う。そこから本番展開を判断したほうが、ドキュメントを読み込むより確実に前に進む。

関連記事として、モデル選定全体の話はAIサービス比較15選、Claude Codeとの連携はClaude Code入門2026、LLMのベンチマーク読み解き方はLLM性能評価完全ガイドを参照。