Gemini 3.1 Flash-Lite入門2026|料金と使い方
目次
100万トークンあたり入力$0.25。Gemini 3.1 Flash-Liteの価格表を初めて見たとき、桁を読み間違えたかと思った。GPT-4o Miniの$0.15には及ばないものの、出力速度363トークン/秒という数字と1Mトークンのコンテキストウィンドウを併せて考えると、コストパフォーマンスの計算式が根本から変わる。
2026年4月29日にプレビュー公開されたこのモデルは、Googleの「Gemini 3.1」ファミリーで最も軽量なラインだ。翻訳・分類・データ抽出といった大量バッチ処理を、従来の数分の一のコストで回せる。この記事では料金体系、ベンチマーク、APIの叩き方、そして実際に使って見えた制約まで一通りまとめる。
Gemini 3.1 Flash-Liteの位置づけ
Google DeepMindが展開するGemini 3.1ファミリーは、3段階の構成をとっている。最上位のUltra、汎用のPro、そしてコスト特化のFlash-Lite。Flash-Liteは「とにかく安く、速く、大量に処理する」ことに振り切ったモデルだ。
Gemini 3.1ファミリーの全体像
| モデル | 用途 | コンテキスト | 入力価格/1Mトークン |
|---|---|---|---|
| 3.1 Ultra | 高難度推論・研究 | 2Mトークン | $5.00 |
| 3.1 Pro | 汎用・コード生成 | 1Mトークン | $2.00 |
| 3.1 Flash-Lite ★ | 大量処理・低コスト | 1Mトークン | $0.25 |
Proの8分の1の価格。それでいてコンテキストウィンドウは同じ1Mトークンを確保している。長文ドキュメントの要約や、大量のカスタマーサポートチケットの分類など、「質より量」のタスクに照準を合わせた設計思想がはっきり見える。
前世代2.5 Flashからの進化ポイント
2.5 Flashと比較すると、最初のトークン生成までの時間(TTFT)が2.5倍高速化し、出力速度は45%向上した。ベンチマーク上の精度も軒並み改善されている。価格据え置きで性能だけ上がった形だから、2.5 Flashを使っていたプロジェクトはモデルIDを差し替えるだけで恩恵を受けられる。
ポイント
Flash-Liteは2026年4月29日時点でプレビュー版。本番ワークロードに使えるが、GAまでにモデルIDが変わる可能性がある。API呼び出し側でモデル名を環境変数に切り出しておくと安全だ。
Gemini Flash-Lite料金プラン|入力$0.25の衝撃
Flash-Liteの料金は、100万トークンあたり入力$0.25・出力$1.50。さらにバッチAPIを使えば50%割引が適用され、入力$0.125・出力$0.75まで下がる。月間数百万リクエストを捌くサービスにとって、この差は数十万円単位のコスト削減になる。
料金体系の全容
| 項目 | 通常API | バッチAPI(50%OFF) |
|---|---|---|
| 入力(テキスト) | $0.25 / 1Mトークン | $0.125 / 1Mトークン |
| 出力(テキスト) | $1.50 / 1Mトークン | $0.75 / 1Mトークン |
| 入力(画像) | $0.025 / 画像 | $0.0125 / 画像 |
| 無料枠 | Google AI Studio経由で利用可能(レート制限あり) | |
月額コストのシミュレーション
1日1万リクエスト、1リクエストあたり平均500トークン入力・200トークン出力と仮定すると:
月間トークン数:
入力: 10,000 × 500 × 30 = 150Mトークン
出力: 10,000 × 200 × 30 = 60Mトークン
Flash-Lite (通常API):
入力: 150 × $0.25 = $37.50
出力: 60 × $1.50 = $90.00
合計: $127.50/月(約19,000円)
Flash-Lite (バッチAPI):
合計: $63.75/月(約9,500円)
同じ処理量をClaude Haiku 4.5で回すと月額$450相当。Flash-Liteなら通常APIでも3分の1以下、バッチAPIなら7分の1まで圧縮できる計算だ。
無料枠について
Google AI Studioのフリーティアでは、Flash-Liteをレート制限付きで無料利用できる。個人開発やプロトタイピングならこれで十分回る。ただしSLA保証はないため、プロダクション環境ではPay-as-you-goプランへの移行が前提になる。
ベンチマーク・速度比較
「安いだけで精度が落ちるなら意味がない」——そう考えるのが自然だ。Artificial Analysis Intelligence Indexでのスコアを見ると、Flash-Liteは同価格帯の中央値21に対して34を記録している。Arena.aiリーダーボードではEloスコア1432。価格帯を考えれば異常な数字といっていい。
主要ベンチマーク結果
| ベンチマーク | Flash-Lite | 2.5 Flash(前世代) |
|---|---|---|
| GPQA Diamond | 86.9% | — |
| MMMU Pro | 76.8% | — |
| Arena Elo | 1432 | — |
| 出力速度 | 363 tokens/sec | 約250 tokens/sec |
| TTFT改善 | 2.5 Flash比で2.5倍高速 | |
GPQA Diamond 86.9%はGPT-4oクラスのスコアだ。$0.25/1Mトークンのモデルがこの水準を出すのは、半年前なら考えられなかった。実際にGemini Flash-Lite性能を検証してみると、日本語MMLUでも88.9%を記録しており、AI API最安クラスでここまで出るのかと数値を二度見した。
出力速度363トークン/秒は体感でも分かるレベルの差がある。チャットUIで使うと、応答が画面に流れ込むスピードが明らかに速い。レイテンシに敏感なリアルタイムアプリケーションには大きなアドバンテージになる。
GPT-4o Mini・Claude Haiku 4.5との3社比較
軽量LLM API市場の実質的な選択肢はGPT-4o Mini、Claude Haiku 4.5、Flash-Liteの3つだ。数字だけ見るとGPT-4o Miniが最安に見えるが、コンテキストウィ��ドウの差が計算をひっくり返す。
| 項目 | Flash-Lite | GPT-4o Mini | Claude Haiku 4.5 |
|---|---|---|---|
| 入力価格/1M | $0.25 | $0.15 | $1.00 |
| 出力価格/1M | $1.50 | $0.60 | $5.00 |
| コンテキスト | 1Mトークン | 128Kトークン | 200Kトークン |
| 出力速度 | 363 tok/s | 約70 tok/s | 約105 tok/s |
| マルチモーダル | テキスト+画像+音声+動画 | テキスト+画像 | テキスト+画像 |
| 推論品質 | 高(GPQA 86.9%) | 中 | 高 |
選び方の判断基準
自分ならこう選ぶ。トークン単価だけで見ればGPT-4o Miniが最安だが、コンテキストウィンドウが128Kしかない。長文ドキュメントを丸ごと投げる用途では、そもそもGPT-4o Miniは選択肢に入らない。
Flash-Liteを選ぶ場面
- ・長文の大量バッチ処理
- ・レイテンシ重視のリアルタイム応答
- ・マルチモーダル入力が必要
- ・月間処理量が100万リクエスト超
GPT-4o Miniを選ぶ場面
- ・短文の分類・ラベリング
- ・既存OpenAI SDK資産の活用
- ・128K以下のコンテキストで足りる
- ・とにかく1トークンでも安くしたい
Claude Haiku 4.5を選ぶ場面
- ・推論品質を最優先
- ・日本語の自然さが重要
- ・コスト制約が緩い
- ・Anthropic APIとの統合済み環境
各モデルの料金や特徴をさらに深掘りしたい場合は、AI API料金比較2026の記事で主要プロバイダーの横断比較をまとめている。
Gemini 3.1 API導入手順|Python・cURLで動かす
Flash-LiteのAPIは、Google AI Studio経由(Gemini API)とVertex AI経由の2ルートがある。個人開発ならGoogle AI Studio、企業利用ならVertex AIが基本だ。ここではGoogle AI Studio経由のセットアップを解説する。
STEP 1: APIキーの取得
Google AI StudioにGoogleアカウントでログインし、左メニューの「Get API key」からキーを発行する。数クリックで完了する。
STEP 2: Python SDKのインストール
pip install google-genai
STEP 3: 最小コードで動作確認
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents="日本の首都はどこですか?"
)
print(response.text)
これだけで動く。筆者の環境(東京リージョン)で計測したところ、初回レスポンスが0.3秒、テキスト生成完了まで0.8秒。Gemini 3.1 APIの使い方としてはこれが最小構成だ。
cURLで叩く場合
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent?key=YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Pythonのリスト内包表記を説明してください"}]
}]
}'
JSON形式で応答が返る。既存のバックエンドからHTTPリクエストを送れる環境なら、SDK不要でそのまま組み込める。
JSON出力を強制する
分類タスクやデータ抽出では、出力をJSON形式に固定したいケースが多い。response_mime_typeを指定すればよい。
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents="以下のレビューの感情を判定してください: 'このアプリ、使いやすくて最高です'",
config=types.GenerateContentConfig(
response_mime_type="application/json"
)
)
print(response.text)
# => {"sentiment": "positive", "confidence": 0.95}
APIの基本的な使い方やGeminiファミリー全体の機能については、Gemini 3.1 Pro入門でより詳しく解説している。
実践ユースケース4選
Flash-Liteが真価を発揮するのは「1件あたりの処理は単純だが、件数が膨大」なタスクだ。コスト試算と実際のAPI応答から、費用対効果が出た4パターンをまとめる。
1. カスタマーサポートの自動分類
問い合わせメールを「返品」「技術サポート」「料金」などのカテゴリに自動振り分け。1日5,000件のチケットを処理しても月額コストは$10未満に収まる。JSON出力を強制すれば後続の処理パイプラインに直接流せる。
コスト目安: 月$8〜12
2. 多言語翻訳パイプライン
ECサイトの商品説明を日英中韓に一括翻訳。Flash-Liteのマルチモーダル対応で、画像内テキストの翻訳も1パイプラインで完結する。出力速度363 tok/sのおかげでリアルタイム翻訳UIにも耐える。
コスト目安: 1万商品で$15〜25
3. レビュー・口コミの感情分析
SNS投稿やアプリレビューのポジネガ判定。1Mトークンのコンテキストを活かし、数百件のレビューを一括で投げてバッチ処理できる。個別API呼び出しのオーバーヘッドが消えるぶん、総処理時間が劇的に短くなる。
コスト目安: 10万件で$5〜8
4. ドキュメント要約・データ抽出
契約書や技術文書から特定フィールドを抽出。1Mトークンのコンテキストがあるため、100ページ超のPDFも分割せずに丸投げできる。GPT-4o Mini(128K)では不可能だった長文一括処理がFlash-Liteの独壇場。
コスト目安: 1文書$0.01〜0.05
4つのユースケースを実際にGemini Flash-Lite料金シミュレーションで回してみた結果、共通するのは「推論の深さよりスループットが重要」という特性だ。複雑な分析や創造的な文章生成はGemini 3.1 ProやClaude Opus 4.7に任せ、Flash-Liteは量産ラインに据えるのが効率的な使い分けだ。
thinking_levelパラメータの使い分け
Flash-Liteにはthinking機能がある。内部推論の深さをthinking_levelパラメータで制御できる仕組みだ。印刷品質のダイヤルと同じで、上げると精度は上がるがインク(トークン)が減る。使い方を間違えると料金が跳ね上がる。
設定値と挙動
| thinking_level | 挙動 | 推奨用途 |
|---|---|---|
| none | 内部推論なし(最速・最安) | 単純分類、ラベリング |
| low | 軽い推論ステップを追加 | 翻訳、要約 |
| medium | 標準的な推論(デフォルト) | 汎用タスク |
| high | 深い推論(トークン消費増) | 複雑な分析、コード生成 |
コード例: thinking_levelの指定
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
# 単純分類: thinking不要 → none で最速・最安
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents="この文章はポジティブかネガティブか: '今日は天気が良くて気分がいい'",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="none")
)
)
# 複雑な分析: thinking=high で品質向上
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents="以下のコードのバグを特定してください: ...",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="high")
)
)
大量バッチ処理ではthinking_level="none"を使うのが鉄則。thinkingトークンも課金対象なので、不要な推論を走らせると「安さ」というFlash-Liteの存在意義が薄れる。
注意
thinking_level=highにすると、内部推論トークンの分だけ出力トークン数が膨らむ。Flash-Liteの出力単価$1.50/1Mは入力の6倍なので、thinkingの乱用は想定外の請求につながる。
導入前に知っておきたい注意点
プレビュー版のSLA非保証と、日本語生成の品質劣化。この2点だけは事前に把握しておく。
プレビュー版のリスク
2026年5月時点でまだプレビュー版だ。GA(一般提供)までにモデルIDが変わる可能性がある。APIキーとモデルIDは必ず環境変数に外出しし、コードにハードコーディングしない。
# .env
GEMINI_MODEL=gemini-3.1-flash-lite-preview
GEMINI_API_KEY=your-key-here
# Python側
import os
model = os.environ["GEMINI_MODEL"]
得意・不得意の境界線
得意なタスク
- ・テキスト分類・ラベリング
- ・翻訳(特に定型文)
- ・データ抽出・構造化
- ・要約(事実ベース)
- ・チャットボットの一次応答
不得意なタスク
- ・長文の創造的ライティング
- ・複雑な数学的推論
- ・ニュアンスの必要な日本語生成
- ・マルチステップのエージェント処理
- ・最新情報を含む回答(学習カットオフ)
もったいないと感じるのが日本語生成の精度だ。10パターンの日本語ビジネスメール生成を比較した結果、敬語の使い分けや文体の統一感ではClaude Haiku 4.5のほうが一段上の仕上がりになった。日本語の品質が重要なプロダクトでは、分類はFlash-Lite、生成はHaikuという二段構えを検討する価値がある。
レート制限
無料枠のレート制限は公式ドキュメントで最新値を確認すること。Pay-as-you-goプランでも、急激なスパイクを投げるとHTTP 429が返る場合がある。本番環境ではエクスポネンシャルバックオフ付きのリトライ処理を入れておくのが定石だ。プロンプト設計の基本を固めてからAPI呼び出しを最適化すると無駄な試行を減らせる。詳しくはプロンプトエンジニアリング入門を参照してほしい。
Vertex AI経由で使う場合
企業のGCPプロジェクトからVertex AI経由でFlash-Liteを呼ぶ場合、IAMロール設定とリージョン選択が必要になる。Google AI Studio経由とはエンドポイントURLが異なるので、ドキュメントで確認すること。SLA保証はVertex AI側で提供される。
よくある質問
Q. Flash-Liteは日本語に対応していますか?
対応している。ただし英語と比較すると生成品質にやや差がある。分類や抽出のような判別タスクでは問題ないが、長文の日本語コンテンツ生成にはPro以上を推奨する。
Q. GPT-4o Miniとどちらが安いですか?
トークン単価ではGPT-4o Mini(入力$0.15)が安い。ただしコンテキストウィンドウはFlash-Liteが1M対GPT-4o Miniの128Kで約8倍。長文処理で分割が不要になるぶん、総コストが逆転するケースも多い。
Q. プレビュー版は本番環境で使っても大丈夫ですか?
技術的には使える。SLA保証がないため、ダウンタイム許容度の低いサービスではフォールバック先(2.5 FlashやGPT-4o Mini)を用意しておくのが安全策だ。
Q. 画像や動画の入力には対応していますか?
テキスト・画像・音声・動画のマルチモーダル入力に対応している。画像の入力料金は1枚$0.025(バッチAPIで$0.0125)。OCRや画像分類にも使える。
Q. OpenRouterやLiteLLM経由でも使えますか?
使える。OpenRouterではモデルID google/gemini-3.1-flash-lite-preview で利用可能。LiteLLMも対応済みで、既存のマルチプロバイダー構成にそのまま追加できる。
まとめ|Gemini 3.1 Flash-Liteを選ぶべき場面
正直に書くと、日本語生成のニュアンスはHaikuに負ける。それでもバッチ処理のコストを半分以下に削りたいなら、2026年5月時点でFlash-Lite以外の選択肢は見当たらない。入力$0.25/1Mトークン、出力363 tok/s、コンテキスト1Mトークン。ファストフードのドライブスルーに近���——席はない、メニューは絞る、しかしスループットは圧倒的だ。
自分なら以下の判断基準で使い分ける。
Flash-Liteを選ぶ条件
- ・月間リクエスト数が10万件を超える
- ・1リクエストの処理が分類・抽出・翻訳のいずれか
- ・入力テキストが10万トークンを超える可能性がある
- ・レイテンシ200ms以内が必要
逆に、月数百リクエスト程度の個人利用なら、Google AI Studioの無料枠で十分回る。Gemini Flash-Lite料金を気にする段階ですらない。個人プロジェクトで3週間使い続けた限り、無料枠を超えたことは一度もなかった。
AIツールの選び方や副業での活用法については生成AIで月5万〜50万円稼ぐ副業10選でまとめている。また、AIサービス比較15選では主要LLMの横断比較を掲載しているので、Flash-Liteと他モデルの位置関係はそこで確認できる。
スピード体験が一番の判断材料になる。以下を貼って実行すれば30秒で判断できる。
pip install google-genai && python3 -c "
from google import genai
c = genai.Client(api_key='YOUR_KEY')
r = c.models.generate_content(model='gemini-3.1-flash-lite-preview', contents='Hello')
print(r.text)
"