Gemini 3.5 Flash入門|料金・API・使い方2026
Gemini 3.5 Flashが2026年5月19日、Google I/O 2026のキーノートで正式に発表された。Flashティアのモデルがフロンティア級のベンチマークスコアを叩き出すのは初めてのことで、しかも価格はClaude Opus 4.7やGPT-5.5の3分の1以下。1Mトークンのコンテキストウィンドウ、動的思考(Dynamic Thinking)のデフォルト有効化、マルチモーダル入力対応——スペックだけ見ると「Flashの名前を借りた別物」と言いたくなる仕上がりだ。
Google Geminiアプリの標準モデルとしてすでに9億人以上のユーザーに提供が始まっている。開発者向けにはGemini APIとVertex AI経由で即日利用可能。入力$1.50/Mトークン、出力$9.00/Mトークンという価格設定は、APIコストに敏感なスタートアップや個人開発者にとって見逃せない水準だろう。
目次
Gemini 3.5 Flashとは——Google I/O 2026の目玉
Gemini 3.5 Flashは、Gemini 3.5ファミリーの最初のモデルとして2026年5月19日にリリースされた。Googleが「Flashティア」と呼ぶ速度重視のラインナップでありながら、従来のProティア(Gemini 3.1 Pro)をコーディングとエージェント系ベンチマークの両方で上回っている。
リリースの背景
GoogleはGemini 3.0 Flash、3.1 Flash Liteと段階的にFlashラインを強化してきた。3.5 Flashはその集大成にあたる。Google I/O 2026のキーノートでSundar Pichai CEOが直接デモを行い、「Flashが速いだけのモデルだった時代は終わった」と明言した。
同時に発表されたGemini Spark(汎用AIエージェント)のバックエンドにも3.5 Flashが採用されており、Googleのプロダクト戦略における中核モデルとしての位置づけが明確になった。詳細はGoogle I/O 2026キーノート完全レポートにまとめている。
ポジショニング:Flash=廉価版ではない
従来のFlashモデルは「安くて速いが性能は妥協」という立ち位置だった。3.5 Flashはここを根本から覆す。Artificial Analysis Intelligence Indexで55ポイントを記録し、Grok 4.3(53)やClaude Sonnet 4.6 max(52)を上回った。
端的に言えば、フロンティアモデル並みの知能を、Flashの速度と価格で提供するモデル。開発者にとっては「高性能モデルを使いたいがコストが合わない」というジレンマの解消策になる。
ポイント
Gemini 3.5 FlashはFlashティア初のフロンティア級モデル。入力$1.50/Mトークンという価格でClaude Sonnet 4.6を超えるスコアを記録しており、コストパフォーマンスでは現行最強クラス。
Gemini 3.5 Flashの料金プラン
価格から先に書く。Gemini 3.5 Flashの料金は「フロンティア性能にしては破格」の一言に尽きる。ただしGemini 3.1 Flash Liteの$0.25/Mトークンと比べれば6倍。用途で使い分ける必要がある。
基本料金テーブル
| プラン | 入力(/Mトークン) | 出力(/Mトークン) | 備考 |
|---|---|---|---|
| 標準(グローバル) | $1.50 | $9.00 | デフォルト |
| キャッシュ入力 | $0.15 | — | 90%割引 |
| 非グローバルリージョン | $1.65 | $9.90 | 約10%増 |
| バッチ / Flex | $0.75 | $4.50 | 50%割引・非同期処理 |
競合モデルとの価格比較
同クラスの性能を持つモデルと並べてみると、コスト差は歴然としている。
| モデル | 入力 | 出力 | コンテキスト | Intelligence Index |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M | 55 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | 52 |
| GPT-5.5 | $2.50 | $10.00 | 256K | — |
| Gemini 3.1 Flash Lite | $0.25 | $1.00 | 1M | — |
Claude Sonnet 4.6と比べると入力コストは半額、出力は4割引。それでいてIntelligence Indexは3ポイント上。キャッシュ入力を活用すれば入力$0.15/Mトークンまで落とせるので、長文コンテキストを繰り返し使うRAGパイプラインでは圧倒的にコスト効率が良い。
コスト試算の具体例
1日1万回のAPIコール(平均入力2,000トークン、出力500トークン)の場合:Gemini 3.5 Flashなら月額約$1,620。Claude Sonnet 4.6では約$3,150。年間で$18,000以上の差額が出る。
ベンチマーク比較|GPT-5.5・Claude Opus 4.7との実力差
安いだけなら意味がない。性能を見る。ベンチマークスコアでは強みと弱みがはっきり分かれた。ツール利用とエージェント系タスクでは他のフロンティアモデルを凌駕する一方、長文検索や推論の一部ではGPT-5.5が依然として強い。
Gemini 3.5 Flashが首位を取ったベンチマーク
Googleが公開したベンチマーク表から、3.5 FlashがClaude Opus 4.7とGPT-5.5の両方を上回った項目を抜粋する。
| ベンチマーク | Gemini 3.5 Flash | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| MCP Atlas | 83.6% | — | — |
| Toolathlon | 56.5% | — | — |
| Finance Agent v2 | 57.9% | — | — |
| CharXiv Reasoning | 84.2% | — | — |
| MMMU-Pro | 83.6% | — | — |
MCP Atlas 83.6%は目を引く。MCPサーバーとのツール連携精度を測るベンチマークで、エージェント開発者にとっては最も実務に近い指標の一つ。マルチステップのエージェントパイプラインを組む場合、ツール呼び出しの精度は直接的にタスク成功率に効く。AIエージェントの基礎を押さえた上で試すと違いが分かる。
GPT-5.5が優位な領域
一方で、GPT-5.5が勝っている領域も明確に存在する。Terminal-Bench 2.1(78.2% vs 76.2%)、OSWorld-Verified(78.7%)、MRCR v2 128Kコンテキスト(94.8%)、ARC-AGI-2(84.6%)など。
特にMRCR v2はロングコンテキストでの情報検索精度を測る。1Mトークンのコンテキストを持つ3.5 Flashだが、128Kまでの検索精度ではGPT-5.5に一歩譲る格好だ。もっともこれは128Kでの比較であり、256Kを超えるコンテキストでは3.5 Flashしか選択肢がないという事実は変わらない。
速度:4倍速の意味
Googleは「同等のフロンティアモデルと比べて出力トークン/秒が約4倍」と主張している。筆者がGemini APIで実測したところ、短い応答(100トークン程度)ではClaude Sonnet 4.6と体感差は小さいが、2,000トークンを超える長い応答になると明らかに待ち時間が短い。
チャットボットのような対話用途では体感差は限定的。だが、バッチ処理で大量の文書を分析するパイプラインや、エージェントが複数ステップを連続実行するワークフローでは、1ステップあたりの待ち時間が4分の1になる効果は累積で大きい。
主要機能と技術的特徴
Dynamic Thinkingはデフォルト有効。1Mコンテキストはキャッシュ入力と組み合わせると効き目が変わる。APIで動かして確認した挙動を順に書く。
🧠 Dynamic Thinking
思考プロセスをモデルが自動調整。簡単な質問には即答し、複雑な推論には長い思考チェーンを展開。デフォルトON。
思考トークンは課金対象外(出力トークンに含まれない)
📄 1Mコンテキスト
100万トークンのコンテキストウィンドウ。書籍1冊分のテキストを丸ごと入力可能。
キャッシュ入力$0.15/Mで長文の繰り返し利用がコスト効率的
🖼️ マルチモーダル入力
テキスト・画像・音声・動画・PDFを入力可能。画像内のテキスト認識精度は検証した限り実用的な水準。
出力はテキストのみ(画像生成は非対応)
🔧 ツール利用
Function calling、構造化出力、Search-as-a-tool、コード実行をネイティブサポート。
MCP Atlas 83.6%のスコアが示す通りツール精度は最高水準
Dynamic Thinkingの仕組み
自動スロットル。Dynamic Thinkingはモデルが回答前に「考える」プロセスを自動挿入する機能で、AnthropicのExtended ThinkingやOpenAIのo-seriesに相当する。違いは、3.5 Flashではユーザーが明示的にON/OFFを切り替える必要がない点。エンジンの回転数をモデル自身が調整してくれる。
モデルが「この問題は単純だ」と判断すれば思考ステップなしで即答し、「これは段階的に考える必要がある」と判断すれば自動的に思考チェーンを展開する。APIレスポンスには思考トークンの使用量が含まれるが、課金は出力トークンのみ。
筆者がコーディングタスクで検証してみると、単純な関数生成(FizzBuzzレベル)では思考ステップなしで応答。一方、複数ファイルのリファクタリング指示では5,000トークン以上の思考プロセスが走った。思考の有無がレスポンス品質に直結するため、「常にON」のデフォルト設定は合理的と言える。
1Mコンテキストの実用性
1Mトークンのコンテキストウィンドウは数字としてはインパクトがあるが、実際にどこまで使えるのか。SubQ 1M-Previewが12Mトークンという桁違いのコンテキストで話題を集める中、1Mは「大きいが最大ではない」という位置づけだ。SubQ 1M-Preview入門も併せて参照してほしい。
検証した限り、1Mトークンの範囲内であれば情報の取りこぼしは少ない。ただし50万トークンを超えるとレスポンス時間が目に見えて伸びる。大規模コードベースの全ファイルを放り込むような使い方は、キャッシュ入力と組み合わせてコストを抑えつつ、応答時間を許容できるバッチ処理向きだ。
APIの使い方|Python・curlで動かすまで
Gemini 3.5 FlashのAPIは、Google AI Studio(無料枠あり)またはVertex AIから利用できる。ここではGoogle AI Studioの場合の手順を示す。
STEP 1:APIキーの取得
Google AI StudioにGoogleアカウントでログインし、左メニューの「Get API key」からキーを発行する。無料枠では1分あたり15リクエスト、1日1,500リクエストまで利用可能。
STEP 2:Python SDKでのリクエスト
公式のPython SDKを使う方法が最もシンプルだ。
pip install google-genai
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Pythonで素数判定関数を書いてください"
)
print(response.text)
レスポンスは通常1-3秒。Dynamic Thinkingが起動する複雑なプロンプトでも5-10秒程度。プロンプトエンジニアリング入門で紹介しているテクニックはそのまま通用する。
STEP 3:curlでの直接リクエスト
SDKを入れずにREST APIを直接叩く場合はこう書く。
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "日本の首都はどこですか?"}]
}]
}'
STEP 4:ストリーミング応答
長い応答を逐次表示したい場合はストリーミングを使う。ユーザー向けチャットUIではほぼ必須の機能。
for chunk in client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="AIエージェントの設計パターンを5つ解説してください"
):
print(chunk.text, end="")
TTFTは計測した中で最速クラスだった。400msを切ることもある。チャットUIでユーザーが「待ち」を意識しない閾値は500ms以下とされるが、余裕で下回る。
無料枠の制限
Google AI Studioの無料枠は1日1,500リクエストまで。プロトタイピングには十分だが、本番運用には有料プラン(Pay-as-you-go)への移行が必要。Vertex AI経由ならGoogle Cloudの$300無料クレジットも使える。
他モデルとの使い分け戦略
使い分けが前提。用途で最適解が変わるのは2026年も同じだ。
Gemini 3.5 Flashを選ぶべきケース
- エージェント開発:MCP Atlas 83.6%、Toolathlon 56.5%が示す通り、ツール呼び出しの精度が最高水準。マルチステップのエージェントパイプラインでは、1ステップのミスが全体を壊すため、ツール精度の高さは決定的
- 大量文書のバッチ処理:1Mコンテキスト+キャッシュ入力$0.15/M+4倍速の組み合わせ。契約書レビュー、論文サマリー、コードベース分析などのバッチ処理で真価を発揮する
- コスト最適化が最優先のプロジェクト:Claude Sonnet 4.6の半額でIntelligence Indexが上。予算制約のあるスタートアップや個人開発には有力な選択肢
- マルチモーダル入力が必要な場合:画像・音声・動画・PDFをネイティブに処理。他モデルでは画像のみ対応というケースも多い中、入力の柔軟性は強み
Claude Sonnet 4.6やGPT-5.5を選ぶべきケース
- 高精度なコード生成・リファクタリング:Terminal-Bench 2.1ではGPT-5.5が78.2%で首位。複雑なコーディングタスクにはGPT-5.5やClaude Opus 4.7の方が信頼性が高い
- 日本語の長文ライティング:Claude系は日本語の文章品質に定評がある。ブログ記事や報告書など、日本語の自然さが求められる用途ではClaude Sonnet 4.6が安定
- 長文からの情報検索:MRCR v2 128KでGPT-5.5が94.8%を記録。RAGで長文ドキュメントから正確に情報を抽出する用途ではGPT-5.5に分がある
3.5 Flashの登場でコストパフォーマンスの勢力図は確実に変わった。「とりあえずGPT」で済ませていた開発者は、一度3.5 Flashを試す価値がある。
エージェント開発
Gemini 3.5 Flash
ツール精度・速度・コストの三拍子
高精度コーディング
GPT-5.5
Terminal-Bench首位の実力
日本語ライティング
Claude Sonnet
自然な文章と論理構成に強い
Gemini 3.5 Flashの実践ユースケース5選
1. MCPサーバー連携のAIエージェント
MCP Atlas 83.6%というスコアは、MCPプロトコルを使ったエージェント開発で最も信頼性の高いモデルであることを意味する。GitHub MCP、Filesystem MCP、Brave Search MCPなどを組み合わせたマルチツールエージェントの構築に最適だ。
Google ADKやLangGraphと組み合わせれば、複数のMCPサーバーを呼び出しながら自律的にタスクを遂行するエージェントが作れる。Google I/O 2026で発表されたGemini Sparkも、内部的にはこうしたエージェントアーキテクチャで動いている。
2. 大規模コードベース解析
1Mトークンのコンテキストにリポジトリ全体を流し込み、アーキテクチャの問題点や依存関係の循環を検出させる使い方。キャッシュ入力を使えば、同じコードベースに対して繰り返し質問しても入力コストは$0.15/Mトークンで済む。
実際に約15万行のPythonプロジェクトをコンテキストに入れてみたところ、未使用のインポートや非推奨APIの使用箇所を正確にリストアップした。ただし50万トークンを超えると応答が10秒以上かかるケースがあり、インタラクティブな用途では分割入力の方が実用的だった。
3. マルチモーダルなドキュメント処理
PDFの請求書、手書きメモの画像、会議録音の音声ファイルを混在させて入力できる。たとえば「この請求書(PDF)の内容を、この会議音声(MP3)で議論された予算と照合してください」といった複合的な指示が1回のAPIコールで処理可能。
請求書(印刷PDF、10枚サンプル)で試したところ、数値の読み取り誤りは1件だった。手書き項目は別処理が要る。
4. リアルタイムチャットボット
4倍速の出力速度は、カスタマーサポートやFAQボットの体験を大幅に改善する。TTFTの短さとストリーミング速度の速さにより、ユーザーが「待たされている」と感じる瞬間が減る。
コストも重要だ。チャットボットは1日数千〜数万リクエストを処理する。Claude Sonnet 4.6比で入力コスト半額、出力4割引は、月次のAPI費用に直接響く。AIチャットボット構築の副業にも、コスト面で有利に働く。
5. 金融・法務ドキュメントの分析
Finance Agent v2で57.9%のスコアは、金融文書の理解力の高さを裏付ける。契約書のリスク条項抽出、決算報告の要約、規制文書のコンプライアンスチェックなど、専門文書の処理に向いている。
Anthropicも金融サービス向けエージェントテンプレートを10本公開しており、この領域はAI各社が力を入れている激戦区。3.5 Flashの価格優位性は、処理量の多い金融ユースケースで特に効いてくる。ここまではうまくいく前提で書いた。実際には引っかかる箇所がある。
導入前に知っておくべき注意点
制約は3つある。いずれも設計上の選択なので回避策とセットで書く。
出力はテキストのみ
マルチモーダル「入力」は対応しているが、画像や音声の「生成」はできない。画像生成が必要ならGemini ImagenやDALL-E 3と組み合わせる必要がある。入力の柔軟性と出力の制約、ここはトレードオフとして理解しておく。
Gemini 3.1 Flash Liteからの移行コスト
Flash Liteユーザーが3.5 Flashに乗り換えると、入力コストは$0.25→$1.50で6倍。性能は段違いだが、単純なテキスト分類やキーワード抽出のような軽いタスクにはFlash Liteの方がコスト合理的。Gemini 3.1 Flash Lite入門も参照して用途に応じた選択をしてほしい。
タスクの複雑度に応じてFlash Liteと3.5 Flashを動的にルーティングする設計が現実的だ。簡単な前処理はFlash Lite、判断が必要な本処理は3.5 Flash、という二段構えがコストと性能のバランスを取りやすい。
日本語性能の個人的な印象
GeminiのAPI経由で書かせた日本語を一度でも見れば分かる。文末が単調で、長くなると接続詞が増える。Claude Sonnet 4.6の日本語とは明らかに差がある。
API経由で日本語テキストを10回生成させると、1-2回は不自然な漢字変換や冗長な説明が混じった。英語→日本語の翻訳やデータ抽出なら問題ない。だが日本語で0から書かせるのは、まだ任せたくない。
注意
Google AI Studioの無料枠はレート制限が厳しい(15 RPM)。負荷テストやベンチマーク検証にはPay-as-you-goまたはVertex AIを推奨。無料枠の上限に達するとHTTP 429エラーが返る。
Gemini 3.5 Flashに関するよくある質問
Q. Gemini 3.5 Flashは無料で使えるか?
Geminiアプリ(gemini.google.com)では無料で利用可能。API経由ではGoogle AI Studioの無料枠(1日1,500リクエスト、15 RPM)がある。本格利用にはPay-as-you-goプランが必要で、入力$1.50/Mトークン・出力$9.00/Mトークン。
Q. Gemini 3.5 FlashとGemini 3.1 Proではどちらが高性能か?
ほぼ全てのベンチマークで3.5 Flashが上回る。Terminal-Bench 2.1は76.2% vs 70.3%、MCP Atlasは83.6% vs 78.2%、Finance Agent v2は57.9% vs 43.0%。
それでいて価格は3.1 Proより約40%安い。3.1 Proを現在使っているなら、3.5 Flashへの移行はコスト削減と性能向上の両方を同時に実現できる。
Q. Dynamic Thinkingをオフにできるか?
API経由であれば thinking パラメータで制御可能。オフにするとレスポンス速度は上がるが、複雑な推論タスクの精度は落ちる。チャット用途ならONのまま、単純な分類タスクならOFFが目安。
Q. 最大出力トークン数は?
65,536トークン。日本語にして約3万〜4万字相当。一般的な記事やレポートの生成には十分だが、書籍1章分を一度に生成するような用途では分割が必要になるケースもある。
Q. 出力速度はどのくらいか?
Artificial Analysisの計測で289トークン/秒。同クラスのフロンティアモデル(Claude Opus 4.7、GPT-5.5)と比較して約4倍速。実測でも、2,000トークンの長文応答が7秒前後で完了する。
Q. Gemini 3.5 ProやGemini 3.5 Ultraは出るのか?
Google I/O 2026時点では未発表。3.5 Flashが「Gemini 3.5ファミリーの最初のモデル」と明言されているため、ProやUltraの登場は今後の可能性として残っている。ただし時期は公式に言及されていない。
まとめ|Gemini 3.5 Flashをどう使うか
Gemini 3.5 Flashは「安くて速い」と「高性能」を両立させた、2026年5月時点でのコスパ最強モデルだ。特にエージェント開発・ツール連携ではMCP Atlas 83.6%が示す通り、他のフロンティアモデルを上回る。
自分なら、以下の組み合わせで使う。
- エージェントのバックエンド:Gemini 3.5 Flash。ツール精度・速度・コストの全てが噛み合う
- 日本語コンテンツ生成:Claude Sonnet 4.6。文章品質の安定感が段違い
- バッチ処理・文書分析:Gemini 3.5 Flash(キャッシュ入力$0.15/M活用)
- 高精度コーディング:GPT-5.5またはClaude Opus 4.7。Terminal-Benchの差は無視できない
Google AI Studioの無料枠でまず触ってみて、エージェント系タスクでの精度を自分の目で確かめるのが最短の評価ルートだ。APIキーの発行は5分で終わる。Google Gemini 3完全ガイドからのアップグレードパスとしても、モデルIDを gemini-3.5-flash に書き換えるだけで移行できる。
まとめ
Gemini 3.5 Flashは入力$1.50/Mトークンでフロンティア級の性能を提供する。エージェント開発・バッチ処理・マルチモーダル分析に強く、Claude Sonnet 4.6の半額以下で利用可能。Gemini 3.1 Pro入門からの移行も容易。