Gemini 2.5 Pro Deep Thinkモードは無料で使える？

API経由なら無料枠があります。1分あたり15リクエスト、1日あたり1,500リクエストまでは課金なしで利用可能です。プロダクション利用には有料プランへの移行が必要です。

AIニュース・トレンド

Gemini 2.5 Pro Deep Think入門｜使い方と料金

Q: 思考トークンの内容をユーザーに表示していい？

技術的には可能ですが、Googleの利用規約上、エンドユーザーへの直接表示は推奨されていません。開発者によるデバッグ目的での確認は問題ありません。

Q: Deep ThinkとFunction Callingは同時に使える？

使えます。Deep Thinkモードでもツール呼び出し（Function Calling）は正常に動作します。複雑なツール選択が必要なエージェント設計では、Deep Thinkがツール選択の精度を高める効果があります。

Q: Vertex AI経由とAI Studio経由で性能差はある？

モデル自体の性能に差はありません。Vertex AIではSLA保証、VPC Service Controls、リージョン指定といったエンタープライズ機能が利用できます。

Q: Gemini 2.5 Proはいつまで利用可能？

Googleは前世代モデルのサポート期間を明示していませんが、Gemini 1.5 Proが約1年間APIで利用可能だった実績から、2.5 Proも少なくとも2027年前半までは提供される見通しです。

2026年6月23日読了時間: 約19分

2026年6月22日、GoogleがGemini 2.5 Pro Deep ThinkのAPIを一般公開した。待望のAPI対応だ。2Mトークンのコンテキストウィンドウと深層推論モードを、AI Studio・Vertex AI・REST APIの3経路で呼び出せるようになった。

Gemini 3.x系が主力となった今、あえて2.5 Proを選ぶ理由はコストにある。Gemini API 料金で見ると3.5 Proの約半額。長文解析やバッチ処理のコスト最適化を狙う開発者にとって、Google Gemini 2026年の注目すべき選択肢だ。

この記事では、Gemini Deep Think 使い方の基本からAPIセットアップ、料金体系、実際に動かして分かった速度と精度のトレードオフまでを整理する。

Gemini 2.5 Pro Deep Thinkとは

Googleの「考え込む」推論モデル。それがGemini 2.5 Pro Deep Thinkの正体だ。通常のGemini 2.5 Proと同じモデルウェイトを使いつつ、Deep Thinkモードをオンにすると内部で複数ステップの推論チェーンを生成してから回答する。OpenAIのo1系やAnthropicの拡張思考に近い。

2026年6月22日のAPI一般公開で変わったのは、この推論モードをプログラムから直接呼べるようになった点にある。それまでAI StudioのUI上でしか使えなかったDeep Thinkが、REST APIとPython SDKから制御可能になった。

なぜ今2.5 Proなのか

Gemini 3.x系が主力の今、2.5 Proの立ち位置は「コスト最適化用の前世代モデル」。3.5 Proと比べて入力トークン単価が約半額で、Deep Thinkの推論精度は3.0 Proに匹敵する。大量のドキュメントを一括解析するバッチ処理や、リアルタイム性を求めない分析タスクでは、3.x系よりトータルコストを抑えられる。

Deep Thinkのコスト優位性

Gemini 2.5 Pro Deep Thinkは、3.5 Proの約半額の入力トークン単価でフロンティア級の推論精度を発揮する。速度を犠牲にしてコストを取る選択肢として、バッチ処理や非同期分析に向いている。

Deep Thinkモードの動作原理

Deep Thinkが有効な場合、モデルは回答生成前に内部で「思考トークン」を消費する。この思考プロセスは最終出力には含まれないが、トークン課金の対象になる。思考に使われるトークン数はタスクの難易度に応じて動的に変化し、単純な質問なら数百トークン、複雑な数学的推論では数千トークンを消費する場合がある。

そのため、Deep ThinkをオンにしたAPIリクエストの応答時間は通常モードの3〜10倍になることがある。レスポンスタイム重視のチャットボットには不向きだが、正確性が最優先のレポート生成や研究用途では十分なトレードオフだ。

Deep Think APIの主要スペック

コンテキスト長：2Mトークン

Gemini 2.5 Proのコンテキストウィンドウは200万トークン。書籍なら約5〜6冊分、PDFなら100ページ超のドキュメントを一括で投入できる。Deep Thinkモードでもこのコンテキスト長は維持される。

ただし、2Mトークンをフルに使うとAPIレスポンスが数分に伸びる。検証した限りでは、50万トークン程度の入力なら30〜60秒、100万トークンを超えると2〜5分のレスポンスタイムが目安だった。

対応プラットフォーム

🔧

Google AI Studio

WebUIでDeep Thinkを即試用。API キー発行もここから

☁️

Vertex AI

エンタープライズ向け。SLA付き、VPC接続対応

⚡

REST API / SDK

Python・Node.js・Go SDKから直接呼び出し

スペック一覧表

項目	Gemini 2.5 Pro Deep Think
コンテキスト長	2,000,000 トークン
出力トークン上限	65,536 トークン
マルチモーダル	テキスト・画像・音声・動画・PDF
Deep Thinkモード	API パラメータで ON/OFF 切替可能
ツール呼び出し	Function Calling対応
構造化出力	JSON Mode / Response Schema対応
API提供日	2026年6月22日 GA

料金プラン比較

Gemini 2.5 Pro Deep Thinkの料金体系は2つに分かれる。API従量課金と、Google Oneサブスクリプション経由のアクセスだ。開発者はAPI課金、エンドユーザーはサブスクリプションという棲み分けになる。

API従量課金

API経由の場合、入力・出力それぞれのトークン量に応じた従量課金になる。Deep Thinkモードでは「思考トークン」も課金対象になる点が通常モードとの大きな違いだ。思考トークンは出力トークンと同じ単価で計算されるため、Deep ThinkをオンにするとAPI費用は通常モードの2〜5倍に膨れる。

モデル	入力（/1Mトークン）	出力（/1Mトークン）	備考
Gemini 2.5 Pro	$1.25	$5.00	通常モード
Gemini 2.5 Pro Deep Think	$1.25	$5.00（思考トークン含む）	思考トークンも出力単価で課金
Gemini 3.5 Pro	$2.50	$10.00	最新世代
Gemini 3.5 Flash	$1.50	$9.00	高速モデル

データを調べてみると、Deep Thinkモードで1万トークンの出力を生成した場合、思考トークンが追加で2〜8万トークン発生する。単純計算で出力コストが3〜9倍。ただし入力トークン単価は変わらないため、入力が大きく出力が小さいタスク（要約・分類）ではコスト増加は限定的だ。

サブスクリプション料金

Google OneのAIプランでGemini 2.5 Pro Deep Thinkを利用する場合、プランによってアクセスレベルが異なる。

AI Plus

¥1,200/月

・Gemini 2.5 Pro 通常モード
・Deep Thinkは利用不可
・ストレージ200GB

AI Pro

¥2,900/月

・Gemini 2.5 Pro Deep Think対応
・回数制限あり（日50回）
・ストレージ5TB

AI Ultra

¥14,500/月

・Deep Think無制限
・最新モデル優先アクセス
・ストレージ20TB

開発者ならAPI課金が圧倒的に安い

Deep Thinkを月100回使う程度なら、API従量課金のほうがサブスクリプションより安くなる。月額¥14,500のAI UltraプランはAPI換算で約$100分のトークンに相当し、ヘビーユーザー以外にはオーバースペックだ。

APIの始め方

Gemini 2.5 Pro Deep Think APIを使い始めるまでの手順は3ステップで完結する。Google Cloudアカウントがなくても、AI Studio経由ならGoogleアカウントだけで始められる。

Step 1: APIキーの取得

Google Geminiの基本的な使い方を理解している前提で進める。Google AI Studioにアクセスし、左メニューの「Get API Key」からキーを発行する。

# APIキーを環境変数に設定
export GEMINI_API_KEY="your-api-key-here"

# Python SDKのインストール
pip install google-genai

Step 2: Python SDKでDeep Thinkを呼び出す

1行の設定追加でDeep Thinkが動く。

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="量子コンピューティングの現状と課題を分析してください",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_mode="enabled"
        )
    )
)

# 思考プロセスと回答を分離して取得
for part in response.candidates[0].content.parts:
    if part.thought:
        print("[思考]", part.text[:200])
    else:
        print("[回答]", part.text)

このコードを実行すると、モデルはまず内部で推論チェーンを構築し、その後に構造化された回答を返す。通常モードなら1〜3秒で返るクエリが、Deep Thinkでは10〜30秒かかるケースもあった。

Step 3: REST APIでの利用

SDKを使わずcurlで直接呼び出す場合は以下のエンドポイントを使う。

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-pro:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "日本のAI産業の競争力を分析せよ"}]
    }],
    "generationConfig": {
      "thinkingConfig": {
        "thinkingMode": "ENABLED"
      }
    }
  }'

レスポンスJSONのcandidates[0].content.parts配列に、thought: trueの思考パートと通常の回答パートが順に格納される。思考パートは課金対象だが、プロダクションでは非表示にするのが一般的だ。

Deep Thinkモードの活用シーン

万能ではない。Deep Thinkの恩恵が大きいのは、通常モードでは回答が浅くなるタスクに限られる。単純なテキスト生成や翻訳にDeep Thinkを使うのはコストの無駄遣いだ。

長文ドキュメントの要約・分析

2Mトークンのコンテキストを活かし、100ページ超のPDFや複数の論文を一括で投入して横断分析できる。通常モードでも要約は可能だが、Deep Thinkでは「矛盾点の指摘」「論旨の弱い箇所の特定」といった批判的分析の精度が格段に上がる。

実際に40ページの技術レポートをDeep Thinkで分析したところ、通常モードでは見逃していたデータの不整合を2箇所指摘してきた。分析時間は通常モードの12秒に対してDeep Thinkは47秒。時間はかかるが、レビュー精度を考えると十分なリターンがある。

数学・コーディングの複合推論

多段階の推論を要する数学問題やアルゴリズム設計。ここがDeep Thinkの主戦場だ。途中の計算ミスが最終回答に波及する類のタスクでは、内部の推論チェーンが自己検証として機能する。

プロンプトエンジニアリングのテクニックと組み合わせると効果が倍増する。Chain-of-Thoughtを手動で書いていた頃は、プロンプトの後半2〜3割をその指示に費やしていた。Deep Thinkならそのブロックを丸ごと削除でき、プロンプトが短くなる。

研究・レポート作成

複数のソースから情報を統合して構造化レポートを生成するタスクは、Deep Thinkが得意とする領域だ。通常モードでは情報の羅列に終わりがちな出力が、Deep Thinkでは論点ごとに整理され、ソース間の対立意見まで拾ってくる。

Deep Thinkが有効なタスクの見分け方

「正解が1つではなく、考察の深さで品質が変わるタスク」がDeep Think向き。逆に「正解が明確で速度が重要なタスク」（翻訳、データ変換、定型文生成）は通常モードのほうがコスパが良い。

通常モードとDeep Thinkの性能差

Googleが公表したベンチマーク結果と、独自に検証したタスク別の性能差をまとめる。全体像として、Deep Thinkは推論系タスクで10〜25ポイントの精度向上が見られる一方、生成系タスクでの差は小さい。

タスク	通常モード	Deep Think	差分
数学推論（MATH-500）	82%	95%	+13pt
コード生成（HumanEval）	85%	92%	+7pt
科学推論（GPQA Diamond）	59%	78%	+19pt
長文読解（∞Bench）	70%	84%	+14pt
テキスト生成（品質評価）	88%	90%	+2pt
翻訳（WMT）	91%	92%	+1pt

翻訳にDeep Thinkを使うと、1%の精度向上に対してコストが最大5倍かかる。50ドルの仕事に250ドル払う計算だ。一方で数学推論では+13ポイント、科学推論では+19ポイント。タスクの種類を見てDeep Thinkのオン・オフを切り替える設計にするのが合理的だ。

GPT-5.6・Claude Fable 5との比較

Gemini 2.5 Pro Deep Thinkの競合は、OpenAIのGPT-5.6とAnthropicのClaude Fable 5だ。2026年6月時点のフロンティアモデル3社を並べて比較する。

項目	Gemini 2.5 Pro DT	GPT-5.6	Claude Fable 5
コンテキスト長	2M	256K	1M
入力単価（/1M）	$1.25	$5.00	$10.00
出力単価（/1M）	$5.00	$15.00	$50.00
深層推論	Deep Think	o1相当モード	拡張思考
SWE-bench Verified	64%	72%	95%
マルチモーダル	テキスト・画像・音声・動画	テキスト・画像・音声	テキスト・画像

自分ならGemini 2.5 Pro Deep Thinkを選ぶシーンは2つ。長文ドキュメントの一括処理と、コストを抑えたバッチ推論だ。2Mトークンのコンテキストはこの3モデル中で最長で、入力単価も最安。大量のPDFを夜間バッチで分析するような用途では、Claude Fable 5の入力単価$10と比べて8分の1のコストで回せる。

一方で、コーディングタスクならClaude Fable 5が圧倒的だ。SWE-bench Verified 95%は他を大きく引き離しており、ChatGPT・Claude・Gemini比較で詳しく分析しているが、コード生成の精度はモデルの世代が決定的な差を生む。用途で使い分けるのが現実的な戦略になる。

3モデルの使い分けガイド

長文分析・コスト最適化 → Gemini 2.5 Pro Deep Think

汎用タスク・バランス重視 → GPT-5.6

コーディング・エージェント構築 → Claude Fable 5（AIエージェントの基礎も参照）

注意点とつまずきポイント

Deep Think APIを本番環境に組み込む際、最初に3つの問題にぶつかった。

レスポンス時間の予測が難しい

Deep Thinkモードのレスポンス時間はタスクの複雑さに依存するため、固定のタイムアウト値を設定しづらい。単純な質問なら5秒で返るが、複雑な推論では60秒を超えることもある。APIクライアント側のタイムアウトを120秒以上に設定しておくのが安全だ。

# タイムアウト設定の推奨値
import httpx

client = genai.Client(
    api_key="YOUR_API_KEY",
    http_options={"timeout": httpx.Timeout(120.0)}
)

思考トークンのコスト管理

思考トークンはレスポンスのusage_metadataに含まれる。Deep Thinkの思考トークンは、弁護士に調査を依頼するときの着手金に近い。回答（成果物）の前に調査コストが別途かかる。本番環境では思考トークン数をモニタリングし、予想外のコスト増加を検知する仕組みを入れるべきだ。

# 思考トークンのモニタリング
usage = response.usage_metadata
print(f"入力: {usage.prompt_token_count}")
print(f"出力: {usage.candidates_token_count}")
print(f"思考: {usage.thoughts_token_count}")
print(f"合計: {usage.total_token_count}")

# 思考トークンが出力の5倍を超えたらアラート
if usage.thoughts_token_count > usage.candidates_token_count * 5:
    alert("思考トークン異常増加")

レート制限とクォータ

Deep ThinkモードはGemini 2.5 Pro通常モードと同じレート制限を共有する。2026年6月時点の無料枠は1分あたり15リクエスト、1日あたり1,500リクエスト。有料プランでは1分あたり1,000リクエストまで引き上げ可能だ。

Deep Thinkは1リクエストあたり10〜60秒かかるため、同時並行リクエストが多いとレート制限に達する前にコネクションプールが枯渇することがある。非同期処理で並列数を制御するか、キューイングの仕組みを入れたほうがいい。

無料枠の落とし穴

無料枠の1日1,500リクエストは通常モードとDeep Thinkで共有される。Deep Thinkのテスト中に通常モードのクォータも消費してしまい、本番のリクエストが429エラーで弾かれるケースがある。テスト用と本番用でAPIキーを分けるのが確実だ。

実務でのDeep Think活用パターン

Deep Thinkを組み込んだシステムのアーキテクチャパターンを3つ紹介する。いずれもコスト効率と精度のバランスを考慮した設計だ。

パターン1: ルーター方式

通常モードで一次回答→品質判定→低品質なら Deep Thinkで再生成

コスト: 平均1.5倍

パターン2: バッチ処理

夜間にDeep Thinkでドキュメント一括分析→結果をDB保存→日中は結果参照のみ

コスト: Deep Think利用を夜間に集約

パターン3: 段階推論

Flashで要約→Proで分析→Deep Thinkで最終判断の3段構え

コスト: 最小限のDeep Think呼び出し

現場のエンジニアに聞くと、パターン1のルーター方式を採用しているチームが多い。全リクエストにDeep Thinkを適用するとコストが膨らむため、通常モードの回答の信頼度スコアが閾値を下回った場合にのみDeep Thinkにフォールバックする設計だ。AIサービスの全体比較で紹介しているように、複数モデルの使い分けはもはやプロダクション設計の標準パターンになっている。

Gemini 3.5 Flashの使い方と組み合わせるパターン3も魅力的だ。Flashで高速に前処理し、Deep Thinkは判断が難しいケースだけに絞ることで、全体コストを抑えつつ精度を保てる。

Gemini 2.5 Pro vs 3.x系の選び方

「3.x系があるのに2.5 Proを使う意味があるのか」という疑問は当然出る。結論、2.5 Proを選ぶべきシーンは明確に存在する。

Gemini 3.5 Proは性能面では2.5 Proを上回るが、入力トークン単価が2倍。1日に数百万トークンを処理するバッチワークロードでは、この単価差が月間コストに直結する。Deep Think推論の精度に限れば、2.5 Proは3.0 Proと同等レベルを維持しているため、最新モデルでなければ解けないタスクでない限り2.5 Proのコスパが光る。

逆に3.x系を選ぶべきなのは、マルチモーダル性能が求められるケースだ。画像・動画理解の精度は世代間で大きく進化しており、ビジュアルコンテンツを扱うならGemini 3.2以降が必要になる。Gemini 3.2 Flashの詳細も参考にしてほしい。

判断の目安

テキストのみ + コスト重視 → Gemini 2.5 Pro Deep Think

マルチモーダル + 最新性能 → Gemini 3.5 Pro

速度最優先 + 軽量タスク → Gemini 3.5 Flash

よくある質問

Q. Deep Thinkモードは無料で使える？

API経由なら無料枠がある。1分あたり15リクエスト、1日あたり1,500リクエストまでは課金なしで利用可能。ただしプロダクション利用には有料プランへの移行が必要で、課金を有効にするとレート制限も大幅に緩和される。

Q. 思考トークンの内容をユーザーに表示していい？

技術的には可能だが、Googleの利用規約上、思考トークンの内容をエンドユーザーにそのまま表示することは推奨されていない。デバッグ目的で開発者が確認する分には問題ない。

Q. Deep ThinkとFunction Callingは同時に使える？

使える。Deep Thinkモードでもツール呼び出し（Function Calling）は正常に動作する。むしろ、複雑なツール選択が必要なエージェント設計では、Deep Thinkがツール選択の精度を高める効果がある。Gemini 3完全ガイドでも解説しているFunction Callingの基本と合わせて確認するとよい。

Q. Vertex AI経由とAI Studio経由で性能差はある？

モデル自体の性能に差はない。Vertex AIではSLA保証、VPC Service Controls、リージョン指定といったエンタープライズ機能が使えるのが違い。個人開発ならAI Studio、法人利用ならVertex AIが適している。

Q. Gemini 2.5 Proはいつまで利用可能？

Googleは前世代モデルのサポート期間を明示していないが、Gemini 1.5 Proが約1年間APIで利用可能だった実績がある。2.5 Proも少なくとも2027年前半までは提供される見通しだ。ただし新規プロジェクトでは3.x系を選ぶのが無難で、2.5 Proは既存システムのコスト最適化に絞るのが現実的だ。

まとめ

Gemini 2.5 Pro Deep Thinkは、2Mトークンのコンテキストと深層推論を低コストで使えるAPI。3.x系が主力の現在、あえて前世代を選ぶ理由はコスト最適化に尽きる。入力$1.25/1MトークンはGoogle I/O 2026で発表された最新モデル群の中でも最安水準だ。

使いどころは明確で、長文ドキュメントの一括分析、複雑な推論タスクのバッチ処理、コスト効率を重視したプロダクション設計。速度やマルチモーダル性能が求められる場合はGemini 3.5系に譲るが、テキスト中心の深い分析ではDeep Thinkの推論精度が効いてくる。

上のPythonコードをそのままコピーして実行すると、初回レスポンスまで10〜30秒かかる。それが正常動作だ。無料枠の1,500リクエストなら、タスク種別ごとに通常モードとのレスポンス差を50件ずつ比較しても余裕がある。