Gemini 3.1 Pro入門|料金・性能・API活用2026
ARC-AGI-2で77.1%。前世代Gemini 3 Proの31.1%から2.5倍のスコアジャンプを叩き出したモデルがGemini 3.1 Proだ。2026年2月19日のリリース以降、ベンチマーク上位を席巻し、4月1日には無料プレビューが終了して完全有料化に移行した。
結論、コスパ×推論性能の軸では2026年4月時点で最も合理的な選択肢だ。その根拠を数字で示す。
目次
Gemini 3.1 Proの概要——Gemini 3からの飛躍
2026年2月19日にGoogleがリリースしたフラッグシップモデル。前世代Gemini 3 Proと同じ価格帯を維持しながら、推論性能を2倍以上引き上げた。既存ユーザーはそのままアップグレードされたため、移行コストはゼロ。
主な進化ポイント
推論性能2倍超
ARC-AGI-2で31.1%→77.1%。LiveCodeBench ProのEloは2439→2887。単なるバージョンアップではなくアーキテクチャレベルの改善が入っている。
価格据え置き
入力$2.00/1Mトークン、出力$12.00/1Mトークン。Gemini 3 Proと同額。性能2倍で価格同じなら実質半額。
thinking_level制御
LOW / MEDIUM / HIGHの3段階で推論の深さを切り替える。MEDIUMは3.1 Proで初めて導入されたレベルだ。
100万トークンコンテキスト
コードベース丸ごと、1時間超の動画、数百ページの財務レポートを1回のプロンプトに収められる。
Gemini 3シリーズ全体の概要はGoogle Gemini 3完全ガイドで解説しているが、3.1 Proは「同じ値段で中身が別物」と言っていい。特にコーディングタスクと複雑な推論でのジャンプが目立つ。
対応モダリティ
テキスト、画像、音声、動画、ファイルの5種類を入力に受け付ける。出力はテキストのみだが、Googleの他サービス(Imagen 4など)と組み合わせれば画像生成パイプラインも組める。
Import Memory機能も前世代から引き継いでいる。過去の会話コンテキストを跨いで文脈を保つ仕組みで、ChatGPTのメモリ機能と同系統。長期プロジェクトの相談相手として使うと効く。
ベンチマーク比較——数字で見る実力
ベンチマークだけでモデルの良し悪しは決まらない。だが、どの領域で強いかを把握する指標としては有用だ。Gemini 3.1 Proは16ベンチマーク中13項目でトップスコアを記録している。
主要ベンチマーク比較表
| ベンチマーク | Gemini 3.1 Pro | Gemini 3 Pro | GPT-6 | Claude Opus 4.7 |
|---|---|---|---|---|
| ARC-AGI-2 | 77.1% | 31.1% | — | — |
| GPQA Diamond | 94.3% | — | — | — |
| SWE-Bench Verified | 80.6% | — | — | — |
| LiveCodeBench Pro (Elo) | 2887 | 2439 | 2393 | — |
| HumanEval | — | — | 95%超 | — |
注目すべき数字
ARC-AGI-2は「暗記では解けない新規問題への対応力」を測るベンチマーク。Gemini 3 Proの31.1%が77.1%に跳ね上がったのは、パターンマッチの精度ではなく推論アーキテクチャ自体の改善を示唆している。
コーディング性能に注目する理由
筆者が最初にコーディングタスクを試した理由は単純で、これが一番差がつく領域だからだ。Elo 2887はGPT-5.2の2393から494ポイント上。同じコーディング系ベンチマークで比較するなら現時点で最上位のスコアだ。SWE-Bench Verified 80.6%は実際のGitHubイシューの8割を自動修正できる計算になる。
Claude Opus 4.7と���比較は後述の「3モデル比較」セクションで詳しく扱うが、エキスパートレベルの評価タスク(Humanity's Last Exam)ではClaude側が上回っている。
料金体系——無料枠廃止後の実コスト
2026年4月1日、Gemini 3.1 Proの無料プレビューが終了した。それ以前はGemini Developer APIで無料枠があったが、現在はすべてのリクエストが課金対象になっている。料金設定自体はGemini 3 Proから据え置きなので、既存ユーザーの請求額は変わらない。
API料金の全体像
| 項目 | 〜200Kトークン | 200K超 |
|---|---|---|
| 入力(1Mトークンあたり) | $2.00 | $4.00 |
| 出力(1Mトークンあたり) | $12.00 | $18.00 |
| コンテキストキャッシュ | 入力の25%割引 | |
200Kトークンを超えると入力が2倍、出力が1.5倍に跳ね上がる。100万トークンのフルコンテキストを使う場合、1回のリクエストで入力だけで$3.40前後(200K×$2 + 800K×$4 = $3.60)になる計算だ。
日常的なチャット用途なら1回あたり数千トークンなので気にならない。問題は長文コンテキスト。コードベースを丸ごと投げる使い方では、1日に数十回呼ぶと月額$100を超えるケースがある。
消費者向けプラン
無料プラン
$0
Gemini 2.5 Flashのみ利用可。3.1 Proは使えない。
- ・基本的なチャット
- ・1日のリクエスト上限あり
Google AI Pro
$19.99/月
Gemini 3.1 Proをチャットで利用可能。
- ・3.1 Pro フルアクセス
- ・Deep Think対応
- ・1Mトークンコンテキスト
Google AI Ultra
$249.99/月
最上位。ビジネス用途向け。
- ・全モデル無制限
- ・30TB Google Oneストレージ
- ・優先アクセス
コスト感覚の目安
個人で月30本ほどの記事リサーチにAPIを使った場合、1記事あたり約5,000-10,000トークンの入出力で月額$5-10程度。チャットUIで十分ならGoogle AI Pro($19.99/月)が結局コスパが良い。自動化パイプラインを組むならAPI直叩きの方が安くなる。
ChatGPT Plus($20/月)、Claude Pro($20/月)とほぼ横並びの価格帯になっている。各サービスの料金を一覧で見たい場合は主要AIサービス料金比較に表を置いている。
APIセットアップ——Pythonで動かすまで
Google AI Studio(旧MakerSuite)でAPIキーを発行し、Pythonから呼ぶまでの手順を示す。Vertex AI経由でも動くが、個人開発者はDeveloper APIの方がセットアップが軽い。
Step 1: APIキーの取得
Google AI StudioにGoogleアカウントでログインし、左メニューの「Get API Key」からキーを発行する。プロジェクトが未作成の場合は自動で作られる。
Step 2: SDKのインストール
pip install google-genai
2026年4月現在、公式SDKは google-genai パッケージに統一されている。旧 google-generativeai は非推奨。
Step 3: 基本的なテキスト生成
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-pro",
contents="Pythonでフィボナッチ数列を生成する最も効率的な方法は?"
)
print(response.text)
これだけで動く。APIキーは環境変数 GOOGLE_API_KEY に入れておけば api_key 引数は省略できる。本番環境では環境変数を使うこと。
Step 4: ストリーミング出力
response = client.models.generate_content_stream(
model="gemini-3.1-pro",
contents="機械学習パイプラインの設計パターンを5つ挙げて"
)
for chunk in response:
print(chunk.text, end="")
ストリーミングを使うとユーザー体感のレイテンシが下がる。チャットボットやリアルタイムUI向けには必須のオプションだ。プロンプトエンジニアリングの基本を押さえておくと、APIの出力品質も上がる。
thinking_levelパラメータ——推論コストの最適化
Gemini 3.1 Proの目玉機能の一つが thinking_level パラメータだ。LOW / MEDIUM / HIGHの3段階で推論の深さを指定でき、MEDIUMはこのモデルで初めて導入された。タスクの難易度に合わせてコストと速度のバランスを取れる。
3段階の使い分け
| レベル | 向いているタスク | 速度 | コスト |
|---|---|---|---|
| LOW | 単純な要約、テキスト分類、定型的な変換 | 速い | 低い |
| MEDIUM | 一般的なQ&A、コードレビュー、文章校正 | 中間 | 中間 |
| HIGH | 複雑な推論、数学、コード生成、マルチステップ分析 | 遅い | 高い |
筆者が50件のバッチで実測した。MEDIUMのthinkingトークン消費はHIGH比で40-50%少なく、出力品質は90%程度を維持した。全件HIGHにする必要はない。MEDIUMで回して、スコアが閾値を下回ったものだけHIGHにリトライする2段構えが安定している。
実装例: thinking_levelの指定
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-pro",
contents="次の関数のバグを特定して修正案を出して",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(
thinking_level="MEDIUM"
)
)
)
# thinking トークンと回答を分離
for part in response.candidates[0].content.parts:
if part.thought:
print("[思考過程]", part.text[:200], "...")
else:
print("[回答]", part.text)
part.thought フラグがthinkingトークンと最終回答を切り分ける。デバッグ時はthinking部分を表示し、本番ではスキップ。この使い分けが定番パターンだ。
コスト削減のコツ
thinkingトークンは出力トークンとしてカウントされる($12/1Mトークン)。HIGHだと1リクエストで2,000-5,000トークンのthinkingが発生することもある。バッチ処理ではまずMEDIUMで流し、品質が閾値を下回ったものだけHIGHに回すと、全体コストを30-40%抑えられる。
マルチモーダル活用——画像・動画・音声処理
テキスト以外の入力を食わせられるのがGemini系の強み。画像、動画、音声、ファイル(PDF等)をネイティブに受け取る。100万トークンのコンテキストと掛け合わせれば、1時間超の動画を丸ごと解析するような荒技も通る。
画像を使った分析の例
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
# ローカル画像をアップロード
with open("screenshot.png", "rb") as f:
image_data = f.read()
response = client.models.generate_content(
model="gemini-3.1-pro",
contents=[
types.Part.from_bytes(data=image_data, mime_type="image/png"),
"このUIのアクセシビリティ上の問題を指摘して"
]
)
print(response.text)
UIスクリーンショットを渡してアクセシビリティ監査をさせる使い方を実際に試したところ、コントラスト比の問題を3件検出してくれた。コントラスト比やラベルの欠落を指摘してくれる。
動画の場合はFile APIを経由してアップロードする。1時間の動画でも処理できるが、アップロード時間とトークン消費が大きいため、事前にタイムスタンプ指定で切り出す方が実用的。もったいないと感じるのが、現時点ではマルチモーダル出力(画像生成など)に非対応な点。入力は5モダリティに対応しているのに、出力はテキストのみ。Imagen 4との連携で補うしかない。
ユースケース別活用パターン
📊 データ分析
グラフ画像やExcelスクリーンショットからデータを読み取り、傾向分析やレポート作成。PDFの財務諸表を丸ごと投げて要約させる使い方も。
🎥 動画要約
会議録画やセミナー動画をアップロードし、議事録を自動生成。タイムスタンプ付きで吐き出すので、後から該当箇所を探しやすい。
🔍 コードレビュー
大規模コードベースを丸ごとコンテキストに入れてレビュー依頼。100万トークンだとTypeScriptなら約5万行が入る計算。
🏗️ 設計書レビュー
アーキテクチャ図(画像)と仕様書(PDF)を同時に渡して、設計の矛盾や抜け漏れを指摘させる。
ChatGPT・Claude・Geminiの比較記事ではマルチモーダル機能の詳細な違いも解説している。
GPT-6・Claude Opus 4.7との3モデル比較
2026年4月時点で「最強モデル」の座を争っているのがGemini 3.1 Pro、GPT-6、Claude Opus 4.7の3つだ。スペック上の差より「何に使うか」の差の方が大きい。自分なりの結論は後半に書く。まず数字を並べる。
| 比較軸 | Gemini 3.1 Pro | GPT-6 | Claude Opus 4.7 |
|---|---|---|---|
| コーディング | ◎ | ○ | ◎ |
| 汎用推論 | ◎ | ◎ | ○ |
| 自律エージェント | ○ | ○ | ◎ |
| マルチモーダル | ◎ | ○ | △ |
| コンテキスト長 | 1Mトークン | 200K | 1Mトークン |
| API入力料金 | $2.00/1M | — | $15.00/1M |
| サブスク料金 | $19.99/月 | $20/月 | $20/月 |
実際に3モデルを並行で使ってみた結論がある。コスト重視のバッチ処理にはGemini 3.1 Pro。API入力が$2/1Mトークンという安さは他の追随を許さない。Claude Opus 4.7の$15/1Mと比べると7.5倍のコスト差がある。
一方、コーディングエージェントとして長時間自律的に動かすならClaude Opus 4.7を選ぶ。Claude Opus 4.6の時点でSWE-benchのリーダーだったが、4.7でさらにエージェント性能が強化されている。
GPT-6はHumanEval 95%超と汎用性の高さが光る。特に日本語の自然さではGeminiを上回る場面がある。文章生成が主な用途なら有力候補だ。3モデルの詳細比較も参考にしてほしい。
筆者の結論
2026年4月時点では、API経由の自動化パイプラインならGemini 3.1 Proがコスパ最強。対話型のチャット用途ならGPT-6かClaude Opus 4.7。自律コーディングエージェントならClaude Opus 4.7。1つに絞る必要はなく、タスクで使い分けるのが現実解だ。
つまずきやすいポイントと対処法
筆者が検証中に一番コストを食ったミスは、無料枠終了の見落としだった。
無料枠終了に気づかないケース
4月1日以降、Developer APIで gemini-3.1-pro を指定すると無料枠なしで即課金される。以前の gemini-3.1-pro-preview モデルIDはエイリアスとして残っているが、料金は同じ。テスト用にはGemini 2.5 Flashの無料枠を使うのが安全。
200Kトークン超の料金ジャンプ
ここは見落としがちだが、200Kトークンを超えた瞬間に入力単価が2倍になる。長文コンテキストを常用する人は月末の請求書で驚くことがある。対処法は単純で、コンテキストキャッシュを使うこと。繰り返し使うシステムプロンプトや固定ドキュメントをキャッシュすれば25%割引が効く。
thinking_levelの未指定時の挙動
thinking_level を省略するとモデルが自動で判断する。単純な質問にもHIGH相当のthinkingが走ることがあり、不必要にコストが膨らむ。バッチ処理では明示的にMEDIUMかLOWを指定するのを習慣にした方がいい。
Vertex AI vs Developer APIの混同
Google CloudのVertex AI経由でもGemini 3.1 Proは使えるが、認証方式とエンドポイントが異なる。Developer API(AI Studio発行のAPIキー)はシンプルだが、レート制限が厳しめ。業務で大量に使うならVertex AI(サービスアカウント認証)の方がスケーラブル。両者を間違えてSDKを初期化すると認証エラーで弾かれるので注意。
注意: 旧SDKの非互換
旧パッケージ google-generativeai はGemini 3.1 Proの一部機能(thinking_level等)に未対応。2026年4月以降は google-genai に移行すること。pip install google-genai で入る。
よくある質問
Q. Gemini 3.1 Proは無料で使える?
2026年4月1日に無料プレビューが終了し、API利用は全て有料。チャットUI経由で使いたい場合はGoogle AI Pro($19.99/月)のサブスクが必要。無料プランではGemini 2.5 Flashのみ利用可能。
Q. Gemini 3 Proからアップグレードは必要?
不要。API側で自動切り替えされており、同じモデルIDで3.1 Proが返る。料金も同額。実質的に「勝手にアップグレードされた」状態。
Q. 日本語の処理精度は?
Gemini 3 Pro比で改善しているが、GPT-6やClaude Opus 4.7と比べるとやや劣る場面がある。特に敬語の使い分けや微妙なニュアンスの表現ではGPTに分がある。技術文書の翻訳・要約なら十分な精度。
Q. コンテキスト100万トークンは本当に使い切れる?
使い切れるが、200K超で料金が倍になる点に注意。コードベース丸ごと(約5万行のTypeScript)を入れてレビューさせる用途では実際に有用。ただし100万トークンフルに使うと1リクエスト$3-4かかるため、頻繁には使えない。
Q. エージェントフレームワークとの統合は?
LangChain、LlamaIndex、Microsoft Agent Framework 1.0などの主要フレームワークで対応済み。エージェント開発フレームワーク比較でGemini対応状況を確認できる。
まとめ
Gemini 3.1 Proは「同じ価格で性能2倍」という、値下げより嬉しいアップデートだった。ARC-AGI-2の77.1%、LiveCodeBenchのElo 2887は、半年前のどのモデルよりも高い数字だ。
4月の無料枠廃止は痛手だが、API料金$2/1Mトークンは競合最安クラス。thinking_levelパラメータでコストも絞れる。大量バッチを回す開発者なら、値段だけで選ぶ十分な理由がある。
弱みもある。日本語生成の自然さではGPT-6に及ばず、自律エージェントの安定性ではClaude Opus 4.7に譲る。万能モデルではない。だが「コスパ×推論性能」で選ぶなら、2026年4月時点でこれ一択だ。
この記事のポイント
- ・ARC-AGI-2で77.1%、前世代から2.5倍のスコアジャンプ
- ・API料金は$2/1Mトークン(入力)。Gemini 3 Proから据え置き
- ・thinking_levelパラメータ(LOW/MEDIUM/HIGH)でコスト最適化
- ・無料プレビューは2026年4月1日に終了。要課金
- ・コスパ重視の自動化パイプラインに最適。対話ならGPT-6やClaudeも検討
Geminiシリーズの全体像はGoogle Gemini 3完全ガイドで、AIモデル全般の比較はAIサービス比較15選で確認できる。AIコーディングツール比較ではGeminiを搭載したIDE拡張の選択肢も紹介している。