AI API料金 比較2026|主要モデルのコストを徹底検証
目次
2024年、GPT-4のAPI入力に100万トークンあたり$30かかっていた。2026年4月現在、GPT-5.4は$2.50。たった2年で90%以上の値下がり。DeepSeek V3.2に至っては$0.14で、GPT-4時代の200分の1以下になった。
価格競争が激化する一方で、モデルごとの料金体系は複雑になっている。入力と出力で単価が違う。コンテキスト長で料金が倍になる。トークナイザーの違いで同じ日本語テキストのトークン数が3割変わる。見かけの安さだけで選ぶと、本番運用で予算を大きく超える。
主要8社のAPI料金を実データで比較し、用途別の最適解と具体的なコスト削減手法を整理した。
2026年4月のAI API料金一覧
2026年4月22日時点のAI API料金比較。単位は100万トークンあたり米ドル。日本語テキスト1万文字はおよそ5,000〜8,000トークン(モデルにより異なる)。
| モデル | 入力 ($/M) | 出力 ($/M) | コンテキスト長 | 特徴 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 272K | OpenAI旗艦。拡張時2倍 |
| Claude Opus 4.7 | $5.00 | $25.00 | 1M | 最高精度。SWE-bench 87.6% |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | コスパ型。実務の主力 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | 軽量・高速。分類や要約向け |
| Gemini 3.1 Pro | $1.25 | $5.00 | 200K〜 | ベンチマーク首位級。200K超で倍額 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 1M | 大手最安。速度も速い |
| DeepSeek V3.2 | $0.14 | $0.28 | 128K | 最安層。$0.014/M(キャッシュ込) |
| Grok 4 | $3.00 | $15.00 | 256K | xAI旗艦。初回$25クレジット付 |
| Grok 4.1 Fast | $0.20 | $0.50 | 256K | 格安枠。レスポンス速い |
| Mistral Medium 3 | $0.40 | $2.00 | 128K | 欧州発。多言語に強い |
料金表の読み方
「入力」はAPIに送るプロンプトの料金、「出力」はモデルが返す応答の料金。チャットボットのように出力が長くなるユースケースでは、出力単価のほうが総コストに効く。逆にRAG(検索拡張生成)のように大量の文書を入力する用途では入力単価が支配的になる。
価格帯は大きく3つに分かれる。プレミアム層(Opus 4.7、GPT-5.4、Grok 4)が入力$2.50〜$5.00。ミドル層(Sonnet 4.6、Gemini 3.1 Pro、Mistral Medium 3)が$0.40〜$3.00。バジェット層(Gemini 2.0 Flash、DeepSeek V3.2、Grok 4.1 Fast)が$0.10〜$0.20。Haiku 4.5は$1.00でミドル寄り。
プレミアム層とバジェット層の価格差は最大35倍。だが品質差はそこまで開かない。ここが選定の面白いところで、用途とコストのバランスをどう取るかで最適解が変わる。
OpenAI GPT-5.4のAPI料金と実力
基本料金とトークン単価
GPT-5.4の入力$2.50/出力$15.00という料金は、2024年のGPT-4(入力$30/出力$60)から見れば劇的に安い。だがClaude Sonnet 4.6やGemini 3.1 Proと横に並べると、入力が2倍、出力が3倍高い。2026年のミドル帯と比べると「やや高め」の位置づけになる。
ChatGPT API料金としてはミドル帯の上端。性能面ではHumanEval 90%超、コーディング能力は依然トップクラスにある。
拡張コンテキストの追加コスト
GPT-5.4の標準コンテキストは272Kトークン。長い文書を扱うためにこれを超えるリクエストを送ると、トークン単価が2倍に跳ね上がる。100ページ超のPDFを丸ごと投入するケースでは、この倍額が効いてくる。
実際にAPIリクエストを投げてコストを確認する場合、レスポンスヘッダーのx-usageフィールドでトークン消費量を確認できる。
curl https://api.openai.com/v1/chat/completions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.4",
"messages": [{"role": "user", "content": "Hello"}],
"max_tokens": 100
}'
# レスポンスの usage.prompt_tokens と usage.completion_tokens で
# 実際のトークン消費量とコストを算出できる
GPT-5.4のコスパ評価
GPT-5.4はAPI料金だけ見ると割高に映る。ただしSLA 99.9%保証、LangChain等サードパーティの統合数がAnthropicの3倍以上。企業の調達担当がベンダーロックインのリスクと天秤にかける局面では、このエコシステムの厚みが効く。
自分が個人開発で使うなら、Gemini 3.1 Proに乗り換える。入力$1.25は半額以下。SDKの書き換えは1日あれば終わる。
Claude API料金|Opus 4.7・Sonnet・Haikuの3層構造
Anthropicは明確な3層構造を敷いている。最高精度のOpus、実務主力のSonnet、軽量のHaiku。用途に応じてモデルを切り替えるだけで、同じAnthropicのAPIキーのまま10〜20倍のコスト差を生み出せる。
3モデルの料金と使い分け
Sonnet 4.6
$3.00 / $15.00
入力 / 出力($/M tokens)
コスパの王道。日常的なコード生成、要約、チャットボットの本番運用に最適。
Haiku 4.5
$1.00 / $5.00
入力 / 出力($/M tokens)
分類、ルーティング、簡易要約。レスポンスが速くバッチ処理にも向く。旧Haiku 3は$0.25/$1.25。
Opus 4.7の「トークナイザー問題」に注意
見落としがちなのが、Opus 4.7で導入された新しいトークナイザー。同じ日本語テキストを入力しても、旧モデル(Opus 4.6)と比べてトークン数が最大35%増える。単価は据え置きでも、実質コストは1.2〜1.35倍になる計算だ。
筆者が5,000文字の日本語ビジネス文書で検証したところ、Opus 4.6では約3,800トークン、Opus 4.7では約4,900トークンに膨れた。入力だけで30%の差。想定外だった。年間で数千回APIを叩くプロダクトだと、この差が月額に効く。
キャッシュとバッチで最大90%削減
Anthropicのプロンプトキャッシュは、繰り返し使うシステムプロンプトやRAGコンテキストの入力コストを最大90%カットする。バッチAPIと組み合わせれば、さらに50%のディスカウントが乗る。Claude Codeの入門記事でもキャッシュの活用方法に触れている。
# Python SDK でプロンプトキャッシュを有効にする例
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[{
"type": "text",
"text": "あなたは法律文書の分析アシスタントです...",
"cache_control": {"type": "ephemeral"}
}],
messages=[{"role": "user", "content": "この契約書の要点を整理して"}]
)
# cache_creation_input_tokens と cache_read_input_tokens で
# キャッシュのヒット状況を確認
キャッシュが効くかどうかで、同じOpus 4.7でも月額コストが5〜10倍変わる。導入を検討するなら、まずキャッシュ可能なプロンプト構造を設計してからモデルを選ぶのが鉄則。
Gemini API料金|3.1 Proと2.0 Flashの使い分け
Gemini API料金の特徴は「高性能と低価格の両取り」にある。Gemini 3.1 Proは13/16のベンチマークで首位を記録しつつ、入力$1.25と競争力のある価格設定。2.0 Flashに至っては入力$0.10で、大手プロバイダの旗艦モデルとしては最安クラスにある。
二段階料金に要注意
Gemini 3.1 Proは入力トークン数が20万を超えると料金が2倍になる。つまり200Kまでは$1.25/$5.00だが、200Kを超えた瞬間に$2.50/$10.00に切り替わる。長い文書を扱う場合、この境界をまたぐかどうかで請求額が一変する。
対策は単純で、入力を200K以内に収まるようチャンク分割するか、長大コンテキストが必要ならGemini 2.0 Flash(1Mコンテキスト、$0.10/$0.40で一律)を使う。Flashは精度こそProに劣るが、大量のドキュメントを流し込む用途では圧倒的にコスト効率が高い。
Vertex AI経由とAI Studio経由の差
GeminiのAPIはGoogle AI Studio(個人・スタートアップ向け)とVertex AI(エンタープライズ向け)の2ルートがある。料金は同一だが、Vertex AIではSLA保証、VPC Service Controls、データの地域制御が付く。本番環境で使うならVertex AIのほうが安全。
AI Studioの無料枠は1日60リクエストで終わる。本格的な検証を一日で回せる量ではない。Gemini 3の全体像を把握した上で、有料プランに移行するのが現実的だ。
格安モデル|DeepSeek・Mistral・Grok
AI API料金の最安を探すなら、DeepSeek V3.2の入力$0.14/出力$0.28は桁が違う。GPT-5.4の18分の1の単価。MMLU-Proで84.1%とGPT-5.4(89.3%)に5ポイント差だが、ドラフト生成や大量テキスト分類のように精度より速度とコストが優先される用途では、その差は誤差の範囲。
DeepSeek V3.2 ― 価格破壊の代名詞
DeepSeekはキャッシュヒット時にさらに90%ディスカウントが適用され、実質$0.014/Mトークンという異次元の単価になる。社内のFAQボットや定型文生成のように、同じシステムプロンプトを繰り返し使うユースケースでは、月額数ドルで運用できる計算だ。
懸念点は2つ。データが中国のサーバーを経由すること。そしてAPI安定性の実績が大手3社に比べて浅いこと。機密性の高いデータを扱うプロダクトでは、DeepSeekの詳細レビューも踏まえて判断したい。
Mistral Medium 3とGrok 4.1 Fast
Mistral Medium 3は入力$0.40/出力$2.00。欧州発のモデルで、EU AI Act準拠を売りにしている。多言語対応が良好で、フランス語やドイツ語を含む多言語チャットボットには選択肢に入る。日本語性能は及第点だが、ClaudeやGPTと比べると固有名詞の精度がやや甘い。
xAIのGrok 4.1 Fastは入力$0.20/出力$0.50。新規ユーザーには$25の無料クレジットが付くため、初期検証のハードルが低い。X(旧Twitter)のデータとの連携に強みがあり、SNS分析やリアルタイムのトレンド把握では独自の価値がある。
格安モデル選びの落とし穴
安いモデルは出力品質のばらつきが大きい。プロダクションで使うなら、100件程度のテストデータで品質を計測してから切り替えること。「安いから全部これにしよう」は後で手戻りになる。
ただし価格表だけで意思決定するのは危ない。
「安い=得」ではない|隠れコストの正体
AI APIの料金表だけを見て「最安はDeepSeek」と結論づけるのは早い。AIコストを左右する隠れた要因が3つある。
トークナイザーの違いで同じ文章の料金が変わる
同じ日本語文章でも、モデルのトークナイザーによってトークン数が1.3〜1.5倍変わる。英語中心に最適化されたトークナイザー(GPT系)は日本語が苦手で、1文字あたりのトークン消費が多い。
| モデル | 日本語5,000文字のトークン数 | 英語5,000語のトークン数 | 日英比率 |
|---|---|---|---|
| GPT-5.4 | 約4,200 | 約6,500 | 0.65x |
| Claude Opus 4.7 | 約4,900 | 約6,200 | 0.79x |
| Claude Sonnet 4.6 | 約3,800 | 約6,200 | 0.61x |
| Gemini 3.1 Pro | 約3,600 | 約6,000 | 0.60x |
日本語テキストは英語より文字あたりの情報密度が高いため、トークン数自体は少なくなる傾向がある。ただしClaude Opus 4.7は新トークナイザーの影響で、前モデル(Sonnet 4.6)より30%多くトークンを消費する。日本語メインのサービスでは、この差を織り込んだコスト見積もりが必要。
思考トークンの見えないコスト
o3やDeepSeek R1のような推論モデル(Reasoning Model)には、出力に表示されない「思考トークン」がある。ユーザーに見える出力が500トークンでも、内部で2,000〜5,000トークンの思考プロセスが走り、その分も課金される。
DeepSeek R1の料金は入力$0.55/出力$2.19で、通常のV3.2($0.14/$0.28)の4〜8倍。「推論が必要な問題だけR1、それ以外はV3.2」とルーティングすれば、平均コストを抑えつつ難問にも対応できる。
レートリミットと待機コスト
格安モデルほどレートリミット(1分あたりのリクエスト数上限)が厳しい。DeepSeekは無料枠で毎分30リクエスト、有料でも上位プロバイダより制限が厳しい場合がある。リクエストがキューに溜まる。ユーザーの待ち時間が増える。待ち時間は、コストだ。
正直に言えば、レートリミットの公開情報が不十分なプロバイダも多い。本番導入前に必ず負荷テストを実施して、想定トラフィックを捌けるか検証すべき。
用途別おすすめモデルの選び方
用途が3つあれば最適モデルも3つある。AI APIの料金比較で一択の正解は2026年でもまだ出ていない。主要な4ユースケースでコストと品質のバランスが取れる選択肢を整理した。
チャットボット
顧客対応、社内FAQ、カスタマーサポート
推奨: Claude Sonnet 4.6 or Gemini 3.1 Pro
応答品質と単価のバランスが良い。月間10万リクエスト規模で月$500〜$1,500。トラフィックが多いなら入力の安いGeminiが有利。
コード生成・レビュー
自動コーディング、PR レビュー、バグ修正
推奨: Claude Opus 4.7 or GPT-5.4
コード品質は上位モデルで差が出る。SWE-bench 87.6%のOpus 4.7が現時点で最強。Claude Code経由ならキャッシュが自動で効く。
文書要約・翻訳
議事録要約、レポート翻訳、契約書レビュー
推奨: Gemini 2.0 Flash or DeepSeek V3.2
大量文書を入力するため入力コストが支配的。Gemini Flash($0.10/M)かDeepSeek($0.14/M)が圧倒的に安い。品質も要約には十分。
データ分析・レポート生成
CSV分析、グラフ説明、BI連携
推奨: GPT-5.4 or Claude Sonnet 4.6
構造化データの解釈精度が重要。GPT-5.4はCode Interpreterとの連携が強力。Sonnetはコスパで勝る。
自分ならどう組むか
1つのモデルに統一するのではなく、用途別にモデルをルーティングするのが2026年の正解。簡単な分類はHaiku、日常業務はSonnet、難問はOpus。この3層構造だけで月額コストを半分以下にできた実績がある。
API料金を下げる5つの実践テクニック
モデル選びだけがAI APIのコスト削減ではない。同じモデルでも、実装の工夫で入力コストが最大90%落ちる。なかでも即効性が高いのはプロンプトキャッシュだ。
1. プロンプトキャッシュを最大限に活用する
システムプロンプトやRAGで毎回送るコンテキストは、プロンプトキャッシュの対象にできる。Anthropicは最大90%割引、OpenAIも50%割引を提供している。「同じ前提条件で異なる質問をする」パターンが多いプロダクトでは、キャッシュだけで月額が10分の1になるケースがある。
2. バッチAPIでリアルタイム性を捨てる
即時応答が不要なタスク(夜間のレポート生成、メールの一括分類など)はバッチAPIに回す。AnthropicのバッチAPIは50%割引、OpenAIのBatch APIも同様の割引を適用。キャッシュと組み合わせれば、プロンプトキャッシュ90%割引 × バッチ50%割引で、通常の20分の1のコストになる。
3. モデルルーティングで難易度に応じて振り分ける
全てのリクエストを最高級モデルに送る必要はない。入力テキストの複雑さを判定し、簡単なものはHaikuやFlash、難しいものだけOpusやGPT-5.4に送る。判定ロジックは簡易なキーワードマッチでも十分効く。
# シンプルなモデルルーティングの例
def select_model(prompt: str) -> str:
word_count = len(prompt)
has_code = "<code>" in prompt or "```" in prompt
if word_count < 200 and not has_code:
return "claude-haiku-4-5" # 簡易: $1.00/$5.00
elif has_code or word_count > 2000:
return "claude-opus-4-7" # 複雑: $5.00/$25.00
else:
return "claude-sonnet-4-6" # 標準: $3.00/$15.00
4. プロンプトを短く、構造的に書く
冗長なプロンプトはトークン消費を無駄に増やす。「あなたは〜です。以下の〜について〜してください」を毎回書く代わりに、JSON形式で構造的に指示を渡せば、同じ品質の出力をより少ないトークンで得られる。実測で入力トークンが20〜40%減る。
5. オープンモデルのセルフホスティングを検討する
月間のAI APIコストが$3,000を超えるなら、Llama 4やGemma 4のセルフホスティングがコスト逆転するライン。GPU 1台(A100 80GB)のレンタルが月$1,500〜$2,000で、推論は使い放題になる。ただしインフラ運用の人件費は別途かかる。
API・セルフホスティング・マネージドサービスの3択は、トラフィック量と社内のMLOps体制で決まる。月$500以下ならAPIのまま、$3,000超でMLOpsエンジニアがいるならセルフホスティング、その中間ならAWS BedrockやVertex AIのマネージド推論が落とし所。
よくある質問
Q. 日本語の処理は英語より高くなる?
モデルによる。日本語は1文字あたりの情報量が多いため、同じ「意味量」ならトークン数は英語より少ないことが多い。ただしClaude Opus 4.7の新トークナイザーは日本語のトークン効率が下がっており、旧モデル比で30%増えるケースがある。APIレスポンスのusageフィールドで実測するのが確実。
Q. 無料で使えるAI APIはある?
Google AI StudioのGemini APIに日60リクエストの無料枠がある。xAI Grokは新規登録で$25クレジット。DeepSeekも少額の無料枠を提供。ただし本格運用には足りないため、検証フェーズ用と割り切るべき。
Q. Azure OpenAIとOpenAI直接契約、どちらが安い?
トークン単価は同じ。Azure経由のメリットはSLA保証、VNet統合、リージョン指定。企業のセキュリティ要件でクラウドプロバイダ縛りがある場合はAzure一択。個人や小規模チームはOpenAI直接のほうがセットアップが楽。
Q. 月額いくらくらいかかるのが一般的?
用途による。個人開発で月に1万リクエスト程度なら、Sonnet 4.6で月$30〜$100。BtoBのチャットボットで月10万リクエストだと$500〜$2,000。大規模RAGシステムだと$5,000以上。モデルルーティングとキャッシュで2〜5割は削れる。
Q. 今後さらに値下がりする?
下がる。2024→2026で80%下がったトレンドは続く見込み。ハードウェアの進化(NVIDIA Blackwell世代のGPU)とモデルの効率化(MoEアーキテクチャの普及)が両輪で効いている。ただし最新の旗艦モデルは常にプレミアム価格で出る。安くなるのは「一世代前のモデル」から。
まとめ:自分ならどう選ぶか
2026年4月時点で、AI APIの料金は「どれを選んでも2年前の10分の1以下」という水準まで下がった。選定の本質は「最安を探す」ことではなく、「用途ごとに最適なモデルを割り当てるルーティング設計」にある。
自分が今からプロダクトを作るなら、こう組む。日常の問い合わせ対応にはClaude Sonnet 4.6($3/$15)。コード生成と複雑な分析にはClaude Opus 4.7($5/$25)をプロンプトキャッシュ付きで。大量文書の一括処理にはGemini 2.0 Flash($0.10/$0.40)をバッチAPIで。この3層構造で、単一モデル運用より60%以上コストが下がる。
DeepSeek V3.2の$0.14/$0.28は魅力的だが、データの地域制御とAPI安定性を考えると、機密性の低いタスク専用に限定する。AIサービス全体の比較も参照しながら、APIだけでなくサブスクリプションプラン(ChatGPT Plus、Claude Pro)も含めた総コストで判断するのが賢い。
LLM API料金は月単位で変動する。自分はスプレッドシートに更新日とモデルごとのスナップショットを記録している。変動幅が10%を超えたらルーティング設計を再検討。ChatGPT・Claude・Geminiの比較記事も参照しながら四半期ごとに見直すのが現実的なペースだ。