AIニュース・トレンド

DeepSeek V4入門2026|料金・API・GPTとの違い

読了時間: 約19分

2026年4月24日、DeepSeekがV4-ProとV4-Flashを同時公開した。R1で世界を驚かせてからちょうど1年。1.6兆パラメータのオープンソースモデルがSWE-bench Verified 80.6%を叩き出し、Claude Opus 4.6とわずか0.2ポイント差に迫っている。出力トークン単価は$3.48/M——Claudeの約1/7。

コーディングベンチマークのLiveCodeBenchでは93.5を記録し、Gemini 3.1-Pro(91.7)もClaude Opus 4.6(88.8)も抜いた。MITライセンス。商用利用も自由。これがオープンソースの価格破壊力だ。

この記事ではV4-ProとV4-Flashの性能差、API料金、実装手順、そして「どの場面でGPT-5.5やClaude Opus 4.6の代わりに使えるか」を検証する。AI API料金の全体像と合わせて読むと、コスト判断がしやすい。

DeepSeek V4の全体像 — ProとFlashの2モデル体制

DeepSeekはV4世代で明確に2つのラインを分けてきた。ヘビー級のV4-Proと軽量高速のV4-Flash。どちらもMixture of Experts(MoE)アーキテクチャを採用し、全パラメータのうち一部だけを各トークンの推論に使う設計になっている。

V4-Pro — 1.6兆パラメータのフラッグシップ

総パラメータ数は1.6兆。ただしMoEが1トークンあたりのアクティブパラメータを49B(490億)に絞り込む。33兆トークンで事前学習し、コンテキストウィンドウは100万トークン。最大出力は384Kトークンで、長文の生成やコード全体のリファクタリングにも対応する。

SWE-bench Verifiedで80.6%を記録した事実が象徴的で、これはClaude Opus 4.6の80.8%にほぼ並ぶ数値。ただしOpusの出力単価$25/Mに対してV4-Proは$3.48/M——同等の性能を7分の1のコストで得られる計算になる。

V4-Flash — コスト重視の軽量モデル

総パラメータ284B、アクティブ13B。32兆トークンで学習済み。コンテキストと最大出力はProと同じ100万/384K。レイテンシが低く、チャットボットやリアルタイム処理での応答速度が求められる場面に向く。

入力$0.14/M、出力$0.28/Mという料金は、GPT-5.5のFlashモデルやClaude Haikuと同価格帯。性能はそれらを上回る場面が多い。コストパフォーマンスだけで見ると、2026年4月時点で最も効率的なAPIの一つだ。

MoEアーキテクチャの意味

MoE(Mixture of Experts)は「専門家チームが交代で回答する」仕組みに近い。1.6兆パラメータの全員が毎回出勤するわけではなく、49Bの専門家だけが応答する。だから推論コストが安い。DeepSeek V4がこの価格を実現できる最大の理由がここにある。

V4-ProとV4-Flashのスペック比較

数字で見るのが一番早い。以下にV4-ProとV4-Flash、そして比較用にV3.2のスペックを並べた。

項目 V4-Pro V4-Flash V3.2(参考)
総パラメータ 1.6兆(1,600B) 284B 671B
アクティブパラメータ 49B 13B 37B
学習トークン数 33兆 32兆 14.8兆
コンテキスト長 100万トークン 100万トークン 128K
最大出力 384K 384K 8K
ライセンス MIT MIT MIT
アーキテクチャ MoE MoE MoE
リリース日 2026年4月24日 2026年4月24日 2025年12月

V3.2からの最大の飛躍はコンテキスト長。128Kから100万トークンへ約8倍に拡張された。リポジトリ全体を一括で投入できるサイズ感で、コードレビューやドキュメント要約のワークフローが根本的に変わる。

学習データ量もV3.2の14.8兆から33兆へ2倍以上に増えている。データ量の増加は単純な性能向上だけでなく、ニッチな専門領域(法律文書や医療論文など)での精度改善に効いてくる。

選ぶ基準はシンプル

コーディングや複雑な推論タスクならV4-Pro。チャットボットや分類・要約などスループットが重要な処理ならV4-Flash。判断に迷ったらまずFlashで試し、品質が足りなければProに切り替える——この手順がコスト面で最も合理的だ。

API料金 — GPT-5.5の約1/6という価格設定

料金体系を見た瞬間、二度見した。V4-Proの出力トークン$3.48/Mは、Claude Opus 4.6の$75/M(※Opus 4.7は$25/M)と比べると桁が違う。GPT-5.5との比較でも約1/6。ここまでの価格差がありながらベンチマークで肉薄しているのが、DeepSeek V4の最大のインパクトだ。

モデル 入力 ($/M tokens) 出力 ($/M tokens) V4-Pro比
DeepSeek V4-Flash $0.14 $0.28 1/12
DeepSeek V4-Pro $1.74 $3.48
GPT-5.5 $10.00 $20.00 約6倍
Claude Opus 4.7 $15.00 $25.00 約7倍
Claude Sonnet 4.6 $3.00 $15.00 約4倍
Gemini 3.1 Pro $1.25 $10.00 約3倍

キャッシュヒットで入力コストがさらに90%減

DeepSeek APIにはプロンプトキャッシュ機能がある。同一のシステムプロンプトを繰り返し送る構成(チャットボットやバッチ処理)では、キャッシュされた入力トークンが$0.03/Mまで下がる。実効入力コストは$0.05/M以下になるケースも珍しくない。

月間100万リクエストのAPIサービスを想定すると、GPT-5.5で月$20,000かかる処理がV4-Proなら$3,500前後。V4-Flashを使えば$500以下まで下がる。この差はスタートアップのランウェイを数ヶ月伸ばすレベルのインパクトだ。

料金体系の注意点

2026年4月時点ではプレビュー価格の可能性がある。DeepSeekは過去にも初期価格を据え置くか微減する傾向だが、保証はない。プロダクションで大量利用する場合は、価格改定の通知を受け取れるよう開発者アカウントの設定を確認しておくべきだ。

ベンチマーク分析 — コーディングで世界首位

V4-Proのベンチマークを調べてみると、突出しているのがコーディング領域だ。LiveCodeBenchで93.5、Codeforcesレーティング換算で3206。どちらも2026年4月時点でオープンソースモデルの最高値を更新している。

コーディング系

  • LiveCodeBench93.5
  • SWE-bench Verified80.6%
  • Codeforces Rating3206
  • HumanEval92.1%

推論・知識系

  • IMO AnswerBench89.8
  • GPQA Diamond72.4%
  • MMLU-Pro78.2%
  • ARC-AGI-238.5%

他モデルとの直接比較

数字だけ並べても実感しにくいので、主要モデルとの比較で文脈を補足する。

SWE-bench Verified: V4-Pro 80.6% vs Claude Opus 4.6 80.8%。差は0.2ポイント。統計的に有意差があるとは言い難い水準で、コスト差(7倍)を考えると選択は明白だ。ただしClaude Opus 4.7(SWE-bench 87.6%)やGPT-6とは依然として明確な差がある。

LiveCodeBench: V4-Pro 93.5 vs Gemini 3.1-Pro 91.7 vs Claude Opus 4.6 88.8。コーディング能力ではオープンソースモデルが初めてクローズドモデルを全面的に上回った瞬間だ。

IMO AnswerBench: V4-Pro 89.8 vs Claude Opus 4.6 75.3。14ポイント差。数学的推論ではDeepSeekが圧倒的に強い。LLMベンチマーク評価の詳細では各指標の意味も解説している。

ベンチマークの読み方に注意

DeepSeekの公式ベンチマークは自社発表値であり、独立検証が追いついていない項目もある。Simon Willison氏が指摘するように「ほぼフロンティア、価格は1/6」という評価は概ね正確だが、特定タスクでの実性能は自分のユースケースで検証すべきだ。

APIの使い方 — Pythonでの実装手順

DeepSeek APIはOpenAI互換のインターフェースを採用している。すでにOpenAI SDKを使っているプロジェクトなら、エンドポイントとAPIキーを差し替えるだけで動く。移行コストがほぼゼロという点は、開発者にとって大きい。

セットアップ手順

まずDeepSeek Platformでアカウントを作成し、APIキーを取得する。アカウント作成からキー発行まで3分もかからなかった。クレジットカード登録なしで無料枠がつく点もありがたい。

pip install openai

# .env に追加
DEEPSEEK_API_KEY=sk-xxxxxxxxxxxxxxxx

基本的なAPI呼び出し

OpenAIライブラリをそのまま使える。base_urlを変えるだけだ。

from openai import OpenAI

client = OpenAI(
    api_key="sk-xxxxxxxxxxxxxxxx",
    base_url="https://api.deepseek.com"
)

# V4-Pro を使う場合
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "あなたはPythonの専門家です"},
        {"role": "user", "content": "FastAPIでCRUDエンドポイントを作って"}
    ],
    max_tokens=4096,
    temperature=0.7
)

print(response.choices[0].message.content)

ストリーミング応答

長文生成やチャットUIでは、ストリーミングを有効にする。

# ストリーミング応答
stream = client.chat.completions.create(
    model="deepseek-v4-flash",  # Flash は低レイテンシ
    messages=[
        {"role": "user", "content": "Rustの所有権を初心者向けに説明して"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

既存のOpenAI SDKベースのアプリケーションで試してみると、コード変更はbase_urlapi_keyの2行だけで済んだ。Function Callingやストリーミングも互換性がある。レスポンスのJSON構造もOpenAIとほぼ同一で、既存のパースロジックがそのまま動いたのは助かった。

移行時のつまずきポイント

モデル名が異なる(deepseek-v4-pro / deepseek-v4-flash)点と、レスポンスのtoken usage計算がOpenAIと微妙に異なる点に注意。特にプロンプトキャッシュ利用時はcached_tokensフィールドが追加される。

V3からの進化 — 何が変わったか

DeepSeek完全ガイドで解説したV3系からの主要な変更点を整理する。数字の羅列ではなく、実務に影響する順に並べた。

コンテキスト長の劇的な拡張

コンテキスト長が8倍になった。V3.2の128Kから100万トークンへ——リポジトリ全体を丸ごと投入して、1回のAPIコールでレビューが完結する。量ではなく質が変わった。

最大出力も8Kから384Kへ拡張され、長いレポートやコード全体の生成が途中で途切れる問題が減った。

コーディング能力の飛躍

V3.2のSWE-bench Verifiedは49.2%だった。V4-Proの80.6%は31.4ポイントの改善。1世代でこの跳躍はかなり異例で、コーディング特化のファインチューニングに相当なリソースを投入した形跡がある。

Codeforces Rating換算で3206は、人間のプログラミング競技者の上位0.1%に相当するレベル。V3.2では1800前後だったことを考えると、実装タスクの精度が根本的に変わった。

2モデル体制への移行

V3まではサイズバリエーション(V3, V3-Lite等)の区分だったが、V4ではPro/Flashという明確な役割分担に変わった。ユーザーにとっては選択がシンプルになった。品質重視かコスト重視か。二択だ。

V3.2を数ヶ月使い込んだ経験から言うと、最大の不満はコンテキスト長の128K制限だった。大きめのリポジトリを投入すると途中で切れる。V4の100万トークンでこの問題が解消されたのは、地味だが実務インパクトが最も大きい改善だ。

GPT-5.5・Claude Opus 4.6との使い分け

「安いのはわかった。で、どの場面で使い分けるのか」——実務で最も聞かれる質問に答える。自分ならこう使い分ける。

DeepSeek V4-Proが向く場面

  • ・コード生成・レビューの大量バッチ
  • ・数学的推論が必要なタスク
  • ・コスト制約の厳しいスタートアップ
  • ・オープンソースが要件のプロジェクト
  • ・セルフホスティングしたい場合

GPT-5.5が向く場面

  • ・多言語対応が重要なサービス
  • ・画像・音声の生成が必要
  • ・OpenAIエコシステムとの統合
  • ・既存のGPTベースプロダクト
  • ・エンタープライズ契約の縛り

Claude Opus 4.6/4.7が向く場面

  • ・長文の構造化・要約
  • ・ニュアンスの必要な文章生成
  • ・複雑なエージェントワークフロー
  • ・安全性要件が厳格な案件
  • ・日本語の微妙な表現力

コーディング特化なら、コストパフォーマンスでV4-Proが最適解だ。LiveCodeBench 93.5は現時点でトップ。コードレビューやバグ修正のバッチ処理を月数千件回すなら、コスト差は月数万円単位で効いてくる。

一方、日本語の自然さや指示追従性では、Claude Opus 4.7が依然として一段上にある。V4-Proの日本語は十分実用的だが、微妙なトーンの調整や文化的コンテキストの理解では差を感じる場面がまだある。

GPT-5.5はマルチモーダル(画像生成・音声生成の統合)が強み。テキスト処理だけならV4-Proに切り替えた方が安いが、画像を含むワークフローではGPT-5.5の統合力が効く。ChatGPT・Claude・Gemini徹底比較も参考にしてほしい。

正直に言うと

V4-Proでカバーできない領域はまだある。特にClaude Opus 4.7のSWE-bench 87.6%やGPT-6のHumanEval 95%超という数値との差は「3〜6ヶ月分」とDeepSeek自身が認めている。最高性能を求めるならClaude Opus 4.7かGPT-6。コスト効率を求めるならV4-Pro。明確な棲み分けだ。

セキュリティと中国リスクの考え方

DeepSeekは中国・杭州に本社を置く企業だ。API経由でデータを送信する場合、中国のデータ保護法制(個人情報保護法、データセキュリティ法)の管轄下に入る可能性がある。判断は自社の法務に聞くしかない。

API利用時のデータ経路

DeepSeek APIにリクエストを送ると、データは中国国内のサーバーで処理される。個人情報や機密情報を含むプロンプトを送信する場合は、自社のコンプライアンス部門と事前に確認する必要がある。日本の個人情報保護法の越境移転規制にも注意が必要だ。

エンタープライズ案件では「中国企業のAPI」という一点で選択肢から外れることが実際に起きている。技術的には最適解でも、調達審査を通らない。セルフホスティングが現実的かどうかは、V4-Flashの284Bでも最低8台のA100が必要という数字で判断するしかない。

MITライセンスという回避策

V4はMITライセンスで公開されている。モデルウェイトをダウンロードして自社インフラでセルフホスティングすれば、データが中国に渡ることはない。

ただし1.6兆パラメータのモデルを自社でホスティングするにはGPUクラスタが必要で、運用コストはAPI利用より桁違いに高い。V4-Flashの284Bなら比較的現実的だが、それでもA100×8台程度は見込んでおく必要がある。

Foundry Localのようなローカル実行基盤と組み合わせる方法も検討に値する。ただし現時点でV4クラスの大規模モデルに対応した環境は限定的だ。

API利用が向くケース

  • ・個人情報を含まない処理
  • ・コード生成・レビュー
  • ・公開データの分析
  • ・プロトタイピング・検証

セルフホストが向くケース

  • ・個人情報・機密データの処理
  • ・金融・医療の規制業種
  • ・政府系プロジェクト
  • ・データ越境移転を避けたい場合

実務でのコスト最適化戦略

V4の料金体系を最大限活かすには、タスクの種類に応じてProとFlashを自動で振り分ける仕組みが効果的だ。現場のエンジニアに聞くと「まずFlashに投げて、品質スコアが閾値以下ならProにフォールバック」というパターンが多い。

ルーティング戦略の設計例

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

def smart_route(prompt: str, complexity: str = "auto") -> str:
    """タスク複雑度に応じてPro/Flashを自動選択"""
    if complexity == "high" or len(prompt) > 10000:
        model = "deepseek-v4-pro"
    elif complexity == "low":
        model = "deepseek-v4-flash"
    else:
        # まずFlashで試行
        model = "deepseek-v4-flash"

    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        max_tokens=4096
    )
    return resp.choices[0].message.content

月額コストのシミュレーション

具体的な数字で比較した結果を示す。月間10万リクエスト、平均入力500トークン・出力1000トークンの場合。

構成 月額概算 GPT-5.5比
全量 V4-Flash 約$42 1/48
Flash 80% + Pro 20% 約$138 1/15
全量 V4-Pro 約$522 1/4
全量 GPT-5.5 約$2,500

Flash 80%/Pro 20%の混合構成が実務で最も現実的だ。大半のリクエストはFlashで処理し、コーディングや複雑な推論だけProに回す。これでGPT-5.5の15分の1のコストに抑えられる。API呼び出しの多い副業サービスを運営する場合、このコスト差が月の利益率を10-20ポイント左右する。

プロンプトキャッシュの活用

同じシステムプロンプトを繰り返すバッチ処理では、キャッシュヒット率が80-90%に達することがある。入力コストが90%割引になるため、実効コストはさらに下がる。

キャッシュが効くかどうかはプロンプトの前方一致で判定される。システムプロンプトを固定し、ユーザー入力部分だけを変える設計にすることで、キャッシュヒット率を最大化できる。

よくある質問

DeepSeek V4は日本語に対応していますか?

対応している。33兆トークンの学習データに日本語テキストが含まれており、日常会話からビジネス文書まで実用的な品質で生成できる。ただし日本語特化モデル(Claude等)と比べると、敬語の使い分けや文化的文脈の理解では若干劣る場面がある。

V4-ProとV4-Flash、どちらを使うべき?

コスト優先ならFlash、品質優先ならPro。迷ったらまずFlashで試す。レスポンスの品質が用途に十分なら切り替える必要はない。コーディングタスクだけはPro推奨——LiveCodeBenchで10ポイント以上の差がある。

商用利用は可能ですか?

MITライセンスのため、商用利用に制限はない。API経由でもセルフホストでも商用プロダクトに組み込める。

セルフホスティングに必要なスペックは?

V4-Pro(1.6兆パラメータ)のフルモデルは実質的にGPUクラスタが必要で、個人での運用は現実的ではない。V4-Flash(284B)は量子化次第でA100×4〜8台程度で動作する可能性があるが、推論速度との兼ね合いで最低8台を推奨する。

GPT-5.5からの移行は簡単ですか?

OpenAI互換APIのため、base_urlapi_keyの変更だけで移行できる。Function Calling、ストリーミング、JSON Modeも互換性がある。モデル名の変更(gpt-5.5deepseek-v4-pro)を忘れないこと。

まとめ — 選ぶ基準は「性能上限」か「コスト効率」か

DeepSeek V4は「ほぼフロンティア級の性能を、フロンティアの1/6〜1/7の価格で提供する」モデルだ。SWE-bench 80.6%、LiveCodeBench 93.5という数値はオープンソースとして前例がない。MITライセンスで商用利用も自由。

自分ならコーディングのバッチ処理とプロトタイピングはV4-Proに移行する。月間コストが数分の1になる上、コーディング品質ではGPT-5.5やClaude Opus 4.6を上回る。一方、最終プロダクションの文章生成やエージェントワークフローでは、Claude Opus 4.7を使い続ける。性能の天井が違う。

一つのモデルで全てを賄う時代は終わった。自分はコーディングバッチとプロトタイピングをV4-Proに移行済みだ。文章生成とエージェントはClaude Opus 4.7のまま。マルチモデルが面倒に感じるなら、まずAPIキーを1本取得してFlashを試す。それだけでコスト感覚が変わる。AIサービス比較15選で他モデルの得意領域も確認できる。

DeepSeek V4の要点

  • ・V4-Pro: 1.6兆パラメータ、SWE-bench 80.6%、出力$3.48/M
  • ・V4-Flash: 284Bパラメータ、低レイテンシ、出力$0.28/M
  • ・コンテキスト100万トークン、最大出力384K
  • ・MITライセンス、OpenAI互換API
  • ・セキュリティ懸念はセルフホストで回避可能

関連記事: GPT-5.5入門Claude Opus 4.7入門