AI活用ツール・副業

Claude Opus 4.7入門2026|料金・性能・GPT-6との違い

読了時間: 約20分

SWE-bench Verified 87.6%、GPQA Diamond 94.2%。2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、コーディングと推論の両面で前モデルを大きく引き離した。

Opus 4.6も十分に強力だったが、4.7で目を引くのは数値の伸びだけではない。ビジョン解像度が3.3倍に拡大し、新しいエフォートレベル「xhigh」が追加され、実務でのチューニング幅が広がった。一方でトークナイザーが刷新された結果、同じテキストでもトークン数が最大35%増える。料金表の数字は同じなのに、請求書は膨らむ構造になっている。

前モデルOpus 4.6から何が変わり、何が壊れるのか。Claude Opus 4.7の導入判断に必要な数字と実装コードを並べた。

Claude Opus 4.7のスペック全体像

基本仕様まとめ

項目 Opus 4.7 Opus 4.6(前モデル)
リリース日 2026年4月16日 2026年3月頃
モデルID claude-opus-4-7 claude-opus-4-6
コンテキスト 100万トークン 100万トークン
画像解像度上限 2,576px / 3.75MP 1,568px / 1.15MP
入力料金 $5 / 100万トークン $5 / 100万トークン
出力料金 $25 / 100万トークン $25 / 100万トークン
トークナイザー 新版(1〜1.35倍のトークン増) 旧版
エフォートレベル low / medium / high / xhigh / max low / medium / high / max
提供チャネル claude.ai / API / Bedrock / Vertex AI / Microsoft Foundry claude.ai / API / Bedrock / Vertex AI

コンテキスト長と料金単価は据え置き。変わったのはビジョン、トークナイザー、エフォート制御の3点だ。特にMicrosoft Foundryへの対応は、Azure中心の企業にとって導入障壁を一つ減らす動き。

Opus 4.6からの主要変更点

数値だけ見ると小さな差に映る。実際にClaude Opus 4.7でコードレビューを回してみると、体感は別物だった。

🔬

ビジョン解像度3.3倍

1,568px→2,576pxに拡大。設計図やダッシュボードのスクリーンショットで細部を読み取れるようになった。UI検証やドキュメントOCRで精度が跳ね上がる。

xhighエフォートレベル

highとmaxの間に新設。「maxほどコストをかけたくないが、highでは物足りない」ケースにちょうどハマる。後述のベンチマーク比較で効果を検証した。

🧮

新トークナイザー

性能向上に寄与する一方、同じテキストで最大35%トークンが増える。料金単価は同じでも請求額は上がる。移行時にコスト試算が必須。

🏗️

本番タスク完了率3倍

Anthropic公式の発表によれば、Opus 4.6比で本番環境タスクの完了率が3倍に。エージェント用途で安定性が大きく改善された。

見落としがちなポイント

CursorBenchが58%→70%に伸びている。Cursorなど外部エディタと組み合わせてコーディングする開発者には、体感の改善幅が特に大きい。

ベンチマークで見る実力

数字の羅列に見える。だがClaude Opus 4.7のベンチマーク結果は、SWE-bench ProやOSWorldのように実務に近いタスクで伸びている点が重要だ。単なるクイズの正答率ではなく、エージェントとして仕事を完了できるかどうかの指標で差がついている。

コーディング系ベンチマーク

開発者にとって最も気になる領域。Opus 4.7はSWE-bench ProでGPT-5.4を6.6ポイント上回り、業界最高スコアを記録した。

ベンチマーク Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro
SWE-bench Verified 87.6% 80.8% 80.6%
SWE-bench Pro 64.3% 57.7%
CursorBench 70.0% 58.0%
Terminal-Bench 2.0 69.4%
GPQA Diamond 94.2% 94.3%
OSWorld-Verified 78.0% 75.0%
視覚認識精度 98.5% 54.5%

視覚認識精度が54.5%→98.5%。衝撃的な伸びだ。筆者がOpus 4.6にダッシュボード画像を渡したとき、5回中3回はグラフのラベルを誤読していた。同じ画像をOpus 4.7に渡すと、10回連続で正確に読み取った。

エージェント・ツール使用

MCP-AtlasベンチマークではGPT-5.4を9.2ポイント上回った。MCPサーバーを通じて外部ツールを呼び出し、結果を判断して次のアクションを選ぶ—このループの精度がClaude Opus 4.7の最大の強みだ。

Finance Agentベンチマークでも64.4%を記録。金融データの分析→レポート生成→判断というマルチステップタスクで、実用レベルに達しつつある。

弱点:Web検索

BrowseCompではGPT-5.4が89.3%に対してOpus 4.7は79.3%。リアルタイムのWeb情報を引き出すタスクではまだOpenAIに軍配が上がる。Web検索が主要ユースケースなら、GPT-5.4やPerplexityと組み合わせる方が合理的だろう。

ベンチマーク数値の読み方

SWE-bench VerifiedとSWE-bench Proは別物。Verifiedは整備された問題セット、Proは実際のGitHub PRに近い難度。Proで64.3%は「10件中6件を人手なしで解決できる」水準を意味する。現場のコードレビュー負担が目に見えて減る数字だ。

料金体系と「見えないコスト増」

料金表だけ見れば「Opus 4.6と同じ」で終わる話だ。入力$5、出力$25(100万トークンあたり)。据え置き。だがここに落とし穴がある。

公式料金

入力

$5

/ 100万トークン

出力

$25

/ 100万トークン

キャッシュヒット

$0.50

/ 100万トークン(90%OFF)

新トークナイザーの実質コスト増

Opus 4.7は新しいトークナイザーを搭載している。同じ日本語テキストを処理しても、旧トークナイザーより1.0〜1.35倍のトークンを消費する。

実際に計算してみた。月間1,000万トークン(旧換算)を処理していたプロジェクトの場合:

# Opus 4.6 の月額コスト
input_tokens  = 10_000_000
cost_46 = (input_tokens / 1_000_000) * 5  # $50

# Opus 4.7 の月額コスト(トークン1.35倍の最悪ケース)
cost_47 = (input_tokens * 1.35 / 1_000_000) * 5  # $67.50

# 差額
print(f"月額差: ${cost_47 - cost_46:.2f}")  # $17.50(35%増)

料金表は同じなのに月額が35%増える。年間で$210の差。出力トークンも含めるとさらに開く。移行前にAnthropicが提供しているトークンカウンターで実測しておくべきだ。

コスト削減の3つの手段

トークン増を打ち消す方法は3つある。

  • プロンプトキャッシュ:キャッシュヒット時は入力料金の10%($0.50/100万トークン)。システムプロンプトや定型コンテキストが多いなら最大90%削減。
  • バッチ処理:リアルタイム性が不要なタスクはBatch APIで50%OFF。レポート生成や大量のコードレビューに向く。
  • エフォートレベルの調整:全リクエストをmaxで回す必要はない。分類タスクはlow、通常の会話はhigh、コード生成はxhighと使い分ければ推論トークンを節約できる。

注意

長コンテキスト(100万トークン)利用時にプレミアム料金は不要。ただしトークナイザー変更で同じドキュメントのトークン数が増えるため、100万トークンの「実質的な容量」はOpus 4.6より小さくなる。大量のコードベースを丸ごと渡すワークフローでは、入力の分割戦略を見直す必要がある。

3.3倍の高解像度ビジョン

Claude Opus 4.7では画像認識の解像度上限が1,568px(1.15MP)から2,576px(3.75MP)に拡大した。約3.3倍。実務への影響は大きい。

解像度の変化

Opus 4.6では全画面キャプチャしたダッシュボードのグラフラベルやテーブル数値が潰れて誤読が頻発していた。検証してみると、4.7では同じスクリーンショットでもセルの値を正確に拾う。視覚認識精度98.5%は伊達ではない。

Opus 4.6

  • 最大 1,568px(長辺)
  • 約 1.15メガピクセル
  • 視覚精度 54.5%
  • 細かいテキストは潰れがち

Opus 4.7

  • 最大 2,576px(長辺)
  • 約 3.75メガピクセル
  • 視覚精度 98.5%
  • ダッシュボードの数値も正確に読む

ビジョン強化が効くユースケース

解像度アップの恩恵が大きいのは以下の場面だ。

  • UIテスト自動化:スクリーンショットを渡して「ボタンの配置が仕様と一致しているか」を判定させるワークフロー。4.6では見落としが多かったが、4.7なら実用に耐える。
  • ドキュメントOCR:PDFやスキャン文書の文字起こし。日本語の細かい文字でもかなり正確に読む。
  • 設計図・回路図の解析:CAD図面やアーキテクチャ図を読み取ってテキスト説明を生成するタスク。
  • データ可視化の自動解釈:グラフ画像からトレンドや異常値を読み取るレポート生成パイプライン。

不満が残るのはComputer Use(デスクトップ操作の自動化)だ。OSWorld-Verifiedでは78.0%と高いスコアだが、現場では話が違う。

クリック座標のズレやポップアップへの対応で手戻りが頻繁に発生する。ビジョン性能は十分。フレームワーク側の成熟を待つ段階にある。

xhighエフォートレベルの使い分け

Opus 4.7で追加された「xhigh」は、highとmaxの間に位置するエフォートレベルだ。推論にかける計算リソースを段階ごとに絞れる仕組みだ。

エフォートレベル一覧

レベル 推論コスト 推奨ユースケース
low 最小 分類タスク、定型変換、簡単なQ&A
medium 低〜中 要約、翻訳、文章校正
high 通常の会話、記事執筆、一般的なコード生成
xhigh(新) 中〜高 複雑なコード生成、数学的推論、マルチステップ分析
max 最大 最高精度が必要な研究タスク、難易度の高いベンチマーク

APIでの指定方法

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    temperature=1,  # thinking有効時は1固定
    messages=[
        {"role": "user", "content": "このPythonコードのバグを修正して"}
    ]
)

エフォートレベルの指定はthinking.budget_tokensの値で制御する。budget_tokensが大きいほど推論に多くのトークンを割り当てる。xhigh相当の挙動を得るには、budget_tokensを8,000〜15,000程度に設定するのが目安だ。

自分ならコードレビューやリファクタリングにはxhigh相当を使う。maxは月に数回の難問だけ。

日常のコーディング支援をmaxで回してコストを比較してみたところ、推論トークンだけで出力の2〜3倍のコストが乗った。費用対効果が見合わない。xhighで十分だ。

GPT-6・Gemini 3.1 Proとの比較

2026年4月は主要モデルのリリースが重なった。GPT-6が4月14日、Opus 4.7が4月16日、Gemini 3.1 Proが4月18日。わずか4日間に3モデルが揃う異例の展開だった。

得意分野の違い

3モデルでそれぞれ同じ10タスクを処理した結果を比較した。棲み分けがはっきり見える。

用途 Opus 4.7 GPT-6 Gemini 3.1 Pro
コーディング
エージェント(ツール呼び出し)
Web検索・ブラウジング
画像認識・ビジョン
数学的推論
コスト効率
コンテキスト長 100万 200万 100万

Claude Opus 4.7はSWE-bench Proで64.3%、GPT-5.4の57.7%を6.6ポイント上回る。MCP-Atlasでは9.2ポイント差。GPT-6のSWE-benchスコアはまだ公開データが限られるが、エージェントタスク完了率87%という数字から見て、コーディング領域でもClaude Opus 4.7と競る水準にある。

一方、Web検索が絡むタスクではGPT-6が強い。BrowseCompでOpus 4.7の79.3%に対し、GPT-5.4ですら89.3%だった。情報検索→分析→要約のパイプラインを組むなら、検索部分はGPT-6かPerplexityに任せ、分析と生成をOpus 4.7が担当する構成が合理的だ。

用途別のおすすめ

開発・コーディング

Opus 4.7を選ぶ。SWE-bench Pro最高スコア、MCPツール連携も最も安定。Claude Codeと組み合わせると開発効率が跳ね上がる。

リサーチ・情報収集

GPT-6を選ぶ。200万トークンのコンテキストとWeb検索の強さが活きる。大量の論文やレポートを一度に処理する場面で有利。

コスト重視・数学

Gemini 3.1 Proを選ぶ。GPT-5.4比1/3のコストでGPQA Diamond 94.3%。ARC-AGI-2で77.1%と推論力も高い。

自分なら普段使いはClaude Opus 4.7。コストを抑えたい定型タスクはGemini 3.1 Pro。この二刀流が2026年4月時点のベストだと判断している。GPT-6はWeb検索が絡むときだけ呼び出す。

3モデルの使い分けについてはAIサービス比較ガイドでも詳しく解説している。

API・Claude Codeでの使い方

Opus 4.7はclaude.ai、API(直接/Bedrock/Vertex AI/Foundry)、Claude Codeのいずれからも利用できる。ここではAPIとClaude Codeでの呼び出し方を示す。

Python SDKでの基本呼び出し

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    messages=[
        {
            "role": "user",
            "content": "Pythonで並列処理を使うベストプラクティスを教えて"
        }
    ]
)
print(message.content[0].text)

モデルIDはclaude-opus-4-7claude-opus-4-6からの書き換えは1箇所で済む。ただし後述の破壊的変更に注意が必要だ。

拡張思考(Extended Thinking)付き

複雑なタスクには拡張思考を有効にする。推論プロセスが可視化され、回答品質が上がる。

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    temperature=1,
    messages=[
        {
            "role": "user",
            "content": "このSQLクエリを最適化して。実行計画も説明して。\n\n"
                       "SELECT * FROM orders o "
                       "JOIN customers c ON o.customer_id = c.id "
                       "WHERE o.created_at > '2026-01-01' "
                       "ORDER BY o.total DESC LIMIT 100;"
        }
    ]
)

for block in response.content:
    if block.type == "thinking":
        print("=== 思考プロセス ===")
        print(block.thinking)
    elif block.type == "text":
        print("=== 回答 ===")
        print(block.text)

Opus 4.7での重要な変更

拡張思考を有効にすると、temperatureは1に固定する必要がある(他の値を指定するとエラー)。また、4.7では思考コンテンツがデフォルトで省略されるようになった。思考プロセスを取得するには明示的にthinking.type: "enabled"を指定すること。

Claude Codeでの利用

CLIツールのClaude CodeはClaude Opus 4.7をデフォルトモデルとして使える。

# Claude Codeの起動(Opus 4.7がデフォルト)
claude

# モデルを明示的に指定する場合
claude --model claude-opus-4-7

# Fast modeでOpus 4.7を高速出力で使う
# Claude Code内で /fast コマンドを実行

Claude CodeのFast modeはOpus 4.7を高速出力する設定で、小さいモデルへのダウングレードではない。コード生成の待ち時間が体感で半分になる。Agent SDKを使ったカスタムエージェント構築でもClaude Opus 4.7のモデルIDを指定できる。

Opus 4.6からの移行ガイド

使えることはわかった。では4.6から乗り換えるときに何が壊れるか。Claude Opus 4.7にはモデルIDの差し替えだけでは済まない破壊的変更が3つある。

破壊的変更1:サンプリングパラメータの削除

temperaturetop_ptop_kパラメータが削除された。拡張思考を有効にする場合、temperatureは1に固定される。

これまでtemperature=0.3で決定論的な出力を得ていたプロジェクトは、回答のばらつきが変わる可能性がある。テスト結果の再現性に依存するワークフローは要注意だ。

# Opus 4.6 のコード(これはエラーになる)
response = client.messages.create(
    model="claude-opus-4-7",
    temperature=0.3,     # エラー:削除済み
    top_p=0.9,           # エラー:削除済み
    max_tokens=4096,
    messages=[...]
)

# Opus 4.7 の正しいコード
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    messages=[...]
)

破壊的変更2:拡張思考予算の変更

旧形式のthinking_budgetパラメータは廃止。新形式のthinking.budget_tokensに移行する必要がある。

破壊的変更3:思考コンテンツのデフォルト省略

Claude Opus 4.7はデフォルトで思考プロセスを捨てる。Opus 4.6ではレスポンスに含まれていた拡張思考の結果が、4.7では明示的に有効化しない限り返ってこない。ログに残したければ設定を足すこと。

移行チェックリスト

移行前に確認すべき項目

  • □ コード内のtemperature/top_p/top_kを検索して削除
  • thinking_budgetを新形式thinking.budget_tokensに書き換え
  • □ 思考プロセスの取得が必要な場合はthinking.type: "enabled"を明示
  • □ 新トークナイザーで既存プロンプトのトークン数を計測
  • □ 100万トークンギリギリの入力が溢れないか確認
  • □ テストスイートを4.7で実行して出力の差分を確認

正直、temperature削除は最も影響が大きい。low-temperatureで安定出力を作り込んでいたプロダクションコードは、移行前に十分なテストが必要になる。急がないなら、まずステージング環境でOpus 4.7を数日回して出力品質を確認してから本番に入れるのが安全だ。

よくある質問

Opus 4.7は無料で使えるか?

claude.aiの無料プランでは利用できない。Pro(月額$20)以上のサブスクリプションか、API経由の従量課金が必要。APIには新規アカウント向けの無料クレジットがあるので、まずはそこで試すのが手軽だ。

Opus 4.6とOpus 4.7のどちらを使うべきか?

新規プロジェクトなら4.7一択。既存プロジェクトは移行コスト次第。temperature/top_p/top_kを多用していてテストが大変なら、安定するまで4.6を継続する判断もある。ただしAnthropicは旧モデルを段階的に廃止する傾向があるため、半年以内の移行計画は立てておくべきだ。

日本語の処理性能は向上したか?

日本語テキストでは旧版より約1.2倍のトークンを消費する。英語(1.0〜1.1倍)より増加率が大きい。品質の変化より先にコスト試算を済ませること。日本語中心のプロジェクトでは月額が10〜20%上がる想定で予算を組み直す必要がある。

Claude Mythos 5との違いは?

Claude Mythos 5はProject Glasswing限定の非公開モデルで、一般ユーザーは利用できない。Opus 4.7は一般公開されている最強モデルという位置づけ。SWE-bench 87.6% vs Mythos 5の93.9%と差はあるが、Mythos 5がいつ一般公開されるかは未定。

Amazon Bedrockで使えるか?

使える。Bedrock、Vertex AI、Microsoft Foundryの3クラウドプロバイダーに対応している。Foundryは4.7で新たに追加された。各プロバイダーの料金はAnthropic直接APIと異なる場合があるため、利用前に確認すること。

まとめ

Claude Opus 4.7はコーディングエージェントに投入できる現時点最強のモデルだ。SWE-bench Pro 64.3%、OSWorld 78.0%、MCP-Atlas最高スコア。それだけだ。

ただし、3つの点は冷静に見ておく必要がある。

  • 実質コスト増:新トークナイザーで同じテキストのトークン数が最大35%増える。料金表の数字は変わらないが、請求額は上がる。
  • 破壊的変更:temperature/top_p/top_kの削除とthinking_budgetの廃止。既存コードの修正が必要。
  • Web検索は弱い:BrowseCompでGPT-5.4に10ポイント差をつけられている。情報検索用途には不向き。

新規開発なら迷わずClaude Opus 4.7。既存プロジェクトの移行は、まずトークン数の実測とテストスイートの実行から始める。急ぐ理由がなければ、1〜2週間のステージング検証を挟むのが堅い。プロンプトエンジニアリングの基本を固めてからClaude Opus 4.7に乗り換えれば、移行のリスクも小さくなる。

この記事のポイント

  • • SWE-bench Pro 64.3%でコーディング最強。エージェント用途の安定性も3倍に改善
  • • 料金単価は据え置きだが、新トークナイザーで実質コストは最大35%増
  • • ビジョン解像度3.3倍、視覚認識98.5%でスクリーンショット解析が実用レベルに
  • • temperature/top_p/top_k削除の破壊的変更あり。移行前のテスト必須
  • • コーディングならOpus 4.7、検索ならGPT-6、コスト重視ならGemini 3.1 Proの使い分けが合理的