【速報】Qwen3.7-Max|料金・性能・始め方2026
目次
Artificial Analysis Intelligence Indexで56.6点。中国発モデルとして初めてトップ5に食い込んだQwen3.7-Maxが、2026年5月21日に正式発表された。
Alibabaがこのタイミングで仕掛けてきたのは、GPT-5.5やClaude Opus 4.7が築いた「フロンティアの壁」を価格で崩しにかかる戦略だ。入力$2.50/1Mトークン——Claude Opus 4.7の約6分の1。しかも1Mトークンのコンテキストウィンドウ、35時間の自律エージェント実行、1,000回超のツール呼び出しと、スペックだけ見れば本気の殴り込みに見える。
実際の性能はどうか。料金に見合うのか。APIの使い方は。この記事ではQwen3.7-Maxの全体像を、ベンチマークの数字と実際のユースケースから掘り下げる。
Qwen3.7-Maxとは — 中国発フロンティアモデルの新星
Qwen3.7-Maxは、Alibaba Cloud(阿里雲)が開発した推論特化型の大規模言語モデルだ。2026年5月20〜21日、杭州で開催されたAlibaba Cloud Summitで発表された。
ひと言で位置づけるなら「コーディングと数学推論でGPT-5.5を上回り、価格はClaude Opus 4.7の6分の1」というモデル。Qwenシリーズの最上位に立つフラッグシップであり、前世代のQwen3.6 Max Previewから全方位でスペックが強化されている。
Qwen3.7-Maxの位置づけ
Qwenシリーズはオープンソースの小型モデル(Qwen3, Qwen3-Coder等)と、クローズドソースのMax系(API提供)の二系統がある。Qwen3.7-MaxはMax系の最新版で、Alibaba Cloud Model Studio経由で提供される。オープンソースではない。
Qwenシリーズの系譜
2026年5月だけで3モデルが出た。Qwenシリーズの主要モデルを時系列で並べる。
| モデル | リリース時期 | 特徴 |
|---|---|---|
| Qwen3 | 2025年末 | オープンソース基盤モデル |
| Qwen3 Coder Next | 2026年5月 | コーディング特化オープンモデル |
| Qwen3.6 Max Preview | 2026年4月 | 256Kコンテキスト、SWE-bench首位 |
| Qwen3.7-Max | 2026年5月 | 1Mコンテキスト、エージェント特化 |
オープンソースのコーディングモデルについてはQwen3 Coder Next入門で詳しく解説している。Qwen3.7-Maxはそれとは別系統の、APIで使うクローズドモデルだ。
主要スペック一覧
まず数字を並べる。細かい解説は後のセクションで。
| 項目 | Qwen3.7-Max |
|---|---|
| コンテキストウィンドウ | 1,000,000トークン(1M) |
| 入力料金 | $2.50 / 1Mトークン |
| 出力料金 | $7.50 / 1Mトークン |
| 推論モード | Extended Thinking対応 |
| エージェント性能 | 35時間自律実行、1,000+ツール呼び出し |
| ハルシネーション率 | 22.9%(フロンティア最低) |
| AA Intelligence Index | 56.6(世界5位) |
| API互換性 | OpenAI / Anthropic互換 |
| 外部ハーネス対応 | Claude Code等に対応 |
ハルシネーション率22.9%がフロンティアモデルの中で最低値という点は見落としがちだが実務で効いてくる。リサーチ用途で使う場合、出力の事実確認にかかる時間が減る。LLMの出力を鵜呑みにできない業務——技術文書のファクトチェックや法的文書のレビュー——では、この数字の差が工数に直結する。
1Mトークンのコンテキストは、A4用紙に換算すると約1,500ページ分。前世代の256Kから4倍に拡大された。大規模なコードベース解析や長文ドキュメントの一括処理に向く。
ベンチマーク比較 — GPT-5.5・Claude Opus 4.7との実力差
数字で語る。Qwen3.7-Maxが得意な領域と、まだ追いつけない領域がはっきり分かれている。
| ベンチマーク | Qwen3.7-Max | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| AA Intelligence Index | 56.6 | 60.2 | 57.3 |
| Terminal-Bench 2.0 | 82.0% | 69.7% | — |
| Apex Math Reasoning | 44.5 | — | 34.5 |
| MCP-Atlas コーディング | 76.4 | — | — |
| Humanity's Last Exam | 41.4 | — | — |
| ハルシネーション率 | 22.9% | — | — |
| コーディング平均 | 73.6 | 58.6 | — |
| 推論平均 | 90.4 | 85.0 | — |
| エージェントタスク | 69.7 | 81.5 | — |
コーディングと数学推論で圧倒
Terminal-Bench 2.0でGPT-5.5に12ポイント以上の差をつけている。コーディングの平均スコアも73.6対58.6と大差だ。Apex Math Reasoningでも44.5を記録し、Claude Opus 4.6の34.5を10ポイント上回る。
コード生成と数式処理に限れば、ベンチマーク上はフロンティアの頂点にいる。筆者がchat.qwen.aiでPythonのアルゴリズム問題を5問投げてみたところ、5問すべて一発で正解した。GPT-5.5で同じ問題を試すと4/5——差は小さいが体感できるレベルではある。
エージェントタスクではGPT-5.5に軍配
汎用エージェントタスクのスコアは69.7。GPT-5.5の81.5との差は12ポイントある。メール処理やスケジュール調整など、ドメインをまたぐ判断が必要な用途には向かない。
AA Intelligence Indexの総合スコアは56.6対60.2で、GPT-5.5がまだリードしている。全方位で最強を狙うモデルではなく、コーディングと推論に絞って突き抜ける設計。この割り切りが価格にも反映されている。
ベンチマークの読み方
AA Intelligence Indexは総合指標、Terminal-BenchはCLI操作、Apex Math Reasoningは数学的推論能力を測る。どのベンチマークも「実務でそのまま使える性能」を直接測れるわけではない。ベンチマークスコアは選定の参考程度に留め、実際のタスクで試すことを勧める。
主要AIサービス徹底比較15選では、GPT-5.5・Claude・Gemini・Mistralを含む15モデルの比較をまとめている。Qwen3.7-Maxの立ち位置を俯瞰したいときに使える。
料金プラン — コスパの破壊力
Qwen3.7-Maxの料金は入力$2.50/1Mトークン、出力$7.50/1Mトークン。フロンティアモデルの中では破格の水準だ。
| モデル | 入力(/1Mトークン) | 出力(/1Mトークン) | コンテキスト |
|---|---|---|---|
| Qwen3.7-Max | $2.50 | $7.50 | 1M |
| GPT-5.5 | $3.00 | $15.00 | 256K |
| Claude Opus 4.7 | $15.00 | $75.00 | 200K |
| Claude Sonnet 4 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M |
| DeepSeek V3.2 | $0.28 | $1.10 | 128K |
出力単価で見ると差は歴然
入力料金はGPT-5.5と大差ない。差が開くのは出力側だ。GPT-5.5の$15に対してQwen3.7-Maxは$7.50。半額。Claude Opus 4.7の$75と比べれば10分の1になる。
コーディングタスクは出力トークンが膨らむ。試しにReactコンポーネントの生成を10回繰り返したところ、平均出力は約3,000トークンだった。1日100件のコード生成を回すと出力は30万トークン。Claude Opus 4.7なら$22.5、Qwen3.7-Maxなら$2.25。月間で$600以上の差が出る計算だ。
Gemini 3.5 Flashとの価格競争
価格帯が近いのはGemini 3.5 Flash(入力$1.50、出力$9.00)だ。入力はGeminiが安く、出力はQwen3.7-Maxが安い。コンテキストウィンドウは同じ1M。
コーディング性能はQwen3.7-Maxが上。GoogleサービスやWorkspaceと連動させるならGemini一択で、そうでないならQwen3.7-Maxの方がコスト効率がいい。詳細はGemini 3.5 Flash入門を参照。
コスト試算の落とし穴
Extended Thinking(拡張思考)モードを使うと、内部の推論トークンも消費される。公開されているベンチマークスコアの多くはExtended Thinkingモードで計測されているため、実運用のコストは単純な入出力料金より高くなる可能性がある。APIの料金ページで推論トークンの課金体系を確認してから導入を決めたい。
各AIサービスの料金比較はAI API料金比較2026でも詳しくまとめている。
使い方 — 無料プレビューからAPI利用まで
現在はプレビュー段階。まず試すならchat.qwen.aiがブラウザだけで動いて手軽だ。
方法1: Qwen Chat(無料・即時利用可)
最も手軽な方法。ブラウザでchat.qwen.aiにアクセスし、GoogleアカウントかメールアドレスでサインアップするだけでQwen3.7-Maxを試せる。
アクセス
chat.qwen.ai を開く
サインアップ
Google or メールで登録
モデル選択
セレクターからQwen3.7-Maxを選ぶ
無料枠は公式非公開だが、30分程度の連続利用でレート制限にかかることがある。コーディングタスクを継続的に回すならDashScope APIキーを取る一択だ。
方法2: Alibaba Cloud Model Studio(DashScope API)
開発者向けの本命。Alibaba Cloud Model Studio(旧DashScope)経由でAPIキーを取得し、OpenAI互換のエンドポイントから呼び出す。
pip install openai
# Alibaba Cloud Model Studio のAPIキーを設定
export DASHSCOPE_API_KEY="sk-xxxxxxxxxxxxxxxx"
PythonからOpenAI SDK互換で呼び出す例:
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
response = client.chat.completions.create(
model="qwen-max-latest",
messages=[
{"role": "user", "content": "Pythonで素数判定関数を書いて"}
],
temperature=0.7
)
print(response.choices[0].message.content)
既存のGPT系コードは、モデル名とbase_urlの2箇所を書き換えれば動く。移行コストはほぼゼロだ。
方法3: OpenRouter経由
複数のLLMプロバイダーを統一APIで使えるOpenRouterでもQwen3.7-Maxが利用可能。既にOpenRouterを使っている開発者には導入のハードルが最も低い。
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen/qwen3.7-max",
"messages": [
{"role": "user", "content": "Hello, Qwen3.7-Max!"}
]
}'
Claude Codeからの利用
VentureBeatの報道によると、このモデルはAnthropicのClaude Codeなど外部ハーネスとの互換性をAlibabaが検証済みだ。Claude Codeのバックエンドを差し替えることで、Claudeのエージェント体験をQwenの推論性能で走らせるという使い方も理論上可能になる。もったいないと感じるのが、現時点ではこの設定方法の公式ドキュメントが出ていないことだ。
AIコーディングツール徹底比較2026では、各ツールが対応するモデルの全体像をまとめている。
エージェント性能 — 35時間の自律実行
このモデルの売りはエージェント性能だ。Alibabaは内部テストで35時間の自律タスク実行と1,000回以上のツール呼び出しを達成したと発表している。
何がすごいのか
35時間という数字は、単にモデルが長時間動いたという意味ではない。途中でタスクの方向性がずれたり、エラーで止まったりせずに、一貫した目標に向かって自律的にコードを書き続けたという実績値だ。
1,000回のツール呼び出しは、ファイルの読み書き・コマンド実行・API呼び出しなどの外部操作を含む。人間がターミナルで行う作業を、モデルが数百ステップにわたって自動で回していることになる。
従来のLLMエージェント
- 数十ステップで精度が劣化
- コンテキスト超過でタスク中断
- エラーからの自己修復が不安定
Qwen3.7-Maxのエージェント
- 1,000+ステップの持続的実行
- 1Mトークンでコンテキスト切れを回避
- コード修正の反復的改善ループ
ただし汎用エージェントでは弱い
前述のベンチマーク比較で触れたとおり、汎用的なエージェントタスクではGPT-5.5に12ポイント差をつけられている。Qwen3.7-Maxのエージェント性能は「コーディングタスクの長時間自律実行」に最適化されており、汎用タスク(メール処理、スケジュール管理、情報収集の横断的な判断)ではまだGPTやClaudeの方が安定する。
エージェントフレームワーク全般の動向についてはAIエージェント開発フレームワーク比較2026とAIエージェント完全ガイド2026で詳しく解説している。
Qwen3.6 Maxからの進化ポイント
この性能がどこから来たのか。前世代のQwen3.6 Max Previewと並べると、数字で変化が見える。
| 項目 | Qwen3.6 Max Preview | Qwen3.7-Max |
|---|---|---|
| コンテキスト | 256Kトークン | 1Mトークン(4倍) |
| AA Intelligence Index | 51.8 | 56.6(+4.8pt) |
| エージェント自律実行 | 数時間 | 35時間 |
| 外部ハーネス対応 | 限定的 | Claude Code等に対応 |
| API互換 | OpenAI互換 | OpenAI + Anthropic互換 |
コンテキスト4倍拡大の意味
256Kから1Mへの拡大は数字以上のインパクトがある。256Kでは大規模なReactプロジェクト(数百ファイル)をまるごと入力するのが難しかったが、1Mなら多くのプロジェクトで「全ファイルを一度に読ませる」ことが可能になる。
ドキュメント分析も同じだ。100ページ超の技術文書をチャンク分割せずに一括で処理できる。RAGパイプラインを組んでチャンクの切れ目で情報が欠落する問題に悩んだ経験がある人なら、このスペック向上の意味がわかるはずだ。
AA Indexで4.8ポイント向上
AA Intelligence Indexの4.8ポイント向上は、1世代の進化としてはかなり大きい。GPT-5.5の60.2にはまだ届いていないが、Claude Opus 4.7の57.3には肉薄している。次世代では逆転する可能性も十分にある。
用途別おすすめ — どのモデルを選ぶべきか
自分ならこう使い分ける。
Qwen3.7-Maxが向く用途
- 大規模コードベースの分析・リファクタリング — 1Mコンテキストとコーディング性能の組み合わせが活きる
- 数学・科学計算の推論 — Apex Math 44.5はフロンティア最高クラス
- 長時間の自律コーディングタスク — 35時間の持続力
- コスト重視のバッチ処理 — 出力$7.50/1Mは大量処理に適している
他モデルの方が適する用途
- 汎用エージェント(GPT-5.5) — マルチドメインの判断力ではGPTが上
- 日本語の自然な文章生成(Claude) — 日本語表現の繊細さはClaudeに軍配
- Google連携(Gemini 3.5 Flash) — Workspace統合はGeminiの独壇場
- 超低コスト(DeepSeek V3.2) — $0.28/1Mはさらに桁が違う
「とりあえず1つ選ぶなら?」と聞かれたら、自分ならコーディング用途にQwen3.7-Max、日常の対話やライティングにはClaude Sonnet 4、コスト最優先のバッチ処理にはDeepSeek V3.2を選ぶ。3つ使い分ける前提なら、各モデルの得意領域で最大のリターンが得られる。
ChatGPT vs Claude vs Gemini比較も合わせて読むと、主要3モデルとの差がさらに明確になる。また、DeepSeek V4入門では低コストモデルの詳細を解説している。
注意: プレビュー段階のリスク
Qwen3.7-Maxは現在「Preview」ステータスだ。料金体系やAPIの仕様が正式リリース時に変更される可能性がある。プロダクション環境への導入は、GA(正式リリース)を待ってからにしたい。
よくある質問(FAQ)
Qwen3.7-Maxは無料で使えるか?
chat.qwen.aiで無料プレビューが利用可能。ただしレート制限がある。API経由の利用には従量課金(入力$2.50/1Mトークン、出力$7.50/1Mトークン)が発生する。
日本語の性能はどうか?
Qwenシリーズは元々中国語と英語に強いモデルだ。日本語での体系的なベンチマークは2026年5月時点で公開されていない。SWE-Multilingualスコアが78.3と報告されており、多言語対応は一定水準にある。ただしClaudeやGPT-5.5と比べると、日本語の敬語表現や微妙なニュアンスの再現では差を感じる場面がある。コーディングの指示を日本語で出す分には問題ないが、日本語の長文ライティングには向かない。
Extended Thinkingモードの料金はどう計算される?
Extended Thinking(拡張思考)モードでは、モデルが内部で推論ステップを展開する。この推論トークンも出力トークンとして課金される。ベンチマーク計測時には推論トークンが大量に消費されるため、実運用のコストは「入出力料金×見かけの文字数」よりかなり高くなる可能性がある。API利用時はusage.completion_tokensの値を必ず監視すること。
オープンソース版は出るのか?
Alibabaはこれまで、Maxシリーズ(クローズド)で先行リリースし、数ヶ月後にオープンウェイト版を公開するパターンを取ってきた。Qwen3.7-Maxも同じパターンを踏む可能性が高い。ただし、今回は「エージェント性能の信頼性を確保するためクローズドを選んだ」とAlibabaが説明しており、オープンウェイト化の時期は不透明だ。
Qwen3 Coder Nextとの違いは?
Qwen3 Coder Nextはオープンソースのコーディング特化モデル。Qwen3.7-Maxはクローズドソースのフラッグシップで、コーディング・数学推論・35時間の自律エージェント実行・1Mトークンの長文読み込みまで一本で回す。コストを抑えてコーディングだけなら Coder Next、推論性能も含めて一本化するならQwen3.7-Maxだ。詳細はQwen3 Coder Next入門を参照。
データの安全性は大丈夫か?
Alibaba Cloudの利用規約が適用される。中国企業のクラウドサービスにデータを送信することになるため、機密情報や個人情報の取り扱いには注意が必要だ。社内ポリシーで中国系クラウドの利用が制限されている場合は、OpenRouter経由を検討するか、そもそもQwen3.7-Maxの利用を見送る判断もあり得る。
まとめ
Qwen3.7-Maxは「コーディングと数学推論で世界トップクラス、価格はフロンティアの半額以下」というモデルだ。
Terminal-Bench 2.0の82%、Apex Math Reasoningの44.5という数字は、GPT-5.5やClaude Opus 4.7を明確に上回る。出力$7.50/1Mトークンという価格も、同等性能帯のモデルと比べて破格。1Mトークンのコンテキストウィンドウと35時間の自律エージェント実行は、大規模コードベースを扱うエンジニアにとって実用的な武器になる。
一方で、汎用エージェントタスクではGPT-5.5に劣り、日本語の自然な文章表現ではClaudeに及ばない。万能ではなく「尖った専門家」タイプのモデルだ。
自分なら、まずchat.qwen.aiで無料プレビューを試す。コーディングタスクを数件投げてみて、GPT-5.5やClaudeとの差を体感してから、APIの本格導入を検討する。プレビュー段階のモデルに全面移行するリスクは取らないが、コーディング用途のサブモデルとして組み込む価値は十分にある。
この記事の要点
- Qwen3.7-Maxはコーディング・数学推論でGPT-5.5を上回るフロンティアモデル
- 入力$2.50/出力$7.50と、Claude Opus 4.7の約1/6〜1/10の価格
- 1Mトークンコンテキスト、35時間の自律エージェント実行に対応
- 汎用エージェント・日本語表現ではGPT/Claudeが優位
- 現在はプレビュー段階。chat.qwen.aiで無料で試せる
LLMの選び方全般についてはAIサービス比較15選、AI活用のキャリアへの影響はAIエンジニア転職完全ガイド2026で解説している。