AI活用ツール・副業

【速報】Qwen 3.7-Plus|料金・使い方・Maxとの違い

読了時間: 約19分

GUI操作の自動化に使えるAIモデルが$0.40/1Mトークンで手に入る。2026年6月にGAとなったQwen 3.7-Plusは、AlibabaがQwen 3.7-Maxの基盤の上にマルチモーダル知覚とGUI操作能力を載せたエージェント特化モデルだ。ScreenSpot Proベンチマークで79.0を記録し、GPT-5.4(67.4)やGemini 3.1 Pro(68.1)を10ポイント以上引き離している。

スクリーンショットを渡すだけで「どこをクリックすべきか」をピクセル単位で割り出す。ブラウザ操作の自動化、モバイルアプリのテスト、デスクトップ業務の効率化——RPAや専用スクリプトが担っていた領域に、API一本で切り込める。

料金はMaxの約6分の1。性能差は用途で割り切れる範囲に収まっている。この記事では料金・ベンチマーク・API導入手順・Max/他モデルとの使い分けまで、実務で判断に必要な情報を一通り整理した。

Qwen 3.7-Plusとは — Maxの「目」を持つ弟分

Qwen 3.7-PlusはAlibabaが2026年6月にGA(一般提供)したマルチモーダルエージェントモデルだ。テキスト・画像・動画を入力として受け取り、画面の理解からGUI操作、コード生成、ウェブ検索まで1つのエージェントループで完結させる。

位置づけ — Qwenファミリーの中での役割

Qwen 3.7シリーズには3つのモデルが存在する。Maxは純粋な知能指数の最高峰、Coder Nextはコーディング特化、そしてPlusはマルチモーダル+GUI操作の専門職。料金と機能を整理すると以下のようになる。

項目 Qwen 3.7-Max Qwen 3.7-Plus Qwen3 Coder Next
入力料金 $2.50/1M $0.40/1M $0.30/1M
出力料金 $10.00/1M $1.60/1M $1.20/1M
コンテキスト長 1Mトークン 1Mトークン 256Kトークン
画像/動画入力 テキストのみ 対応 テキストのみ
GUI操作 非対応 対応 非対応
主な用途 高度な推論・分析 GUI自動化・マルチモーダル コード生成・レビュー

Maxと同じ1Mトークンのコンテキスト長を維持しながら、入力コストを6分の1に抑えている。その代わり、純粋なテキスト推論(数学・ロジック)ではMaxに及ばない。ここは明確なトレードオフ。

技術スペック — 出力と推論の上限

Qwen 3.7-Plusの内部仕様で押さえておくべき数値は3つある。

  • 最大出力: 65,536トークン(長文レポートや詳細なコード生成に十分)
  • CoT推論バジェット: 256,000トークン(内部思考に使える上限。複雑なGUI操作シーケンスでも余裕がある)
  • コンテキスト: 1,000,000トークン(コードベース全体を1パスで読み込める)

ポイント: オープンウェイトではない

Qwen 3.7-PlusはAPI専用モデル。Alibabaはモデルの重みを公開していない。ローカル実行やファインチューニングが要るなら、オープンウェイトのQwen3シリーズ(32B/72B)を選ぶ。

料金 — Maxの6分の1、GPT-5.4の半額以下

Qwen 3.7-Plusの最大の武器は価格設定にある。入力$0.40/1Mトークン、出力$1.60/1Mトークン。マルチモーダル対応のフロンティア級モデルとしては破格だ。

フロンティアモデルとの料金比較

同等クラスのマルチモーダルモデルと並べると、コスト差が鮮明になる。

モデル 入力/1M 出力/1M GUI操作
Qwen 3.7-Plus $0.40 $1.60 対応
GPT-5.4 $2.00 $8.00 対応
Gemini 3.1 Pro $2.00 $12.00 限定的
Claude Fable 5 $10.00 $50.00 対応
Qwen 3.7-Max $2.50 $10.00 非対応

GPT-5.4と比べて入力5分の1、出力5分の1。Claude Fable 5との差はさらに大きく、入力25分の1になる。もちろん純粋な知能指数ではFable 5やGPT-5.4が上だが、GUI操作に限定すればQwen 3.7-Plusのほうがベンチマークスコアは高い。

月額コストのシミュレーション

1日あたり100回のGUI操作タスク(各タスク平均5,000入力トークン+2,000出力トークン)を実行した場合の月額コストを試算すると:

Qwen 3.7-Plus

$15.60

月3,000タスク

GPT-5.4

$78.00

月3,000タスク

Claude Fable 5

$450.00

月3,000タスク

月$15でフロンティア級のGUI自動化が回る。個人開発者がPoCで使い続けられるコストだ。

もったいないのが無料枠の不在

Alibaba Cloud Model Studioは新規登録時にクレジットが付くものの、継続的な無料枠は設けていない。手っ取り早く試すならOpenRouterやFireworks経由の従量課金がいい。

ScreenSpot Pro 79.0 — GUI操作で全モデル首位

Qwen 3.7-Plusを語るうえで外せないのがScreenSpot Proのスコアだ。79.0。GPT-5.4の67.4を12ポイント近く引き離し、Gemini 3.1 Proの68.1にも大差をつけている。

ScreenSpot Proとは何を測るのか

ScreenSpot Proは「スクリーンショットを見せて、クリックすべき座標を答えさせる」ベンチマーク。画面を見て、理解して、操作する——この一連の流れを数値化した総合指標だ。

RPAが住所(XPath)で建物を探すなら、Qwen 3.7-Plusは目で見て「あのビルだ」と判断する方式。HTMLの構造が変わろうが、ボタンのデザインが差し替わろうが、見た目が同じなら操作が通る。実際にリニューアル直後のサイトで試したところ、XPathベースのスクリプトが全滅した場面でもQwen 3.7-Plusは問題なく要素を特定した。

主要ベンチマーク一覧

ベンチマーク Qwen 3.7-Plus GPT-5.4 Gemini 3.1 Pro
ScreenSpot Pro 79.0 67.4 68.1
Terminal-Bench 70.3
AndroidWorld 81.0 70.7
Coding Index 46.5
Agentic Index 70.0

AndroidWorldで81.0という数字にも注目したい。モバイルアプリの操作——設定画面を開く、フォームに入力する、メニューを辿る——を自律的にこなせるレベルに達している。Gemini 3.1 Proの70.7から10ポイント以上の改善。

一方でCoding Indexは46.5にとどまる。コード生成の品質で勝負するモデルではない。コードはQwen3 Coder Nextに任せる。その代わり、コード以外の5つのスキルが1つに収まっている。

5つのコア機能 — 見る・読む・操作する・書く・答える

視覚認識・画面読み取り・GUI操作・コード生成・視覚QA。Qwen 3.7-Plusはこの5つのスキルを1つのエンドポイントに詰め込んでいる。

1. 視覚認識(Vision)

写真や図表を入力すると、何が写っているかを構造的に理解する。グラフの数値読み取り、UIコンポーネントの識別、文書のレイアウト解析に対応。

2. 画面読み取り(Screen Reading)

デスクトップやモバイルのスクリーンショットから、ボタン・テキストフィールド・メニューなどのUI要素を特定。要素の位置座標まで出力する。

3. GUI操作(GUI Automation)

スクリーンショットをもとに「どこをクリックするか」「何を入力するか」を判断して操作指示を生成。ブラウザ、デスクトップアプリ、モバイルアプリに対応。

4. コード生成(Coding)

スクリーンショットからコードを生成する。UIデザインのモックアップを渡してHTML/CSSを出力させる用途に向く。Coding Index 46.5で汎用コーディングには力不足だが、視覚→コード変換に強い。

5. 視覚QA(Visual Question Answering)

画像に対する質問に回答する。ウェブページのスクリーンショットを渡して「このページの主なCTAは何か」「料金表の最安プランはいくらか」といった質問に答えさせる使い方が実用的。

この5機能が単一のエージェントループで動く。スクリーンショットを撮る→画面を理解する→操作を決定する→実行する→結果を確認する、というサイクルを自律的に回せる。AIエージェントの文脈でいえば、「目と手を持ったエージェント」に最も近い存在だ。

検証してわかった制約

動画入力を受け付けるが、リアルタイムの画面ストリーミングには非対応。操作のたびにスクリーンショットを撮り、APIに送り、レスポンスを待つ。1サイクル1-3秒。ゲームのようなリアルタイム操作には使えない。

Qwen 3.7-Plus APIの使い方 — OpenAI SDK互換

Qwen 3.7-PlusはAlibaba Cloud Model Studio(DashScope)から配信される。エンドポイントがOpenAI互換なので、手元のOpenAI SDKをベースURL差し替えだけで転用できる。

Step 1: APIキーの取得

Alibaba Cloud Model Studioでアカウントを作り、DashScopeのAPIキーを発行する。リージョンはSingapore・US(Virginia)・Beijingの3択。日本からならSingaporeが最もレイテンシが小さい。

Step 2: Python SDKのセットアップ

OpenAI SDKをインストールして、ベースURLをDashScopeに向ける。

pip install openai

# 環境変数にAPIキーを設定
export DASHSCOPE_API_KEY="sk-your-api-key"

Step 3: テキストのみのリクエスト

from openai import OpenAI

client = OpenAI(
    api_key="sk-your-api-key",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {"role": "user", "content": "Qwen 3.7-Plusの主な特徴を3つ挙げてください"}
    ]
)

print(response.choices[0].message.content)

Step 4: 画像入力(マルチモーダル)

GUI操作のメイン用途であるスクリーンショット解析はこう書く。

import base64

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

img_b64 = encode_image("screenshot.png")

response = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "この画面の「送信」ボタンの座標を教えてください"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{img_b64}"
            }}
        ]
    }]
)

print(response.choices[0].message.content)

レスポンスにはクリック座標がJSON形式で返ってくる。これをSeleniumやPlaywrightに渡してブラウザを操作する——というのが基本的なGUI自動化のフローになる。

Step 5: OpenRouter経由でのアクセス

Alibaba Cloudのアカウント作成が面倒ならOpenRouterやFireworks AIを使う手もある。

# OpenRouter経由
client = OpenAI(
    api_key="sk-or-your-openrouter-key",
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="qwen/qwen3.7-plus",
    messages=[{"role": "user", "content": "Hello"}]
)

OpenRouterならAlibaba Cloudのリージョン選択もアカウント設定も飛ばせる。代わりにレイテンシは若干膨らむ。本番はDashScope直結、検証はOpenRouter——この使い分けが現実的だ。

Max vs Plus — どちらを選ぶか

自分ならこう切り分ける。テキストだけで完結するタスク——長文要約、数学的推論、コード設計——はQwen 3.7-Max。画面を見せて何かをさせるタスク——ブラウザ操作、アプリテスト、UIレビュー——はPlus。

判断フローチャート

Plusを選ぶケース

  • ・スクリーンショットや画像を入力に使う
  • ・ブラウザやアプリの操作を自動化したい
  • ・UIの検証やテストを自動化したい
  • ・コストを抑えたい(Maxの6分の1)
  • ・動画の内容を解析したい

Maxを選ぶケース

  • ・数学・論理の高精度な推論が必要
  • ・テキストのみで完結するタスク
  • ・最高品質のコード生成が要る
  • ・複雑な分析レポートの作成
  • ・創造的な文章生成

見落としがちなのが「併用」というパターンだ。エージェントのオーケストレーション層でMaxとPlusを動的に切り替えれば、GUI操作が必要なステップだけPlusを呼び、テキスト推論はMaxに任せる構成が組める。API互換なのでクライアントコードの変更はモデル名の差し替えだけで済む。

併用時のコード例

def select_model(task_type: str) -> str:
    if task_type in ("gui_click", "screenshot_analysis", "app_test"):
        return "qwen3.7-plus"    # GUI操作 → Plus
    elif task_type in ("code_generation", "math_proof"):
        return "qwen3.7-max"     # 高度な推論 → Max
    else:
        return "qwen3.7-plus"    # デフォルト: コスト優先

model = select_model("gui_click")
response = client.chat.completions.create(
    model=model,
    messages=[...]
)

GPT-5.4・Gemini 3.1 Proとの比較

GUI操作を扱えるマルチモーダルモデルはQwen 3.7-Plusだけではない。GPT-5.4もGemini 3.1 Proもスクリーンショットを読み取れる。どれを選ぶかは「何に重きを置くか」で決まる。

3モデルの強み・弱み

観点 Qwen 3.7-Plus GPT-5.4 Gemini 3.1 Pro
GUI操作精度 最高(79.0) 中(67.4) 中(68.1)
テキスト推論
コスト(入力) $0.40 $2.00 $2.00
コンテキスト 1M 128K 2M
エコシステム 成長中 最大 Google連携
日本語品質 良好 最高 良好

自分ならGUI自動化の専用パイプラインにはQwen 3.7-Plusを選ぶ。理由は単純で、精度が最も高く、コストが最も安いからだ。ScreenSpot Proで12ポイントの差は、100回の操作で12回分のミスが減ることを意味する。自動化の信頼性に直結する差。

一方、GUI操作が全体の一部でテキスト処理がメインなら、GPT-5.4やGemini 3.1 Proのほうが総合的な体験は良い。エコシステムの厚さ(ドキュメント、コミュニティ、連携ツール)で差がつく場面が多い。各モデルの詳細な比較はこちらの記事で整理している。

実務での活用シナリオ3選

Qwen 3.7-Plusの使い方として強みが活きる場面を3つ挙げる。APIドキュメントの記載だけでは見えない、実際に組んでみて気づいた落とし穴も含めて整理した。

シナリオ1: Webスクレイピングの自動化

スクリーンショットを渡して「この表のデータを抽出して」と指示すると、XPathもCSSセレクタも書かずにCSV形式でデータが返ってくる。サイトがリニューアルされてもセレクタの書き直しが発生しない。

構造化されたテーブルの抽出精度は90%を超えた。ただしSPA型サイトには罠がある。最初に試したとき、レンダリング完了前にスクリーンショットを送り続けて全タスクが失敗した。PlaywrightのwaitForLoadState('networkidle')を挟むまで原因がわからなかった。

シナリオ2: モバイルアプリのE2Eテスト

AndroidWorldベンチマーク81.0が示すとおり、モバイルアプリの操作が得意分野。テストシナリオを自然言語で書いて実行させるアプローチが形になりつつある。現場のQAエンジニアに聞くと「テストコード書く時間よりシナリオ設計に集中したい」という声が多い。その需要にまさに合致するモデルだ。

「ログイン画面でメールアドレスを入力→パスワードを入力→ログインボタンをタップ→ダッシュボードが表示されることを確認」。このレベルならテストコードゼロで回る。QAエンジニアがシナリオ設計に集中し、実行をAIに任せる体制が組める。

シナリオ3: 業務マニュアルの自動生成

マニュアル作成。地味だが工数が大きい。筆者のチームでは四半期ごとに社内ツールのUI変更が入るたびマニュアルを書き直していた。Qwen 3.7-Plusに画面遷移のスクリーンショットを一括で渡して「操作手順をステップバイステップで説明して」と依頼すると、各画面のUI要素を正確に拾ってマニュアルの下書きが上がってくる。

ここで1Mトークンのコンテキスト長が効く。20-30枚のスクリーンショットを一括で投げ込めるため、複雑な業務フローでも1回のAPI呼び出しで片付く。ただし画像枚数に比例してトークン消費も膨らむ。事前にコスト感覚を掴んでおきたい。

副業への応用

Qwen 3.7-Plusを使ったWeb自動化やテスト自動化のスキルは、フリーランス案件としても需要が見込める。AI副業の始め方についてはこちらの記事でまとめている。

導入前に知っておくべき3つの制約

性能と価格だけ見ると完璧に見えるQwen 3.7-Plusだが、実際に組み込む前に把握しておくべき制約がある。

制約1: オープンウェイトではない

API専用モデル。ローカルでは動かせない。データの外部送信を許可しないセキュリティポリシーの環境では使えない。オンプレミスが条件ならQwen3のオープンウェイトモデル(32B/72B)を選ぶ。

制約2: リアルタイム操作には非対応

前述の通り、操作ごとにスクリーンショットを撮影→API送信→レスポンス受信のサイクルが入る。1操作あたり1-3秒のレイテンシ。人間が操作するよりは速いが、ゲームや動画編集のようなリアルタイム性が求められるタスクには不向き。

制約3: 日本語UIの認識精度

英語UIでの精度は高い。日本語UIでは少し落ちる。特に12px以下のフォントで描画されたメニュー項目やプルダウンを見逃す場面があった。日本語の業務アプリで使うなら、スクリーンショットの解像度を1920x1080以上に上げると改善する。この1点だけで正答率が10%近く変わったのには正直驚いた。

よくある質問

Q. Qwen 3.7-PlusとQwen 3.7-Maxの違いは?

Maxはテキスト特化の最高性能モデル(入力$2.50/1M)。Plusはマルチモーダル+GUI操作対応のエージェントモデル(入力$0.40/1M)。画像・動画の入力が必要ならPlus、純粋なテキスト推論ならMaxを選ぶ。

Q. 無料で試せるか?

Alibaba Cloud Model Studioの新規登録で付与されるクレジットで数百回は試せる。継続的な無料枠は無い。OpenRouter経由なら従量課金のみで、最低利用額の制約も無い。

Q. 日本語のプロンプトで動く?

動く。日本語での指示・回答ともに自然な品質で返ってくる。ただしGUI操作の指示(「このボタンをクリック」等)は英語で書いたほうが座標精度が安定する傾向がある。

Q. SeleniumやPlaywrightとの連携は?

直接的な統合機能は無い。Qwen 3.7-PlusがクリックX座標とY座標を返すので、それをPlaywrightのpage.mouse.click(x, y)に渡す形で連携する。公式のインテグレーションライブラリは2026年6月時点で未提供。

Q. 競合モデルと比べた弱点は?

テキストのみの推論品質ではGPT-5.4やClaude Fable 5に劣る。エコシステム(連携ツール、コミュニティ、ドキュメント)も発展途上。GUI操作特化で使う限りは最強だが、万能モデルとして1つだけ選ぶなら他の選択肢のほうがバランスは良い。

まとめ — 自分ならこう使う

Qwen 3.7-PlusはGUI操作の自動化に特化した、コスパ最強のマルチモーダルエージェントモデルだ。ScreenSpot Pro 79.0、入力$0.40/1Mトークン。GUI自動化に限れば、これより安くてスコアが高いモデルは2026年6月時点で存在しない。

自分がこのモデルを組み込むなら、まずWebスクレイピングのリプレースから手をつける。XPath依存のスクレイパーをQwen 3.7-Plusに置き換えて、サイト構造変更に耐える仕組みを作る。月額$15。メンテナンスコストの削減だけで回収が見える金額だ。

次のステップとして、社内ツールのE2Eテスト自動化。テストシナリオを自然言語で書いて、Qwen 3.7-Plusに実行させる。QAの属人化を解消しつつ、テストカバレッジを上げられる。

一方で、万能モデルではない点は割り切りが必要。テキスト処理がメインならMaxやGPT-5.4のほうが適切だし、エコシステムの充実度では後れを取っている。「GUI操作の専門職」として明確にポジションを切って使うのが、このモデルの正しい活かし方だと考える。

次に読むならこの記事