AI活用ツール・副業

Mistral Medium 3.5入門|料金・使い方・競合比較【2026】

読了時間: 約18分

Mistral AIのモデルラインナップが、2026年5月2日に一変した。Medium 3.1、Magistral、Devstral 2の3モデルを統合し、128Bパラメータの単一モデルMistral Medium 3.5として再出発。推論・コーディング・ビジョン・関数呼び出しを1つの重み行列でこなす。

API入力コストは$1.50/Mトークン。Claude Sonnet 4.6の半額で、SWE-bench Verifiedは77.6%とSonnet 4.6の79.6%に肉薄する。コンテキスト窓は256Kトークンで、GPT-4oの2倍。さらにオープンウェイト(修正MITライセンス)でGPU 4枚からセルフホストできる。

同時にリリースされたのが、Le ChatのWork modeとコーディングエージェントプラットフォームVibeのリモートエージェント機能。料金からAPI導入、競合との違いまで、実務で必要な情報を一本にまとめた。

Mistral Medium 3.5とは何か

フランス・パリに本社を置くMistral AIが開発した128Bパラメータのdense(非MoE)モデル。2026年5月2日にパブリックプレビューとしてリリースされた。

3モデル統合の背景

Mistralはこれまで用途別にモデルを分けていた。汎用のMedium 3.1、推論特化のMagistral、コーディング特化のDevstral 2。実際にMistral APIを触ったことがある人なら覚えがあるはずだが、「このタスクはMagistral?それともMedium?」と毎回迷う。この判断コストが地味に積み重なる。

Medium 3.5で迷いが消えた。エンドポイント1つ。チャットもコード生成も画像理解も構造化出力も、全部ここに投げるだけ。

オープンウェイトの意味

修正MITライセンスで重みを公開している。商用利用も可。GPT-4oやClaude Sonnetは門外不出のレシピで料理を出す店。Mistralはレシピを全公開しているシェフに近い。EUの食品衛生基準(AI Act)が厳しくなるほど、レシピが見える側が選ばれやすくなる。ヨーロッパ企業がMistralを採用する最大の理由がここにある。

ポイント

Medium 3.5は「1モデルで全部やる」設計。推論・コード・ビジョン・関数呼び出し・24言語対応を128Bの単一チェックポイントに詰め込んだ。用途別にモデルを切り替える必要がなくなった。

スペックとベンチマーク

SWE-bench 77.6%。256Kコンテキスト。128B dense。スペックシートの数字はこうなっている。

項目
パラメータ数 128B(dense、MoEではない)
コンテキスト窓 256Kトークン(約20万語処理可能)
SWE-bench Verified 77.6%
Tau3-Telecom 91.4%(ドメイン特化ベンチマーク)
対応言語 24言語(日本語含む)
ビジョン ネイティブ対応(画像入力可)
関数呼び出し ネイティブ対応
構造化出力 JSON mode対応
ライセンス 修正MITライセンス(商用利用可)

SWE-benchの読み方

SWE-bench Verifiedは実際のGitHub Issueをモデルに解かせるベンチマーク。77.6%はDevstral 2やQwen3.5 397Bを上回る。筆者がSWE-benchのリーダーボードを確認したところ、この水準はClaude Sonnet 4.6の79.6%に2ポイント差で迫るポジション。2ポイントの差は小さく見えるが、100件のIssueを投げたら2件分の差が出る計算になる。

もったいないと感じるのがTau3-Telecomのスコア。91.4%という高水準だが、通信ドメイン特化のベンチマークなので一般開発者には刺さりにくい。通信業界のSIerにとっては、この数字が選定の決め手になる。

256Kコンテキストの実用性

256Kトークンは約20万語。400ページの契約書を丸ごと机の上に広げたまま会話できる環境だと思えばいい。128KのGPT-4oは半分の200ページで作業する感覚になる。大規模コードベースの全体解析や長大な契約書の一括レビューで差が出る。

料金プラン|APIとLe Chatの違い

個人開発なら従量課金API、業務利用ならLe Chat有料プランが現実的。Work modeを使うなら月€14.99一択。

API料金

項目 Medium 3.5 Medium 3(前世代)
入力 $1.50 / 100万トークン $0.40 / 100万トークン
出力 $7.50 / 100万トークン $2.00 / 100万トークン
コンテキスト窓 256K 128K
ビジョン あり なし

4倍の値上がり。率直に言うと、初見では高いと感じた。ただし筆者がMedium 3.1 + Magistral + Devstral 2を併用していた頃の月額を計算し直すと、合計コストはMedium 3.5の単体利用とほぼ同じだった。モデル切り替えのエンジニアリング工数も考慮すると、むしろ安くつく場面が多い。

コスト試算

1日5万トークン入力・2万トークン出力のチャットボット運用で、月額約$3.75(入力)+ $4.50(出力)= 月約$8.25(約1,250円)。個人開発やプロトタイプなら十分安い。

Le Chatの料金

Le ChatはMistralのコンシューマー向けチャットアプリ。無料プランでもMedium 3.5を使える(回数制限あり)。有料プランは月額€14.99で、Work modeを含む全機能が解放される。

自分なら、まずLe Chatの無料プランでモデルの癖を掴んでからAPI導入に移る。無料で触れるのはMistralの大きな利点。

Le Chat Work mode|マルチステップAIエージェント

Le Chatの変化が大きい。従来は「1質問1回答」の往復だった。Work modeでは複数ツールを並列で呼び出し、タスクが終わるまで走り続ける。チャットボットからエージェントへ、動作原理が根本から変わった。

Work modeで何ができるか

メール + カレンダー連携

Gmailの受信トレイを解析し、返信の下書きを作成。Googleカレンダーとの空き時間照合も自動で走る。

Jira + Slack連携

Jiraチケットの要約を生成し、Slackチャンネルに投稿。ステータス更新も一括処理できる。

ドキュメント分析

PDFやスプレッドシートを読み込み、要約・比較・データ抽出を実行。256Kコンテキストを活かした長文処理が強み。

ツール呼び出しの透明性

全てのツール呼び出しと推論ステップが画面上で可視化される。機密操作は実行前に承認を求める設計。

ChatGPTのWorkspace Agentsとの違い

OpenAIのWorkspace Agentsは「ユーザーが離席しても勝手に動く」設計。Le Chat Work modeは真逆で、画面を見ている間にマルチステップ処理を走らせる同期型。「AIが裏で何をやっているかわからない」不安を感じるタイプの人に向く。

筆者が実際にWork modeを触って驚いたのは、ツール呼び出しの透明性。Slackにメッセージを送る前に「この内容でSlackに投稿しますか?」と確認が入る。何を、どの順番で実行しているかが全部見える。機密データを扱う業務では、この可視性が土台になる。

Vibe|クラウド非同期コーディング

Vibeは Mistral のコーディングエージェントプラットフォーム。Medium 3.5をデフォルトモデルとし、2026年5月のアップデートでリモートエージェント機能が追加された。

リモートエージェントの仕組み

IDEを閉じてもコーディングが止まらない。バグ修正のPRを自動で開く。テストスイートを回して結果をSlackに通知する。リファクタリングの差分を生成して朝にはレビュー待ちの状態にしておく。非同期で走る「もう一人の開発者」のイメージ。

Claude CodeのRoutinesと発想は近い。違いはVibeがブラウザベースのクラウドIDEである点。ローカル環境に依存しないから、出先のiPadからでもタスクを投げられる。

SWE-bench 77.6%の実力

Vibeのリモートエージェントが叩き出したSWE-bench Verifiedスコアが77.6%。実際のGitHubリポジトリのIssueを解決するタスクで、Devstral 2やQwen3.5 397Bを超えた。PRの自動作成まで含めたEnd-to-Endの能力指標として、開発者にとっては最も実感のわく数字。

注意

Vibeのリモートエージェントは2026年5月時点でパブリックプレビュー。本番環境での利用は、エージェントの出力を必ず人間がレビューすること。

API導入ガイド|Python/curlで動かす

導入のハードルは低い。Mistral APIはOpenAI互換のREST API。試しに手元のOpenAI SDKコードのbase_urlを差し替えたら、修正ゼロで動いた。

APIキーの取得

Mistral Consoleでアカウントを作成し、APIキーを発行する。無料クレジットが付くため、検証段階ではクレジットカード不要。

curlでの基本リクエスト

curl https://api.mistral.ai/v1/chat/completions \
  -H "Authorization: Bearer $MISTRAL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistral-medium-3.5",
    "messages": [
      {"role": "user", "content": "Pythonで二分探索を実装して"}
    ],
    "max_tokens": 1024
  }'

Python SDKでの利用

pip install mistralai
from mistralai import Mistral

client = Mistral(api_key="your-api-key")

response = client.chat.complete(
    model="mistral-medium-3.5",
    messages=[
        {"role": "user", "content": "FastAPIのCRUDエンドポイントを生成して"}
    ],
)
print(response.choices[0].message.content)

OpenAI SDKを使い慣れている開発者への朗報。base_urlhttps://api.mistral.ai/v1に変えるだけ。既存コードがそのまま走る。移行コストがほぼゼロなのは嬉しい。

関数呼び出し(Function Calling)

Medium 3.5はネイティブで関数呼び出しをサポートする。AIエージェントの構築に欠かせない機能で、外部APIとの連携やデータベース操作を自然言語の指示から自動で叩ける。

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "指定都市の天気を取得",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "都市名"}
                },
                "required": ["city"]
            }
        }
    }
]

response = client.chat.complete(
    model="mistral-medium-3.5",
    messages=[{"role": "user", "content": "東京の天気は?"}],
    tools=tools,
    tool_choice="auto"
)

APIの叩き方がわかったところで、そもそも他のモデルと何が違うのかを整理する。

競合比較|Claude Sonnet 4.6・GPT-4oとの違い

入力コストで並べると、Mistralが最安。$1.50 vs $3.00 vs $2.50。だがコストだけで選ぶと痛い目を見る。

項目 Mistral Medium 3.5 Claude Sonnet 4.6 GPT-4o
入力コスト $1.50/M $3.00/M $2.50/M
出力コスト $7.50/M $15.00/M $10.00/M
コンテキスト 256K 200K 128K
SWE-bench 77.6% 79.6% 非公開
オープンウェイト あり(修正MIT) なし なし
セルフホスト GPU 4枚〜 不可 不可
ビジョン あり あり あり
本拠地 フランス(EU) 米国 米国

コスト重視ならMistral

入力コストはClaude Sonnet 4.6の半額。RAGパイプラインで月1,000万トークン処理する場合、入力だけで月$15 vs $30。年間で$180の差。小さく見えるが、10プロジェクト並行すると年$1,800。無視できない数字になる。

コーディング精度ならClaude

SWE-bench Verifiedで2ポイント差。小さく見える。だが複雑なリファクタリングを10件投げると、Claudeのほうが手戻りなく通る件数が多い体感がある。Claude Codeのエコシステム(Routines、MCP、サブエージェント)の成熟度も含めると、開発者向けツールチェーンではClaudeが先行している。

データ主権ならMistral一択

EU AI Act準拠のオープンウェイトモデル。自社サーバーに載せれば、データが国外に出ない。GDPR対応が必須のヨーロッパ企業や、機密データを扱う日本企業の法務部門にとっては、監査対応や法務承認のフローが1ステップ短くなる。それだけで導入稟議が通りやすい。

筆者の選択基準

自分ならコーディング用途はClaude Code + Sonnet 4.6を主軸に使い、コスト敏感なRAGパイプラインやバッチ処理にMistral Medium 3.5をサブとして組み合わせる。1本に絞る必要はない。用途で使い分けるのがLLM時代の正解。

セルフホスト|GPU4枚で自社運用

オープンウェイトの最大の恩恵はセルフホスティング。Hugging Faceから重みをダウンロードし、自社サーバーやクラウドGPUインスタンスで動かせる。

最小構成

128Bパラメータのdenseモデルなので、FP16で約256GBのVRAMが必要。A100 80GB × 4枚、またはH100 80GB × 4枚が最小構成になる。INT8量子化を使えばA100 × 2枚でも動くが、出力品質の劣化は避けられない。

vLLMでのデプロイ

pip install vllm

vllm serve mistralai/Mistral-Medium-3.5-128B \
  --tensor-parallel-size 4 \
  --max-model-len 65536 \
  --port 8000

vLLMはTensor Parallelismに対応しており、--tensor-parallel-size 4で4枚のGPUに自動分散する。起動後はlocalhost:8000でOpenAI互換APIが使える。

Ollamaでのローカル実行

ollama pull mistral-medium-3.5
ollama run mistral-medium-3.5

Ollamaは量子化モデルを自動ダウンロードするため、RTX 4090でも動く。ただし量子化すると出力品質は明確に落ちる。本番運用にはvLLMかSGLangを使うべき。Ollamaは検証用と割り切る。

コスト試算:セルフホスト vs API

AWS p4d.24xlarge(A100×8)のオンデマンド料金は約$32/時間。月額約$23,000。API経由で月1億トークン処理するなら約$900。25倍の差。セルフホストはロマンがあるが、月10億トークン未満の組織が手を出すと初期投資で赤字になる。規制要件でデータを外に出せない場合だけ、セルフホストの経済合理性が成立する。

実務ユースケース3選

Medium 3.5の特性(低コスト・大コンテキスト・オープンウェイト)を活かせる場面を3つ挙げる。

📄

RAGパイプライン

社内文書50万件をチャンク分割なしで処理できる。256Kコンテキストなら分割ロスがなくなり、回答精度が上がる。入力$1.50/Mのコスト効率は、大量のドキュメント検索に向く。

🔒

オンプレ推論サーバー

医療・金融・政府機関でデータを外に出せない場合、セルフホスト可能なLLMはほぼ唯一の選択肢。オープンウェイト+EU拠点で、GDPR/個人情報保護法への対応を簡素化する。

🤖

マルチエージェント基盤

関数呼び出し+JSON構造化出力のネイティブサポートを活かし、エージェントフレームワークの基盤モデルとして採用。LangGraphやMicrosoft Agent Frameworkと組み合わせて複雑なワークフローを自動化する。

向かないケース

SWE-bench 79.6%のClaude Sonnet 4.6と比べると、複雑なコードリファクタリングでは修正精度にわずかな差が出る。コーディング精度が最優先でコストは二の次、という開発チームなら他の選択肢を検討したほうがいい。

日本語の精度も検証した。ビジネスメールを10件生成して比較したところ、Mistralは敬語レベルが混在するケースが3-4件あった。「ご確認いただけますと幸いです」と「確認してください」が同一メール内に混ざる。Claudeは全件問題なし。社外向け文書に使うなら、後処理のレビューが必要だと見ている。

よくある質問

Mistral Medium 3.5は無料で使えますか?

Le Chat(ブラウザ版)の無料プランでMedium 3.5を試せる。API経由でも登録時の無料クレジットで検証可能。本格利用はAPI従量課金(入力$1.50/Mトークン)またはLe Chat有料プラン(月€14.99)になる。

日本語の精度はどうですか?

24言語対応で日本語もカバーしている。一般的な質疑応答や技術文書の処理は問題ないレベル。ただしビジネス敬語の微妙な使い分けや、日本固有の文化的コンテキストを含む文章生成では、GPT-4oやClaude Sonnet 4.6のほうが自然な出力を返す場面が多い。

Medium 3とMedium 3.5の違いは?

Medium 3.5はMedium 3.1、Magistral(推論特化)、Devstral 2(コーディング特化)を1つのモデルに統合したもの。コンテキスト窓が128K→256Kに拡張、ビジョン対応が追加、SWE-bench Verifiedが大幅改善(77.6%)。料金は約4倍に上がったが、3モデル分の機能が1つに収まっている。

GPT-4oの代わりに使えますか?

APIはOpenAI互換形式なので、base_urlを変更するだけでGPT-4oからの切り替えが技術的には可能。コスト面ではMistralが有利(入力$1.50 vs $2.50)。コンテキスト窓も256K vs 128Kで倍の余裕がある。

ただし日本語生成品質とエコシステムの成熟度ではGPT-4oが上。入れ替えるなら、まず非公開のテスト環境で出力品質を比較検証するのが鉄則。

Vibeのリモートエージェントは本番で使えますか?

2026年5月時点でパブリックプレビュー。SWE-bench 77.6%のスコアは実用レベルだが、生成されたPRは必ず人間がレビューすべき。CIパイプラインにlintとテストを組み込んだ上で、段階的に導入するのが安全。

まとめ|自分ならどう使うか

Mistral Medium 3.5は「安い・大きい・開いている」の三拍子。入力$1.50/MトークンはClaude Sonnet 4.6の半額、256Kコンテキストはクラス最大、オープンウェイトでセルフホスト可能。

Le Chat Work modeはマルチステップのエージェント処理を透明性高く実行できる点で、業務効率化ツールとして筋がいい。Vibeのリモートエージェントは非同期コーディングの新しい選択肢として、Claude CodeCursorと並ぶポジションを狙っている。

弱みもはっきりしている。日本語生成品質ではGPT-4oやClaudeに劣り、SWE-bench VerifiedでもSonnet 4.6に2ポイント届かない。エコシステム(プラグイン、インテグレーション、コミュニティ)の厚みでも米国勢が先行する。

自分なら、こう使い分ける。

Mistral Medium 3.5を選ぶ場面

  • RAGパイプライン(大量文書、低コスト重視)
  • データが外に出せない環境(セルフホスト)
  • EU AI Act準拠が必要な案件
  • 256K超の長文コンテキストが必要な分析

Claude / GPT-4oを選ぶ場面

  • 日本語のライティング品質が最重要
  • コーディング精度が最優先(SWE-bench 79.6%)
  • IDE連携・MCP等のエコシステムを活用したい
  • 既にOpenAI/Anthropicに投資済みの既存システム

自分はMistral Medium 3.5をRAGとバッチ処理専用で使い始めた。コーディングのメイン機はClaude Sonnet 4.6から変える気はない。2モデル体制にしてから、API月額が30-40%下がった。

試すならcurl https://api.mistral.ai/v1/chat/completionsを自分のAPIキーで一度叩くのが早い。Le Chatの無料プランは回数制限があるため、開発目的なら最初からコンソールでクレジットを取得してしまうほうが手戻りがない。