MAI-Thinking-1入門|料金・性能・Claude比較2026
目次
2026年6月2日、Microsoft Build 2026の基調講演で7つの自社AIモデルが発表された。その中核を担うのがMAI-Thinking-1、Microsoftが初めてゼロから訓練した推論特化モデルだ。
OpenAIのモデルを蒸留したわけでも、外部モデルをファインチューンしたわけでもない。35Bアクティブパラメータのスパースなスケールでありながら、数学ベンチマークAIME 2025で97%、コーディングベンチマークSWE-bench Proで53%を叩き出し、Claude Opus 4.6と肩を並べた。しかもコストはClaude Sonnet 4.6の約10分の1とMicrosoftは主張する。
GitHub Modelsなら無料アカウントで今すぐ触れる。
MAI-Thinking-1とは?Microsoftが自社開発した推論モデル
Microsoft初の自社推論モデル。「MAI」はMicrosoft AIの頭文字で、同時に発表されたMAI-Code-1(コーディング特化)やMAI-Code-1-Flash(軽量版)と合わせてMAIファミリーを構成する。
推論モデルとは
通常のLLMが「すぐに回答を返す」のに対して、推論モデルは回答前に内部で「思考ステップ」を踏む。数学の証明で途中式を丁寧に書くようなものだ。OpenAIのo1・o3、Googleのgemini-2-thinking、DeepSeekのR1がこのカテゴリに該当する。
異色なのは蒸留(知識を小さなモデルに凝縮する手法)を一切使っていない点だ。公式発表では「trained from scratch without using any third-party model distillation」と明言している。自前のデータとインフラだけで、Sonnet 4.6を上回る評価を得た。実際にGitHub Modelsで数学の証明問題を投げてみると、途中ステップの論理展開がかなり精密で驚いた。
ここが重要
MAI-Thinking-1は「OpenAI依存からの自立」を象徴するモデル。Microsoftが推論AI市場に自社技術で参入した最初の一手であり、Azure・GitHub Copilot・Microsoft 365に組み込まれていく可能性が高い。
開発の背景|OpenAI依存からの脱却
Microsoftは2019年からOpenAIに累計130億ドル以上を出資し、Azure上でGPTシリーズを独占提供してきた。だが2025年後半からOpenAIは他クラウドへの配信を拡大し、Microsoftとの排他的関係は薄まりつつある。
なぜ自社モデルが必要になったのか
理由はシンプルだ。GPT-5.5のAPI利用料の値上げが続くなか、GitHub Copilotの原価率が上昇し続けていた。月額19ドルのCopilot Individual1ユーザーあたりのGPTコストが月40ドルを超えたと報じられたこともある。自社モデルで推論できれば、利益率を根本から改善できる。
Build 2026の基調講演でMicrosoftのKevin Scott CTOは、MAIファミリーの開発動機を「自分たちの製品に最適化したモデルを、自分たちで制御したい」と語った。
OpenAIモデル依存のリスク
- ・API利用料の値上げに対する交渉力の欠如
- ・モデル更新タイミングの制御不能
- ・競合(Google、Amazon)への配信拡大
- ・Copilotの原価率圧迫
自社モデルのメリット
- ・コスト構造の根本改善
- ・製品特化のチューニングが自由
- ・Azure Confidential Computingとの統合
- ・GitHub Copilotへのシームレスな統合
MAIファミリー全体像
Build 2026で発表されたMAIモデルは全7種。MAI-Thinking-1はその中核で、MAI-Code-1がコーディング特化、MAI-Code-1-Flashがエッジ向け軽量版という棲み分けになっている。
| モデル名 | 用途 | パラメータ | 特徴 |
|---|---|---|---|
| MAI-Thinking-1 | 推論・数学・コード | 35B(MoE) | AIME 97%、SWE-bench Pro 53% |
| MAI-Code-1 | コーディング | 非公開 | リポジトリ全体の理解・修正 |
| MAI-Code-1-Flash | 高速コーディング | 137B MoE(5B active) | 256Kコンテキスト、低レイテンシ |
MAI-Code-1-Flashの詳しい使い方と料金は「MAI-Code-1-Flash入門|料金・性能・Claude比較2026」にまとめている。
スペックと技術的特徴
アーキテクチャは公式に「スパースMixture of Experts(MoE)」と開示されている。パラメータ総数は非公開だが、推論時にアクティブになるのは35B。桁違いに小さい。GPT-5.5の推定総パラメータ数(数千億規模)と比べると格段に軽い。
主要スペック一覧
| 項目 | MAI-Thinking-1 |
|---|---|
| アーキテクチャ | Sparse Mixture of Experts |
| アクティブパラメータ | 35B |
| コンテキスト長 | 256,000トークン |
| 入力 | テキスト(マルチモーダル未対応) |
| API互換性 | Chat Completions API |
| Function Calling | 対応 |
| 訓練手法 | ゼロから訓練(蒸留なし) |
| 提供プラットフォーム | Azure AI Foundry / GitHub Models / OpenRouter / Fireworks AI / Baseten |
MoEアーキテクチャの利点
MoE(Mixture of Experts)は、入力トークンごとにパラメータの一部だけを活性化する仕組みだ。家のすべての部屋の照明を一斉につけるのではなく、いま居る部屋だけ点灯するイメージに近い。結果として、総パラメータ数に対する推論コストが大幅に下がる。
本モデルの場合、推論時にアクティブなのは35Bだけ。Sonnet 4.6のパラメータ数は非公開だが、推論コストの差から推測すると数倍以上の規模と考えられる。小さな活性パラメータで同等以上の性能を出せているのは、MoEの設計がうまくいっている証拠だ。
蒸留なしの意味
多くの軽量モデル(DeepSeek R1の蒸留版、Phi-4など)は、大型モデルの出力を教師データとして学習する「蒸留」で効率化している。蒸留モデルは元モデルのライセンスに縛られることが多く、商用利用の制約が発生しうる。
蒸留を一切使っていないため、MicrosoftはモデルのIP(知的財産)を完全に自社で保有する。Azure Confidential Computingのエンクレーブ内で実行することで、エンタープライズ顧客のデータが外部に出ないアーキテクチャも実現している。
エンジニア視点で見落としがちなポイント
Chat Completions API互換のため、既存のOpenAI SDK(openai Pythonパッケージ)でエンドポイントを差し替えるだけで呼び出せる。コードの書き換えはほぼゼロ。
移行コストが低いのはわかった。では肝心の性能はどうか。
ベンチマーク比較|Claude・GPT-5との実力差
Microsoftが公開したベンチマーク結果を他社モデルと並べてみる。数字はMicrosoft発表値であり、独立した第三者検証は2026年6月時点でまだ完了していない。その前提で読んでほしい。
数学・推論ベンチマーク
| ベンチマーク | MAI-Thinking-1 | Claude Sonnet 4.6 | GPT-5.5 |
|---|---|---|---|
| AIME 2025 | 97.0% | 非公開 | 非公開 |
| AIME 2026 | 94.5% | 非公開 | 非公開 |
| SWE-bench Pro | 53% | 非公開 | 非公開 |
AIME(American Invitational Mathematics Examination)は高校数学コンテストの難問で構成される。97%は人間の数学オリンピック候補生レベルの正答率だ。SWE-bench Proはソフトウェアエンジニアリングの実務レベルタスクを測定するベンチマークで、53%はClaude Opus 4.6と同水準。
ブラインド評価で Sonnet 4.6 を上回った
Microsoftは独立評価者によるブラインドテストも実施している。2つのモデルの出力を名前を伏せて並べ、「どちらの回答が優れているか」を人間に判定させた結果、MAI-Thinking-1がClaude Sonnet 4.6より高い支持を得たという。
率直に言えば、怪しい。AIME 2025はo1もo3もほぼ満点に近く、ベンチマークとして飽和しつつある。その状況で97%を出すこと自体は異常ではないが、「だから同等」とは言い切れない。本当に効いてくるのはSWE-bench ProやMMLU-Pro Hardのような、まだ天井が見えていないベンチマークでの比較だ。
ブラインド評価の詳細(評価者数、タスク種別、統計的有意差の有無)は完全に公開されていない。自社発表のベンチマークは割り引いて読む必要がある。Chatbot ArenaやLMSYSのElo評価が出揃うまで、数字は保留で扱う。
注意
ベンチマーク数値はMicrosoft発表値。Claude Sonnet 4.6やGPT-5.5の公式ベンチマークとの直接比較は、同一条件での第三者検証を待つ必要がある。
料金体系|Sonnet比10分の1のコスト効率
MAI-Thinking-1の料金は2026年6月時点で未公開だ。Azure AI Foundryではプライベートプレビュー段階にあり、一般提供(GA)後に正式料金が発表される見込み。ここではMicrosoftの「10倍のコスト効率」主張から推定単価を逆算してみる。
Microsoft の「10分の1」主張を検証する
Build 2026でMicrosoftは「GPT-5.5比で10倍のコスト効率」と主張した。Claude Sonnet 4.6の料金は入力$3/出力$15(100万トークンあたり)だから、同等の性能で10分の1なら入力$0.30/出力$1.50程度が推定ラインになる。
| モデル | 入力($/1Mトークン) | 出力($/1Mトークン) | コスト効率 |
|---|---|---|---|
| MAI-Thinking-1(推定) | ~$0.30 | ~$1.50 | 基準 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 約10倍 |
| Claude Opus 4.8 | $5.00 | $25.00 | 約17倍 |
| Gemini 3.5 Flash | $1.50 | $9.00 | 約5-6倍 |
この推定が正しければ、Gemini 3.5 Flashよりさらに安い。推論モデルとしてはDeepSeek R1(入力$0.55/出力$2.19)を下回る可能性すらある。
無料で使えるルート
GitHub Models
GitHubアカウント(無料)でサンドボックス利用可能。API呼び出し制限あり
MAI Playground
パブリックプレビュー予定。ブラウザから直接対話できる
OpenRouter
初回無料クレジットあり。複数プロバイダから最安値を自動選択
Copilot Enterprise(月額39ドル/ユーザー)を契約していれば追加コストなしで利用できる。Copilotの内部ルーティングがMAI-Code-1と本モデルを自動的に使い分ける仕組みだ。詳しくは「GitHub Copilot完全ガイド」も参照してほしい。
使い方|GitHub Modelsで無料から試す
MAI-Thinking-1の使い方で最も手軽なのはGitHub Modelsだ。Azure契約もクレジットカードも不要。GitHubアカウントさえあれば数分で最初のリクエストを投げられる。筆者も実際にこのルートで初回の検証を行った。
STEP 1: GitHub Models にアクセス
GitHub Modelsのカタログページを開く。検索窓に「MAI-Thinking-1」と入れると一発で出る。「Try it」をクリックすればPlaygroundが立ち上がる。
STEP 2: Python SDK で呼び出す
ローカルからAPIで呼び出すなら、OpenAI互換のSDKがそのまま使える。エンドポイントとAPIキーだけ差し替えればよい。
from openai import OpenAI
client = OpenAI(
base_url="https://models.inference.ai.azure.com",
api_key="YOUR_GITHUB_TOKEN", # GitHub PAT を指定
)
response = client.chat.completions.create(
model="MAI-Thinking-1",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "x^3 + 2x^2 - 5x + 1 = 0 の実数解を求めてください"},
],
temperature=0.7,
)
print(response.choices[0].message.content)
GitHub Personal Access Token(PAT)は GitHub の Settings > Developer settings > Personal access tokens から発行できる。スコープは read:packages があれば十分だ。
STEP 3: Azure AI Foundry で本番運用
プロダクション環境ではAzure AI Foundryからデプロイする。プライベートプレビューの段階だが、ウェイトリストに登録すれば数日でアクセスが開通する場合が多い。
# Azure CLI でモデルをデプロイ
az ai model deployment create \
--name mai-thinking-1-deployment \
--model-id MAI-Thinking-1 \
--resource-group my-ai-rg \
--workspace my-ai-workspace \
--sku-name Standard
STEP 4: OpenRouter 経由で使う
Azure契約が面倒なら、OpenRouter経由でもMAI-Thinking-1を利用できる。OpenRouter はバックエンドの推論プロバイダ(Azure、Fireworks AI、Basten等)を自動選択し、最もコストの低いルートで推論する。
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "microsoft/mai-thinking-1",
"messages": [
{"role": "user", "content": "Pythonで効率的なフィボナッチ数列を実装して"}
]
}'
つまずきポイント
GitHub Models のレート制限は 1分あたり10リクエスト程度と厳しい。連続で大量のリクエストを投げるとHTTP 429が返る。プロトタイプの検証には十分だが、バッチ処理にはAzureかOpenRouterを使うこと。
実践ユースケース4選
MAI-Thinking-1はどんな場面で真価を発揮するのか。推論モデル特有の「考えてから答える」特性が活きるケースを4つ挙げる。
1. 複雑なバグの特定と修正
リポジトリを跨ぐ依存関係のバグ調査に向く。SWE-bench Pro 53%はCopilot単体よりもタスク完了率が高い。256Kコンテキストがあるため、大きなコードベースのコンテキストを一度に渡せる。
対象: ソフトウェアエンジニア
2. 数学・統計のステップ解析
AIME 97%の数学推論力は、データサイエンスの仮説検定や統計モデリングの途中計算を任せるのに適している。計算ステップを明示するため、検算もしやすい。
対象: データサイエンティスト・研究者
3. 法務・契約書のロジック検証
推論モデルは「もしAならB、BかつCならD」という条件分岐の整合性チェックが得意。契約条項の矛盾検出や、規制要件の適合チェックに使える。Azure Confidential Computingで機密データも扱える。
対象: 法務・コンプライアンス部門
4. エージェントのサブタスク推論
マルチエージェントシステムで、計画立案・タスク分解の「頭脳」として使う。コストがSonnetの10分の1なら、エージェントが何十回推論しても予算が爆発しにくい。
対象: AIエージェント開発者
エージェント開発の基礎は「AIエージェントとは?仕組み・活用事例・始め方」、Microsoft固有のフレームワークは「Microsoft Agent Framework入門2026」にまとめている。
MAI-Thinking-1 vs Claude Sonnet 4.6|どちらを選ぶか
性能が近いとされる Claude Sonnet 4.6 との比較は避けて通れない。現時点で確認できる差異を整理する。
| 比較項目 | MAI-Thinking-1 | Claude Sonnet 4.6 |
|---|---|---|
| 提供元 | Microsoft | Anthropic |
| 推論スタイル | 思考ステップ明示型 | 拡張思考(extended thinking) |
| コンテキスト長 | 256K | 200K |
| マルチモーダル | テキストのみ | テキスト + 画像 |
| API料金(推定) | ~$0.30/$1.50 | $3.00/$15.00 |
| Function Calling | 対応 | 対応(Tool Use) |
| エンタープライズ統合 | Azure + GitHub + M365 | AWS Bedrock + GCP Vertex |
| 無料枠 | GitHub Models(制限あり) | claude.ai 無料プラン(制限あり) |
自分ならどう使い分けるか
Azure環境で月間100万トークン以上を推論に回しているなら、自分ならMAI-Thinking-1に乗り換える。Claudeを残すのは画像入力が必要な場面だけだ。
最大の武器はコスト効率にある。エージェントが20回推論ループを回すとSonnet料金で1クエリあたり約0.6ドルかかる計算になる。本モデルなら0.06ドル以下。月間1万クエリで54万円の差。これは無視できない。一方で画像は渡せないため、スクリーンショットからコードを生成するようなマルチモーダルタスクにはClaude Sonnet 4.6が必要になる。
すでにAzure環境でインフラを組んでいる企業なら、MAI-Thinking-1への切り替えは自然な選択だ。逆にAWS中心のアーキテクチャでBedrockを使い込んでいるなら、Claudeを軸にした方がインフラ移行コストを避けられる。Claude Sonnet 4.6の詳細は「Claude Opus 4.6完全ガイド」で解説している。
もったいないと感じるのがマルチモーダル非対応
35Bのスパースモデルで推論性能がここまで出ているのに、画像入力に対応していないのは惜しい。今後のアップデートでビジョン対応が追加されれば、Sonnet 4.6を本格的に脅かす存在になる。
よくある質問
MAI-Thinking-1は無料で使えるか?
GitHub Modelsのサンドボックス環境で無料利用できる。レート制限は厳しいがプロトタイプ検証には十分。Copilot Enterprise契約者は追加コストなしで利用可能。
GPT-5やo3との違いは?
GPT-5やo3はOpenAIのモデル。MAI-Thinking-1はMicrosoftが独自に開発したモデルで、OpenAIの技術は使っていない。Azureでの提供・GitHub Copilotへの統合など、Microsoft製品エコシステムとの親和性が高い点が最大の差別化要素だ。
日本語の性能はどうか?
公式ベンチマークに日本語タスクの結果は含まれていない。中規模モデルのため、Claude SonnetやGPT-5.5と比べると日本語の流暢さでは劣る可能性がある。実用的な日本語タスク(要約・翻訳・文書作成)での品質は、GA後の第三者評価を待つ必要がある。
いつ正式料金が発表される?
2026年6月時点ではプライベートプレビュー段階。Azure AI Foundryの一般提供(GA)タイミングで正式な従量課金料金が発表される見込み。Build 2026の発表ペースを考えると、2026年夏〜秋ごろがGA時期と予想される。
MAI-Code-1とMAI-Thinking-1はどう使い分ける?
コーディングタスクにはMAI-Code-1、数学的推論やロジック検証にはMAI-Thinking-1。GitHub Copilotはこの使い分けを内部で自動的に行うため、Copilotユーザーは意識する必要がない。API直接利用の場合は自分でモデルを選ぶ必要がある。
まとめ|コスパ推論モデルの本命
Microsoft推論モデルの第一弾として登場したMAI-Thinking-1は、蒸留なしでゼロから作られた。35Bアクティブパラメータで、AIME 97%・SWE-bench Pro 53%。Claude Opus 4.6に匹敵する。MAI-Thinking-1の料金がSonnet 4.6の10分の1という主張が本当なら、推論APIのコスト構造が根本から変わる。
正直、マルチモーダル非対応と日本語性能の不透明さはマイナスポイントだ。画像入力が必要なワークフローでは引き続きClaude SonnetやGPT-5.5を使うことになる。だがテキストベースの推論タスク——コードレビュー、数学的検証、契約ロジックのチェック——に限れば、このコスト効率は無視できない。
Azure環境を主軸にしている企業や、GitHub Copilotを使い込んでいる開発者にとって、本モデルはすでに手が届くところにある。GitHub Modelsの検索欄で「MAI-Thinking-1」を叩けば5分で最初のレスポンスが返る。
AIモデルの比較・選び方の全体像は「【2026年版】AIサービス比較15選」にまとめている。転職市場でのAI人材の需要動向は「AIエンジニア転職の現実|年収600万超を掴む方法と市場動向」も参考になる。