AI活用ツール・副業

Nemotron 3 Ultra入門|料金・性能・使い方2026

読了時間: 約18分

550Bパラメータ、55Bアクティブ、300トークン/秒超。NVIDIAが2026年6月4日にComputex 2026で発表したNemotron 3 Ultraは、米国発オープンウェイトモデルとして過去最高のIntelligence Index 48を叩き出した。

オープンウェイトでこの数字は異例だ。2位のGemma 4 31Bが39、前世代のNemotron 3 Superが36。クローズドモデルのClaude Opus 4.8(61.4)やGPT-5.5(60.2)には届かないが、「自前でホストできるモデル」としては頭ひとつ抜けた存在になった。

Nemotron 3 Ultraとは何か

NVIDIAがGPUだけでなくLLMの覇権まで取りに来た——その最前線がNemotron 3 Ultraだ。ファミリー最上位、550Bパラメータの重量級。

項目 スペック
総パラメータ数 550B
アクティブパラメータ 55B(10:1のスパースネス比)
アーキテクチャ ハイブリッドMamba-2 / Transformer / MoE
コンテキスト長 1,000,000トークン
推論速度 300+ tokens/sec(DeepInfra計測)
リリース日 2026年6月4日(Computex 2026)
ライセンス OpenMDW-1.1(商用利用可)
Intelligence Index 48(米国オープンウェイト最高)

Nemotronファミリーの位置づけ

NVIDIAはNemotron 3を3つのサイズで展開している。Nano(30B/3Bアクティブ)はエッジデバイス向け、Super(120B/12Bアクティブ)は汎用タスク向け、そしてUltra(550B/55Bアクティブ)がフラグシップ。用途で選ぶのが前提の設計だ。

Ultraが狙っているのは「長時間エージェント実行」と「複雑な推論タスク」。コーディング、数学推論、マルチステップの問題解決で、クローズドモデルに肉薄する性能を出しつつ、自前のインフラでホストできる自由度を提供する。

筆者の所感

NVIDIAがLLMを「GPU販売のおまけ」から「エコシステムの中核」に格上げしてきた。AIエージェントの基盤モデルとしての位置づけが明確だ。Nemotron 3 Ultraはモデル単体の性能もさることながら、NIM・TensorRT-LLM・DGX Cloudという自社インフラとの垂直統合がセールスポイントになっている。

Mamba×Transformer×MoE — アーキテクチャの仕組み

Nemotron 3 Ultraは3つの異なるアーキテクチャを1つのモデルに混載している。なぜそれが必要かは、それぞれの弱点から説明する方が早い。

Mamba-2レイヤー:長距離依存の効率処理

Mamba-2は状態空間モデル(SSM)ベースのアーキテクチャ。Transformerのself-attentionがトークン数の2乗に比例してコストが増えるのに対し、Mambaはリニアにスケールする。100万トークンのコンテキストを扱うには、このコスト構造が不可欠になる。

このモデルでは、長距離の文脈把握をMambaレイヤーが担う。大量のコードベースを読み込んでエージェントが作業するようなシナリオで、メモリ効率とスループットの両方を稼ぐ設計だ。

Transformerレイヤー:精密な推論

一方、数学的推論やコード生成のように「直前の数トークンに強く依存する」タスクでは、attention機構が威力を発揮する。Ultraはこのパートを従来のTransformerレイヤーで処理する。

比喩で言えば、Mambaが「本全体をざっと読んで文脈を掴む速読」で、Transformerが「特定の段落を精読して論理を組み立てる」担当。両方を1つのモデル内で切り替えている。

Mixture-of-Experts(MoE):計算コストの圧縮

550Bのパラメータがすべて同時に動くと推論コストが爆発する。MoEは各トークンの処理に使うパラメータを55B(全体の10%)に絞り込む仕組みだ。

# MoEの動作イメージ(簡略化)
# 入力トークンごとにルーターが最適なエキスパートを選択
token = "AIエージェントの設計パターン"
router_output = gate_network(token)  # 全エキスパートのうち上位k個を選択
active_experts = select_top_k(router_output, k=2)  # 55B分のみ活性化
output = sum(expert(token) * weight for expert, weight in active_experts)

この構造のおかげで、550Bモデルでありながら推論速度は300トークン/秒を超える。同規模のdenseモデルでは物理的に不可能な速度だ。

なぜハイブリッドが重要か

Mamba単体だと精密な推論で弱く、Transformer単体だと100万トークンのコンテキストでメモリが爆発する。MoE単体だとルーティングの不安定さが課題。3つを組み合わせることで、それぞれの弱点を相互に補完している。NVIDIAのハードウェア最適化ノウハウがあるからこそ成立する構成とも言える。

ベンチマーク徹底比較:Claude・GPT・Geminiとの差

数字で語る。Nemotron 3 Ultraの実力を、2026年6月時点の主要モデルと並べて確認する。

ベンチマーク Nemotron 3 Ultra Claude Opus 4.8 GPT-5.5 Gemini 3.5 Flash
Intelligence Index 48 61.4 60.2
MMLU 89.4%
HumanEval(コーディング) 92.1%
SWE-bench Verified 71.9% 88.6%
RULER 256K 94.2%
RULER 1M 95.0%
WebArena 52.8%
モデル種別 オープンウェイト クローズド クローズド クローズド

数字の読み方

Intelligence Indexで見ると、Nemotron 3 UltraはClaude Opus 4.8より13ポイント低い。これは事実。だが、比較の軸が間違っている。

本当の比較対象は、同じオープンウェイト勢だ。Gemma 4 31B(39)、Llama系、Mistral系と比べると、48という数字は明確にリードしている。クローズドモデルに近い性能を、自社サーバーで動かせるという選択肢を初めて現実的にした。

長文コンテキストでの突出

長文処理が実際に効くかどうか、RULER 1Mトークンで95.0%という数字が答えになる。「100万トークン対応」を謳うモデルは多いが、末端の情報をきちんと拾えるかは別問題だ。

RULER 256K(94.2%)と1M(95.0%)の差が0.8ポイントしかない。コンテキストを4倍に伸ばしても精度が落ちない——Mambaレイヤーのリニアスケーリングが実際に効いている証拠だ。

コーディング性能の実力値

HumanEval 92.1%は高水準だが、SWE-bench Verified 71.9%はClaude Opus 4.8の88.6%に対して16.7ポイント差がある。HumanEvalは短い関数を書くタスク、SWE-benchは実際のGitHubリポジトリ上のissueを解決するタスク。実務に近いのは後者だ。

正直、このSWE-bench Verifiedのギャップは痛い。オープンウェイトの制約——学習データのライセンス配慮や安全性チューニングの控えめさ——が効いているのだろう。エージェント的なコーディングタスクで使うなら、この16.7ポイント差を織り込んだ上で選ぶことになる。

料金プラン|各プロバイダの価格一覧

DeepInfraで呼び出すと、入力$0.37・出力$1.08。Claude Opus 4.8の入力$5.00・出力$25.00と並べると、出力コストは約23分の1だ。

プロバイダ 入力(/1Mトークン) 出力(/1Mトークン) 備考
OpenRouter(無料枠) $0 $0 レート制限あり
OpenRouter(有料) $0.50 $2.50 レート制限緩和
DeepInfra $0.37 $1.08 最安クラス
Together AI $0.60 $3.60 キャッシュ入力$0.20
NVIDIA NIM エンタープライズ契約
参考: Claude Opus 4.8 $5.00 $25.00 クローズドモデル
参考: GPT-5.5 クローズドモデル

コスト差のインパクト

DeepInfra経由なら、入力$0.37/出力$1.08。Claude Opus 4.8の入力$5.00/出力$25.00と比較すると、入力で約13倍、出力で約23倍安い。

実際に計算してみた。月100万トークンの入出力でNemotron 3 Ultra(DeepInfra)は約$1.45/月、Claude Opus 4.8は$30.00/月。年間$342の差。ただし月1億トークン規模のバッチ処理だと年間$34,200の差になる。ここが効くのはエンタープライズ。

OpenRouterの無料枠は試用に最適。レート制限があるため本番運用には向かないが、「触ってから判断する」にはゼロコストで始められる。

セルフホストの経済学

550BモデルのBF16推論にはH100×8基以上が必要。月額リース費用を考えると、API経由の方がほとんどのケースで安い。セルフホストが経済合理性を持つのは、月間数十億トークン規模のワークロードを抱えるエンタープライズに限られる。

使い方ガイド|API・ローカル・無料枠

本番ならDeepInfra一択だ。理由は出力コスト。ただし触って確かめるなら、OpenRouterの無料枠がゼロリスクで始められる。

方法1:OpenRouter経由(最速・無料で試せる)

OpenRouterは複数のLLMプロバイダを統一APIで束ねるサービス。プロンプトの書き方次第で出力品質は大きく変わるので、systemロールの設定は手を抜かないこと。Nemotron 3 Ultraの無料枠も用意されている。

import openai

client = openai.OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="YOUR_OPENROUTER_KEY"
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra-550b-a55b:free",
    messages=[
        {"role": "user", "content": "Pythonでバブルソートを実装して"}
    ]
)
print(response.choices[0].message.content)

:freeサフィックスを外すと有料版に切り替わる。レート制限が緩和され、レスポンス速度も安定する。

方法2:NVIDIA API直接(公式・安定性重視)

import openai

client = openai.OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="YOUR_NVIDIA_API_KEY"  # build.nvidia.comで取得
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra-550b-a55b",
    messages=[
        {"role": "system", "content": "あなたは優秀なPythonエンジニアです"},
        {"role": "user", "content": "FastAPIでCRUDエンドポイントを作成して"}
    ],
    max_tokens=4096,
    temperature=0.7
)
print(response.choices[0].message.content)

APIキーはbuild.nvidia.comにログインして「Generate API Key」から取得する。NVIDIAアカウントがあれば数分で発行できる。

方法3:DeepInfra経由(本番向け・最安)

import openai

client = openai.OpenAI(
    base_url="https://api.deepinfra.com/v1/openai",
    api_key="YOUR_DEEPINFRA_KEY"
)

response = client.chat.completions.create(
    model="nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B",
    messages=[
        {"role": "user", "content": "Kubernetesのデプロイメント設定を書いて"}
    ]
)

DeepInfraは入力$0.37/出力$1.08と最安クラス。本番ワークロードで大量のAPIコールが必要な場合はここが第一候補になる。

方法4:HuggingFaceからセルフホスト

モデルウェイトはHuggingFace上でnvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16として公開されている。NVFP4量子化版も利用可能。

ただし現実的にはH100×8基以上のGPU環境が必要で、個人開発者がセルフホストするのは非現実的。NVIDIA NIM経由でコンテナ化されたデプロイメントを使う方が運用負荷は低い。

試用なら

OpenRouter無料枠

$0

本番運用なら

DeepInfra

$0.37 / $1.08

安定性重視なら

NVIDIA API直接

公式サポート

エージェント用途で光る設計思想

ここがNemotron 3 Ultraの本領。1回のプロンプト応答ではなく、数十〜数百ステップにわたるタスクの自律処理——いわゆるエージェント実行だ。NVIDIAが設計で最も注力した領域でもある。

100万トークンコンテキストの実用性

AIエージェントがコードベースを読み込んで修正するとき、ファイル数十〜数百の内容がコンテキストに入る。RULER 1Mで95.0%という数字は、100万トークンの末端でも情報を正確に取り出せることを意味する。

256Kと1Mでの性能劣化が0.8ポイントという数字を、他モデルと比べてみた。Claude Opus 4.8も100万トークンに対応しているが、RULER 1Mのスコアを明示的に公表していない。データを出している時点で、NVIDIAは長文処理に自信がある——そう読み取れる。

エージェントフレームワークとの連携

LangGraph

ChatOpenAIのbase_urlを変更するだけ。per-nodeタイムアウトとの相性も良い

Microsoft Agent Framework

OpenAI互換エンドポイントとして接続可能。NVIDIA NIMとの垂直統合でエンタープライズ向けに強い

Hermes Agent

モデルにnvidia/nemotron-3-ultra:freeを指定するだけで動作

Pydantic AI

OpenAI互換のモデルプロバイダとして組み込み可能

自分ならエージェント用途でNemotron 3 Ultraを選ぶ場面は明確にある。データの機密性が高くクラウドAPIに送れないケース、またはコスト制約が厳しい大量バッチ処理だ。逆に、SWE-benchで最高精度が求められるなら現時点ではClaude Code経由でOpus 4.8を使う。

ライセンスと商用利用の注意点

Nemotron 3 UltraのライセンスはLinux FoundationのOpenMDW-1.1。Apache 2.0やMITとは異なる新しいライセンス体系だ。

何ができるか

商用利用可、ロイヤリティフリー。ファインチューニング・再配布・派生モデル公開もすべて許可されている。GPLのコピーレフト規定はなく、改変後のモデルをクローズドで配布してもいい。

注意すべき条項

OpenMDW-1.1には特許終了条項が含まれている。ライセンス違反で訴訟を起こした場合、特許ライセンスが自動的に終了する。これはGPL系にもある一般的な防御条項だが、法務部門への確認は必須。

OpenMDW-1.1はまだ業界での解釈が固まりきっていない。550Bクラスのモデルにこれだけパーミッシブなライセンスが適用された前例はなく、商用プロダクトへの組み込みは自社の法務と相談してから進めるのが安全だ。法的リスクと並んで、技術的な限界も正直に書いておく。

注意

OpenMDW-1.1はApache 2.0でもMITでもない。既存のOSSライセンス判定ツールが正しく認識しない場合がある。ライセンスファイルを直接確認すること。

弱点と選ばない方がいいケース

Nemotron 3 Ultraは万能ではない。選択を間違えると、クローズドモデルの方が安くて速い結果になる。

SWE-bench Verified:71.9% vs 88.6%

実プロジェクトのバグ修正タスクで、Claude Opus 4.8に対して16.7ポイント差がある。コーディングエージェントの精度が最優先なら、現時点ではClaude Opus 4.8やFable 5を選ぶべきだ。

日本語性能の限界

多言語モデルだが日本語特化の学習はしていない。試した範囲では、ですます体の指示に対して口語で返すなど、日本語の文体制御が甘い。日本語の質を最優先するならNemotron 3 Nano 9B Japanese版か、Claude/GPTを使う。

セルフホストのハードル

「オープンウェイト=手元で動かせる」のイメージがあるが、550BモデルのBF16推論にはH100×8基以上が必要。NVFP4量子化版でもH100×2基は最低限。個人や小規模チームがセルフホストするのは現実的ではなく、結局API経由で使うことになる。

API経由で使うなら「オープンウェイトのメリット」は何かという疑問が出る。答えは、複数のプロバイダから選べる価格競争の恩恵と、将来的なファインチューニングの可能性。ただし今すぐの実務では、APIの安さ以外のメリットは薄い。

マルチモーダル非対応

Nemotron 3 Ultraはテキストのみ。画像理解が必要なタスクにはNemotron 3 Nano Omni(30B、マルチモーダル)か、Claude/Geminiを使う必要がある。

選ぶべきでないケースまとめ

日本語品質が最優先 → Claude/GPTを選ぶ。コーディング精度が最優先 → Claude Opus 4.8。画像理解が必要 → Claude/Gemini。月間トークン消費が100万以下 → クローズドモデルのAPI料金で十分ペイする。

よくある質問

Nemotron 3 Ultraは無料で使えるのか

OpenRouter経由の無料枠(:freeサフィックス付き)で利用可能。レート制限があるため本番運用には不向きだが、評価目的には十分。NVIDIA API(build.nvidia.com)でも一定の無料クレジットが提供される。

Claude Opus 4.8とどちらを選ぶべきか

用途による。コーディング精度最優先ならClaude Opus 4.8(SWE-bench 88.6%)。コスト最優先、または長時間エージェント実行でオープンウェイトの自由度が欲しいならNemotron 3 Ultra。自分なら、機密データを扱うバッチ処理にはNemotron、対話的なコーディング支援にはClaudeを使い分ける。

ローカルPCで動かせるか

無理。550B(アクティブ55B)モデルのBF16推論にはH100×8基、NVFP4量子化でもH100×2基が必要。個人のローカル環境にはNemotron 3 Nano(30B/3Bアクティブ)が適している。

日本語は使えるか

使える。多言語モデルとして日本語も学習データに含まれている。ただしClaude系の日本語品質には及ばない。NVIDIAは日本語特化の小型モデル(Nemotron Nano 9B Japanese版)も出しており、日本語タスクにはそちらの方がコストパフォーマンスが高い。

商用利用に制限はあるか

OpenMDW-1.1ライセンスで商用利用可(ロイヤリティフリー)。ファインチューニングや再配布も許可されている。特許終了条項があるため、法務部門への確認は推奨する。

まとめ:誰がNemotron 3 Ultraを選ぶべきか

GPUを売るためにモデルを出しているのか、モデルを出すためにGPUを売っているのか。NVIDIAのNemotron 3 Ultraは、その問いに対する回答そのものだ。Intelligence Index 48は、クローズドモデルとの差を完全に埋めてはいないが、その差は確実に縮まっている。

自分がNemotron 3 Ultraを選ぶ場面は3つ。第一に、機密データをクラウドAPIに送れない環境でのエージェント実行。第二に、月間数百万トークン規模のバッチ処理でコスト削減が必須のケース。第三に、100万トークンの長文コンテキストを実用レベルで使いたいとき。

逆に、日本語品質が最優先、SWE-benchレベルのコーディング精度が必要、あるいは月間トークン消費が少ないなら、Claude Opus 4.8やFable 5を使う方が結果は良い。

NVIDIAのLLM戦略はハードウェア(DGX、H100)とソフトウェア(NIM、TensorRT-LLM)とモデル(Nemotron)の垂直統合にある。Nemotron 3 Ultraはその要。たぶん、どちらのためでもある。AIエンジニアとして押さえておくべきモデルの1つだ。

Nemotron 3 Ultraを試す最短ルート

OpenRouter(nvidia/nemotron-3-ultra-550b-a55b:free)でアカウント作成 → APIキー取得 → 上記のPythonコードをコピペして実行。5分で動く。