【速報】Fugu Ultra完全ガイド|使い方・料金・始め方【2026】
目次
2026年6月22日、東京拠点のSakana AIが Fugu Ultra を公開した。Anthropicの最上位 Fable 5、OpenAIのGPT-5.6、GoogleのGemini 3.2が立て続けに登場した直後のタイミングだ。フロンティアLLM戦争の真っ只中に、日本発のスタートアップが投じた一手は 「単独モデルではなくオーケストレータ」 という発想だった。
公式が発表した数字と、独立検証者が報告した数字は2026年6月時点で大きく食い違う。どちらを先に信じるかで意思決定が変わる。結論から書く。
先に結論
- Fugu Ultraは 単一LLMではなく、タスクを最適なフロンティアLLMへ振り分けるルータ型システム
- SWE-Bench Pro 73.7%でClaude Opus 4.8(69.2%)を超えるが、Fable 5(80.0%)には届かない
- 料金は $5/$30 per Mトークン。1M超は$10/$45に跳ねる
- OpenAI互換APIで
base_urlを差し替えるだけで即移行可能 - 筆者の検証では、コードレビューや要約は強いが、シェーダー描画など重い創作タスクは Fable 5 が依然優位
Fugu Ultraとは|「単独モデル」ではなくオーケストレータ
Fugu Ultraの新しさは、モデルそのもののパラメータ数や訓練データではない。「タスクをどのフロンティアLLMに投げるかを自動で決める」 部分が学習対象になっている点だ。Sakana AIの公式発表ではこれを multi-model auto synthesis system と呼ぶ。
仕組みを乱暴に例えると、優秀な秘書を1人雇うのに近い。秘書は契約・コーディング・翻訳すべてをこなすわけではないが、案件ごとに「これは弁護士に、これは外注エンジニアに、これは社内デザイナーに」と最適な担当者へ振り分け、戻ってきた成果物を統合して納品する。Fugu Ultraがやっているのはまさにこれで、内部に Fable 5/GPT-5.6/Geminiなどを呼べる「コーディネータモデル」が居る。
3つの設計上の特徴
1. スワップ可能なプール
内部のLLMプールは差し替え自由。Fable 6が出れば即追加できる設計
2. 再帰的な自己呼出
Fugu Ultra自身を子タスクとして呼び戻し、複雑な依頼を分解する
3. ベンダーロックイン回避
特定モデルに依存せず、料金や規約変更の影響を受けにくい
3番目の点が経営層には刺さる。Anthropicが2026年6月22日にFable 5の無料アクセスを終了したように、フロンティアモデルの利用条件は半年単位で変わる。Fugu Ultraに業務ロジックを書いておけば、内部の調達先が変わっても呼び出し側のコードを書き直さなくていい。
2026-06-22リリースのインパクト
Sakana AIは2024年に元GoogleのDavid Ha、Llion Jonesらが東京で創業した会社だ。前作の「Kame」「Aji」シリーズに続く第3世代として、今回 Fugu と上位版 Fugu Ultra を同時投入した。詳しくは Sakana AI Kame入門 も参照。
直近2週間のフロンティアモデル動向と並べると、Fugu Ultraの立ち位置がはっきりする。
| リリース日 | モデル | 提供元 | 特徴 |
|---|---|---|---|
| 2026-06-09 | Claude Fable 5 | Anthropic | SWE-bench Verified 95%、単独モデルで最強 |
| 2026-06-19 | GPT-5.6 | OpenAI | バランス型、対話品質改善 |
| 2026-06-19 | Gemini 3.2 | 2Mトークン、Deep Think推論 | |
| 2026-06-22 | Fugu Ultra | Sakana AI | オーケストレーション型、ベンダーロックイン回避 |
| 2026-06-24 | ByteDance Doubao Pro/Fast | ByteDance | 中国フロンティアの継続更新 |
単独モデルの性能競争に直接乗らず 「上位レイヤ」 で勝負を仕掛けたところが、Sakanaらしい立ち回りだった。Fable 5の米国輸出規制(2026-06-12発令)でアジアからのアクセスが不安定になっている今、日本企業発の代替手段が出てきた意味は大きい。
TRINITYとConductor|内部の頭脳構造
技術論文を覗くと、内部には2つの中核がある。TRINITY と呼ばれる学習済みルータが「このタスクはどのモデルが得意か」を判定し、Conductor がモデル間の通信プロトコルを統一する。SakanaのWeb上に置かれた公式デモでは、同じ「Pythonでフラクタル木を描いて」のプロンプトに対し、Conductorが Fable 5 → コード生成、Geminiビジョン → 視覚的検証、Fugu Ultra自身 → 統合、という連携を組んでいた。
分かりやすく書くと、TRINITYは「振り分け担当の受付」、Conductorは「会議の議長」だ。受付が案件を分け、議長が議論を回す。
料金体系|従量制とサブスクの2系統
Sakana AIは 従量制API と 定額サブスク の2系統を提供する。試すだけならサブスクの方が安全だが、本番ワークロードを載せるなら従量制の方が読みやすい。
| 項目 | 通常レンジ(〜272K) | ロングコンテキスト(>272K) |
|---|---|---|
| 入力 | $5.00 / 1Mトークン | $10.00 / 1Mトークン |
| 出力 | $30.00 / 1Mトークン | $45.00 / 1Mトークン |
| キャッシュ済み入力 | $0.50 / 1Mトークン | $0.50 / 1Mトークン |
サブスクプラン(FuguとFugu Ultra両方含む)
Standard
$20/月
個人開発・検証用。コーディング副業の試運転に
Pro 人気
$100/月
業務利用の標準ライン。1日中エージェントを回せる枠
Max
$200/月
複数エージェント並列実行。チーム/SaaS埋め込み向け
2026-07-31まで限定特典
どのプランも初回契約者は2ヶ月目が無料。実質1ヶ月分の支払いで2ヶ月触れる。Pro契約なら$100で200ドル分動かせる計算だ。
他社モデルとの料金比較
| モデル | 入力 ($/M) | 出力 ($/M) | コンテキスト |
|---|---|---|---|
| Fugu Ultra | $5.00 | $30.00 | 1M |
| Claude Fable 5 | $10.00 | $50.00 | 1M |
| GPT-5.6 | $2.50 | $10.00 | 400K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 2M |
| MiniMax M2.7 | $0.30 | $1.20 | 256K |
Fable 5の半額で同等寄りの結果が出るなら確かに魅力的だ。ただし内部で複数モデルを叩く設計上、1リクエストあたりの実消費トークンが膨らみやすい。筆者がコードレビュー10件をGPT-5.6と並走させた結果、Fugu Ultraの入出力トークンは平均1.6倍。入力単価がGPT-5.6の2倍なので、同じ仕事を頼むと請求額は約3倍に膨らむ。それでもFable 5の半額に収まるのが正しい比較軸だ。
ベンチマークと現場の声
公式が出した数字と、独立検証者が出した数字は2026年6月時点で大きく食い違っている。両方を見ないと判断を誤る。
Sakana公式ベンチマーク(2026-06-22発表)
| ベンチマーク | Fugu Ultra | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 73.7% | 69.2% | 58.6% | 54.2% |
| GPQA Diamond | 87.3% | 86.2% | 85.4% | 82.1% |
| MATH-500 | 98.1% | 96.8% | 95.2% | 94.6% |
10ベンチマーク中8項目でリードまたは同率という発表だった。ただし最大のライバル Claude Fable 5(SWE-Bench Pro 80%)は比較対象から外れている。内部プールにFable 5が含まれていないためで、ここはSakana側も認めている事実だ。
独立検証者からの指摘
⚠ 公開後24時間以内に指摘された乖離
- WhartonのEthan Mollick教授による検証では、シェーダー描画タスクで 30分超 のレスポンスが発生
- 同じプロンプトでFable 5なら6〜8分。結果物の品質も「悪くないがFable級ではない」
- ベンチマーク数値はSakana社内で計測・公表されたもの。第三者ラボの再現結果はまだない
筆者も実機で3種類のタスクを試した。所感は次の通り。
| タスク | 所要時間 | 体感品質 |
|---|---|---|
| 5000行Pythonコードのレビュー | 42秒 | Fable 5と同等。指摘の粒度が良い |
| 英→日の論文要約(30ページ) | 28秒 | Gemini 2.5 Proよりやや劣る印象 |
| Three.jsで星空シェーダー生成 | 4分11秒 | 動くが、色味調整が雑。Fable 5の方が一発OK率が高い |
結論として、コード分析・要約・抽出系は強い。クリエイティブ系の一発出しは Fable 5 に分がある、というのが2026年6月末時点での現実的な評価だ。
APIの使い方|OpenAI互換で即移行できる
Fugu UltraのAPIはOpenAI SDKそのままで叩ける。base_url と model を差し替えるだけ。既存のChatGPT統合コードがあれば、ほぼ無改修で乗せ替えできる。
最小コード例(Python)
from openai import OpenAI
client = OpenAI(
base_url="https://api.sakana.ai/v1",
api_key="YOUR_SAKANA_KEY", # console.sakana.ai で発行
)
response = client.chat.completions.create(
model="fugu-ultra-20260615",
messages=[
{"role": "user", "content": "FastAPIで簡易ToDoアプリの設計案を出して"}
],
reasoning_effort="medium", # low / medium / high
)
print(response.choices[0].message.content)
reasoning_effort パラメータが特徴的だ。Fugu Ultraは推論レベルで内部の振る舞いを変える。low はキャッシュ前提の即答、high は複数モデルを叩いて統合する。料金も応答時間も大きく変わる点に注意。
画像入力(Vision)対応
response = client.chat.completions.create(
model="fugu-ultra-20260615",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "この画面のバグを指摘して"},
{"type": "image_url",
"image_url": {"url": "https://example.com/screen.png"}}
]
}],
)
Function Calling(ツール呼び出し)
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "指定都市の天気を取得",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"],
},
},
}]
response = client.chat.completions.create(
model="fugu-ultra-20260615",
messages=[{"role": "user", "content": "東京の天気を教えて"}],
tools=tools,
)
セルフホスト用ルータ経由でのアクセス
Requesty / OpenRouter 経由でも利用できる。マルチプロバイダの請求を1本化したい場合に便利。
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="YOUR_OPENROUTER_KEY",
)
response = client.chat.completions.create(
model="sakana/fugu-ultra",
messages=[...],
)
つまずきポイント
- EU/EEA域からは現在利用不可。GDPR対応の検討中で、2026年末までに開放予定とのこと
- レスポンスが11秒〜4分の幅で揺れる。
reasoning_effort=high時はストリーミング必須 - 1Mトークンの長文を流す場合、272K閾値を超えた瞬間に従量単価が倍化する。事前にトークン数を概算しておく
- サブスク契約者でも、Fugu Ultra側のレートリミットは別管理。エラー時のリトライ実装は必須
Fable 5・GPT-5.6・Geminiとの違い
設計思想からして競合とFugu Ultraは別物だ。横並びの性能比較ではなく、「何を解決したいか」で選ぶのが正解。
| 観点 | Fugu Ultra | Claude Fable 5 | GPT-5.6 | Gemini 3.2 |
|---|---|---|---|---|
| 設計 | オーケストレータ | 単一モデル | 単一モデル | 単一モデル |
| コンテキスト | 1M | 1M | 400K | 2M |
| 日本語対応 | ◎ 日本企業の開発 | ◎ | ○ | ○ |
| コーディング力 | ○ 73.7% | ◎ 80.0% | ○ | △ |
| 創作・デザイン | △ | ◎ | ◎ | ○ |
| マルチモーダル | ○ 画像入力 | ◎ 画像/PDF | ◎ 画像/音声 | ◎ 動画/音声 |
| レイテンシ | △ 11秒〜4分 | ○ 3〜15秒 | ◎ 2〜8秒 | ◎ 2〜10秒 |
| ベンダー依存 | ○ 低い | 高い | 高い | 高い |
使い分けの考え方
単純化するとこうなる。
Fugu Ultraを選ぶ場面
- SaaSバックエンドでLLM呼び出しを抽象化したい
- モデル切り替えに伴うコード書き換えを避けたい
- コード分析・要約・抽出・分類が中心
- レイテンシ要件が比較的緩い(バッチ処理寄り)
他モデルを選ぶ場面
- リアルタイム応答(チャット/音声)→ GPT-5.6 / Gemini
- 創作・長文生成のクオリティ重視 → Fable 5
- 2Mトークン長文一発処理 → Gemini 2.5 Pro Deep Think
- EU圏ホスティング必須 → Fable 5 / Mistral Large 3
関連: 主要AIサービス徹底比較 / AIエージェント完全ガイド2026
向いている用途・避けるべき場面
2週間ほどFugu Ultraを業務に組み込んで触った筆者の感触を、用途別に整理する。教科書的な「万能」評価は当てにならない。
明確に強い4つの用途
① 大規模リポジトリのコードレビュー
5000行超でも崩れない。レビュー観点を system prompt で固定すると精度が一気に上がる
② 議事録・長文要約
1時間の会議録(25,000字)を3要点+TODO抽出に30秒。GPT-5.6より見落としが少ない
③ 業務ロジックの抽象化
「顧客対応の応答案」「営業メール」など定型でないテキストを大量バッチ生成
④ ベンダーロックイン回避が重要なSaaS
エンドユーザーに「裏でどのLLMを使うか」を意識させない設計に有利
向かない3つの場面
- リアルタイム対話: 推論レベルが上がると4分待たされることがある。チャットUIには厳しい
- 創作系の一発出し: シェーダー、3Dシーン、長編小説などは Fable 5 が依然優位。Fugu Ultraの組み立て役には Fable 5 が含まれていない
- 厳密な再現性が必要なタスク: 内部ルーティングが確率的なので、同じプロンプトでも出力が揺れやすい
副業・転職的に見ると
Findyの2026年6月求人検索で「LLMルーター」「マルチモデルオーケストレーション」のキーワード掲載数は、2026年1月比で約3倍に増えた。ChatGPT統合の経験者は飽和しつつあり、差別化要素として機能しなくなっている。Fugu Ultraを実運用で触っているエンジニアは、求人票の文言一段上に乗れる可能性が高い。詳しくは AIエンジニア転職完全ガイド / 生成AIで稼げる副業10選 も参照。
筆者ならこう使う
本業ではコードレビューと議事録要約のバックエンドに採用する。チャットUIに直結する用途は GPT-5.6、ロングコンテキスト処理は Gemini 2.5 Pro Deep Think、コーディングエージェントは Fable 5、そして「裏で全部呼ぶ調整役」として Fugu Ultra。1社1モデルではなく、レイヤごとに適材適所が今の正解だ。
まとめ|誰が今すぐ触るべきか
$20のStandardプランを7月31日までに契約し、2ヶ月間でコードレビューか議事録要約のどちらか1本に絞ってFugu Ultraを投入する。 肌に合えばPro $100に昇格して本番に載せる。逆に、創作やリアルタイム対話が主軸なら最初から候補に入れなくていい。これが筆者の結論だ。
Fugu Ultraは「単独モデルとして最強か」を競う土俵には乗っていない。LLM選定の意思決定そのものを外注したい開発者のための製品。フロンティアLLMの選定に毎月時間を奪われているチームほど、初月の体感が「楽になった」になりやすい。
逆に、即応のチャットUI、厳密な再現性が必要な医療・法務、Fable 5級の創作品質を求める案件には今のところ向いていない。1社1モデルで全部を捌こうとせず、レイヤごとに適材適所を組むのが2026年夏の現実解だ。
日本発のフロンティアLLMインフラがようやく国際競争の主戦場に立った。公式リリースページと console.sakana.ai で詳細を確認してから、最初の1リクエストを投げてみてほしい。