Sakana Fugu(サカナ・フグ)とは|複数AIを束ねる単一APIの仕組み・性能・料金
Sakana Fugu(サカナ・フグ)は、Sakana AIが2026年6月22日に一般提供を開始した、複数のフロンティアモデルを動的に束ねるマルチエージェント・オーケストレーションシステムです。利用者はOpenAI互換の単一APIに要求を投げるだけで、内部ではFugu自身がどのモデルにどの仕事を任せるかを判断し、結果を一つの答えにまとめます。本記事では、FuguとFugu Ultraの違い、Trinity・Conductorという基盤研究、ベンチマークの読み方、料金プラン、そしてどの開発現場に向き・不向きかまでを、公式の一次情報をもとに整理します。根拠は体験談ではなく、公開仕様と公表値だけに置いています。
目次
- 1 まとめ:Sakana Fuguの要点と、導入を検討すべき開発現場の条件
- 2 Sakana Fuguの正体と、Sakana AIがオーケストレーションに賭けた理由
- 3 Fugu自身がLLMを呼び分ける仕組みと、Trinity・Conductorの基盤研究
- 4 FuguとFugu Ultraの違いと、レイテンシ重視・品質重視の使い分け
- 5 ベンチマークで見るFugu Ultraの実力と、数値を鵜呑みにできない理由
- 6 LangGraphやCodexとの違いと、自分で組むマルチエージェントとの分岐点
- 7 OpenAI互換APIでの始め方と、モデル選択・エージェント除外の設定
- 8 コードレビュー・論文再現・特許調査で効く、長時間タスクという主戦場
- 9 料金プランの読み解き方|サブスク3段階と従量課金のブレンドレート
- 10 ベンダーロックイン回避とAI主権|採用すべき現場と避けるべき場面
- 11 Sakana Fuguに関するよくある質問
- 12 関連記事
まとめ:Sakana Fuguの要点と、導入を検討すべき開発現場の条件
Sakana Fuguは、複数のLLMを一つのAPIの裏側で協調させ、単一ベンダーに縛られずにフロンティア級の性能を引き出す製品です。日常用途向けのFuguと、難度の高い多段階タスク向けのFugu Ultraの2モデルがあり、どちらもOpenAI互換APIから同じ作法で呼び出せます。Sakana AIの公表ベンチマークでは、Fugu UltraがSWE-Bench Proで73.7、GPQA-Diamondで95.5を記録し、Opus 4.8やGemini 3.1 Proを上回る数値を示しました。ただしこれらは自社報告値であり、評価には一定の補正が要ります。
検討する価値が高いのは、コードレビュー・論文再現・特許調査・セキュリティ評価のように、長時間かけて読み・実装・検証・比較を繰り返す業務です。逆に、ミリ秒単位の応答が要るリアルタイム処理や、どのモデルが答えたかの開示が必須の規制業務には向きません。料金は月額20ドルから始められ、2026年7月末までに登録すれば2か月目が無料になります。
Sakana Fuguの正体と、Sakana AIがオーケストレーションに賭けた理由
Sakana Fuguを理解する近道は、「一つの大きなモデル」ではなく「複数モデルの指揮者」だと捉えることです。
単一APIに投げた要求を、自前で解くか専門チームを編成するかの判断
Sakana Fuguは、見た目こそ普通のモデルAPIですが、内部はマルチエージェントシステムです。一つのエンドポイントにリクエストを送ると、Fuguはそれを単独で解くか、複数の専門モデルからなるチームを編成して解くかを自分で判断します。モデルの選択・委譲・検証・統合はすべて内部で処理されるため、利用者のコードにマルチエージェントの複雑さが漏れ出しません。協調フローを自分で記述する必要がない、というのが出発点の発想です。
2026年6月の一般提供と、約500名のベータで磨かれた商用化の経緯
一般提供は2026年6月22日に始まりました。先立つ2026年4月にベータプログラムが走り、約500名の早期利用者が論文再現やセキュリティ分析といった実務でFuguを試し、そのフィードバックが製品に反映されています。短い宣伝文句ではなく、長く入り組んだ実務ワークフローでの挙動を作り込んだ、というのがSakana AIの説明です。提供地域は日本国内外に広がる一方、EUおよびEEA域内は対象外となっています。
The AI ScientistやShinkaEvolveに連なる集合知という研究思想
Sakana AIは創業以来、最強のAIは単体の巨大モデルではなく協調するモデル群から生まれる、という立場を取ってきました。進化的モデルマージ、科学研究を自律実行するThe AI Scientist、LLM生成プログラムを進化探索するShinkaEvolve、複数モデルを木探索で協調させるAB-MCTSが、その系譜です。同社が先行して商用化した自律型リサーチエージェント、Sakana Marlinもこの多モデル協調の思想を土台にしています。Fuguはこの研究方向を、汎用のオーケストレーションAPIという製品の形にしたものです。
Fugu自身がLLMを呼び分ける仕組みと、Trinity・Conductorの基盤研究
Fuguの中核は、Fugu自体が一つの言語モデルとして「協調の仕方」を学習している点にあります。
モデル選択・委譲・検証・統合をコードの外で完結させる協調の流れ
Fuguは、いつ委譲すべきか、エージェント同士をどう対話させるか、結果をどう一つの答えにまとめるかを学習しています。役割や手順を人間がルールとして与えるのではなく、エージェントをプールから動的に組み立て、人が思いつきにくい協調パターンで連携させます。外からは一つのモデルを呼んでいるだけに見えても、内側では専門家チームが動いている、という構造です。だからこそ、利用側のコードはマルチエージェントの複雑さから切り離されます。
自分自身を再帰的に呼び出すtest-time scalingという特徴
Fuguは、エージェントプールのLLMを呼び出すだけでなく、自分自身を再帰的に呼び出すこともあります。これは推論時に計算資源を積み増して回答品質を高める、いわゆるtest-time scalingにあたります。単純な質問なら一回で答え、難しい問題ほど内部で多くのエージェントと自己呼び出しを重ねる。タスクの難度に応じて、内部の手数そのものが伸縮します。
役割分担のTrinityと強化学習のConductor、2本のICLR論文の要点
Fuguは、ICLR 2026に採択された2本の論文を基盤にしています。Trinity(arXiv:2512.04695)は、軽量な進化型コーディネーターが複数のLLMを束ね、各モデルにThinker(思考役)・Worker(実行役)・Verifier(検証役)の役割を割り当てて、コーディングや数学、推論のタスクへ適応的に振り分ける仕組みです。Conductor(arXiv:2512.04388)は強化学習で訓練され、エージェント間のやり取りの型や要点を絞ったプロンプトを自ら設計し、多様なLLMの集まりが単体モデルを上回る協調戦略を見つけ出します。「マルチエージェント強化学習」を調べる関心には、Conductorのこの強化学習による協調学習が直接の答えになります。
FuguとFugu Ultraの違いと、レイテンシ重視・品質重視の使い分け
2モデルの選択は、速さと深さのどちらを優先するかで決まります。
日常のコーディングやチャットの既定値となるFuguの低レイテンシ設計
Fuguは性能と低レイテンシのバランスを取った標準モデルで、日々の作業のデフォルトに据える想定です。Codexのようなコーディング・コードレビュー用ツールや、応答性が要るチャットボットに自然に組み込めます。データ・プライバシー・コンプライアンスの要件がある場合、Fuguではプールから特定のプロバイダーやモデルを除外できます。速さも要るが単体モデルより確かな答えがほしい、という多くの場面を受け持つモデルです。
論文再現や特許調査など難タスクに振り切ったFugu Ultraの深いプール
Fugu Ultraは、難度の高い多段階問題で回答品質を最大化するために、より厚みのある専門エージェント群を連携させます。その代わり応答時間は長くなります。早期利用者は、Kaggleコンペティション、論文の再現、サイバーセキュリティ分析、文献・特許調査といった負荷の高い業務でUltraを使ってきました。Fugu Ultraはプールが固定で、Fuguのようなエージェント除外はできません。性能を出し切るために全プールを使う設計だからです。現行のモデルIDはfugu-ultra-20260615です。
精度かレスポンス速度か、ワークロードで分かれる2モデルの選択基準
選び分けの基準は単純です。即応性が事業価値に直結するインタラクティブな用途はFugu、答えの正しさと深さが価値を決める腰の重い分析はFugu Ultra。両者はOpenAI互換の同一APIから呼べるため、連携コードを変えずにモデル名だけ差し替えて切り替えられます。まず日常はFuguを既定にし、詰まった難題だけUltraへ送る運用が、現実的な出発点になります。
ベンチマークで見るFugu Ultraの実力と、数値を鵜呑みにできない理由
公表値はFuguの実力を測る出発点ですが、出所の違いを踏まえて読む必要があります。
SWE-Bench Pro 73.7やGPQA-D 95.5など主要11指標での到達点
Sakana AIが公表したベンチマークでは、Fugu UltraがOpus 4.8・Gemini 3.1 Pro・GPT 5.5という公開フロンティアモデルを多くの指標で上回りました。主要11指標の数値は次の通りです(いずれもSakana AIの報告値)。
| ベンチマーク | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 |
|---|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity’s Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-Diamond | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
コーディング系のSWE-Bench ProとTerminalBench、科学推論のGPQA-DiamondでUltraが先行する一方、長文脈のMRCRv2ではGPT 5.5の94.8がUltraの93.6をわずかに上回り、SciCodeではGemini 3.1 ProがUltraを上回ります。すべてで首位ではありません。指揮者型のアプローチは、特にエージェント的なコーディングと長時間タスクで効きやすい、という読み方ができます。
Fable 5・Mythos Previewと肩を並べるという主張が指す範囲
Sakana AIは、Fugu UltraがAnthropicのFable 5やMythos Previewと肩を並べると表現しています。ここで押さえたいのは、Fable 5とMythos Previewは一般提供されておらず、Fuguのエージェントプールには含まれていない点です。つまりFuguはこの2モデルを内部で使わずに同等水準に達した、という主張になります。輸出規制で公開されていない最上位モデルに、入手可能なモデルの協調だけで迫る——これがFuguのうたうAI主権の核心です。なお比較表のFable 5・Mythos Previewのスコアは、同一ベンチマークで両者の高い方を採った値とされています。
自己申告値とプロバイダ公表値が混在する、読み手が補正すべき前提
数値の出所は揃っていません。Fugu以外のスコアは各モデル提供元の公表値で、FuguのスコアはSakana AI自身の測定です(たとえばSWE-Bench Proのスキャフォールドにはmini-swe-agentを使用)。測定環境やスキャフォールドが統一されていない比較は、同条件の実測より不確実性が高くなります。判断材料としては有用でも、自社のタスクで小さく試し、実際の出力品質とレイテンシ、コストを自分の目で確かめてから本採用するのが堅実です。第三者による独立検証は、本記事執筆時点では揃っていません。
LangGraphやCodexとの違いと、自分で組むマルチエージェントとの分岐点
マルチエージェントを自分で組む道具と、Fuguのように組まずに任せる道具は、目的が異なります。
協調を自分で書くLangGraphやDifyとの、設計思想の根本的な差
LangGraphやDify、Copilot Studioといったフレームワークは、どのエージェントにどの役割を与え、どう繋ぐかを開発者が設計します。自由度が高い反面、グラフ設計・プロンプト調整・モデル選定・検証ロジックを自分で抱え込みます。Fuguはこの設計と運用そのものを学習済みモデルに肩代わりさせる発想で、利用者は協調フローを書きません。細かく作り込みたいならフレームワーク、設計の手間を省いて性能を取りたいならFugu、という住み分けになります。
ルーティングをモデルに委ねるFuguと、明示制御を残す基盤の分かれ目
分岐の決め手は、ルーティングの主導権を誰が握るかです。Fuguは、どのモデルをどう使うかをモデル自身が判断し、その経路は外部に開示されません。再現性や監査のために、どのモデルがどの判断を下したかを追跡したい現場では、この不透明さが制約になります。配線の正しさを保証する責任から解放されたい現場では、逆に利点になります。透明性と手離れはトレードオフであり、どちらを優先するかで選択は割れます。
Codexなどのツールにバックエンドとして差し込む使い方の位置づけ
Fuguは単体のUIを持つというより、既存ツールのバックエンドとして差し込む使い方が想定されています。Sakana AIはCodexのようなコーディング用ツールへの組み込みを具体例に挙げています。OpenAI互換APIなので、Codexやその他のコーディングハーネスの向き先をFuguのエンドポイントに変えるだけで、裏側がマルチエージェントに置き換わります。新しいクライアントを覚え直す必要がない点が、移行コストの低さにつながります。
OpenAI互換APIでの始め方と、モデル選択・エージェント除外の設定
導入のハードルは、接続先とモデル名の変更だけにとどまります。
既存クライアントのエンドポイントを向け替えるだけで動く導入手順
始め方はシンプルです。コンソール(console.sakana.ai)でAPIキーを取得し、既存のOpenAI互換クライアントやコーディングハーネスの接続先をFuguのエンドポイントに向けるだけで、SDKの移行は不要です。手順を整理すると次のようになります。
- console.sakana.aiでアカウントを作成し、プランを選ぶ
- APIキーを発行する
- クライアントのbase URLをFuguのエンドポイントに変更し、モデル名にfuguまたはfugu-ultraを指定する
- 少量のリクエストで出力品質・レイテンシ・コストを確認する
OpenAIのAPI作法をそのまま使えるため、既存コードへの変更は接続先とモデル名にとどまります。
Fuguでのみ可能な、特定プロバイダ・モデルのオプトアウト設定
データやコンプライアンスの要件がある場合、Fuguではコンソールの設定メニューから特定のモデルをプールから除外できます。特定プロバイダーのモデルを使いたくない場合に外す、といった調整です。一方Fugu Ultraはプールが固定で、この除外はできません。性能を全プールの協調に依存しているためです。使うモデルを選びたいならFugu、最高性能を取りたいならUltra、という制約の違いは設定面にも表れます。
リクエスト単位でトークン量とコストを把握できる支出予測の手段
トークン使用量と対応するコストは、リクエストごとに報告されます。これにより、スケールアップ前に支出をリアルタイムで把握し、コストを見積もれます。複数モデルが動くマルチエージェントは費用が読みにくいという懸念に対し、明細をリクエスト単位で出すことで答えている格好です。なお、どの基盤モデルが使われたかというルーティングの内訳は、独自技術として非公開です。
コードレビュー・論文再現・特許調査で効く、長時間タスクという主戦場
Fuguの価値は、一発の回答より、多段階の作業を最後までやり切るところに出ます。
他ツールが3件のところ20件超を出したコードレビューでの厚み
Sakana AIが公開した利用者の声では、あるソフトウェアエンジニアがコードレビューでFugu Ultraを評価しています。他のツールが約3件の問題を指摘するところ、Fuguは20件以上を洗い出した、という具体例です。網羅的に見て、他のモデルが見逃すバグまで拾う点が支持されています。コードレビューの自動化を検討するなら、Claude CodeのCode Review機能のような既存手段と、自社のコードベースで指摘の量と質を突き合わせて選ぶのが実際的です。
約20本の論文と特許を数時間で束ねたパテントランドスケープ作成
企業の研究者の声として、約20本の論文と複数の特許にまたがる特許動向(パテントランドスケープ)の作成が紹介されています。通常3〜4日かかる作業が数時間で完了し、自分では気づけなかった論文同士のつながりまで提示された、という内容です。読み込み・突き合わせ・構造化を長時間続ける調査は、Fugu Ultraが想定する典型的な主戦場です。別の研究者は、一つの指示からおよそ4時間、論文の読み込み・実装・学習・評価・不足分析までを自律実行したと述べています。
指定スコープを守り一気通貫で進むセキュリティ評価での一貫性
セキュリティエンジニアの声では、範囲を絞った一つの指示で、情報収集からXSS/SQLiの検査、認証まわりのレビュー、証拠と再テスト手順を備えたレポート作成までを一気通貫でこなしたと報告されています。指定スコープを逸脱せず、システムを壊す操作も避けた点が評価されました。エンタープライズ用途では、長時間セッションでもペルソナ(応答の一貫性)が崩れにくいという指摘もあり、エージェント製品ではベンチマークスコア以上に効く場合がある、とされています。
料金プランの読み解き方|サブスク3段階と従量課金のブレンドレート
料金は、定常利用ならサブスク、変動の大きい大規模用途なら従量課金、という二本立てです。
Standard $20・Pro $100・Max $200の月額3段階と、7月末までの特典
サブスクリプションは月額3段階で、いずれもFuguとFugu Ultraの両方を使えます。Standardは20ドルで軽量な日常利用向け、Proは100ドルでStandardの10倍の利用枠、Maxは200ドルで20倍の利用枠です。週に数回の集中作業ならPro、長時間の高負荷ワークロードならMax、が目安になります。さらに2026年7月末までに登録すると、加入したプランの2か月目が無料になります。まず試すなら、StandardかProから始め、使用量を見ながら上げると無駄がありません。
複数エージェントでも積み上げない、最上位モデル基準のブレンドレート
従量課金はエンタープライズ向けで、月額枠ではなくトークン使用量で課金されます。ここでのFuguの料金は、使ったすべてのモデルの合計ではなく、稼働中プールに対する単一のブレンドレートです。プールにモデルAだけならAのレート、A・B・Cが含まれてもA〜Cのうち最上位モデルのレート一本で課金され、エージェントを増やしても請求は積み上がりません。マルチエージェントは費用が膨らむという直感に反する設計で、コスト予測のしやすさを優先しています。
Fugu Ultraの100万トークン単価と、272Kコンテキスト境界での価格差
Fugu Ultra(fugu-ultra-20260615)の従量課金は、100万トークンあたり入力5ドル・出力30ドル・キャッシュ入力0.50ドルです。コンテキストが272Kトークンを超えると、それぞれ10ドル・45ドル・1.00ドルへ上がります。長大なコンテキストを投げる調査ほど単価が上がる構造のため、272Kという境界を意識して入力を分割するかどうかが、コスト最適化の分かれ目になります。短く収まる定常処理ならサブスク、スパイクや大規模ジョブが多いなら従量課金、という選び方が基本です。
ベンダーロックイン回避とAI主権|採用すべき現場と避けるべき場面
Fuguの思想的な売りは、単一ベンダーに依存しないことです。実務で効くかどうか、立場を分けて見ます。
輸出規制で一夜にしてアクセスが変わるリスクへの現実的なヘッジ
Sakana AIは、AnthropicのFable・Mythosモデルに課された輸出規制を引き合いに、規制や各国政策が変わればAPIへのアクセスが一夜で変わり得ると指摘します。Fuguは背後のモデル群を入れ替え可能に設計しており、あるプロバイダーが制限されても動的に経路を切り替えます。重要インフラ・金融・行政のように、一社のAPI停止が業務停止に直結する領域では、この迂回能力は現実的なヘッジになります。Sakana AIはこれを、AI主権(AI sovereignty)を支える選択肢と位置づけています。
単一ベンダー依存を避けたい組織や重要インフラ運用に向く適性
採用が効きやすいのは、まず長時間・多段階の業務です。コードレビュー、論文再現、特許調査、セキュリティ評価のように、読み・実装・検証・比較を繰り返すタスクで価値が出ます。加えて、特定ベンダーへの依存を経営リスクとして避けたい組織、調達方針として供給元の分散を求める組織にも向きます。単体モデルを直接叩くより、入手可能なモデルの協調で性能と可用性を同時に取りに行きたい、という要件に合致します。
低レイテンシ最優先やルーティング透明性が要る業務で避ける判断
逆に、避けた方がよい場面もはっきりしています。第一に、ミリ秒単位の応答が要るリアルタイム処理。内部でエージェントを編成するぶん、単体モデルより応答が遅くなり得ます。第二に、どのモデルがどの判断を下したかの開示が必須の規制・監査業務。Fuguはルーティングを非公開にしているため、説明責任の要件を満たせません。第三に、単発で完結する単純なタスク。オーケストレーションの利点が出ず、コストとレイテンシだけがかさみます。第四に、EUおよびEEA域内の利用。現時点でサービス対象外です。これらに当てはまるなら、単体モデルのAPIや自前のフレームワークの方が適します。
Sakana Fuguに関するよくある質問
導入前に判断を左右しやすい論点を、5つの質問に分けて答えます。
Sakana Fuguは無料で使えますか
恒常的な無料プランはありません。サブスクリプションは月額20ドルのStandardから始められ、ほかにPro(100ドル)、Max(200ドル)があり、いずれもFuguとFugu Ultraの両方を使えます。2026年7月末までに登録すると、加入したプランの2か月目が無料になります。高負荷・大規模用途には、トークン従量課金のプランも用意されています。
Sakana Fuguがどの基盤モデルを使ったか確認できますか
確認できません。Fuguが各クエリでどのモデルを選び、どう連携させたかは、独自技術として非公開です。一方で、トークン使用量とコストはリクエストごとに確認できます。どのモデルが答えたかの開示が要件になる監査・規制業務では、この非公開性が制約になる点に注意してください。
日本国内や海外からSakana Fuguを利用できますか
日本国内に加え、日本国外からも利用できます。ただしEU(欧州連合)およびEEA(欧州経済領域)の加盟国へは、サービスを提供していません。GDPR等のEU固有規制への対応を進めている段階のためです。そのほかの地域でも、通信環境や現地の規制によって利用できない場合があります。
Sakana FuguとSakana Chatは何が違いますか
Sakana Chatは対話で素早く答えるチャット型のサービス、Sakana FuguはOpenAI互換APIから複数モデルを束ねて使うオーケストレーション基盤です。即応的なやり取りはChat、コードや調査など多段階のタスクを開発ワークフローに組み込むのがFugu、という役割の違いがあります。同社にはほかに、長時間の戦略調査に特化した自律型リサーチエージェントのSakana Marlinもあります。
入力したデータはモデルの学習に使われますか
使用データは性能改善に役立てられますが、コンソールの設定からいつでも学習データ利用をオプトアウトできます。共有するかどうかは利用者の判断に委ねられています。機微なコードや未公開情報を扱う場合は、利用開始時にオプトアウト設定を確認しておくと安全です。
関連記事
- Claude Opus 4.5とは?Anthropicの最新モデルを解説:Fuguのベンチマーク比較でベースラインとなるClaude Opusシリーズの位置づけを確認できます。
- Gemini 3 Proとは?Googleの最新AIモデルを解説:同じくFuguの比較対象となるGemini 3系の特徴を把握できます。