一个小模型，指挥所有顶级AI模型干活性能媲美Fable 5 和 Mythos

一个小模型，指挥所有顶级AI模型干活性能媲美Fable 5 和 Mythos 2026-06-22 22:28

原文

  SAKANA AI · 河豚 FUGU　·　2026.06 
   

 Multi-Agent System as a Model 
   

Fugu

一个小模型，指挥所有顶级模型

日本 AI公司Sakana AI，把市面上最强的几大公开 AI 模型（Opus 4.8、Gemini 3.1 Pro、GPT 5.5）丢进一个池子，再训练一个很小的 AI 模型“指挥”去调度它们自动分工、自动协作。

结果这个组合体，在一连串硬核基准上，反超了池子里它所依赖的每一个单体模型，甚至性能和目前最强的已经被美国禁止的 Fable 5 和 Mythos Preview 不相上下...

这套系统的一个更精妙之处是，你这边看到的，始终只是一个模型、调用的是一个 API。

和你使用单个模型的体验一模一样，价格也只收你一份钱...

 
    由 Sakana AI 推出 · 基于 ICLR 2026 两篇论文 TRINITY 与 Conductor · 兼容 OpenAI API

 先说说现状： 
    

你现在用 AI，是"一个模型搞定一切"

不管是写代码、查资料还是做分析，你现在用的大部分 AI，通常是"一个模型搞定一切"，它就像一个全能专家，什么都问他，看似能解决一切问题。

但其实这套用法有个绕不开的问题：没有哪个模型真的什么都最强。写代码这家顺手，推理那家更准，长文档又得换一个。你想每件事都用上最好的，就得自己判断哪个模型适合哪段活，还要同时接好几家的 API，管好几把 key，对好几份账单，连什么时候切到哪个模型，逻辑都得自己写。

还有一层风险常被忽略：把业务押在单一厂商上，断供、涨价、出口管制，没一样在你的控制范围内。

01各家都有短板编码强的可能推理弱，没有全能选手。

02接口管理很碎多接几家就是多管几把 key、几份账单。

03绑死一家有风险断供、涨价、管制，都不由你说了算。

 那 Fugu 是什么？ 
    

背后是一个团队，对外只有一个联系人

Fugu 的思路反过来：它背后其实是一个团队，有人擅长写代码，有人擅长推理，有人擅长查资料。但你对外只需要找一个联系人，把任务丢给他，剩下的他自己安排，要不要分给团队、分给谁、最后怎么把结果汇总，全不用你操心。你完全不需要知道背后发生了什么。

具体到怎么用，你调用 Fugu，不像现在的那种Agent路由，跟调用 ChatGPT 的 API 一模一样，一个请求进去，一个回答出来。区别全在后台：Fugu 可能已经悄悄问了三四个不同的顶级专家模型（如GPT 5.5、Opus 4.8、Gemini 3.5、GLM5.2等等），把它们的答案合并成一个更好的结果，再交给你。

那么它是如何工作的？

先掂量，再分工：

简单任务

它自己直接回答，不绕弯、不浪费资源。

复杂任务

比如 "帮我做一个完整的安全漏洞评估"，它就自动拆解，分头执行，再把结果整合起来。

官方给它的定义就一句话，"一套多智能体系统，打包成一个模型"。多智能体（multi-agent）说的是里面那个团队，一个模型说的是你看到的那个联系人。

Sakana Fugu architecture overview

 你看到的 · 一进一出 
     

你的请求

↓

Fugu · 一个 API

↓

一个回答

↓

 后台实际发生的 · 一个团队在协作 
     

专家模型　写代码

专家模型　推理

专家模型　查资料

协调器　检验 · 合并

Fugu 自己决定叫谁上、谁先谁后，再把几个答案合并成一个更好的结果。这一整套，你都看不到，也不用管。

 再往里看一层 
    

最特别的地方：分工是"学"出来的

你可能会想，让几个模型协作，不就是写个流程，先让 A 做、再让 B 检查吗？

Fugu 的关键差别就在这。它的分工不是工程师事先写死的固定流程，而是系统自己学出来的。针对每一个具体任务，它会自己琢磨该叫哪几个模型、谁先谁后、它们之间怎么沟通。很多时候，它找到的协作方式，是人想不到、但效率特别高的。

这套能力来自 Sakana AI 的两篇 ICLR 2026 论文。它们各自解决的问题，简单说是这样：

Paper · TRINITY

进化出来的协调器An Evolved LLM Coordinator

一个很轻量的"协调器"统筹多个模型，跨多轮对话给每个模型派角色，按编码、数学、推理、知识等不同任务，把活灵活分下去。

Cover image for the TRINITY research paper.

Thinker 思考役Worker 执行役Verifier 检验役

Paper · Conductor

用大白话指挥一群模型Orchestrate Agents in Natural Language

用强化学习训练，让系统自己摸索出协作策略，包括模型之间怎么对话、给谁什么提示。结果是一群普通模型协作起来，能在硬核推理上跑赢单个高手。

Cover image for the Conductor research paper.

强化学习训练自然语言协作

arXiv · TRINITY 论文 ↗：

https://arxiv.org/abs/2512.04695

arXiv · Conductor 论文 ↗

https://arxiv.org/abs/2512.04388

完整技术报告 ↗

https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf

 两个版本： 
    

Fugu 和 Fugu Ultra，按需选

两个型号走的是同一个 OpenAI 兼容 API，换型号不用改对接。

Fugu

 性能与速度的平衡 · 日常默认 
     

性能和低延迟兼顾，适合每天的活。接进 Codex 写代码、做代码审查，或者驱动要快速响应的聊天机器人。

能挑模型可以按数据、隐私、合规要求，把池子里某些模型剔掉。

Fugu Ultra

 性能拉满 · 攻坚专用 
     

调动更深的专家模型池子，专攻难、重要、容不得出错的问题。早期用户拿它做 Kaggle 比赛、复现论文、网络安全分析、文献和专利调研。

代价响应更慢，而且模型池固定，不能剔除。

两个型号都含在每一档套餐里。需要更长、更重、更频繁的会话时，往上升级即可。

 核心特点： 
    

落到实处，它对你有用的三点

前面那些原理讲清楚了，对你实际有用的好处，可以归成三件事。

一个 API，自动用上所有模型

一个接口背后是一池子专门模型，每个任务该用哪个、什么时候切，Fugu 替你决定。你不用再同时维护好几家的接入，也不用自己写切换逻辑，省事还更划算。

 少管一堆 API，性价比更高 
     

复杂任务上更稳更准

专为写代码、推理这类对质量要求高的活设计。多个专家模型协同、互相校对，碰上多步骤的复杂任务，结果比单个模型更可靠。

 为质量敏感的工作流而造 
     

能自己挑用哪些模型

你能控制哪些模型进池子。某个厂商或某个模型出于数据、隐私、合规考虑不想用，可以直接剔掉。

 注：仅 Fugu 可剔，Ultra 固定 
     

 性能实测： 
    

11 个硬核基准，拿下 10 个第一

10/11

 Benchmarks Won 
    

官方把两个 Fugu 模型放进一堆工程、科学、推理基准，和公开可用的前沿模型比。结果是：11 个里赢了 10 个，只有长上下文检索（MRCRv2）输给 GPT 5.5。官方还称，它和 Fable 5、Mythos Preview 打平，而且没有出口管制的风险。

基准 BenchmarkFuguFugu Ultra

SWE Bench Pro *59.073.7

TerminalBench 2.180.282.1

LiveCodeBench92.993.2

LiveCodeBench Pro87.890.8

Humanity's Last Exam47.250.0

CharXiv Reasoning85.186.6

GPQA-D95.595.5

SciCode60.158.7

τ³ Banking21.720.6

Long Context Reasoning74.773.3

MRCRv286.693.6

 同样这 11 项，三个公开前沿模型的对比分如下 
    

对比模型 †Opus 4.8Gemini 3.1 ProGPT 5.5

SWE Bench Pro *69.254.258.6

TerminalBench 2.174.670.378.2

LiveCodeBench87.888.585.3

LiveCodeBench Pro84.882.988.4

Humanity's Last Exam49.844.441.4

CharXiv Reasoning84.283.384.1

GPQA-D92.094.393.6

SciCode53.558.956.1

τ³ Banking20.68.420.6

Long Context Reasoning67.772.774.3

MRCRv287.984.994.8

加粗高亮＝该项最高分，下划线＝第二名。* SWE Bench Pro 用 mini-swe-agent 作为脚手架。† 对比模型采用其官方公布分数。Fable 5 与 Mythos Preview 未公开，不在 Fugu 的模型池内，故未列入对比表。

 实战案例 
    

不止跑分，六个真任务里的表现

下面每个案例，都把 Fugu 和三个前沿模型放进同一套流程对比（对手匿名为 Model A/B/C）。

 案例 01 · AutoResearch 
     

让 AI 自己调训练配方

AI 反复改训练代码、跑实验、只留更好的版本。单张 H100、约 14 小时、123 次实验。

✓BPB 压到 0.9774，三个前沿模型都没它低

 案例 02 · 古文书读序 
     

还原日本仮名消息的阅读顺序

1610 年的散着写古文书，连专家都难判读序。各模型写代码推断字的先后。

✓NED 0.80，对手最高仅 0.24

 案例 03 · 魔方求解器 
     

纯 Python 从零写求解器

不许用现成库，跑 300 个打乱的魔方。比谁解得开、谁步数少。

✓平均 19.72 步全解，两个对手代码直接崩

 案例 04 · CAD 机械光圈 
     

做像相机光圈的联动机构

多片叶片绕轴转动、协同开合中央的孔。比谁的结构能真正动起来。

✓叶片干净开合，对手漏光、关不严

 案例 05 · 盲棋 
     

连下四局不看棋盘

全程靠记忆保持棋局，连续对弈四局。对手是三个前沿模型加一个引擎。

✓击败 2100 Elo 的 Stockfish，局局将死

 案例 06 · 股票交易 
     

逐周做买卖决策

单只匿名股票 50 周窗口，不能预知未来，只能看历史数据逐步决策。

✓平均收益 +19.43%，对手都不到 +15%

案例 06 仅用于比较逐次、无先读的决策方式，并非证明可泛化的交易表现。过往结果不代表未来，也不一定适用于其他资产、时段或真实市场。

 用户怎么说 
    

早期用户的真实反馈

代码审查软件工程师

别人挖三个问题，它挖出二十多个

做代码审查，Fugu Ultra 明显比 GPT-5.5 强，回答很全，能找出别人漏掉的 bug。别的工具指出三个问题，它能洗出二十多个。现在我所有审查都过它一遍。

自主调研企业研究员

三四天的活，几个小时做完

梳理 20 篇论文加几项专利的专利全景，平时要三到四天。用 Fugu 几个小时就出了完整分析，还找出了我自己绝对发现不了的论文间联系。

编排平台企业高管

长会话里人格特别稳

原始输出质量和顶级前沿模型持平。但 Fugu 在长会话里人格特别稳，别的模型会跑偏它不会。对 Agent 产品来说，这比跑分更重要。

论文复现研究员

一个指令，自主跑了快四小时

一个简单指令，Fugu 自主跑了快四个小时，读论文、实现、训练、评估、分析差距全做了。一个 CUDA 任务，单次会话做到 100 倍以上加速。

安全评估安全工程师

端到端跑完整个安全评估，还守住了边界

给一条限定范围的指令，它端到端做完整个安全评估，信息收集、XSS/SQLi 检查、认证审查，最后一份带证据和复测步骤的报告。全程没越界，也没做破坏性操作。

 怎么收费： 
    

订阅和按量，两种都行

每一档都同时包含 Fugu 和 Fugu Ultra。订阅适合个人和日常上手，按量适合高负荷生产。

Standard

$20 / 月

轻量日常。偶尔调用、小实验、在个人工作流里试用。

 标准额度 
     

最常用

Pro

$100 / 月

每周几次集中工作。常规编码、审查、调研、分析。

 Standard 的 10 倍额度 
     

Max

$200 / 月

长时间高负荷。深度、长跑任务里持续使用。

 Standard 的 20 倍额度 
     

🎁 2026 年 7 月底前订阅，按你加入的档位，第二个月免费。

按量计费 Pay-as-you-go面向企业 / 生产

Fugu · 不叠加收费

只用一个模型，就按那个模型的标准价。多个模型同时跑时，绝不把费用累加，只按其中最高档那个模型，收一个价。加再多 Agent，账单也不翻倍。

Fugu Ultra · 固定价

型号 fugu-ultra-20260615，每百万 token：

输入 Input$5

输出 Output$30

缓存输入 Cached$0.50

上下文超 272K 时$10 / $45 / $1.00

 用之前要知道： 
    

一些局限性：

省心是有代价的。这几点先看清楚，再决定要不要上。

!欧盟、欧洲经济区暂时用不了官方在做 GDPR 合规。日本以外其他地区一般可用，但可能受网络环境或当地法规影响。

?路由是黑盒，看不到调了谁它每次到底用了哪些模型、怎么协调，官方说这是核心技术，按设计不对外公开。

×Ultra 的池子不能剔除Fugu Ultra 靠完整模型池发挥性能，池子固定。有合规硬要求要剔模型的话，只能用 Fugu。

~Ultra 换质量牺牲速度Ultra 追求回答质量，响应时间更长。要快速响应的场景，更适合用 Fugu。

▢数据默认会用于改进使用数据默认会拿去优化模型，不过可以在控制台随时关掉这一项。

↻更新有延迟有新前沿模型公开后，官方预计要花约两周训练、评估，再把更新版的 Fugu 推出来。

 一句话总结 
    

它把"选模型"，变成了模型自己的事

过去你要自己判断哪个模型适合哪个任务，还要自己接、自己切、自己付。Fugu 把这一层全收进一个 API，由一个学出来的协调器替你组队。你失去的是对底层模型的可见和掌控，换来的是更省心的接入，和复杂任务上更稳的结果。值不值，看你更在意哪一头。

 
     信息整理自 Sakana AI 官方页面 · 由小互编译解读
       产品页面： sakana.ai/fugu

AI 智能整理工作台