实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了 2026-06-23 16:33

事情是酱黄瓜的,

今天在火山引擎Force大会上Seed-2.1-pro新鲜出炉,

有排face拿到内测的我马上让本地Agent总结几个我最近用最频繁的工作流来做测试,

说实话,看前端开发案例真的已经看腻了。要么就是来个3D游戏,或者搞个我的世界,都太常规了,我都怀疑这些模型已经把这些代码训练到自己的权重里面了。

所以我们这次直接从正式工作流上手,看看Seed-2.1-pro是怎么把一个想法,从需求一直推到一个能打开,能跑,能继续改的东西。老样子,先光速看看纸面实力的提升。


Image

Image

我来解读一下,

2.1pro的Agent和GUI操作能力很突出,OSWorld 78.8基本贴着 GPT-5.5 的 78.7;Coding编程能力也进入第一梯队了,Terminal Bench 2.1 是 71.0,接近 GPT-5.5和Claude;多模态和视觉理解提升比较大,CharXiv-RQ 85.4、MMMU-Pro 81.6、TOMATO 79.5、LVBench 78.0意味着文档,图表,截图,视频理解都能上。这个就是2.1pro没有skill的情况下搓出来的👇

这次 Seed 2.1 Pro相比 Seed 2.0,最核心的升级,其实就卡在这里。

2.0已经是一个很不错的强文本 + 基础多模态模型,文本,图像语音理解都能做,中文场景纯舒适区。2.1 Pro这次明显往更完整的全模态能力,推理代码能力,生产级的Agent能力上补了一大截。

它支持原生的音视频,图片,文本混合理解,也开始追上第一梯队了,长链路的工具调用,复杂任务规划,支持快思考和慢思考切换,以及256K上下文(什么时候能蹲到豆包的1M上下文啊啊啊


Image

用人话说,2.1 Pro开始更像一个可以被放进Agent里干活的执行模型了。

昨天晚上我就拿它跑了一大轮。

本来只是想找几张图,测测日常任务啥的,结果测着测着,给我整成了一轮小横测。。。

那来都来了,那就来一个原汁原味的模型大横测吧。从多模态图像理解,到DeepResearch报告,再到从0开始写PPT,后面又做了前端UI优化,再再再到后面搓了个世界杯网站,以及点球大战小游戏也都给我跑出来了。。

每天用Agent干的活,差不多就是依赖模型的这些能力。

需要强调的是下面跑的所有case都没有用到Skill的,没用ui pro skill没有头脑风暴skill没有用辅助模型,真实环境下跑出来的,差别还是很多大,GPT5.5没有skill的情况下做出来的前端文案全是它的思考过程,非常闹心。

我们工作流所在意的,也就这些。

先从代码能力说起。


 1. 代码能力 

我这次把任务按难度排了一下。

先让它修UI和Debug,再到一个网站,最后以一个小游戏结尾。

像真实开发,让他从基础开始实测。

我这次翻了一个之前的旧项目出来。

这种项目最烦的地方就是,它也不是完全不能用。页面也都能打开,但UI就是有点别扭。

有些地方挤在一起,有些地方间距不舒服,有些组件在移动端一缩就开始乱。

每天真的做产品,最消耗人的往往就是这种小东西。之前到这一步就要烧token让Claude头脑风暴自己优化自己了。


Image

这次我把这个旧项目直接丢给豆包后,给了任务,看代码改Bug以及UI。

这类任务其实很考验模型。

从零生成的时候,可以自由发挥。

但改旧项目不一样,得先全程理解后在记问题。

如果上来就乱改,只会越修越怪。


Image

沿着项目结构去看组件,再去看样式和页面布局,最后才开始动代码。

在旧项目里找到真实的位置,再一点点把 UI 往正确方向拉。改完之后,效果就顺了很多。


Image

布局正常了,组件关系更清楚了。

页面也没有因为改UI把其他逻辑带崩。

说明还是能完成一个日常的开发闭环的。


Gogogo,我们下一关,

这个任务就比UI debug稍微大一点。

我让2.1pro做一个世界杯主题的网站,要有首页,赛程,球队,对阵图,还要能筛选比赛。

这种东西最容易翻车的地方,是模型只做出一个看起来很完整的静态页面。

点进去什么都没有,筛选也是假筛选。

数据也只是写死的几行字。但豆包这次做出来的东西,是一个能打开,能浏览,能继续改的版本。



它把页面,赛程筛选,数据fallback,暗色模式这些基本东西都搭出来了。

也就是说,这个项目不是单纯的视觉Demo。

是有一点真实项目的骨架。


Image

当然,审美还是老问题。

页面能用,但不惊艳。

渐变,卡片,圆角这些 AI 味还是能看出来。

如果这是一个正式官网,我肯定还要继续调视觉。

但如果目标是先把一个带业务逻辑的网站跑起来,我觉得它完成得不错。

那现在还很流行在网页里面放AI视频当背景,放点3D小游戏当交互,

那我肯定不能不测这个,顺着世界杯主题做了一个点球大战,要求是必须有状态,有规则,有输入,有反馈,还要有输赢结算。

游戏交互还是挺想一回事的,玩家选队,选择射门方向,按住 Space 蓄力,松开射门。然后系统判断进球,扑出或者打偏。CPU 再踢一脚。五轮以后如果打平,还会进 sudden death。

从选队伍的开头到比赛结束的结尾,

整个流程在两轮后就被跑通了。


Image

Image

Image

代码测完之后就要看看日常任务用最多的视觉理解,信息收集和PPT生成了(这应该也算是信息输入输出了)


 2. 多模态理解 


Image

我先给了一张绘本风格的森林插画,

图里信息其实挺多的,有天空,草坡,前景小溪,还有一堆小动物围着听歌等等等等

如果是粗略的模型描述,可能一句话完了。

一群森林小动物在开音乐会。

但2.1pro没有停在这一层。


Image

Image

从远景到前景,从周遭到细节都完整的读取说明了。关键是,它还把这张图背后的主题风格提了出来,

还把一张图里的空间关系,关系文字,元素和情绪主题都拆清楚了。可以期待一下我们后面用来做视频剪辑和seedance 2.5 pro生成视频的提示语生成看看。

很多情况下,我们要的不是一句简单的图片描述,而是要把图片转成后续还能继续使用的文字资产。

所以多模态图片理解的价值,就是把信息结构化,语言化,以及可复用化。


Image

Image

Image

除了对应这种AI视频画面的复杂关系,直接把一些论文相关或者是课程报告相关的数据图表,都丢给豆包 2.1 Pro,它也都能识别出来。

所以我就在想,明年的高考数学,豆包是不是要拿满分了。


 3.报告分析DeepResearch 

接着就是报告测试,我让它分析 MaaS,也就是模型即服务,以及 Agent 为什么会增长。

让他看大模型未来怎么从聊天工具变成能自己查资料,拆任务,跑流程,交付报告的工作助手。


Image

Image

这次我还要求它写清楚Source和Reference,也就是每个关键判断从哪里来。

同时观察它能不能自己启动Workflow,用Deep Search找资料,再整理成一份结构完整的分析报告。

因为这类报告型任务,如果没有逐条查来源,模型很容易写出一份看起来很真的东西。

但真要发公开文章,每个数据都要自己查证。

所以我这里看的不是2.1 pro能不能直接产出一份可发布报告,是它的结构能力,能不能把一个开放性问题拆成研究背景,市场增长,商业模式,竞争格局等一系列汇报。


Image

半个小时后,报告新鲜出炉

有结构清晰足够的数据做为支撑,并且一开始就把结论给完整罗列。

不得不说这个成果报告我还是很满意的。


 4.汇报PPT实测 

顺着这个报告,又想到了工作里的PPT汇报也是避免不了的。

给了个题目,让豆包自己解释最新模型的优点,

自证自己不只是一个更聪明的聊天AI,是在能被塞进Agent框架里kuku干活的模型。


说实话,里面有些话还是有点发布会味儿。

比如生产级Agent临界点、数字员工底座这种表达,全都提了一次。


Image

Image

虽然画面UI较为固定,

但它把内容整理成演示稿的能力是成立的。

还是那句话,在不依赖Skill的时候能做出这样的水平,其实已经能够说明2.1 Pro是真的在往Agent模型的路上狂奔了。

所以这几轮测完,我对豆包2.1的评价其实已经有答案了。

它不是Opus,Sonnet,GPT的无脑替代。

复杂架构,强审美设计,关键事实判断,

还是要更强模型或者人来兜底。

但它已经很适合做执行层的模型。

看图拆解,写prompt,整理报告结构以及做PPT初稿。修旧项目UI,网站骨架和做一个能玩的小游戏原型。

这些活交给它,我是不担心完不成的。

而且这套用法的重点不只是便宜,

还有是分工。

不用非要证明它超过谁。

你只要知道哪些任务可以交给它,

哪些地方需要人审,

哪些关键节点要换更强模型。

它开始有了一个很实际很具体的位置。

一个能进我Agent工作流的执行型队友。

@ 作者 / 卡尔 & yc星辰


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论 📣

如果想要第一时间收到推送,不妨给我个星标🌟

如果你有更有趣的玩法,欢迎在评论区聊聊🤝

更多的内容正在不断填坑中……

AI 智能整理工作台
选择来源