实测豆包Seed 2.1 Pro，把我六个真实工作流都稳稳接住了

实测豆包Seed 2.1 Pro，把我六个真实工作流都稳稳接住了 2026-06-23 16:33

原文

事情是酱黄瓜的，

今天在火山引擎Force大会上，Seed-2.1-pro新鲜出炉，

有排face拿到内测的我马上让本地Agent总结几个我最近用最频繁的工作流来做测试，

说实话，看前端开发案例真的已经看腻了。要么就是来个3D游戏，或者搞个我的世界，都太常规了，我都怀疑这些模型已经把这些代码训练到自己的权重里面了。

所以我们这次直接从正式工作流上手，看看Seed-2.1-pro是怎么把一个想法，从需求一直推到一个能打开，能跑，能继续改的东西。老样子，先光速看看纸面实力的提升。

我来解读一下，

2.1pro的Agent和GUI操作能力很突出，OSWorld 78.8基本贴着 GPT-5.5 的 78.7；Coding编程能力也进入第一梯队了，Terminal Bench 2.1 是 71.0，接近 GPT-5.5和Claude；多模态和视觉理解提升比较大，CharXiv-RQ 85.4、MMMU-Pro 81.6、TOMATO 79.5、LVBench 78.0意味着文档，图表，截图，视频理解都能上。这个就是2.1pro没有skill的情况下搓出来的👇

这次 Seed 2.1 Pro相比 Seed 2.0，最核心的升级，其实就卡在这里。

2.0已经是一个很不错的强文本 + 基础多模态模型，文本，图像语音理解都能做，中文场景纯舒适区。2.1 Pro这次明显往更完整的全模态能力，推理代码能力，生产级的Agent能力上补了一大截。

它支持原生的音视频，图片，文本混合理解，也开始追上第一梯队了，长链路的工具调用，复杂任务规划，支持快思考和慢思考切换，以及256K上下文（什么时候能蹲到豆包的1M上下文啊啊啊）

用人话说，2.1 Pro开始更像一个可以被放进Agent里干活的执行模型了。

昨天晚上我就拿它跑了一大轮。

本来只是想找几张图，测测日常任务啥的，结果测着测着，给我整成了一轮小横测。。。

那来都来了，那就来一个原汁原味的模型大横测吧。从多模态图像理解，到DeepResearch报告，再到从0开始写PPT，后面又做了前端UI优化，再再再到后面搓了个世界杯网站，以及点球大战小游戏也都给我跑出来了。。

每天用Agent干的活，差不多就是依赖模型的这些能力。

需要强调的是下面跑的所有case都没有用到Skill的，没用ui pro skill没有头脑风暴skill没有用辅助模型，真实环境下跑出来的，差别还是很多大，GPT5.5没有skill的情况下做出来的前端文案全是它的思考过程，非常闹心。

我们工作流所在意的，也就这些。

先从代码能力说起。

1. 代码能力

我这次把任务按难度排了一下。

先让它修UI和Debug，再到一个网站，最后以一个小游戏结尾。

像真实开发，让他从基础开始实测。

我这次翻了一个之前的旧项目出来。

这种项目最烦的地方就是，它也不是完全不能用。页面也都能打开，但UI就是有点别扭。

有些地方挤在一起，有些地方间距不舒服，有些组件在移动端一缩就开始乱。

每天真的做产品，最消耗人的往往就是这种小东西。之前到这一步就要烧token让Claude头脑风暴自己优化自己了。

这次我把这个旧项目直接丢给豆包后，给了任务，看代码改Bug以及UI。

这类任务其实很考验模型。

从零生成的时候，可以自由发挥。

但改旧项目不一样，得先全程理解后在记问题。

如果上来就乱改，只会越修越怪。

沿着项目结构去看组件，再去看样式和页面布局，最后才开始动代码。

在旧项目里找到真实的位置，再一点点把 UI 往正确方向拉。改完之后，效果就顺了很多。

布局正常了，组件关系更清楚了。

页面也没有因为改UI把其他逻辑带崩。

说明还是能完成一个日常的开发闭环的。

Gogogo，我们下一关，

这个任务就比UI debug稍微大一点。

我让2.1pro做一个世界杯主题的网站，要有首页，赛程，球队，对阵图，还要能筛选比赛。

这种东西最容易翻车的地方，是模型只做出一个看起来很完整的静态页面。

点进去什么都没有，筛选也是假筛选。

数据也只是写死的几行字。但豆包这次做出来的东西，是一个能打开，能浏览，能继续改的版本。

它把页面，赛程筛选，数据fallback，暗色模式这些基本东西都搭出来了。

也就是说，这个项目不是单纯的视觉Demo。

是有一点真实项目的骨架。

当然，审美还是老问题。

页面能用，但不惊艳。

渐变，卡片，圆角这些 AI 味还是能看出来。

如果这是一个正式官网，我肯定还要继续调视觉。

但如果目标是先把一个带业务逻辑的网站跑起来，我觉得它完成得不错。

那现在还很流行在网页里面放AI视频当背景，放点3D小游戏当交互，

那我肯定不能不测这个，顺着世界杯主题做了一个点球大战，要求是必须有状态，有规则，有输入，有反馈，还要有输赢结算。

游戏交互还是挺想一回事的，玩家选队，选择射门方向，按住 Space 蓄力，松开射门。然后系统判断进球，扑出或者打偏。CPU 再踢一脚。五轮以后如果打平，还会进 sudden death。

从选队伍的开头到比赛结束的结尾，

整个流程在两轮后就被跑通了。

代码测完之后就要看看日常任务用最多的视觉理解，信息收集和PPT生成了（这应该也算是信息输入输出了）

2. 多模态理解

我先给了一张绘本风格的森林插画，

图里信息其实挺多的，有天空，草坡，前景小溪，还有一堆小动物围着听歌等等等等

如果是粗略的模型描述，可能一句话完了。

一群森林小动物在开音乐会。

但2.1pro没有停在这一层。

从远景到前景，从周遭到细节都完整的读取说明了。关键是，它还把这张图背后的主题风格提了出来，

还把一张图里的空间关系，关系文字，元素和情绪主题都拆清楚了。可以期待一下我们后面用来做视频剪辑和seedance 2.5 pro生成视频的提示语生成看看。

很多情况下，我们要的不是一句简单的图片描述，而是要把图片转成后续还能继续使用的文字资产。

所以多模态图片理解的价值，就是把信息结构化，语言化，以及可复用化。

除了对应这种AI视频画面的复杂关系，直接把一些论文相关或者是课程报告相关的数据图表，都丢给豆包 2.1 Pro，它也都能识别出来。

所以我就在想，明年的高考数学，豆包是不是要拿满分了。

3.报告分析DeepResearch

接着就是报告测试，我让它分析 MaaS，也就是模型即服务，以及 Agent 为什么会增长。

让他看大模型未来怎么从聊天工具变成能自己查资料，拆任务，跑流程，交付报告的工作助手。

这次我还要求它写清楚Source和Reference，也就是每个关键判断从哪里来。

同时观察它能不能自己启动Workflow，用Deep Search找资料，再整理成一份结构完整的分析报告。

因为这类报告型任务，如果没有逐条查来源，模型很容易写出一份看起来很真的东西。

但真要发公开文章，每个数据都要自己查证。

所以我这里看的不是2.1 pro能不能直接产出一份可发布报告，是它的结构能力，能不能把一个开放性问题拆成研究背景，市场增长，商业模式，竞争格局等一系列汇报。

半个小时后，报告新鲜出炉

有结构清晰足够的数据做为支撑，并且一开始就把结论给完整罗列。

不得不说这个成果报告我还是很满意的。

4.汇报PPT实测

顺着这个报告，又想到了工作里的PPT汇报也是避免不了的。

给了个题目，让豆包自己解释最新模型的优点，

自证自己不只是一个更聪明的聊天AI，是在能被塞进Agent框架里kuku干活的模型。

说实话，里面有些话还是有点发布会味儿。

比如生产级Agent临界点、数字员工底座这种表达，全都提了一次。

虽然画面UI较为固定，

但它把内容整理成演示稿的能力是成立的。

还是那句话，在不依赖Skill的时候能做出这样的水平，其实已经能够说明2.1 Pro是真的在往Agent模型的路上狂奔了。

所以这几轮测完，我对豆包2.1的评价其实已经有答案了。

它不是Opus，Sonnet，GPT的无脑替代。

复杂架构，强审美设计，关键事实判断，

还是要更强模型或者人来兜底。

但它已经很适合做执行层的模型。

看图拆解，写prompt，整理报告结构以及做PPT初稿。修旧项目UI，网站骨架和做一个能玩的小游戏原型。

这些活交给它，我是不担心完不成的。

而且这套用法的重点不只是便宜，

还有是分工。

不用非要证明它超过谁。

你只要知道哪些任务可以交给它，

哪些地方需要人审，

哪些关键节点要换更强模型。

它开始有了一个很实际很具体的位置。

一个能进我Agent工作流的执行型队友。

@ 作者 / 卡尔 & yc星辰

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论 📣

如果想要第一时间收到推送，不妨给我个星标🌟

如果你有更有趣的玩法，欢迎在评论区聊聊🤝

更多的内容正在不断填坑中……

AI 智能整理工作台