今天,又是每年都非常重磅的火山引擎Force原动力大会了。
基本上每年这个时候,就是豆包模型全家桶的年度更新。
人在现场,也第一时间给大家总结一下这次大会和我觉得值得说的亮点。
今天,正式发布了Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。
而基础模型,是所有心怀梦想的厂商,永远不可能放弃的话题。
Seed的基模在过去,在2025年初,可以说确实是个很棒的模型,那时候大家都还在卷推理,卷多模态。
可2025年,有太多的事情发生,Manus横空出世,将大家对于Agent的理解向前推了一大步,然后就是Claude Code+Claude让企业客户直接用脚投票,那段时间,Anthropic凭借着Coding和Agent能力的一骑绝尘,甚至将OpenAI都远远甩在了身后。
而Seed慢了,在这个Coding和Agent的能力几乎已经约等于模型智能能力水平的时代里,也逐渐越来越被人遗忘。
而这次基模Seed-2.1-Pro,在憋了很多之后,终于发布了,他们的多模态能力依然是王者,这个你丝毫不用怀疑字节在多模态上的能力,豆包手机和Seedance就能看出来这块的积累,而之前一直以来,都是巨大短板的Coding和Agent能力,在这半年持续不断的猛追之下,在这一次,也终于算是能打了,也终于算是到了可用级别。
Coding能力,确实是补了一大波,有些地方能摸一摸Opus 4.7的级别,比最新一代的模型还是差点了,差距坦诚的讲,还是有的。
Agent能力,也就是各种工具调用还有长程任务上,倒是大幅进化了不少。
现场还有一个秀Agent能力的我觉得挺牛逼的,还是蛮秀的。
目前Seed-2.1系列在火山、Trae、豆包上等等均已上线,也兼容所有的Agent框架,我直接在Claude Code里测了下。
我对它的评价是,一个非常综合的水桶级模型,虽然在Coding能力上,离Claude这种还有差距,但是这回至少是上桌了,然后他强就强在,水桶。
因为这玩意,在世界知识、多模态上,都有不错的表现。
一个还是多模态的能力,一个基模如果没有多模态,其实我觉得还是比较伤的,就像DeepSeek V4 Pro还有GLM-5.2,Coding能力确实都很强,但是最大的问题,还是没有多模态。
而Seed系列的多模态一直都是国际领先的水平,视觉理解的能力在几乎所有评测集上都是TOP。
你让它看文档、看图表、看视频,基本上能力都非常的强,一个又能写代码又能看图看视频的模型,跟一个只能写代码的模型,在实际业务场景里能做的事情还是有不少差距的。
举个例子,我自己开发的AI资讯监控网站AIHOT上,会对我们所有抓取到的内容进行摘要总结及评分。
比如今天早上抓到的这篇Google的内容,下面那一段文字,就是我对原文的摘要和总结,右上角就是AI系统对它的打分以及是否值得被精选。
但这个总结和评分,其实是丢信息的,因为原文里面是有图片的,甚至很多的模型里面,是有视频的。
而我背后用的模型,是两个没有多模态能力的纯文本模型,一个小一点的,用来翻译+总结和摘要,一个大一点的,用来评分。
因为丢失了多模态的信息,特别是这个评分,有的时候是不公平的,比如说X上的一些信息,可能只是发了个质量很高的播客视频,但是只简单配了两句话,那就很有可能,是会被我的精选系统过滤掉的。
很多发图片比较多的内容也是如此,比如,小红书和B站,这些上面的一些信息我过去一直没有监控,不是因为我监控的技术手段做不到,是过去我找不到一个比较好的支持多模态的评分模型,所以一直就没干。
那Doubao-Seed-2.1上了之后,我觉得完全可以把背后的这个模型,换成用Doubao-Seed-2.1-turbo来进行摘要,用Seed-2.1-Pro来进行评分,支持我AIHOT上多模态内容的生态。
说干就干,我直接把Claude Code里面的模型,用CC switch换成了Seed-2.1-Pro,让他自己来开发自己。
然后把我上面说的那段话,直接当做Prompt,扔了进去,先让他做摘要和总结这块的迭代,因为精选评分那块改模型整体改动太大了,Promtp、阈值、公式算法什么的都需要调整,还要做全量的线上数十万条数据的全量回测,不是一时半会就能干完的。
这个任务开发难度不算很高,但是也没有那么简单,就是我的那个代码,因为后端流程有点复杂了,乱七八糟的细节太多了,而且过去没有把图片扔进去推理的先例,图片缓存和持久化啥的全都没做,所以要考虑的细节还是很多的。
在思考了十几分钟以后,Doubao-Seed-2.1-pro给了我一个详细的方案。
考虑的还是比较全面的,一些对抗性审查的方案还有风险的应对措施,基本都考虑到了。
没啥问题,我就直接让他开工了。
大概在30分钟后,开发完成了。
基本没啥问题,前面的图片缓存、抓取、压缩流程啥的都能跑通,整体都还不错。
但是出现了一个很诡异的BUG,就是莫名其妙的,跑一个文字+多图的摘要,失败了一大半,长的甚至要几分钟之多,我都干懵了,我以为火山的API这么慢??
结果让它找了半天原因,发现是Doubao-Seed-2.1默认开了深度思考,所以本来就慢,然后自己又给自己写了个300秒超时,然其中一个图片的包装函数又写错了。
改了两轮,搞了10分钟,才把这个事解决,然后让他给我列了一个100条数据的回测报告,这一次,发现推理速度变得极其牛逼,延迟几乎只要3.5s就能直接出。

回测报告的UI展示上,我觉得中规中矩,前端审美是能看的,干净清爽,也没啥特别的错位BUG。
摘要的信息准确性无敌,香爆了。
我感觉我的AIHOT在信息质量上,又要迈向新一波质量的升级了。
然后还有两个点我觉得还是需要说一下,价格和上下文长度。
首先是价格,这个价格相比海外,确实不算贵了,¥6 / ¥30每百万token(输入/输出),但是相比国内DeepSeek这种直接干到个位数级别的爹,感觉还是有优化空间。
上下文还是卡在了256k,没有到达主流的1M,这个还是比较可惜的。
坐等Doubao-Seed的下一个版本了。
因为Doubao-Seed-2.1-Pro正式发布了,所以,还有一个很重要的功能应该也要即将正式上线了。
这其中专业版我觉得最核心的功能,我觉得就是我这两天一直在测的,基于Doubao-Seed-2.1-Pro的豆包办公模式,也是豆包的Agent。
因为我已经提前拿到了内测资格,当你打开豆包客户端之后,就能在下面看到这个东西。
基于Doubao-Seed-2.1-Pro的办公任务。
Agent时代下驱动的通用办公场景,也是所有厂子我觉得不可能放弃的一环。
豆包的办公模式其实之前就有了,但是之前的体验,坦诚的讲,我自己体验下来,说实话确实一般。
核心原因还是基模,因为之前跑的是Seed 2.0 Pro,这个模型多模态能力很强,理解力也不差,但是在Agent和Coding能力上的短板,导致它在执行一些稍微复杂办公任务的时候,就表现比较一半了。
不要小看这个“换底座”三个字。对于一个AI产品来说,底座模型的能力升级,可能比产品本身做任何改进都更有效,真的,产品团队搞半年的交互优化、流程重构,在现在,我觉得可能不如底座模型在Agent能力上提升个20%来得实在。
打开豆包的桌面客户端,在输入框下侧选择办公任务,就能进入。
办公任务下,我们直接选中本地电脑,它就能够去访问到你本地电脑环境中的各种文件。
你可以指定某个项目文件夹,也可以不指定。
豆包自己也自带了一堆skills,Agent在执行任务的时候会自动调用。
我测试了一些任务,在豆包办公模式的表现上,Seed-2.1-Pro整体能力发挥的还不错。
我让它来做我们财务同事之前跟我讲的他们一个工作流。
月底报销的时候,她需要把全公司所有人的发票都汇总到一个飞书多维表格上。
这种活交给Agent来干最合适不过了。
这里出于隐私,我拿1月的发票来演示。
打开办公模式,我直接在收集了全公司发票的目录下,让他去汇总所有人的发票的信息,按照报销人的格式填到多维表格里面。
它会先申请访问文件的权限和执行脚本的权限。
然后还会申请飞书文档的编辑权限。
等你都授权之后,它就库库开始干了。
然后就能看到,它把公司各个部门按照每一个报销人,一共210个发票上的信息都提取出来,填到了我指定的多维表格里。
基本上没有什么问题,这个就体现出Agent能力和多模态模型的省心省力了。。。
然后测了下联网、收集信息调研的能力。
正好过几个月我们办公室的租期就到了,再加上越来越多的小伙伴加入我们,现在的办公室确实有点坐不下了。
所以我们最近就疯狂的在朝阳找新的、更大的地方。
目前行政那边,根据预算和交通方面的要求,实地也跑了一些,最后选了3个备选方案。
正好昨天下午给我的,我也不太懂,我就把这3个地方丢给豆包,把要求告诉它,让它帮我出一个对比方案,如果有它觉得更合适的地方,也可以推荐。。
它就去网上搜了一大堆资料,最后给了一份很详细的报告。
先从各个维度全面对比了3个地方,然后分别介绍优缺点,还额外给出了几个推荐的地方。
这个租金报价预估,居然基本都是真实的,跟我昨天行政拿给我的报价,几乎就没差个多少钱。。。
同样为了看得更直观,我又让它生成了一个PPT。
它会自动调用做PPT的技能去生成。
一轮直出的效果长这样。
就只能说,能看,这块我盘了一下,大概率是skill的原因。
这块我建议可以加归藏的PPT skill,可能视觉效果会更好一点。
我自己也拿我之前测一些通用办公任务的30个题目的测试集,在基于Doubao-Seed-2.1-Pro之上的豆包办公任务跑了下回测。
最终效果长这样。
数据分析那边跟Gemini有点像,有时候会自作主张,踩中一些陷阱,比如其中的一道数据分析的题目。
但是整体来说,在有了Seed-2.1-Pro的加持之后,豆包的办公任务,也终于变得还不错了,能在Agent这个通用办公场景上,跟其他家正面开战了。
毕竟,这可是豆包啊。
Seedance这块,作为字节的王者,这次也迎来了一波更新。
Seedance 2.0拥有4K了,而且是原生4K。
注意,是原生4K,跟后期超分是两回事,现在市面上有不少4K视频,其实就是先生成个720p或者1080p的底子,然后拿超分模型往上拉。
Seedance 2.0模型的质量,配合上4K,基本是可以达到影视级了。
而且,现在,还支持在支持在保持画面一致性的同时做局部调整了。
Seedream 5.0 pro,7月初上线。核心升级在于交互式精准编辑,你可以直接在画面上点选、圈选、用箭头标注来表达编辑意图,不需要再用文字去描述空间关系了,还有多图层分离和高密度信息表达能力的提升,一整页PPT的信息量都能准确呈现。
支持用文字、声音参考生成音频、全要素直出(人声+音效+背景音一条Prompt搞定),单次可以生成2分钟音频并且支持延长到几十分钟保持一致性。
然后,火山方舟CLI也正式发布了,这对我这种后端几乎都在火山上的开发者来说是个大利好。
说到底还是那句话,模型就是一切。
字节,也在向Coding和Agent,全面进军了。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、tashi
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com