企业级人工智能｜你的企业怎么上智能体

陈果George

2025-06-04 11:18

粗标 | | 复

今天，我在一个大型企业跟经理人团队进行了一场企业人工智能应用的研讨会。

先说个我准备这个研讨会的小花絮：最近两年我一直在各种不同场合下讲人工智能的企业级应用，感觉人工智能技术迭代太快了——去年还在讲企业如何用生成式AI，今天来看，这些内容几乎都过时了；随着模型推理能力提升和思考模式加强，同时大模型纷纷具有function calling能力，智能体应用已经成为企业使用大模型的必选项。

为这个研讨会准备PPT，我看了下我半年前写的PPT，今天大多数片子已经不能用了，于是我决定求助于Manus。

我写了很长一段提示词：“假设我是一个咨询顾问，我要跟企业管理团队探讨人工智能最新的技术发展，以及这些新技术如何应用于企业，创新企业的信息技术架构……请帮我生成一套PPT”。

Manus忙碌了半小时后，给我输出了一个PPT文档（下图）。我感觉这达不到我的要求 ——虽然文档总的逻辑结构看起来不错，但是分析深度不痛不痒，格式呆板，案例看起来是从网上道听途说来的，总之，是一个MBA学生作业的水平，对不起客户付我的咨询费，所以我决定还是自己手搓一个文档。

从这个角度来说，目前AI不可能替代咨询顾问。

我从去年开始讲BOAT，从那时候开始，我认为大模型应用于企业信息系统的主流形式已经逐步清晰，就是：将基于工作流技术以及部署在工作流之上的流程规则引擎、RPA等形成的业务流程自动化（business process automation），部分或全部由大模型驱动的智能体（LLM Agent）来替代。

智能体并不能替代传统ERP或者SaaS、微服务等记录型系统，下图是智能体的原理。我常打个比方，如果把企业系统比做一个人体，人工智能就像大脑，但是光有大脑并不能完成任务，还需要工具，大脑也需要血液的滋养，那么ERP等就是完成任务的工具以及人所存在的外部环境，而企业数据则是等于血液：

图示AI 生成的内容可能不正确。

从我使用Manus的体验来看，至少目前智能体是没法完全替代人类工作的，在完成一个复杂的、长周期的业务流程中，数字化的手段是完成工作流和智能体的“混编”。

构成业务流程的每个活动单元叫“任务”，一串任务构成的工作流程。如果是依靠人来编排的，那么它就是一个“工作流（Workflow）”，如果在流程进程中，为了完成特定的目标，需要依靠大模型动态编排若干任务来达成目标，那么完成这个目标的软件单元就是一个智能体（Agent）。

两年前智能体初兴时，智能体的架构是：大模型用于跟用户进行对话，根据用户请求的目标来拆解任务，需要通过复杂的中间件框架来联结各种工具，完成任务，参见我在两年前写得文章《人工智能和ERP ｜大模型怎样重塑企业级IT应用》。

从2024年初，新版本大模型的能力开始进化，先是允许模型生成结构化工具调用指令，但仍需开发者手动解析和执行，到2024年下半年，不少新版大模型具有了直接调用外部工具并返回结果的原生能力，对中间件框架的依赖程度降低（中间件用来做复杂流程的编排）；使用这类新型的智能体大模型，用户仅需在prompt中声明工具列表，模型自动生成调用指令并处理结果，显著地简化了智能体构建。

图示AI 生成的内容可能不正确。

https://www.anthropic.com/engineering/building-effective-agents

目前在智能体开发领域里处于领先地位的，是从OpenAI创始团队里分离出来另立门户的大模型公司Anthropic。上图就是他们提出的提升智能体能力的“增强型大模型”，他们于2024年底发表的这篇文章，是目前最有影响的智能体构建指南：

最近这两个月，Anthropic发起的MCP、Google发起的A2A、IBM发起的ACP等开源协议，通过标准化工具调用和智能体间通信，显著加速了智能体生态建设。MCP降低了智能体与外部系统的集成门槛，A2A和ACP则推动跨厂商智能体的协作，形成类似互联网的分层架构。这些协议要得到产业界厂商和工程师社区社区的支持，仍需解决协议兼容和安全治理问题，但‘智能体互联网’的技术基础已初步建立，预计在2025年底进入智能体规模化应用阶段。”

当前智能体处理企业业务的瓶颈，在于驱动智能体本身的大模型的智力，即它的思维、推理能力：

应用于智能体的大模型发展已经超越了两年前的比模型参数，一年前比做数学题的阶段，对大模型能力的基准测试正转向衡量智能体在不同领域中，随时间推移使用工具及处理端到端任务的能力；测试用例着重考察在边缘场景（如工具缺失、无关查询、输入不完整）中智能体表现出的健壮性；对多轮任务的关注与日俱增，要求智能体管理上下文、编排动作顺序并适应目标演进。

非营利机构METR于2024年底通过对比人类专家与13个前沿AI模型（如GPT系列、Claude 3.7）的表现，发现AI在人类耗时不足4分钟的任务中成功率接近100%，但在4小时以上任务中成功率低于10%。2025年3月的一份研究报告显示，基于170个真实任务（涵盖编程、网络安全等领域），核心指标为“50%-任务完成时间跨度”，即AI在50%成功率下能完成的任务对应的人类耗时。2019年AI完成人类10分钟任务的能力，7个月后可扩展至人类20分钟的任务；2024年这一周期缩短至3个月。通过分析增长趋势，预测到2028年AI可能完成人类一个月的复杂项目。