支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


几个故事,理解AI Agent规划的不同实现方式

发布日期:2025-07-07 08:29:12 浏览次数: 1543
作者:ADaM应用数据挖掘和机器学习

微信搜一搜,关注“ADaM应用数据挖掘和机器学习”

推荐语

AI Agent规划的四种实现方式,从硬编码到端到端优化,揭示技术演进路径与适用场景。

核心内容:
1. 传统工作流规划:硬编码与提示词引导的优劣对比
2. 模型原生规划:生成式与端到端两种技术路径解析
3. 四大类比案例:从《西游记》到《隆中对》的生动诠释

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

o1将多步推理能力内化到模型之前,Agent规划的实现,依赖开发者在外部搭建的工作流。根据工作流的构建方式,可以分为两种。


[1] 硬工作流系统流程


类似扣子、dify等低代码平台,由开发者根据预设任务逻辑,搭建一个包含分支、判断条件的固定流程图。模型是被动的执行器,完全遵从预设好的硬编码流程,在指定节点执行某个具体任务。


[2] 软工作流:模型提示词


开发者通过设计提示词或最佳实践提供一个指导框架,引导模型在执行时自主判断。此时模型是半自主:初始规划由提示词提供,但具体执行时,模型能根据上下文决定是遵循还是自由发挥。


推理模型出现后,规划从基于外部工作流转向基于模型原生。模型是全自主的:同时是规划的起点和执行的终点。


[3] 生成式原生规划


这是当前Manus、扣子空间等通用Agent产品采用的主流方式。当接收到一个高层指令后,模型会利用推理能力进行任务分解,生成一个结构化的行动计划,然后根据计划,结合观测到的局部上下文,分步执行。


[4] 端到端原生规划


OpenAIDeep Research代表了一种新的规划方式:面向任务目标对模型的规划和工作调用行为进行端到端优化。这种模型的规划是隐性的、直觉式的,它在规划和执行时,由于面向任务目标进行了训练,是基于全局上下文的,就像能到未来。


下面用一组类比,来理解这四种规划方式。


系统流程:有点像潘金莲喂药的固定脚本,作为执行环节的模型就像被喂药的武大郎,别无选择,只能完全遵从


模型提示词:西游记最后一难过通天河时,观音给老鼋的”指令”。但是否遵从指令,要结合执行时的具体上下文由老鼋自己决定。

生成式原生规划:例子是三国演义中的周瑜。周瑜有强大的推理能力,可以自主规划。但其规划还局限于已观测的信息,因此有时成功(如赤壁之战的苦肉计),有时失败(入赔了夫人又折兵),结果并不可控。


端到端原生规划:结合诸葛亮的“隆中对“来理解。诸葛亮在出山之前,已经为刘备推演了天下未来数十年的走向。因此在执行时,能结合推演和终局做出最优的规划和决策。

当然,在实际应用中,不同的规划方式适用于不同场景。比如系统流程由于确定性的特点,适合流程固化、容错率低的任务;而端到端原生由于可以支撑较长规划链条的逻辑一致性,因而适合更复杂、专业的任务。


总体来说,模型原生规划更能发挥大模型的能力,特别是端到端原生规划的理论上限是最高的。但由于训练数据获取、环境奖励设计等原因,目前的端到端原生规划还很难达到理想效果。比如基于RL训练的端到端的Kimi Researcher,很多时候生成的报告质量并不如基于多agent搭建的工作流。


在很长时间内,可以预见不同规划方式会组合出现。
  • 嵌套:由工作流或模型原生规划出顶层框架,再根据不同节点任务特点,选择最合适的规划方式来分工实现。
  • 反馈:由于模型基于概率的输出具有不确定性,可以通过确定性的工作流来校验和修正模型原生规划和执行的结果。
  • 分级构建按能力和效率分层的处理流水线。简单的、确定性的任务由工作流快速处理;当任务复杂度超出当前层级的能力时,交由更强大的模型原生规划来处理。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询