我要投稿

AI Agent的终极未来｜3万字圆桌实录

发布日期：2025-07-30 17:51:30 浏览次数： 2209

作者：腾讯研究院

微信搜一搜，关注“腾讯研究院”

本期为《仲夏六日谈》第四季第三期节目文字内容，主题为《执行力跃迁，AI智能体的远与近》。

十大看点：‍

·何为智能体，用户真正需要的智能体是什么？

·智能体是未来AI原生应用的主形态？

·基模进化是否会挤压垂类Agent产品的生存空间？

·主流Agent产品形态的差异在何，如何判断Agent的通用性？

·智能体产品落地过程中面临的核心难题？

·好坏之分，如何建立智能体的有效评估机制？

·物理与数字，具身智能是智能体吗？

·MCP必将是未来智能体的底层基础协议？

·C端与B端商业化路径异同，Agent as a service成为新商业模式？

·未来Agent爆发将出现在哪？关键因素是什么？

对话嘉宾：

张俊九实在智能联合创始人

廉和 ami.ai联合创始人兼CEO

揭光发 腾讯专家工程师

刘琼（主持）腾讯研究院副院长

执行力跃迁，AI智能体的远与近

刘琼：各位嘉宾朋友们，大家好，欢迎来到腾讯研究院《仲夏六日谈》智能体圆桌研讨的专场。我是今天的主持人刘琼。昨天在飞机上准备主持稿的时候，我认真地想了一下——如果我有一个智能体，能帮我完成这些任务就好了。比如自动整理嘉宾信息、实时生成追问，还能润色我的稿子。然而，目前市面上的智能体产品，还远未达到这样的能力水平。这也是我们今天希望深入探讨的话题之一。我们想了解：什么才是一款真正被用户需要的智能体？它应呈现出怎样的形态？距离我们心目中的理想状态还有多远？在落地过程中又面临哪些“卡点”？

为了深入探讨这些问题，我们非常荣幸邀请到三位来自智能体一线实践的嘉宾，他们的组合也具有很强的代表性。首先是我左手边的张俊九，张总，他是实在智能的联合创始人，也是To B (面向企业)智能体的实战派；中间这位是腾讯专家工程师揭光发老师，他自我定位为“Agent布道师”；最右边是ami.ai的联合创始人兼CEO廉和，廉总，他正专注于C端AI的创业。

我们今天的开场问题是一个看似简单却争论不休的问题——“什么是Agent（智能体）”？三位嘉宾也可以先简要介绍一下目前所从事的工作，并结合自身经验，谈谈你们如何定义智能体，以及它与传统软件自动化工具的核心区别在哪里。我们先请九哥开始。

张俊九：好的，谢谢刘老师。我是实在智能的联合创始人、CMO(首席营销官,Chief Marketing Officer)。自2018年起，我们便专注在人机协同这个赛道，尤其关注办公场景中，人和机器如何更好地协同工作。在我们的设想中，智能体更像是一个“助手”，能够替代或辅助人完成某些特定任务。前两年的产品中，我们的核心技术基座是AI+RPA(机器人流程自动化, Robotic Process Automation)。而从2022年大模型兴起开始，2023年我们也切入了智能体赛道。在我看来，智能体的定义是较为传统且清晰的——它是一个集合了记忆(memory)、规划(planning)、执行(execution)和总结(reflection)能力的系统，模拟人类完成某项任务。

基于这个定义，我们在RPA的基础上进行了升级，它可以将日常工作流程中的SOP(标准作业程序, Standard Operating Procedure)转化为可控的、节点化的工作流，以端到端的方式呈现。我们的聚焦点依旧在B端场景，目标是帮助或替代人类完成重复性强的工作。这类智能体通常具备四个方面的能力：感知环境、规划步骤、执行动作（通过API [应用程序编程接口, Application Programming Interface] 或RPA），以及调用工具完成闭环。所以从定义角度来看，它确实是一种智能体的形态。不过我们也观察到，智能体的形态正在不断丰富。不论是在模型层面，还是MCP(智能体元协议,Meta-protocol for an Agent-based Computer)生态构建层面，这一趋势都在发展。

总结来说，用一句话定义：智能体就是能够帮助人完成任务的、以大模型为驱动基础的系统。至于各种工具，我认为都可以被纳入到这个生态中来。稍后我们可以展开进一步探讨。

刘琼：好的，廉总您怎么看？

廉和：我目前从事的是C端方向的创业，我们公司的名字叫AMI，在法语中是“朋友”的意思。最初，我并没有严格地将我们的产品定义为“Agent”。但我认为，“Agent”这个词的含义就是作为“代理人”去完成某些任务——它始终是围绕“人”来展开的。因此，我们公司的理念是打造一个AI，它可以和用户很好地协同。“朋友”这一概念，代表了AI应当成为人的伙伴。从这个角度看，Agent的不同层级，其实体现在它与人配合的深度上。最终目标是：AI能够真正理解用户的意图，并在此基础上替代用户完成任务。

目前我们的产品形态还处于初期，主要是为小朋友提供英语学习环境。未来我们当然希望它可以胜任更多任务。今天有很多技术专家在场，也希望就技术实现层面和C端商业实践中对Agent的不同理解，展开更多交流。

刘琼：张总的关键词是“任务”？

张俊九：对。

刘琼：廉总的关键词是“陪伴”。那揭老师，您的关键词是什么？

揭光发：我还是先做个简要介绍吧。我在腾讯从2023年就开始做一些智能体相关的实践。最初，其实并没有一个非常明确的Agent定义。但现在回头看，其实可以引用OpenAI研究员——一位华人学者翁先生提出的定义：所谓智能体，是指基于大模型，具备记忆、具备规划能力、并能使用工具的智能程序。满足这三个特征的程序，我们可以称之为“智能体”。这个定义得到了很多人的共识，刚刚九哥其实也提到“感知”这一点，我个人认为感知是智能体中非常关键的一个特征。从技术角度讲，感知能力可以部分地被纳入到记忆机制中——包括对话上下文的处理等。

所以，从这个定义出发，我们就可以来判断哪些是智能体，哪些不是。例如，静态的工作流（workflow），或者一次性往返的对话流程，如果不具备工具调用或自主规划能力，那它可能就不能被称为“智能体”。不过，最近吴恩达老师在一次访谈中说：“我们不必纠结智能体的定义”。我今天来也想传达他的这句话。他提出一个新概念叫“agentic system”，即不论一个系统的智能程度如何，只要具备Agent的一些属性，就可以视为智能程序。他认为关键是度量其“Agent程度”即可，就像自动驾驶一样，我们可以将智能程度分级，从L0到L5。事实上，国内也有一些学者提出类似分级思路。所以现在我们认为：不管自主性强弱，只要具备一定智能行为的系统，都可以被纳入智能体或智能程序的范畴。原来我们认为只有强自主性才算“智能体”，现在可以更宽泛地理解为“智能系统”的一个谱系。

刘琼：技术本身就是一个渐进演进的过程。

揭光发：没错。

刘琼：那三位嘉宾认为，智能体会是未来AI原生应用的主要形态之一吗？

揭光发：其实早在去年我们就讨论过这个话题，当时比较主流的声音之一就是，智能体（Agent）是大模型落地的必经之路。这一波AI浪潮其实是从ChatGPT开始兴起的。

刘琼：对。

揭光发：由此带出的问题就是，如果只停留在“说”而不“做”就无法真正落地，因此必须寻找一种能够连接物理世界的路径来实现。这个路径可能包括多模态大模型的支持、视觉能力、动作执行能力、API调用，甚至现在的具身智能。这些技术方式本质上都是与物理世界的连接，因此可以被统称为“智能体”。从这个意义上说，智能体的概念应被视为大模型落地的一种必然路径，这一点我认为是毋庸置疑的。我的理解是：我们可以把所有基于大模型、并能与物理世界建立连接的系统，统称为一个“智能体生态”。这是我对于智能体与大模型之间关系的定位方式。

廉和：我觉得从一个更朴素的视角来看，智能体的本质是“完成任务”。它的核心目标就是“把事干成”。过去我们完成一件事，可以依靠软件，也可以雇人来做；而未来，智能体将成为一种全新的实现形态。它的目标还是“把事情做了”，但交互方式发生了改变。以前我们需要先设定一个工作流，明确每一步的执行步骤，才能完成任务。而在未来，当智能体与人协作时，它可以自己找到其他执行具体任务的智能体。负责与人协作的智能体，首先思考我们该做什么，然后去调用那些能完成具体工作的智能体。这意味着不同智能体之间会进行协作，这种协作方式相较于当前的机械式、固定流程式配合更加灵活。这也可能是未来智能体形态与现阶段最大的不同点之一。

张俊九：对，其实回顾上一代，我们主要通过APP与数字世界交互。在手机上是APP，在PC上是网站或桌面应用。而进入AI时代之后，我们与AI的主要交互方式变成了自然语言。下一代技术浪潮中，通过“发指令”“对话”或“点一点”这种自然交互方式，我们就能让AI理解意图，并完成原本需要四五个APP才能完成的事情。这种转变极大地提升了生产效率与用户体验，是一种无法逆转的趋势。至于说，这背后的系统究竟是不是Agent，或者它只是具备Agent某些特征的工作流，也许并不重要。我们前面讲到的“agentic system”概念，其实就说明了它并非一个纯粹意义上的智能体，而是一种智能协作系统。未来主流的产品形态，很可能就是这种“agentic system”。不论是人与系统的交互，还是系统之间的协作，它都将成为人们日常使用的重要方式。举个例子，未来我们可能只需要对助手说一句话，它就能自动去查找某城市的酒店和机票，从平台获取信息、比价、预订——所有这些都能自动完成。人真正只需要说一句话，就能搞定整套流程。我认为，这就是未来主流的交互与服务形态。

廉和：这个过程其实很有趣。比如说，我的Agent要帮我订酒店，它是找携程？找飞猪？还是找美团？这中间其实存在很多可能性。同时，每个平台本身也可能拥有自己的Agent。当我的Agent去调用它们的服务时，怎么决定选哪一家？这其中就涉及商业化机制，比如我是携程，那我如何设计我的Agent，使别人更愿意来调用？可能通过更好的服务质量、更快的响应速度、更稳定的系统、更优惠的价格等方式来实现。这种竞争方式，和今天以用户界面为主导的应用逻辑就很不一样了。

刘琼：刚刚我们谈到产品形态，我觉得这里也可以再深入聊聊。目前市面上我们看到的产品形态，我总结为两种。第一种是内嵌于基础大模型中的智能体，比如ChatGPT里的Deep Research；另一种则是独立形态的Agent，Cursor这样。我想请揭老师谈谈这两种产品形态背后的产品哲学有什么不同？它们具体体现在哪些方面？

揭光发：好的。其实我理解，这背后主要是技术形态的差异。以OpenAI o3为例，用户在使用过程中可能感知不到它是一个端到端的Agent，但它其实是一个“Agent Model”。比如Deep Research就是通过o3加上强化学习训练出来的。这与过去几年我们以工程方式写代码、用“写 loop+工具调用”的方式构建Agent是完全不同的路径。现在这种端到端的智能体，技术上大大降低了工程复杂度，不再需要手动编写大量调用逻辑、调度逻辑或容错机制。这类智能体直接嵌入大模型中，可以自动知道如何调用外部工具，同时具备天然的上下文连贯性。因此在效果、效率和投入产出比上都更具优势。我们可以看到像Deep Research或o3这类系统，它们在体验效果上都非常不错。

当然，这并不意味着像Cursor这种工程化Agent就没有立足之地。实际上，通过大模型强化学习的方式构建端到端智能体，其成本仍然很高。一方面需要准备大量高质量的强化学习数据，比如R1就用了600多万条强化学习语料，虽然这些语料大多是通过生成方式获得，但整个准备与训练过程的成本并不低。所以，对于大多数团队来说，直接训练一个端到端Agent model的成本是难以承受的。

因此我们看到，大多数垂直类产品的Agent，仍然是通过“提示词+工程逻辑”结合的方式开发的。包括Cursor、我们自己做的一些面向运营场景的Agent，基本也是这种方式。这只是技术层面的差异；从产品体验上来看，在性能、效率和响应速度上可能会有一些差异，但整体感知不会特别显著。

刘琼：您的意思是说，用户其实是感知不到这些差异的？

揭光发：对，用户基本上没有明显感知。因为这确实是技术底层的一种实现方式。

刘琼：那这两种形态是否会彼此渗透、双向进入？比如像Cursor，现在也有声音认为，它是具备发展为通用智能体的潜力的。

揭光发：刘老师这个问题又引出了另一个关于“通用性”的分类维度。我理解通用性可以从两个方面来界定。

第一个维度是物理或逻辑层面的，也就是“什么都能做”，这是一种直观的通用性。但实际上，即便是Agent，也不是无所不能，比如ChatGPT也并不能解决所有问题。

因此，我更倾向于另一个维度——面向人群的广泛性。也就是说，它的适用场景虽然不复杂，但受众面很广，比如找材料写研报、问答等日常需求，大多数上网用户都能使用，这种我认为就是“通用”的。在这个维度下，像ChatGPT、Manus这类产品，可以视为面向广泛用户的通用型Agent；而Cursor则更偏向于面向程序员的垂直型Agent。但如果从技术层面来看，Cursor是否具备成为通用Agent的能力？是可以的。因为Agent的核心技术其实很简单，就是一个工作循环，不断调用工具执行任务。所有Agent的底层逻辑都是类似的。不同Agent之间的真正区别在于它们所面对的上下文。例如，一个高级程序员所需的工具可能包括编写代码、运行测试、读取文件、访问接口等，这些就是Cursor目前所聚焦的功能领域。但Cursor理论上它可以无限拓展更多工具，因此从功能上来说，它是可以向通用型扩展的。不过它需要引入不同的MCP工具来完成这件事。

即便如此，大家对Cursor的基本认知仍是：它主要服务于程序员，是一个专注于代码开发的IDE(集成开发环境, Integrated Development Environment)。

张俊九：我更倾向于从现实世界出发，去映射技术和产品的需求。毕竟所有技术最终都应服务于业务和实际问题的解决。现实世界中存在分工与行业，即使在一个组织内部，也会存在岗位分工与层级：有人负责设计，有人负责实现，有人负责运营。不同职能之间的专业协作往往效率更高。通过组合不同的Agent来实现协同，其实是更高效的方式。如果指望一个模型在其原生系统中就能规划所有事情，并调用各种工具自行完成任务，那就等于是我们指望构建一个无所不能的“超级大脑”式AI系统。

刘琼：也就是全能型的。

张俊九：对，这种全能型AI可能可以应对一些通用场景，比如查资料、获取信息等常规需求。但一旦进入某些专业性很强的领域，尤其像我们这种做To B业务的场景，需求往往是高度具体且聚焦的。这时就必须考虑解决问题的性价比。我们真的需要一个“万能”的大模型来解决这类问题吗？就好比“杀鸡焉用牛刀”。所以我认为，通用Agent和垂直Agent将在不同的场景中长期共存，这是很自然的发展逻辑。

廉和：我非常认同。其实这背后还有一个更底层的问题：我们真的需要一个通用的Agent吗？目前为止，我也没有明确的答案。我认为底层大模型是具备通用能力的，但“通用型Agent”这个概念本身或许并不存在。

为什么这么说？以九哥的场景为例，模型的智能程度足够了，关键问题是Agent是否知道“自己在做什么”。他是否拥有与任务相关的数据、场景（context）的认知？往往恰恰是缺乏这些信息。

从我自己做产品的经验来看，模型本身够聪明，但多数时候它不了解场景（context），也不知道该执行什么任务。这种“认知空白”多数来源于数据的缺失。而数据，正是企业的核心资产。在现实中，各公司并不会将自己的核心业务数据无保留地提供给像OpenAI这样的公司。这是不现实的。

另外，像我做To C(面向消费者)产品，想要服务所有人。如果我没有一个通用的底层模型，我根本没法落地任何东西。但我真正该做的是一套系统，让我无论在大模型如何演进的过程中，都能“接得住”它。同时，服务好一个人意味着，我必须“理解”这个人。因此我的数据锚点应该基于“个人”，是以人为中心的。我认为更好的服务方式应当是以人为中心的个性化服务，而不是构建一个系统，去服务全球所有用户。作为创业公司，我的目标不是再做一个OpenAI，而是服务好每一个用户。

张俊九：对，这里还是回到场景导向的问题。智能体之所以区别于传统协作模式，关键在于它是“以目标为导向”的。至于中间流程是人来规划再由Agent执行，还是Agent自我规划并端到端完成任务，那只是技术实现路径的不同。但从“解决问题”的角度来看，必须考虑投入产出比。尤其是在To B行业，这不仅仅是“体验”好坏的问题，更是一个效率与成本的问题。比如说，是招一个人就能完成任务？还是需要一堆人再配上复杂的Agent系统并负责维护？这些在实际应用场景中差异是很明显的，所以我认为，最终还是要结合具体场景进行判断，Agent各有各的实用空间。

揭光发：而且客户对系统的需求，往往是“稳定性”优先。目前这个阶段，我们虽然尝试接入一些外部的MCP模块，但从实际表现来看，本地部署往往是更直接可靠的选择。demo时可以尝试调动一些外部MCP，但在稳定性方面，有时确实不太敢完全依赖它。

刘琼：我理解为，不同的场景，其实并不需要同样程度的智能。某些场景下，可能根本不需要高智能水平。

张俊九：三百六十行，行行出状元。所以想要实现通用，关键还得结合具体场景和数据。很多数据是隐私数据、企业核心数据，它们不可接触。你让一个Agent去荒原里执行任务，它连路都没有，当然会迷失。

揭光发：所以我认为，“通用性”也可以从另一个维度来理解：虽然一个Agent只解决某个功能，但它的受众范围极广。这种意义上，它就是通用的。

刘琼：就是把大家的共性需求挖掘出来。那我们接下来讨论一个新的问题。刚才大家反复提到“需求”，对吧？但其实你会发现，市面上很多产品离我们的实际需求，或者说它们的完成度，其实还有不小的差距。比如我刚刚提到，我希望能有一个Agent替我写主持稿，或者能自动写稿、做PPT等，其实这些需求都存在，但现实中这些功能的完成度并不高。那么，在产品落地过程中，究竟存在哪些障碍？除了技术因素之外，还有没有其他方面的挑战？大家是否都遇到过类似的问题？

张俊九：我是这样理解的，其实今天早上我还看到一个新闻，说ChatGPT-4.1解决了两个关键问题：一是任务执行过程中“中途不执行”的问题，二是如何避免“幻觉”的问题。

从技术演进的角度来看，随着模型日趋成熟，这些问题可能会逐步被削弱。但从B端视角来看，不管是完成度也好，还是能否明确地完成一个客户高度接受的目标，这些因素其实才是判断它是否“可用”的关键标准。在B端的实际应用中，目前大多数业务的SOP都是被严格定义好的。系统结构是什么样的、谁来审批、字段如何填写，这些流程和标准几乎都是清晰可控的。企业真正需要的，是那些能够胜任这些标准化工作的“人”——也就是能“正确做事”的人。你无需思考太多，只要按规范操作即可。

在这样的逻辑下，To B场景中的智能体应用，更多是基于既有的SOP，用来替代人完成既定任务的能力问题。比如，在财务审核场景中，最常见的就是费控审核或报销流程。你会接到一张发票、一个业务申请单或合同，然后你要从中识别大约30到50个字段，进行比对，比如检查金额是否一致、甲乙方责任、争议解决机制是否符合等等，甚至还包括发票内容的一致性问题。这些工作往往跨文本，需要精准理解自然语言，还要完成大量比对，非常繁琐重复。只要理解了审核规则和SOP，任何具备一定财务基础、懂得操作电脑的人基本都能完成。这种场景具有明确的边界，对从业者的要求就是细致认真、执行高效，我们认为这类工作完全可以交由智能体来处理。这是一类非常适合智能体切入的典型场景。而根据埃森哲的统计报告，一个企业内部平均有60%的工作是不需要动脑的，只需要正确执行任务即可。这部分工作，我认为无论是RPA也好，还是Agent也好，都应该是它们优先完成的任务。

剩下的40%，是带有创造性的工作。比如像您刚才提到的，希望通过提问激发大家思考，引导整个主持思路，这样的需求就带有较强的个性化风格和情感色彩。尤其是涉及到如何围绕话题发散、引导深入讨论的能力，这些恰恰是目前阶段智能体尚不具备的。它也许可以提供一些热点话题供您参考，但它很难为您完整地写出一篇“最完美的”主持稿.不过，对于那些SOP已被定义清晰的场景，60%左右的工作岗位是可以被智能体赋能的。

这也是为什么我们坚定地布局To B市场。B端的流程已经结构化，我们需要的，是那些能胜任具体工作的“人”，这部分需求正好可以成为智能体最基础的切入点。这是我对这个问题的看法。

廉和：我的看法可能会稍有不同。因为我在思考，智能体这件事的“坏处”之一，确实是不太稳定，但它的“好处”在于——它可能会带来一些全新的想法。当然，我的角度可能比九哥更偏向抽象，不一定完全基于To B的实际场景。但我认为公司之所以定义SOP，是因为“怕人出错”。但在企业内部，真正解决问题或者提出创新方法的人，占多少比例？而那些只是为了服从SOP、按部就班执行的人，又占多少？这两类角色其实都是重要的。所以我思考的问题是：智能体是否仅仅用于协助人在SOP中完成细节？如果是这样，其实传统的workflow系统可能做得更好。智能体是否有可能为“那些没有明确解法的问题”提供新价值？尤其是在高阶白领的工作范围中，它也许能扮演更有启发性的角色。一开始，它未必能完全解决问题，但它可以和人一起“头脑风暴”。比如我会对GPT说，我有个想法，我们一起合计一下，它确实会提出不少启发性的建议。当然，我不能指望它把事做完，但它是一个有价值的“思维伙伴”。

张俊九：对，剩下的40%的创造性工作，确实需要这种类型的伙伴。比如信息收集和整理能力更强，或者总结能力更强的智能体。它们或许无法完成一个完整任务，但它们提供的思路、信息结构、报告框架等，其实对人类工作已经是极大的辅助了。

揭光发：刚才廉和提到的场景，甚至未必一定是智能体的场景，普通的大模型对话能力就可以胜任。其实，大模型在哲学、思辨等领域的思考能力，远超我们普通人，因为它整合了全球知识，它是全人类知识的压缩表达。所以，如果你想与它一起做些“天马行空”的发想，是完全可以的。这是大模型天然具备的能力，不一定非要借助Agent来实现。

但回到Agent能否完成复杂任务的问题——这本身一直是个挑战，也是我们努力突破的方向。比如九哥讲到的企业级、流程复杂、需要SOP严格定义的任务，目前的Agent可能还难以胜任。但如果只是两三步、三四步的任务链，现在的Agent其实已经可以完成得相当不错了。比如刘老师刚才提到的，让Agent帮忙做PPT，甚至设计一些问题，这些事情其实是可以做到的。但之所以你会觉得它“不好用”，问题不一定出在模型本身，而在于我们怎么组织问题、怎么提供上下文。你可能需要给它更完整的原始素材、更清晰的任务目标。

这正是大模型或Agent没有表现得那么好的根本原因之一——记忆管理和上下文控制能力仍有待提升。就像我们用Cursor写代码，它的能力很强，但只要与它连续对话三五轮，就会发现它“飘了”。你让它执行任务，比如写代码、进行总结，它很容易目标失焦。说到底，这就是“记忆管理”的难题。在智能体的实际落地中，这是除了“幻觉”之外，最棘手的问题之一。我今天主要想讲“上下文”和“记忆管理”的挑战。比如说，你让一个普通用户整理所有素材，交给模型生成一份PPT，模型可能初步给出一个初稿。但当你继续与它互动，要求优化这一页、修改那一页，再对话两轮，它就忘了你之前说过什么了。这才是问题的根源。不是说它在智能能力上不够——就单个模型的生成能力而言，其实已经超过人类平均水平了。不论是写代码，还是生成一页PPT内容，单任务执行上它是很强的。但一旦任务变得复杂、需要组合式执行，它的表现就会明显下滑。这其实是上下文和任务链结构的问题。当然这些问题也有对应的技术解决方案。比如你可以把上下文拆分，分配给不同的Agent分别处理不同阶段的任务。像PPT制作，你可以把每一页交给一个Agent来完成。谷歌有一个叫BigBird的项目专门研究超大上下文处理，包括DeepSeek也发了论文，关于NSA就是“原生稀疏注意力”机制，能够在几百KB乃至MB级的上下文中精确定位重点内容。这些技术都是为了解决长程上下文关注力衰减的问题。

虽然目前很多模型号称支持128k甚至上兆级的上下文，理论上能做到“大海捞针”，但实际应用中，在复杂任务框架下，它们很难真正实现高目标导向的表现。不过现在确实有一些研究方向在推进，比如DeepSeek结合硬件的注意力机制优化，就是希望缓解这个问题，让模型在海量上下文中更有效地定位有用信息。当然这只是众多方案之一。你不可能每次都把所有资料一股脑扔给模型，这在实际操作中并不经济。除了优化注意力机制，还有一些方向是关于“运行时的记忆管理”。传统训练是将权重写入模型，但也有研究认为，交互过程中新学到的信息也可以写入“运行时权重”。就像人一样，今天你跟我说的话，会被记录进我原生记忆中。

张俊九：就像“单步寻优”一样，每完成一段任务，就重新聚焦到下一段。

刘琼：刚才我们也聊到记忆能力和上下文能力。其实你看，现在的基模也在往这方面突破。那是否有可能，随着基模能力的进化，它会逐渐“吞噬”掉很多做垂类Agent的产品？

张俊九：确实存在这样的趋势。有一种观点认为：“你们都随便搞，最后都是我的。”这就像某些商业模式的竞争逻辑。当基模能力足够强时，它的吸引力就像太阳万有引力一样，所有生态都可能围绕它展开，最终甚至被它“吞并”。我认为，是否“吞并”，还要看它的商业模式愿不愿意这么做。如果它真的想，那它是完全有能力做到的。

廉和：但我觉得关键还是“数据锚点”的问题。如果你掌握了行业数据，其实就不用担心被吞。基模当然会试图“吸收一切”。但事实上，行业每天都在变化。比如今天投放的广告和下周投放的广告不一样，甚至会有新的热点、新的功能。这些变化很难被基模全覆盖，尤其在深度行业领域，比如医疗、法律等。如果基模没有专业数据作为支撑，它就没有上下文，也无法做出专业回应。像办公类、报告类、市场研究类这些通用场景，基模是可以胜任的。但如果是专业部分，那仍然需要垂类Agent。

张俊九：对，专业领域的问题，还是得由专业系统来解决。

揭光发：是的。现在被基模“吞掉”的场景，大多数是搜索、调研这种简单任务。GPT-4o就是一个典型的风格化生成工具。以前人们可能用流程搭建图像风格转换，现在只要一句“给我一个某某风格”，它立刻能生成。这些应用场景本身就适合基模处理，因为它们流程简单、通用性强。但如果你的业务流程复杂、专业性强，那么基模就难以处理。即使想做，也必须通过强化学习或微调，在具体领域内进行二次训练，而不是依靠一个“大一统”的基模来应对所有场景。

首先我们可以从场景角度来看这件事。其实在不同的角落、细分场景中，仍然存在大量的小型Agent的需求。如果我们不指望基模能覆盖这些“隐秘角落”的任务需求，那就仍然有很大的空间，可以通过“手搓Agent”的方式来实现。我认为这样的应用机会还是非常多的。所以我认为，Agent大致可以分为三种形态。

第一类是在顶层的模型，也就是我们常说的基模中，Agent的能力已经被融入其中。这类模型的应用场景较为通用、普世，流量和用户量也特别大，因此值得投入大量资源进行强化学习。这样训练出来的模型在运行时Token消耗成本非常低，因为很多知识和流程已经被内化进去了，制造和运行成本也因此更低。

第二类是“半模型”类型的Agent。通过微调的方式，把使用工具的plan指令、意图识别能力部分内化到模型中。它不需要通过提示词来一步步指导怎么用工具，而是已经具备基础的工具调用能力。这种方式虽然前段做了智能化处理，但后面仍需要一定的工程化支持。比如微信读书在做的就是类似这种路径。他们前端有一个意图识别模型，或一些弱路由的小模型，后端则挂着一堆工具去执行任务。这类场景中，工具库是持续扩展的，因此很难把所有工具都“训”到模型里。最高层的Agent类型是所有工具都被训进去了，比如联网搜索工具，它在训练时就已经知道该怎么使用这些工具。但像第二类这种，它的指令遵循性较好，工具仍需外挂扩展。

而最底层的第三类，就是完全依赖提示词来写工具，模型对工具的使用方式是动态配置的，提示词和代码都要实时调整，工具也可能随时变更。这一类适用于小场景，尤其是在MVP阶段、流量尚未形成时，用于试错验证。这种方式灵活性大，适用于初期探索和快速迭代。

张俊九：这其实是在验证Agent是否具备POC(概念验证, Proof of Concept)以及是否能解决具体场景问题。它确实是分层次的需求结构。

刘琼：我有个好奇，第一类或者第二类，也就是内生工具的那类，它的工具是写死的吗？我该如何理解“内生”这件事？

揭光发：其实在做强化学习的过程中，模型训练所用的数据已经告诉它应该怎么使用这些工具了。

刘琼：所以它学的是“制造工具”的能力，还是“使用工具”的能力？

揭光发：主要是“使用工具”的能力。在训练阶段，数据中已经告诉它要用什么工具，它学到的是工具组合的方式。所以当我们调用它时，不需要再告诉它“你有哪些工具”，它自己在训练时就已经知道并用过了。

刘琼：那就是说，它的工具包是固定的吗？

廉和：对的。从这个角度来说，它是“写死”的。如果它在训练中学的是一个固定功能，比如上网搜索，它就知道这个工具的功能和调用方式都是什么。但如果你让它执行一个完全不同类型的任务，它就无法完成。这时就需要我们提到的第二类或第三类Agent来扩展功能。但这就很有意思了。比如我让它写代码来实现一个工具，那第一步就是“写代码”，这本身就会引入不确定性；第二步再去调用这个工具，又叠加了新的不确定性。这样一步一步往下传导，是不是会放大问题？

张俊九：对，这就像传统的强化学习中的“过拟合”问题——你提前告诉它所有的可能性，它就只能按这个套路走。

刘琼：这一段我们其实聊得很深入。我们刚刚谈的Agent产品形态，其实大多还是发生在数字世界里的。但我们也有在探讨更广义的Agent，比如和硬件有关的：机器人、自动驾驶等等。还有像端侧设备、可穿戴设备等等，这些看起来也很有机会，相当于是为硬件安装了“大脑”。不过昨天我们也跟一些机器人领域的专家聊过，他们并不太认同自己被归为“智能体”这类。

廉和：从“机器人”这个概念来看，特别是To C场景中，用户普遍期望机器人是一个“人”的替代者。如果按照这种朴素设想，那它就得无所不能——既能控制运动，又能像人一样回答问题。这种设想对当前技术而言，确实过于复杂。这种需求目前阶段还比较难以实现。所以我们可能需要一个“中间形态”——比如通过与机器人企业合作，一方面由专门的控制型模型来负责运动控制，另一方面用智能体模型来作为“大脑”进行认知决策。

张俊九：其实AI一开始的定义，就是“帮助或辅助人完成任务”。智能体的本质也是如此——你只是换了一个更强的大脑驱动模型，同时具备了与物理世界交互的新形态，本质上还是人工智能的范畴，没有跳出这个范围。它的最终目标，依旧是“代替人”。比如说自动驾驶就是帮助人驾驶，为什么不算智能体呢？它当然也是。

你比如说各种类型的系统，我觉得只要是能辅助人的，这些都可以被归入“智能体”的范畴，没必要过度纠结定义。比如过去的机械手臂，是通过强编程实现固定动作的；而现在的生产线已经具备柔性制造能力，它可以通过摄像头动态规划路径、进行智能检测等。这其实已经叠加了非结构化、非预设的一些行为逻辑，我认为这也可以算作智能体的一种。再比如自动驾驶，现在属于L1级辅助驾驶，但你能说L1就不算自动驾驶吗？我觉得也不能这么绝对。

揭光发：我从底层技术的本质来谈一下这个问题。我们目前所谈的Agent智能体，更多是发生在数字世界中的，比如ChatGPT、豆包、元宝等。它们稍作升级，加入工具使用能力之后就可以被称为Agent。从定义角度来看，一个智能体通常具备以下能力：基于大模型、有自主规划能力、能够使用工具、有记忆能力，甚至能进行环境感知。如果我们把这个定义套用在机器人智能上，它其实也是适配的。现代机器人系统同样需要使用大型语言模型（LLM），如果没有这类模型的支撑，就相当于没有“大脑”。事实上，机器人智能领域的转折点也来自于大模型的兴起，它为机器人赋予了真正的“智能中枢”。其中，环境感知是机器人智能中最关键的一环，甚至比数字世界的Agent更为复杂和重要。所以“规划”（plan）能力就变得更为重要。在数字世界中，使用工具是通过调接口、读取数据、访问文件来实现的；而在现实世界中，就是驱动机器人用“手”去拿东西。两者在本质上是类似的。

记忆能力在这里同样适用。因此从技术构成要素来看，本质上就是“数字世界智能体”与“物理世界智能体”的区别，差别在于媒介不同——数字世界的工具是虚拟的，而机器人中的工具是实体的，是可触摸、可操控的。具身智能中的关键点，在于它将“感知”能力作为任务执行的上下文输入，这也是它重点要解决的技术难点。数字世界的智能体，主要依靠人类语言来组织知识和逻辑；而具身智能则必须处理很多非语言的信息，如视觉、触觉等，属于多模态甚至超语言模态的信息。因此，它的能力范围实际上超出了语言模型（LLM）的范畴，也就解释了为什么很多做机器人研究的学者会认为，他们的研究范围比我们更复杂、更宽泛。

但从认知决策层面来说，其实大家背后的驱动机制是一样的。

揭光发：也不完全是。比如说当机器人通过触觉感知到某种物理反馈时，如果它判断可能会对人造成伤害，它可能会立刻停下来。这种反应并不是由大模型来决策的，而是由低级感知系统触发的。这类感知驱动的反射行为，更多是通过强化学习等方式训练出来的。比如机器人如何在跌倒后重新站起来，这已经不再是通过程序写出来的，而是依靠反复训练得出的行为策略。这种机制类似于人类的本能反应，不是由语言模型驱动的。这种反射类机制并不是由语言模型决策的。因此从这个角度来看，我能够理解那些做硬件的研究者，他们在某些认知层面上确实与数字智能体领域存在差异。但从更泛化的角度来看，他们的研究也可以被纳入“现实世界智能体”的范畴。他们所面对的问题更复杂、技术深度也更高。

廉和：能不能这样理解：具身智能之所以在某些方面具备更强的智能潜力，是因为它能从现实世界中获取大量真实的数据。如果我们把“智能体”或“AGI”(通用人工智能,Artificial General Intelligence)的概念再往上提升一个层级，就会发现，我们目前希望模型或智能体具备的能力，很多时候之所以无法实现，是因为它获取的上下文（context）太有限。

我们与智能体交互时，往往通过语言给出的上下文信息非常稀少。如果我们真的想让它具备类人智能，那就必须拥有和人类一样丰富的感知反馈。而物理世界中的感官信息，如视觉、触觉等，是非常重要的上下文来源。所有这些感知最终都会成为智能体进行决策的基础。所以说，具身智能很可能是补全整个智能体系拼图中非常关键的一块。来自实体世界的数据——包括温度、湿度、触觉、视觉等感知信息——如果能纳入其中，可能才是真正通往AGI的重要路径之一。

刘琼：也就是更多模态的信息输入。

廉和：是的，多模态，同时也意味着更多、更丰富的上下文。因为目前语言提供的上下文信息量非常有限。而这些实体世界中的感知，恰恰能够为大模型提供更多维度的信息。

刘琼：大家应该都看到过OpenAI几位核心成员发的那篇文章，提到AI即将进入下半场。其中一个重要观点是：在AI下半场，评估模型的能力比训练本身更重要。那么在智能体领域，我们该如何评价一个智能体的好坏？现在是否已经建立了一套通用的评估标准？

揭光发：大模型本身就涉及多个领域，比如翻译、编程、数学推理等。针对智能体也有一个叫GAIA(通用人工智能助理基准,a benchmark for General AI Assistants)的测试集，它确实提供了一个通用能力的评估门槛。如果你想称自己为“合格的智能体”，必须在这些测试中达到一定分数。但这主要评估的是通用能力，比如是否能使用工具、完成普适性任务，题目也不会特别偏门。但当智能体应用到企业等具体场景中，就不能仅靠GAIA这套体系来评估了。企业需要的是一套定制化的评估机制，用来判断智能体在其内部流程中是否可用。这已经成为未来发展的必然趋势。而且企业场景中，变化频繁。你可能只改动两个字段，智能体的行为结果就会发生变化。这就像软件开发中的单元测试，是为了确保修改代码时系统行为依然稳定可靠。

刘琼：那大家在实践过程中，是不是也都会先定义一套标准？

张俊九：从我们To B的角度来说，目前的评估标准还是在与“人”做比较，关键是效率和准确率。但如果你面对的是一个开放世界的问题，那就很难有统一的评估标准了。举个例子，二级市场的分析师写了一份研报，你怎么评判这份研报的好坏？你总不能要求投资者完全照着这份研报去投。投资是有风险的，分析师并不对结果负责。所以很多预测性的工作，不能通过结果来定义好坏。

我们只能说这份研报是否在逻辑上严谨、是否引用了权威数据和多来源信息。内容客观、结构清晰就是一个质量不错的研报。但这并不代表它能带来理想的结果。所以从应用场景来看，如果我们要为智能体建立评估标准，其实也类似于考试——用问题来测试它是否掌握知识。就像中国人很会考试，AI也一样可以通过刷题拿高分。如果我们只是通过“刷题”来区分智能体的优劣，除非它算力不够，根本没学到东西，否则大多数模型的区分度会越来越低。

廉和：我也非常认同揭老师的说法，题库的意义更多在于设定一个“最低门槛”。你必须要在这些通用题库中表现良好，至少不能太差。但考得好不代表就有真正的能力。接下来就会进入一个更主观的层面，比如这个Agent讲的故事更合我心意，还是另一个Agent让我更有共鸣。这种评估方式很难量化。所以到这个层次之后，我们可能根本就不该有一套“通用题库”。

在企业场景里，就更该使用企业实际任务去做评估。比如我要做商品上架，那就只评估你在这个具体流程中是否做得好，和你之前在通用测试中表现如何没有太大关系。在这个场景中，我更关注的是你解决问题的方式是不是最优的，而不是你能不能答对题。

当然，为什么很多人仍然使用通用测试集？主要是因为有一套标准，方便横向比较——尤其在向上汇报时，可以展示“我做得比别人好”。但在实际业务中，最关键的评估标准是：用户是否愿意为此买单。这才是最实在的评价。

揭光发：GAIA这种通用测试集，就像我们的中考、高考，是对通用能力的考察。但当你真正进入某个具体场景后，就需要基于场景去设计测试机制、验收机制。而且模型评估之所以重要，还在于它将成为未来Agent“社会化协同”的基础。以前我们使用的是APP，未来我们将越来越多地与Agent交互。而且不仅是“人和Agent交互”，还包括“Agent与Agent之间的交互”。那么Agent之间的交互如何进行结算？还按照Token计费吗？比如说我生成更多图片，就赚更多Token？这种方式显然不可持续。真正有效的经济模式，应该建立在“按交付效果付费”的机制上。就像现实世界中，A公司给B公司完成一个项目后，只有交付结果符合预期，才会收到付款。这其实就是一种“合同制”协作机制，而合同的背后必须有一套可验证、可评估的标准体系。目前这一体系在Agent生态中仍属空白。

廉和：还有一个可能的问题是，测评的结果本身仍然非常重要，特别是在如何利用这些结果进一步指导研发方面。比如说如何去优化我的智能体、我的模型，或者它的运行机制等，这其实是一个非常关键的点。当然，我认为其中仍然有许多问题需要厘清，才能确定研发的方向。

刘琼：对，我其实还挺好奇，谁会最有动力去推动这件事？

揭光发：做生态建设的企业，或者一些创业公司会去做。因为整个生态还刚刚起步，像Agent to Agent（A2A）的交互协议刚开始形成，所以先看到这一趋势的企业，通常会比较积极参与。它现在只是一个互动协议的雏形。

现实世界中，人和人之间的沟通，比如打招呼、加好友，并不是随便聊的，而是基于一定的熟悉度与机制来展开的。同样，Agent之间的交流也会包括任务协作、任务验收，甚至包括Agent与Agent之间的支付机制。这些都属于新的业态，需要新的基础设施支持。一些大厂可能会进入这个领域，同时也会有不少小型公司，尤其是创业公司去布局。比如我前段时间就看到一个国外的小公司已经在做Agent间的支付确认机制。所以说，这是一个全新的业态，它实际上是在将人类社会的组织形式和协同逻辑复制到Agent世界中去。它是一个确定的趋势，而且我们已经能够看到这一趋势正在发展。因此，创业者也好，大厂也好，都会投入其中。

刘琼：你刚刚提到A2A，那我们是不是也可以聊一下MCP？因为其实大家一直都在讨论，MCP是否会成为智能体未来的底层基础协议，是否真的重要到这种程度。另外，MCP是否适用于所有场景？我们昨天也聊过，可能对C端合适，但对B端未必。

张俊九：我觉得既然把MCP定义为一种“完美”的协议，那它最根本的目的就是为了解决异构系统之间的通信问题。所有协议的初衷其实都是如此。在一个分布式网络中完成协同与交互，确实是必要的。但MCP的一个不足之处在于，它会引入额外的复杂性。就像大家都讲中文，却非要通过一个“国际语言”进行中转一样，有些时候显得多此一举。尤其在一些私有化、小型系统或封闭环境中，如果大家分工明确、结构清晰，其实没必要用这么重的协议。MCP带来的开销包括 server host、发现机制、路由机制，以及通信消耗等等。

在这种封闭场景下，如果我知道我要去了解一个To C的信息，我直接调API就可以了，根本不需要再经过一层发现机制或中间转换。所以从高效性和经济性角度来说，在没有足够多通信对象的情况下，完全可以直接通信。作为To B从业者的视角来看，我觉得没有必要为了MCP而去MCP。但在一些开放性领域，或者竞争充分的领域，大家在同一个平台上竞技时，如果我提供的服务比别人更高效、更便宜、更好，那么MCP这种开放式协议可能就有价值了。它能够作为一个丰富生态的方式，让各方都能遵循同一个标准，从而补充Agent的能力。目前已经有很多人在做这方面的尝试了，我是这样看待这件事的。

廉和：我很同意刚才说的，如果是一个封闭环境，我直接调API就能搞定。但是如果是一个屋子里有一万个service，我该用谁？这时候就必须有一套机制，来对这些Agent进行评估和选择。

这个机制就得建立在统一标准之上。我反而觉得现在MCP还不够重，它虽然解决了通信问题，但并没有统一标准。我们还需要基础设施，去定义如何在这1万个Agent中更有效地找到最适合执行任务的那个。而且这个Agent找到之后，还要能保证它执行得好，符合我的需求。这些标准MCP目前都还没定义。我反而觉得，它应该更重一些。有了标准，我们才能互相比较。也只有在有标准的基础上，才能做工程化优化。不然，我连该填什么字段都不知道，也不知道怎么给你做加速优化。一旦这些标准确立之后，我们甚至可以构建一个Agent的市场机制。用户可以在里面进行搜索、排序、筛选，这会打开新的可能性。

张俊九：但我担心MCP最后可能会变成“王婆卖瓜”，因为它完全是通过自己的描述来自我推荐。

廉和：所以规则的制定不能仅靠描述，还得加入更多维度。

揭光发：这也意味着，如果真的建立起一个市场，那就要引入用户的投票、评价机制，让人类的判断也参与其中。实际上MCP的官方团队已经开始准备推出registry，虽然现在还没有正式版本，但社区已经出现很多类似的找MCP server的网站。MCP最早其实是Anthropic为了解决自己客户端场景的问题而开发的协议。它的最初设计目标是服务Claude Desktop这个场景去开发了这个协议，它最早的初心是为了服务客户端的Agent。客户端的一个典型特征是更新困难，比如你发了新版本，用户不一定会主动下载。因此MCP内部集成了prompt加载和资源加载机制，对于软件更新来说特别有用。另外，MCP当时提出的server，其实是鼓励运行在客户端的。也就是说，如果你想跑一个MCP server，你要先下载一个包，在本地启动它。本地server启动之后，Agent就通过API调用的方式去完成任务。这种架构非常适用于To C场景——单服务、单用户、单进程。但如果到了To B的场景，你就会发现一个问题：单进程根本无法满足服务需求。

你要扩展成多进程，就会遇到新的难题。比如同一个用户的两个连接落在两台不同的机器上，你该如何实现这两个连接之间的通信和路由？这又是一项很重的工程。所以说，MCP对于To C场景是非常友好的。但到了To B，它原有的协议架构就变得过重、难以落地。你本来只需要调一个接口，现在却要建立连接、进行SSE推送、部署消息队列集群，来维护多个节点的状态。你会觉得：“我图什么？没必要为MCP这三个字吃这么大的苦。”但从C端用户的角度来看，MCP的好处就在于它是完全用户导向的。用户可以根据需求选择不同的MCP，实现差异化满足。

我们再回到MCP，它最早其实是为客户端、To C端的Agent设计的，所以它对于C端用户而言，是有很多优势的。刚才我们也提到通用智能体的概念。所谓“通用智能体”，我们希望它能完成所有事情，对吧？但实际上，即便是像OpenAI的模型，或者未来元宝支持了工具调用，它是否就能完成所有事情？其实并不能。它内置的工具——也就是官方提供的，可能就只有那么几个，比如使用浏览器、访问电脑等。如果你想要实现一个真正意义上的通用智能体，还缺少什么？缺工具。而如果客户端支持MCP，外部有大量的MCP工具可以调用，用户就能选择所需工具，这时候客户端便真正具备了“通用”的能力。这个“通用”不是靠自身，而是依靠大量外部工具，来扩展能力，实现“什么都能做”的目标。

我举一个比较生动的例子。我们现在用Claude写代码，在没有任何MCP工具接入之前，你可能只能让它帮你写一段代码。比如你说：“帮我写个需求”，它写完后，你还需要自己打开任务管理平台，手动切换任务状态，推进测试流程等。但如果接入了腾讯的TAPD工具，并通过MCP将TAPD挂载进来，你就可以直接对Claude说：“帮我看看今天有什么任务分配给我，并帮我解决。”这时，Claude就会通过MCP与TAPD系统通信，找到开发需求，将其呈现出来，然后写代码、提交，并自动关闭任务。这一整套流程就完成了。这正是通过MCP接入外部工具，让原本只能写代码的智能体，实现了从接需求、写代码，到完成任务推进的一整套工作。这一过程大大扩展了AI的能力，使其朝着“通用”迈进。

因此，在C端、面向个人用户的应用场景中，这类协议是非常有必要的，效果也非常明显。而回到To B的场景，To B用户的诉求在于统一工具调用规范，但MCP在当前的服务端、搜索端环境中并不够友好。后来，MCP也推出了一个新版本的协议叫Streamable HTTP，是基于无状态（stateless）的版本，但大家可能还未真正注意或使用。所以，这就是MCP的一个发展背景，也体现了这类协议在不同场景下的适用性和局限性。

刘琼：我追问一个小问题：国内目前围绕MCP建设生态的情况如何？刚才廉总也提到，MCP还不够丰富，那国内这块参与多吗？

揭光发：有一些民间开发者确实在做MCP相关的发现服务，比如“MCP.so”就是一个典型案例。民间肯定会有所动作，毕竟市场有这个需求。但一旦官方下场，势必会对这些服务产生影响，尽管未必是直接冲击，但影响还是存在的。如果官方做了类似的服务平台，那“卡脖子”就会更容易实现。协议本身你是无法卡我的脖子的，我的代码可以照这个协议来写。但如果你掌握了“服务端”的发现机制，那我必须在你的平台上进行资源发现，这就可能被卡住。

刘琼：也就是说，核心问题仍然在于“谁定义规则”。

揭光发：对，它其实是这样的。就像某些国外平台一样，如果他们真的去做发现服务，比如像App Store一样，本身Claude在国内就是无法使用的。你认为他们的MCP的registry能在国内使用吗？肯定是用不了的。所以说，国内这类社区形态下的MCP工具发现服务，是确实有存在空间的。或者换个角度，国内有没有公司或者组织可以来做“国产版”的MCP？这未必一定就是由MCP来承担的。我认为，其实可以稍微调整一下思路：国产版未必完全等价于MCP，它只需要在工具发现和调用这一层面实现兼容，其实就已经足够了。

实际上，大部分MCP的主要功能，确实就是用来做工具的发现与调用的。除了官方工具——比如官方提供的浏览器或文件管理插件之外，它们虽然做得越来越重，但绝大多数开发者并不会用那些复杂的部分，主要就是用MCP来调用工具。

刘琼：我们接下来聊一聊商业化问题，这部分可能需要分情况分别探讨。先问问九哥，其实你看，在移动互联网时代，To B本来就不是一个特别性感的生意，需求比较细比较散。那你觉得在智能体这个新的赛道里，这些问题是否依然存在？还是说它可能会带来某种颠覆，或者有机会重塑To B的商业逻辑？

张俊九：从我们当前服务的客户画像来看，可以大致分为两个市场：一个是国内市场，一个是国际市场。国际市场内部还需要进一步区分，比如欧美、日本、东南亚等地区也不完全一样。无论是国内还是国际，To B 的商业逻辑始终是从客户需求出发：你到底帮客户解决了什么问题，带来了什么价值？投入产出比是否合理？是否能提供系统化的解决方案？AI也好、智能体也好，或者传统的IT服务也好，本质上都是通过工具或系统来帮助客户解决问题。

从这个逻辑出发，目前我们对Agent的定义还没能达到“颠覆性”的程度，尚未能够彻底重构客户的业务逻辑。现在更多是基于客户现有的业务流程或SOP，通过智能体来提升效率，尤其是在一些以往技术难以解决的问题上，确实取得了突破。比如在处理非结构化数据方面，大模型的效率显著优于传统模型。例如以前做文档审核和文本抽取时，需要大量标注素材来训练模型；但现在，由于基模能力大幅提升，对于通用的文字理解、文档阅读、关键词抽取等能力已具备较强效果，不仅提效，而且成本也较可控。

其次是协同模式的变化。以前AI更多解决的是单点问题，比如OCR、NLP里的情感分析等。而现在，通过workflow方式，我们能把多种能力串联起来。这在To B场景中，可以有效替代或辅助各岗位之间的协同，从而降低实施成本。例如，以强模型为底座构建出的各类Agent，不仅能实现人与信息系统之间的高效交互，也能在不同岗位之间形成更紧密的协同。

第三点，在工作范式上也可能发生转变。过去的组织是按岗位和业务职能划分的，各岗位各司其职，通过信息系统协同。但未来可能会以“目标”为导向进行协作，也就是说，为了完成某一任务，逐渐淡化岗位之间的边界，从而在生产关系层面引发变化。比如未来可能会出现“指挥Agent干活”的岗位。这在制造业尤为典型，比如黑灯工厂——不需要开灯的自动化工厂，产线工人被机械臂取代后，反而对生产线设计和高水平管理人才的需求增加。同样的趋势也可能出现在办公室场景中。例如我们某客户的财务共享中心，通过引入智能体，最终实现了约三分之一的人员转岗。过去需要多人协同完成的重复性任务，如制单、复核、审核等，现在只需要一个智能Agent就能全部覆盖，最后只保留一个人工岗来处理特别敏感的信息字段即可。这无疑是对生产关系的一种改变。

从国际市场来看，和国内情况有所不同。我认为国际市场的空间可能更大一些。To B出海成为这两年热门话题，原因在于它有一个基础性优势：相比国内，国外的信息化标准更高，定制化需求更少。海外客户普遍接受SaaS(软件即服务,Software as a Service)模式、效果付费，也更认可“用信息系统节省人力”的价值逻辑。再加上国外人力成本本就较高，因此他们的付费能力更强。这一点在我们进入日本市场时也得到了验证。所以总体来看，国际市场的商业变现路径更清晰，空间也更大；相较而言，国内的To B发展路径确实要更为曲折和复杂。

从技术本身来看，Agent的落地确实会带来生产力的提升，同时也对现有的生产关系产生深刻影响。

刘琼：这是个“时间问题”吗？

张俊九：我认为这是个“规模问题”。从0到1可能较为困难，但一旦跨过门槛，从1到100会发展得非常快。

刘琼：两位老师是否还有不同看法或补充？

廉和：我认为，C端的核心在于，Agent带来了一个新的变量，这个变量本质上是“入口型”的变量。以前我们在手机上使用APP，每一个功能通常对应一个独立的应用，我们需要点击相应APP才能完成任务。但如果有了Agent，它可以理解我的需求，然后主动去寻找相应的功能来实现。在这种情况下，我就不再需要打开那么多不同的APP，只需要告诉这个Agent我想完成什么，它就会代劳。这个Agent可能是一个对话框，也可能是语音交互，但未来它不一定仅限于这些形式。因为人类的交互方式本身就多样化，比如视觉、AR/VR设备，甚至未来可能包括触觉等感知方式。以往，不同的任务是由不同的APP、不同的公司提供的，现在则可能是由一个统一的公司来满足我所有的需求。这种集中化的入口形态，将成为一个高度竞争的焦点。各大公司和头部厂商都可能参与到这个入口的竞争中。比如手机端侧的入口就可能成为一个极具力量的流量汇聚点，这对现有的商业模式将构成巨大冲击和转变。

以前我们查找APP或服务的方式，就像早期的门户网站，用户需要在门户首页逐层点击：体育→NBA→球员等，是“人找信息”的过程。未来在有Agent的情境下，服务也将如信息一般“主动找人”。过去我们需要一个个打开APP，再决定要使用哪个服务。现在只要通过一个统一入口，Agent就可以在后台对接其他Agent，完成任务。这种服务的传递模式也将带来商业模式的重大变革，比如如何计费、如何付费等问题。

刘琼：那你是否认同这样一种判断：未来的“超级APP”，将诞生在智能体领域？

廉和：可以这么讲，或者说未来的超级APP，本质上都会是智能体。

刘琼：是的，我们刚才也探讨了，未来的主流形态就是智能体。

廉和：是的，虽然智能体的表现形式可以是多样化的，但它不一定是目前这种单一的对话框交互。

揭光发：确实有可能，未来的一个超级智能体就是一个桌面或手机上的对话框，它支持用户自由加载工具，进而完成各种任务。从某种意义上讲，这样的Agent就是通用智能体，也就是“超级入口”。

我也从用户角度来谈一下商业化的问题。你们都从公司层面出发，我来谈谈用户视角。

首先，在国内，C端用户的付费习惯其实并不强，尤其是在软件或SaaS服务方面更是如此。以前很多做SaaS的企业在国内基本收不到费用，真正能实现收费的极少，哪怕是电商相关的SaaS服务也很难推广。但AI的到来改变了一些事情。比如AI编程这个场景，现在还有多少人没有购买Copilot或Cursor这样的产品？没购买的，大多是还没有感受到这股压力，凡是稍微敏锐一点的用户，几乎都会愿意花钱购买一个智能体账号，以提升编程效率。无论提效幅度是50%还是100%，只要能提高效率，人们就愿意为此付费。AI真正做到了为个人用户带来可见的生产力提升，因此他们才愿意付钱。关键在于，用户必须认同这个AI或Agent所创造的价值。这种价值要么体现在效率提升上，比如将本来需要100%时间完成的任务压缩至20%，剩下的80%拿来摸鱼；要么体现在陪伴体验上，每天陪伴用户、提升情绪状态。

国外的情况则不同。他们本身就具备较强的付费意愿，且拥有更强的模型底座。例如你在国内落地AI，可能只能接入少数几个模型；而在国外，像Manus创始人肖弘曾说，最适合用来做智能体的模型是Claude 3.7。我其实也认同这种说法。智能体讲求逻辑、流程、规划，这和编程能力息息相关。Claude在编程领域研究深厚，效果也显著好，因此基于它构建的智能体自然表现更优秀。国外用户付费意愿强，加上模型能力好、生态成熟，因此他们的商业化路径相对更顺畅。

现在很多国内创业者，一开始就选择服务海外市场，这也是基于同样的逻辑。To C的智能体基本上都是先从国外起步的。我还想分享一个小感悟：我刚才提到，AI编程这种面向开发者的工具，其实已经成为AI时代To C收费的第一波。我曾经在进入腾讯前，做过低代码创业，当时就有朋友劝我，不要做开发者市场。那时我听从了建议。但现在AI来了，我犹豫再三是否再试一把。结果就是，这次听话反而错失机会。虽然这是一句玩笑话，但它也说明，AI的到来确实颠覆了很多我们过往的认知。

廉和：对于大多数非编程用户来说，他们其实尚未真正感受到AI的冲击力，在这些用户看来，比如情绪价值类的应用，他们还是不太愿意付费。国内用户更多倾向于接受广告支持的模式，即便在陪伴型应用中，愿意真正付费的用户也是少数。大多数人宁可看广告，也不愿意掏钱。即使在陪伴赛道，核心用户中真正付费的也是极少数。

如果回到广告逻辑，我觉得未来Agent-to-Agent的范式，会孕育出新的广告空间和广告形态。以前广告是嵌入在APP中的，由人点选，从而进行计费。但现在，如果Agent要调用服务，那这些服务就会进行某种形式的竞争。比如用户要订机票，是用携程、飞猪，还是其他平台？这些服务之间会在Agent层面进行比拼。这种Agent间的交互过程，也同样可以成为广告的新场景。虽然现在还没有出现这类模式，但未来，尤其是在To C的大流量系统中，这很可能会成为一个重要的方向。

揭光发：对，To C还有一个风险，尤其是在国内市场——就是大厂可能会把你“折叠”掉。

这是个非常现实的问题。你看像Deep Research功能，国内所有的大厂，包括豆包在内，也都推出了自己的Deep Research社区产品，而且全部免费开放给用户使用，像ChatGPT这种付费模式在国内不存在。

既然提到了商业化，那我就接着讲刚才提到的A2A(Agent to Agent)模式。A2A，或许会带来一种全新的商业业态，也就是我们常说的“Agent的社会化协同”。这种形态类似于人类社会中“人和组织”“组织与组织”的协作机制——这些模式，未来在Agent世界里也都会被复制一份。这其中其实存在很大的商业空间。

张俊九：我们之前也探讨过，在真正的“超级智能体”诞生之前，现阶段存在一个“过渡阶段”。这是当前许多传统应用服务商正在思考的问题。也就是说，所有软件在作为入口的同时，也在考虑如何叠加Agent功能、AI功能。我们能看到，很多软件现在会推出一个“升级包”概念，即：你开通会员或在已有付费基础上再支付一笔费用，就可以获得Agent功能的叠加。比如在WPS中，现在就有类似AI助手的功能；又比如钉钉，它推出了365会员服务；再比如像淘宝或京东这样的购物入口，系统会根据你的喜好，为你推荐新品或相似风格的生活服务。这种方式虽然不是以“超级入口”的形式呈现，但它在用户没有明显感知的情况下，也能满足潜在需求。实际上，很多用户在浏览过程中，才突然产生某种需求——这种“贴身服务”的模式也是非常重要的。我们在业内交流中也探讨过，AI大模型或Agent能够将原有的业态或服务，转变为“更好的服务”。这恰恰是当前各大互联网厂商正在布局的方向。

廉和：但另一种选择就是，我完全可以切换到另一个软件，再搭配GPT使用。虽然整体体验可能稍差一些，但如果GPT的AI能力远远超出你内嵌助手的能力，那我可能最终就不用WPS了。这种可能性是存在的。

刘琼：那是不是就要先用AI占领用户心智？

廉和：没错。

刘琼：这种情况主要发生在C端？

张俊九：对，我认为在To C领域，用户体验是第一位的。你让一个用户跳出软件，再用两个软件进行协同，还不如在一个软件内一站式完成任务。

在B端，我们目前看到的趋势是“能力嵌入为主”。比如，在用户现有的工作流中嵌入一个链接或对话框。这种方式我们称之为“软切”。也就是说在原有工作习惯和操作界面不变的基础上，提供额外的辅助能力。这样既不影响原有系统，又能贴合现有使用习惯。在B端，对错误的容忍度极低，一切都必须稳定可靠，很多任务还要用KPI来考核。所以，在这种背景下，B端更倾向于选择那些“熟悉的、习惯的、可控的”模式。哪怕Agent已经能完成任务，他们仍然希望“看着它在干活”，以获得控制感。这种需求就促使产品设计为“准实时交互”。这其实体现了B端产品的逻辑。如果你突然告诉客户：“你只需要扔个需求，等着结果就好”，这对客户来说是一种“完全无人操作”的新模式，信任门槛太高，现在还难以接受。

揭光发：不过趋势确实在向这方面发展。过去我们说交互是“结构化交互”，未来我们在做B端新需求、运营系统新需求时，如果能够“无界面”，我们就尽量不提供界面。如果一句话或一个按钮就能表达清楚，那就用这种方式来实现。

张俊九：我们把B端场景分为两类：第一类是需要高频交互的copilot模式，这类任务适合Agent作为“辅助工具”；第二类是“无人值守”模式，适合一些标准化、流程化、经严格设计的任务，这些任务可以完全放到云端运行，用户只需查看结果。如果是实时交互类任务，那就更适合在本地桌面上，提供类似副驾驶的辅助功能。这两种模式不冲突，反而是互补的。如果是一些长流程任务，像我们现在体验的一些Agent产品，一个完整任务跑下来可能要花十几分钟甚至二十分钟。在实际工作场景中，如果让我一直在桌面上等着，那体验其实并不好。所以，短任务可以实时交互，长任务则可放到虚拟机或云桌面中，两者协同是更合理的模式。

廉和：这是不是也和现在Agent独立完成任务的准确率有关？

张俊九：有很大关系。在我们的To B服务中，目前仍是“工作流驱动”为主。当然也存在一些长尾场景，可以做到端到端处理，比如一句话输入，然后等待结果。这种情况我们一般通过外挂知识库的方式进行强化：即在一个封闭场景中，通过知识库为其提供上下文支持，让它知道每条指令应该遵循哪些运行规则、判断标准、审核逻辑等。我们更多地是在“使用模型的能力”，而非“依赖模型的知识”。在To B场景中，我们不能让大模型的“知识”直接进入我们的工作流，只能使用它的“能力”。

刘琼：那像这些原生类智能体或者AI，你们有没有一个对它“真正爆发”的时间预判？什么时候它们会大规模涌现？

张俊九：挺难的，我只能说确实挺难的。从To B场景来看，我们接触过的客户既有行业属性，也有具体场景的差异。举例来说，中国的财务系统虽然统一遵循中国会计准则，但由于各自业务不同，导致在科目设置、报销流程、审核规则，甚至财报分析标准上，都存在差异。这些个性化需求是无法标准化的，即便准则一致。因此在To B场景下，每个客户的个性化定制非常强，最终导致AI的实施成本非常高。这是我们目前在To B场景中面临的一个问题，目前也没有特别好的解决方案。

当然，如果未来工具的封装程度和准确率能达到一定水平，是否可以通过咨询+培训的方式，把使用权交还给客户，由他们自己使用？我更多希望聚焦在平台的搭建，以及一些Demo场景或复杂场景的服务上。让客户自己能够在这些场景中用起来。这也对应了我们现在经常提到的一个概念，叫“Agent boss”——每个人都成为各种Agent的调度者，由自己指挥一群Agent来完成任务。我觉得不论是To C还是To B，这个逻辑都是一致的，前提是你的Agent必须具备强大的基础保障能力。

廉和：我认为，如果放在时间维度上来看，Agent本身仍是一个技术驱动型的形态，

第一个观察点是“基础模型能力”需要上一个台阶。当前大家在使用Agent时之所以觉得难用，是因为我们无法确定它的回答是否准确。如果我们能将幻觉率降低一个甚至两个数量级，当基础模型能力上升到这个水平时，Agent可能就会自然迎来爆发。大家现在都已经看到了Agent的promise一直都在，只要它能稳定运行，它就一定能用。因此Agent能否迎来爆发，关键在于基础模型能否把幻觉率压下去。如果未来GPT-5或其他模型能大幅降低幻觉率，那或许就是一个爆发点。

第二个观察点是“数据上下文（context）信息的收集方式”。我们刚才也讨论到这个问题，目前模型只能通过自然语言的方式来接收上下文信息。但未来是否可以通过更完整的方式，比如多模态输入，甚至是硬件协同，在To B或To C场景中为Agent提供更有效的context？如果能实现这一点，Agent的能力也将再上一个台阶。

这两个观察点的先后顺序不好说，但每一个都可能成为Agent爆发的关键因素。

揭光发：可能对于大众而言，大家今年才刚刚听说Agent这个词，我们在这个方向上已经做了两年。如今它逐渐进入大众视野，并引起广泛讨论，说明这项技术已经达到了六七十分的成熟度。

刘琼：它所覆盖的其实是我们过去未曾设想的一些场景。现在很多情况是：我有这个需求，但过去没有一个合适的方案来满足我。现在Agent正是在填补这个空白。

揭光发：我理解。这个时间节点其实也符合我们之前的判断——从开始投入到大众广泛认知，大概需要两年左右。有观点甚至预测，2027年左右将是一个临界点。虽然这个观点可能显得有些“血腥”，但他预测到2027年，大部分白领类工作将可以被“折叠”。其实这个速度真的会比我们想象得更快。当然我们不是说，要把To B场景下所有复杂系统都彻底革新，但对于大多数小白领所从事的日常文书工作、文字处理工作，甚至一些跟进性质的任务，AI的确已经具备完成这些工作的能力了。

张俊九：Agent的爆发可能会首先出现在To C端，而在To B端的深入应用，则可能像这是由两个主要因素决定的。

第一个因素，是企业现有的系统资产。这些系统作为固定资产投资，其寿命还在。企业无法轻易绕过这些历史系统与数据。比如我们某家头部金融客户就提出，要我们为其客户经理团队构建一个全新的智能知识系统。他们不需要传统的信息门户或业务系统，只要求一个简单的交互界面，比如对话框，能实现核心能力即可。这种需求完全不同于传统系统，它可能会在一些新场景中快速迭代出来。

第二个因素是，大量老旧系统甚至连API都没有，更别说做什么自动化封装了。在这种情况下，只能通过人工在UI上操作。这就意味着，对于我们做RPA的企业，仍有生存空间。我们可以在原有的执行流程上进行跨系统、跨软件的操作，模拟人的逻辑去提取和处理数据。由于当前系统现状，这个坎还暂时无法跨过去。

第三个因素是我们此前反复提到的问题：我们无法为智能体提供足够好的上下文和基础数据。这使得智能体效能难以完全发挥。而在B端，不同企业之间存在数据封闭、场景差异等现实限制，无法像C端那样共享开放信息。而整个产业链的协同，则需要更长的周期来完成。所以从B端角度来看，Agent的落地速度注定会更慢一些。而从商业化爆发的角度看，To B的周期也会更长。

廉和：同意，我的B端可能还有一些介于B端和C端之间的，比如我公司特别小，我肯定没有上财务系统，也没有上各种各样其他这种系统。比如说我不会去专门找一个大律师，给我去审我的小合同，合同一共才没几个钱对吧？但是这种时候，我看现在有很多新的基于AI的软件，可以帮我审合同，或者说可以帮我去看一下我的财务内容。

张俊九：这种属于服务类的替代。

廉和：对，这种其实觉得还挺好的。

张俊九：服务类的替代，确实相对比较多。比方说我以前，可能有很多outsourcing的设计、人力服务方面的设计，比如说帮我筛选简历、组织招聘会等，这些东西确实是服务类的。我们把它统称为BPO(业务流程外包,Business Process Outsourcing)，我把这块业务外包给你了。

廉和：对对对。

张俊九：对于这些提供BPO服务的行业来说，这是个利好。他们以前是用人工完成大量工作，现在则可以用一堆Agent或者机器人来达到同样，甚至更好的效果。对于这些企业而言，他们的竞争力将会提升。比起同行能走得更快，提供服务类的企业可能会率先成为被颠覆的行业。这块已经非常成熟了，我们现在也在做。

刘琼：这是我们接下来要谈的一种新的商业模式Agent as a service，对吗？

张俊九：是的，是一种service。因为BPO这个行业，它服务的大B客户，本质上是乙方的角色。乙方可以通过工具的不断迭代与升级、服务模式的进化，以及提升“机器人密度”，来提供更高效、性价比更高的服务。最终来看，它没有本质弊端，因为整个链条是供应链体系，核心企业进度相对慢一些，而围绕其服务的公司可以走得更快。

我们现在也在开拓一个稍新的赛道，就是做“数字员工”。我们把它统称为数字员工，核心就是通过技术手段，替代人工完成某些业务。从这个逻辑出发，我如何提升数字员工的性价比？靠的是大模型驱动，融合RPA的跨系统操作能力，综合起来实现比传统BPO更高效的服务。我们提供的是“数字员工服务”，也就相当于成为了新时代的BPO公司，发展方向大概就是如此。

刘琼：你这边是怎么计费的呢？

张俊九：我们会根据节约的人工成本按比例计费。比如说你以前用一个人，一年花10万块，那我5万块你愿不愿意？如果不愿意，2万块，看客户规模和需求。

刘琼：现在客户的接受度怎么样？

张俊九：对，客户的接受度很高。难点主要在于服务To B过程中，如何控制自己的成本。第一是个性化定制仍然存在；第二是运营成本。因为我们不可能通过系统实现所有自主决策，现实环境在变化，规则在变化，系统可能也会有调整，这时候如何将运营成本控制在合理水平，就变得至关重要。总的来看，这是机遇与挑战并存的，一个新技术的到来，永远是这样。

刘琼：揭老师怎么看这种模式？

揭光发：它确实是一个大的趋势。因为我们一直讲，Agent是未来主要的人机交互形态。除了“人跟Agent”，我们也一直强调“Agent对Agent”。其实不管是哪一种，背后都是Agent这种形态在支撑。过去的SaaS是提供一套结构化的软件界面让人来操作；而现在的AI已经可以理解人的意图并帮你自动完成任务，这就是一个不可避免的发展趋势。但关键在于，这种模式到底如何收费、如何计费，是值得探讨的。对用户而言，除了最基本的API调用方式，我们不可能对终端用户按Token来计费。又回到了老问题——包月制？还是按效果付费？这些都是不同的商业模式。

但我觉得，对于直接使用者而言，如果是面向终端用户的Agent，包月可能是合理的；但如果是Agent对Agent，在背后自动执行的服务，那我不是每天用、不是每月用，可能是按次调用，那又该怎么收费？继续按Token计费？这可能不是一个很健康的商业模式。接着又会回到一个问题：如果是按效果付费，怎么界定效果？怎么评估这个Agent是否真的完成了任务？是不是要引入第三方作为仲裁方？提出各种评估标准？

张俊九：这就比较麻烦了，涉及成本太多。这还得算在运营成本里，包括你的知识投入、人力投入等等。

揭光发：所以这是一种可能性。要么就是我们制定统一的评估标准。但到了Agent对Agent的自动执行场景时，就不像人工验收那样可控。坦率地讲，很多To B合同的验收，其实是“差不多就行”的态度——功能跑得通、稳定性尚可，就签字。但Agent产出另一个Agent的结果时，那确实存在很大的不确定性。不过这也意味着，这里面还有想象空间可以探索。

刘琼：感觉往规模化发展，还有很多障碍需要克服。

揭光发：的确有很多障碍，但趋势已经非常清晰了。哪怕前期某些环节需要引入人工参与验收，整个Agent体系也能跑起来。换句话说，就是先“人机混合”再逐步过渡。

刘琼：接下来的问题是，我们刚刚也聊到像编程类的Agent产品确实大幅提升效率，但它同时也带来了很多增量需求，尤其是在服务这一块。比如说以前可能不是所有人都需要编程，但因为AI降低了门槛，现在可能连我也想学一学，不一定是要去大厂当程序员，可能是出于其他目的。这些新增服务需求，未来是继续由人来满足，还是说可能会有不断进化的Agent来提供？大家怎么看这种趋势？人和AI之间的分工，会往什么方向走？

张俊九：我们在做的产品，是一个垂直训练的大模型，叫塔斯，67B的。你看《星际穿越》的时候，会发现里面真的有两个机器人，一个叫塔斯，另一个叫什么我忘了。这两个机器人，其实已经变成你的伙伴了。未来，学习的主导者是谁，其实没那么重要了。传统教学可能更生动、更有亲和力，但现在你会发现，像刚才廉总说的，他要教小孩学英语，其实也可以通过AI标准化地实现。它有内容生成能力，也能根据学习水平进行评估，比如发音准确性等等。这就说明，人教还是AI教，已经不是核心问题了。真正的关键是：你有没有内驱力去学习。这其实已经是“生产力变了”，而“生产关系”就取决于你掌握新工具的能力。如果你掌握得好，就能很好地与AI协同配合。

其实我个人觉得，从现代社会的发展趋势来看，以AI为主导的趋势更加明显。对人的自学能力和碎片时间的利用能力，要求也更高了，不再是集中式、课堂式的学习交互。实际上，现在孩子的学习也是这样的。我不知道你们的感知如何，反正我家两个孩子中，老二的学习方式就是，虽然也有老师授课，但更多的是他和各种工具之间的协同。最早是用毛毛虫配合朗读，现在已经可以通过AI软件进行复读训练——AI读一遍，他跟着读，还能根据学习能力智能出题，安排互动练习。这些其实都是教育类AI产品的体现。你把这个逻辑延伸到其他领域和场景，基本上也是类似的。像以前那种“从小白到精通”、“21天速成课程”的模式，现在可能会逐渐减少。最终会演变成类似打游戏闯关的逻辑——你能闯到第几关，就意味着你具备了什么样的能力，能胜任什么样的系统操作。AI的这种交互式培养、学习与成长，可能会更普遍一些。

刘琼：您的意思是，未来可能是人机协作，共同满足这个增量市场的需求？

廉和：确实这是一个很明确的Promise，也就是说，我们必须学习的内容，是可以高度流程化处理的，它可以根据你的需求进行适配。只是目前还没达到那样的程度，但这个愿景肯定是存在的。我在想，跳出这个具体场景，如果回到Agent这个朴素的定义：它是可以“做事情”的，对吧？以前我们使用APP，本质上都是在消费内容或服务，我们并没有真的“创造”什么。Agent带来的增量，是否在于，它让每个人都能创造一些新东西？也就是说，人的创造力与创造欲望可以被释放出来。

现在之所以大家不去创造，是因为“做工具”这件事本身门槛太高。我知道也有一些人说，我们人类就是懒，只想消费、不想创造。但我其实不太认同这个观点，我认为人类本质上还是有创造的欲望。比如说，当Agent能帮我实现一些功能时，即便我不会编程，我也可以用它写出一个小服务。但问题在于，这样的交互方式对不会编程的人来说仍然很困难。比如使用Cursor这样的平台，对于非程序员来说就是很痛苦的体验，因为它的底层逻辑还是建立在你理解一定程度编程逻辑的基础上。所以未来的交互方式应该更“产品化”，即当我想要实现一个功能或做一个小工具时，Agent所提供的服务完成度要更高，不只是给我一段代码，而是一个可直接使用的工具。如果只是给我代码，对于大多数用户来说门槛仍然很高。而对于IT从业者来说当然没问题。

揭光发：这个问题其实是在说，现在越来越多的小白用户，能够通过Cursor这样的平台，通过AI IDE的方式，去实现他们想要的产品诉求。你是认为这是一个“增量市场”对吧？

刘琼：是的。

揭光发：对AI工具或者IDE本身来说，用户确实是新增的；但从专业从业者的角度来看，这其实是在抢原本属于他们的“存量市场”。

刘琼：那会不会是因为他们本来的目标用户就不一样？

揭光发：也可以这么理解。你刚才提到的用户，确实是在满足原本没有被很好覆盖的需求，是那些以往很难被满足，或者门槛相对较高的一些边缘需求。但从实际商业价值的角度讲，这些需求未必真的产生足够的经济价值。可能你几十万人做出一两个成型产品，然后投入市场运营，发现某个项目真的能成规模，那也是极小概率事件。这更多是一种自娱自乐的行为。对我来说，这就是我对这件事情的看法。

但从另一个角度来看，小白用户现在确实可以通过AI，做出看起来像模像样的产品了。进一步延伸，一位小白经过几轮学习训练，可能就能做出一个可交付的、甚至能卖钱的产品。比如说，我帮你做一个企业网站或者一个简单的管理系统，过去你可能收费几万元，现在只要几百块钱就搞定了。这其实就是更“低端”层级的产品交付，它可能是一个新的方向。从业人员结合AI工具，可以用更低的价格抢占原本收费更高、价值更高的市场。从这个角度来看，AI在一定程度上是在抢夺存量、压缩存量，并将市场价值向下压缩。由此带来的，是对整个行业的冲击。以编程为例，我的观察是，如果你本身就是比较优秀、资深的开发者，在加入AI的辅助之后，你的发展路径会更深更广。但如果你本身是终端甚至偏低端的开发者，相较于小白用户，其实并无明显优势。这意味着行业尾部的一部分人群，会被AI折叠掉，而高端开发者则能借助AI继续增强自身的专业深度，实现效率提升。这是我观察到的两个极端。我认为，这种结构在编程行业如此，在其他行业亦然。这并不是说“专业”会失效，而是“低端专业”会被替代。只要你在一个领域里依然是高水平的人才，配合AI工具，你仍然能走得更远。未来社会对高端专业的需求将持续增加，而对低端专业的需求则会显著减少。因为这部分能力的可替代性太强，随时都可以找“阿猫阿狗”来做，甚至甲方自己也能轻松解决，这导致中低端岗位越来越“朴素化”，不再需要专职设置。这种结构的演变，会使得整个行业收缩为由少数资深专家带着AI完成大量任务的形态，原来那种完整的人才梯队结构将逐渐消失。很可能将来的极端局面是，所有人都是资深的专家，带着一堆AI在工作。

但这里存在一个悖论：你要如何跨过那道坎，成长为资深？目前很多人误以为不需要学习了，其实这是最可怕的事。我在给年轻学生讲AI基础课时会特别强调，我们可以使用AI，但不要让AI替你写作业、写作文。写作业可以让AI帮你改，作文也可以让它给你反馈。但不能让AI代替你自己去成长。成长应当是你自己的责任。不要因为有AI就停止学习。如果哪天突然停电，或AI无法使用，你就什么都做不了，那才是真正的可怕。

刘琼：确实很难做到。

揭光发：对，是很难。

刘琼：因为人很容易就会产生依赖。

揭光发：一旦依赖成习惯，让AI替你做所有事，你自身的成长就会停滞，你不会进步了。

刘琼：接下来的问题是：我们今天的讨论，其实都是建立在“基模能力”的基础上，来探讨Agent的发展。如果说大模型（即基模）的发展遇到瓶颈，或者出现了新的范式，那么我们今天所讨论的这些趋势会发生什么变化？各位专家怎么看？

张俊九：从智能体自身范式的角度来看，我认为变化不会太大。因为它已经将一个人的基本能力进行了抽象。人类发挥到极致，无非就是比别人聪明一点、勤奋一点。而对于智能体而言，就是调用的基本能力更强、调用工具的种类更丰富、更精准。从这个底层逻辑来看，我认为Agent的范式不会有太大变化。当然，正如刘老师所说，基模能力确实是限制智能体发展的核心基础。没有大模型的演进，大家也不会重新提出Agent这个概念。毕竟Agent并不是一个新的概念。正是因为基模发展到了一定阶段，大家才开始重新相信，曾经的想象有可能实现，于是才有了近两年围绕Agent的热烈讨论、大量投入与时间精力的投入。因此，我依然认为基模是基础。当然，它是否能真正具备类似人类的认知能力，例如“这是一个杯子”，换一个样子后仍然识别为杯子——这种“迁移学习”能力，目前还没有任何一种算法能完全模拟出来。这需要对人脑进行深入研究。

但如果只从方法论层面来看，无论是当前主流的各种底层算法，还是新提出的架构，技术上都有优劣。例如DeepSeek追求极致性价比，但其采用的MoE(专家混合,Mixture of Experts)架构可能会带来更高的幻觉率。这些都是技术上的取舍。但无论如何，“够用、好用、能用”才是实现落地的基本标准。在此基础上，我认为未来很可能会出现更多面向特定方向的专家模型，而不是依靠一个通用基模解决所有问题。我倾向于认为，社会分工这件事不会因为一个大模型而被取代。

廉和：我并不认为存在“行业化的基模”，基模依旧是通用的。但在通用基模的基础上，确实需要加入行业数据，通过微调或Contextual Prompt等手段，才能完成行业化任务，形成行业化的Agent。也就是说，并不存在“行业化的基模”，但存在“行业化的Agent”。

我可能与刚才另一位讲者的观点略有不同。关于“基模是否能学习人类的所有能力”，现在并没有确凿证据说明模型无法学习某项人类能力。我更倾向于这个观点。同时也有观点认为，AI的缩写其实不该是Artificial Intelligence，而应是Another Intelligence。换句话说，我们是否真的需要AI完全对标人脑？或许不需要。某些方面，AI已经超过人脑，不必非得模仿人脑所有功能。

刘琼：好的，时间关系，我们的圆桌讨论也即将进入尾声。最后请三位嘉宾用一句话总结你们心目中“终极Agent”的价值。谁先来？

张俊九：从To B的角度出发，我认为我们应致力于提供一种可控、高效、安全的Agent服务模式，这也是我们一直努力的方向。

廉和：我觉得对我来说，Agent最重要的一点是它能“懂我”。它是可以围绕某一个人去构建的，我还是想回到这个出发点来讲。为什么我认为这件事如此重要？因为我们刚才也讨论过，AI作为一种another intelligence，未来的社会到底是由AI来主导和运转，还是我们希望未来是一个“人机协作”的社会？我是坚定的“拯救派”，所以我认为需要找到一条路径，让人类个体在未来社会中依然能够持续创造价值。我现在能想到的方式是：单靠一个人可能很难，但如果这个人拥有一个理解他、能够配合他的Agent，那还是有实现可能性的。这个Agent应该是为这个人量身打造的，而不是那种万能型、什么都能干的。我觉得这正是智能体带给我最大的希望，或者说是最大的潜在可能性。

揭光发：我有一句话，从两年前就一直讲到现在，无论是作为一种预言还是一种愿景，其实我坚信——Agent一定是未来的主流生产力，无论是在数字世界还是在物理世界。关键是这个“事情”发生之后，人类接下来要做什么？我们会继续参与劳动，尝试从Agent所不能胜任的领域中寻找差异化价值？还是说我们要去开拓一些原本从未设想过的方向？这其实就是一种生产关系的变化。现在，随着Agent的出现，超级对齐（Superalignment）那位创始人也提出了这个问题。我们确实还没有真正开始去思考它——当AI释放了所有人的生产力之后，我们以怎样的心态去继续生存？到时候我们可能要重新寻找自身的价值，创造属于自己的东西。这种探索可以是向外的，比如探索太空，也可以是向内的，比如进入虚拟世界、创造虚拟人生，重新体验所有过程，这一切都有可能。但如果非要用一句话概括，我依然会说：Agent一定是未来的主流生产力。

刘琼：那是不是意味着以后人人都会有一个，甚至多个Agent？

揭光发：对，一定会的。

刘琼：时间关系，我们今天的圆桌差不多就要结束了。其实刚刚我们和三位嘉宾讨论了智能体的多个方面，从概念定义、产品形态，到技术、生态与商业路径，甚至进一步讨论了它在社会层面可能带来的影响。智能体发展至今，技术演进远未停歇，也尚未进入一个稳定的状态。事实上，其发展速度可能比我们原先想象的还要快。因此也许在不久的将来，当我们再次谈论这个话题时，很多观点与判断都可能已经发生变化。

不管怎样，今天关于智能体的这场讨论是非常充分的。感谢三位嘉宾的真挚分享，他们的讨论不仅深刻，而且开放，为我们带来了诸多有价值的思考。同时也感谢所有观众的参与。我们期待下次，能够在这个话题上继续碰撞出更多火花。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业