我要投稿

吴恩达：别再纠结Agent定义，AI Agent开发者应关注这些要点

发布日期：2025-05-31 09:06:43 浏览次数： 1891

作者：ThinkInAI社区

微信搜一搜，关注“ThinkInAI社区”

在近期的一场LangChain活动中，吴恩达博士与LangChain团队的Harrison进行了炉边对话。吴恩达博士无需多言，他在Coursera和deeplearning.ai上的课程影响了无数人，与LangChain也有着深厚的渊源，deeplearning.ai曾与LangChain合作推出了多门备受好评的短期课程。

在这次对话中，吴恩达分享了他对AI Agent、开发者技能、未来趋势以及创业等方面的独到见解。

从“Agent”到“Agenticness”：实用主义视角

大约一年半前，吴恩达就提出了“Agenticness”（智能体化程度）的概念。他观察到社区中很多人在争论某个系统是否是“真正的”Agent，是否足够自主。吴恩达认为，这种争论虽然可以存在，但更有效的方式是承认系统在智能体化方面存在不同的程度。

“我们可以说，如果你想构建一个具有一定自主性或高度自主性的智能体化系统，这都没问题。我们无需花费时间去争论它是否是‘真正的’Agent。我们只需要将这些系统都称为智能体化系统，它们具有不同程度的自主性。” 他认为，这种提法有助于减少社区在定义上的浪费，让大家更专注于实际构建。

Agentic工作流：从线性到复杂

吴恩达团队日常使用LangGraph来处理最困难、流程最复杂的问题。但他也看到了大量的商业机会存在于相对线性的工作流中，或者只有偶尔分支的线性流程。例如，在业务流程中，人们可能需要在网站上查看表格、进行网络搜索、检查数据库是否存在合规问题，或者进行复制粘贴、二次搜索等操作。这些工作流很多是线性或带有少量循环和偶尔的分支（通常表示失败或拒绝）。

他认为，尽管有非常复杂的智能体化工作流存在并且价值巨大，但从机会数量上看，更多的是价值在于构建更简单的流程。

AI Agent开发者需要掌握的关键技能

吴恩达一直在思考，构建AI Agent，无论复杂与否，需要哪些核心技能。他认为挑战在于如何将现有业务流程（涉及合规、法务、人力资源等部门的步骤）转化为智能体化工作流。这包括：

任务分解能力：如何将复杂的事务分解成微任务或顺序步骤，以及如何处理少量分支。
构建Eval框架：如何建立正确的评估（Eval）框架。这不仅用于衡量整体系统性能，更重要的是能够追踪到每个步骤。这让你能精准定位是哪个步骤或哪个Prompt出了问题，从而进行改进。很多团队在这方面做得不够及时。
调试与优化：如何在原型效果不佳时，知道应该优化哪个步骤来提升整体性能。
“触觉”知识与直觉：这种能力很难习得，需要通过实践观察输出、跟踪日志，然后快速（几分钟或几小时内）决定下一步做什么。有经验的团队能识别“死胡同”，避免在无法奏效的组件上浪费时间。

吴恩达将各种AI工具（如LangGraph、RAG、聊天机器人、内存机制、Evals、Guardrails等）比作不同颜色和形状的“乐高积木”。拥有越多种类的积木，就能越快地组装出很棒的东西。构建者需要知道何时使用哪块特定的“积木”。例如，构建某种特定的Evals，有经验的人可能知道如何使用LLM作为评判者来快速实现。此外，随着LLM技术的进步（如更长的上下文窗口），工具的最佳实践也在变化（如RAG参数调整变得更容易）。

被低估的“乐高积木”：Eval、语音堆栈与AI辅助编程

吴恩达提到了一些他认为当前被低估或未得到足够重视的领域：

Evals：尽管大家都在谈论Evals，但实践中投入不足。他建议不要将其视为一项庞大的任务，而是从快速构建一个简单的、甚至不太完善的Eval开始。它能辅助人工检查，特别是在出现回归问题时。然后可以像迭代开发应用一样，逐步改进Eval。
语音堆栈（Voice Stack）：吴恩达对此非常兴奋，认为语音应用有很多机会。大型企业对此表现出极大的兴趣，有非常大的用例。然而，他感觉投入到语音堆栈开发的开发者数量与其重要性相比要小得多。语音应用的优势在于能降低用户输入门槛，人们通过说话更容易表达想法，即使思路跳跃或改变主意。主要挑战在于延迟。为了应对延迟，可以使用“预回应”（pre-response）或播放背景噪音等技巧来提升用户体验。他认为，“智能体化语音堆栈工作流”比单纯的语音输入/输出模型更易于控制。
AI辅助编程：使用AI编程助手的开发者效率远高于不使用的开发者。他认为，尽管有些公司因某些原因限制使用，但需要克服这一点，因为团队已经很难想象没有AI助手如何编程。他反驳了“AI将取代编程”的观点。历史上，编程变得越容易，学习编程的人反而越多。AI辅助编程降低了门槛，更多人应该学习编程。未来最重要的技能之一是能够精确地告诉计算机你想要它做什么。学习一门编程语言（如Python）有助于更好地理解如何向计算机发出指令。吴恩达本人借助AI助手，现在能写更多JavaScript和TypeScript代码，并能更好地调试。

MCP与多智能体系统

吴恩达认为MCP（Model Catalog Protocol）是一个非常令人兴奋的标准。他看到网络上对MCP的介绍有些混乱，因此与Anthropic合作发布了一个清晰解释MCP的短期课程。MCP旨在标准化Agent（以及其他软件）与不同数据源、工具或API的接口。这有助于简化数据集成中的“管道”工作。其目标是将N个模型/Agent与M个数据源/工具的集成工作量从N*M降低到N+M。吴恩达认为MCP是一个很棒的第一步，尽管目前标准和实现尚处于早期阶段，存在一些挑战（如认证问题、需要层级发现机制）。

相比之下，**多智能体（Agent-to-Agent）**系统则处于更早期的阶段。吴恩达认为，目前我们还在努力让单个Agent正常工作，让来自不同团队的Agent相互协作“感觉像是需要双重奇迹”。他个人尚未看到跨团队Agent成功协作的大规模成功案例。

“Vibe Coding”：不是靠感觉，是智力劳动

对于流行的“Vibe Coding”说法，吴恩达认为这个名字具有误导性。它让人觉得编程可以凭感觉来，随意接受或拒绝AI生成的代码。但他强调，使用AI辅助编程时，一天下来会非常疲惫，这仍然是一项深入的智力活动。因此，名称不恰当，但现象（AI辅助编程）是真实且正在流行的。

给AI创业者的建议

作为AI Fund（一家风险投资工作室）的负责人，吴恩达分享了他们对创业公司成功关键因素的观察。AI Fund共同创建公司，并只投资他们共同创建的公司。

根据AI Fund的经验：

速度是成功的头号预测因素。一个熟练团队的执行速度可能远超人们的想象。
技术知识是第二个重要预测因素。虽然市场营销、销售、定价等商业知识很重要，但这些知识相对更普及。在技术快速发展的当下，真正理解技术如何工作的知识更为稀缺。AI Fund非常喜欢与技术背景深厚、对方向有良好直觉的创业者合作。他们认为商业知识相对更容易学习和掌握。