推荐语
智能体搭建的实操指南,探索AI应用的低门槛未来。核心内容:1. 智能体搭建的误区与实际门槛2. 智能体工作流设计中的逻辑思考3. "人格分裂"能力在智能体搭建中的应用
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
有基于GPTs的,也有基于扣子(豆包的智能体搭建平台)的。有些说得很耸动,打着变现的旗号;有些则比较务实,手把手地教学。但无一例外,都将智能体描述成门槛低、人人可上手的工具。主办方邀请了多位嘉宾分享经验:有用扣子实现变现的个人,有将扣子应用到业务流程的企业负责人,还有利用扣子搭建应用创业的创始人。几个月前,我尝试用扣子搭建了一个智能体,用于辅助我决定晚餐选择。不算成功,但也收获了一些心得体会。昨天,我在公众号上线了基于扣子的AI客服,它可以结合我的公众号文章回答问题。同时,我还在开发一个帮助记录儿子每天表现的智能体。智能体(如扣子)确实降低了应用开发的门槛,特别是在具备 LLM 能力的应用方面。但我不认为它毫无门槛,人人都能轻易上手。你至少需要具备两种能力—— 逻辑和"人格分裂"。让我详细解释。在手机豆包App中也可以创建智能体,但功能有限。你只能通过智能体的人设描述来限定其功能,充其量是一个有特点的对话机器人。它可以拥有自己的知识库,通过插件获得技能(如上网搜索),还可以将对话中的结构化信息记录在数据库中。你甚至可以通过扣子创建具有UI的应用,而不局限于对话方式。在扣子智能体中,最关键的组成部分是工作流(Workflow)。从名字和界面就能看出,它本质上是一个流程图,每个步骤称为节点。工作流有始有终,上一步的输出是下一步的输入。所有节点按照特定规则和逻辑有序执行,可以分叉,也会汇合。与传统程序所有功能都由代码实现不同,扣子工作流中的节点可以是LLM。它的输入输出都是自然语言,中间的处理部分交给LLM。用企业项目流程图类比,你可以把每个LLM节点想象成项目中完成具体任务的人。有过流程图设计经验的人都明白,这对逻辑思考能力有较高的要求。我在短视频平台看到的几个教智能体的博主或多或少都有程序员背景。他们也许没意识到,使用扣子虽然不需要编程语言知识,但需要通过编程培养的逻辑思考能力。我承认,"人格分裂"的说法有些夸张,它指的是更细粒度的逻辑能力。在多人协作任务中,你需要厘清不同人的任务之间的逻辑关系:一个人的输出是谁的输入,什么情况下由谁完成哪个步骤等。前文提到,可以把扣子中的每个LLM节点想象成一个人,其实这样说还不够准确。一个LLM节点并不能很好地完成一系列复杂工作,而是完成某一项需要人类能力的具体步骤。这要求你能够将一个人的任务进行逻辑拆分,就像将一个人拆成多个分身,每个分身只执行其中的一步。有时甚至需要让"自己"评价审视"自己"的输出。现实中,一个人就能胜任客服工作,看似是一个LLM就能完成的任务。但为了将智能体的回答限定在我的公众号文章范围内,我设置了4个LLM节点:
- 第一个判断读者的消息是否与AI相关、一般问候(如你好、谢谢)以及“其他”
- 第三个根据上下文改写用户问题。比如,读者先问"AI是什么",接着问"它能做什么",LLM需要将第二个问题改写成"AI能做什么",以便更好地检索公众号文章
- 第四个结合用户问题和检索到的文章信息,组织语言回答
我将很多情形(比如“谁是世界上最美的女人”)都归类到"其他",统一用标准回复处理(而不是,“她刚刚问了我一个问题”或者“反正不是你”)。当然,也可以将所有逻辑通过语言描述设置为一个LLM的人设,类似于SOP。但首先,我不确定在扣子中这样做的效果;其次,在表达复杂逻辑时,二维的图形比线性的语言更具优势。前两天看到一个视频:吴恩达的 DeepLearning 请了一位OpenAI员工演示GPT-4o1的使用方法。他介绍了一种名为元提示(Meta Prompting)的技巧——让最新版本GPT- 4o1写了份超级详细的SOP,接着让GPT4o mini参考这份SOP扮演航空公司客服,对客户问题进行回复并选择相应操作程序(如退票)。由此不难理解,为什么那位企业负责人在将扣子应用到业务流程时,搭建了上百个智能体,拥有上万个节点。03LLM的能力是把双刃剑。
它确实能在不编程的情况下完成很多任务,但其自由度和灵活性又不得不让我们通过工作流来控制它的行为,以获得符合预期的结果。
这就像在企业中拥有一名出类拔萃的员工:如何在需要她发挥创意时不限制其天马行空,又在需要她按照流程执行时不致过于信马由缰。