支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


别让「独立」成为智能体的枷锁

发布日期:2025-05-13 07:29:17 浏览次数: 1544 作者:AI慢思考
推荐语

深入探讨智能体的独立性及其在实际应用中的局限性。

核心内容:
1. Manus智能体舆论反转及其与OpenAI智能体开发SDK的对比
2. 智能体技术在旅游规划案例中的应用与问题
3. 智能体独立性背后的信息匮乏问题及其影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

今天继续顺着Manus聊智能体。

这几天,对于Manus的舆论经历了多次反转。甚至还有一个5人团队花了3小时复刻了一个开源版的Manus —— OpenManus。

3月11日,Manus在其中文网站上宣布了与通义的合作。

Manus官网截图

而同一天,OpenAI在最新的产品发布会上推出了几个智能体API以及一套智能体开发SDK。与Manus直接打造通用智能体的路线不同,OpenAI为开发者提供了创建智能体的工具。之前提到过的扣子则是介于两者之间。

Kevin Weil(OpenAI的CPO)在发布会开头如此定义智能体:"A system that can act independently to do tasks on your behalf"。在视频结尾,他更是断言:"2025 is going to be the year of Agent"。

如果把训练LLM比喻为在大学里通过理论知识培养学生,那么智能体技术就好比让这些大学生步入社会、开始工作。

姑且不论Manus是否通用,先看看它是否真的独立

01

旅游规划

Manus官网上有一个旅游规划案例,恰巧最近我正在为家庭旅行制定计划。

一年多前我曾用过GPT制定旅行计划,当时的LLM还没有推理能力。

这次,我先尝试了一些旅游AI应用,比如Layla,但效果并不理想。

随后,我动用了中美8大AI工具来辅助规划——GPT、Claude、Perplexity、Grok、秘塔搜索、腾讯元宝、通义、Get笔记。每一个都是既能上网查资料又会推理的个中好手。

而Manus底层使用的是Claude和通义千问的LLM。

Manus案例的回放视频接近20分钟,概括来说,它首先制定了一个包含7大环节的Todo列表,随后针对不同方面(景点、日语、旅游Tips等)分别进行联网搜索,最后整合信息制定了完整行程,并做成了一份HTML格式的旅行手册。

整个思考过程看似缜密,搜索详尽,最终的旅行手册也颇为惊艳。但以我个人标准评判,这份旅行计划几乎完全不符合实际需求

我认为问题在于两个字——"信息"。

制定旅游计划基本是一个统筹规划任务。当我们最初形成旅游想法时,存在着无数可能性(或者不确定性),而信息的核心作用就在于减少不确定性。制定旅行计划是不断收集信息、处理信息,逐渐缩小决策空间的过程。

Manus在制定旅行计划时处理的信息量远远不够

02

信息匮乏

Manus缺乏的信息大致可以分为两类 —— 用户需求信息和对行程中各个元素的评价。两者同为主观信息

在Manus的这个案例中,用户需求如下。

Manus官网截图

或许只有ESFP性格类型的人,才会在提供旅行计划需求信息时如此简略,甚至连酒店偏好与餐饮要求都只字未提。不出所料,Manus制定出来的行程中并不包含具体酒店与餐厅的推荐。

我数了一下,在制定计划的过程中Manus进行了11次搜索,每次返回20多个网页,但它似乎每次都只阅读了其中一个。即使假设它阅读了所有内容,总共也不过200多个网页。

当我使用Grok的深度搜索功能制定计划时,它阅读了199个网页,数量级相近。秘塔搜索是参考网页数量最多的,达到515个。而其他的几个AI工具参考的网页数量只有10个左右。

200个网页看似很多,但对于一个国外陌生城市的旅游规划,这些信息对于搜集客观信息或许足够,对于评价性的主观信息却差相去甚远。

比如,酒店地址是客观事实,而酒店好坏则是主观评价;餐厅营业时间是客观信息,食物口味则是主观体验;某个公园有无樱花是客观事实,是否是最佳观赏地点则是主观判断。

个人认为,主观信息对于一份旅行计划的影响远大于客观信息。两类主观信息的匮乏导致AI无法制定出真正符合要求、足够细节的旅行计划。

03

智能体需要的能力

我认为面对主观信息的匮乏,智能体需具备一些能力。

主动询问

我提供给AI的初版要求也十分简单,但这并非我的全部需求,只是当时就想到这些。需求的完善需要一个过程。

虽然从其他演示视频中看得出,Manus允许用户在它工作时补充信息,但这依赖于用户主动提供。

LLM出现后,不少人认为提问能力是用好LLM的关键。我认为在智能体领域,LLM的提问能力同样是决定智能体优劣的关键。智能体需要足够“聪明”,主动提出好问题,启发用户提供相关信息。

打破信息孤岛

在Manus案例中,它尝试访问TripAdvisor时遇到了人机验证问题,转而查询了其他网站。虽然TripAdvisor的人机验证并不难解决,但这反映了AI可能由于种种原因无法获取某些有用信息。

而在我使用的8大AI工具中,首先有中美的区分。虽然我输入的都是中文指令,但美国AI工具搜索到的都是英文信息。

即便同为中国AI工具,参考的信息也不尽相同。腾讯元宝参考的14篇信息都来自微信公众号,而阿里的通义参考的7篇中有5篇来自于夸克号(同为阿里的产品)。

如今,在中国最被信赖的旅游攻略信息源或许是小红书。即使我明确要求元宝或者通义只参考小红书,它们也无法做到。

而这也是我使用Get笔记的原因。Get笔记可以通过链接将小红书笔记内容转录并存入知识库,这样就能让Get笔记参考这个知识库并利用内嵌的DeepSeek R1制定旅游方案。

信息同步

旅行计划大概率不会一次定稿,直到旅行实际发生之前都还有变化的可能。

当智能体完成了一版旅行计划后,我们依然会主动或被动的接受到与旅行相关的信息。这些信息可能会影响我们的判断、需求、期望等等。

比如,小红书可能推送了一篇旅行目的地的美食笔记,让我们种草了某家餐厅。我们会希望将去这家餐厅用餐融入旅行计划。智能体需要能够及时同步信息修订行程。

此外,家庭旅行通常涉及多人。智能体需要能同步所有人的信息,而无需其中某一人扮演信息的搬运工。

04

结语

说回到文章开头的问题 —— Manus是否独立

如果按照Manus的案例展示看,它的确很独立。在输入任务指令后,它可以全程无需人的干预完成一系列操作并给出最终结果。或许这也是很多人对于智能体的幻想,任何事情一键生成。

但对于相对复杂的任务而言,或许智能体本就不应该完全独立。衡量智能体的标准或许不在于它能够一键完成多少不同种类的任务,而是它是否懂得如何与(不同)人配合完成任务。

智能体需要懂事,更需要懂你

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询