微信扫码
添加专属顾问
我要投稿
深入探讨智能体的独立性及其在实际应用中的局限性。核心内容:1. Manus智能体舆论反转及其与OpenAI智能体开发SDK的对比2. 智能体技术在旅游规划案例中的应用与问题3. 智能体独立性背后的信息匮乏问题及其影响
今天继续顺着Manus聊智能体。
这几天,对于Manus的舆论经历了多次反转。甚至还有一个5人团队花了3小时复刻了一个开源版的Manus —— OpenManus。
3月11日,Manus在其中文网站上宣布了与通义的合作。
Manus官网截图
而同一天,OpenAI在最新的产品发布会上推出了几个智能体API以及一套智能体开发SDK。与Manus直接打造通用智能体的路线不同,OpenAI为开发者提供了创建智能体的工具。之前提到过的扣子则是介于两者之间。
Kevin Weil(OpenAI的CPO)在发布会开头如此定义智能体:"A system that can act independently to do tasks on your behalf"。在视频结尾,他更是断言:"2025 is going to be the year of Agent"。
如果把训练LLM比喻为在大学里通过理论知识培养学生,那么智能体技术就好比让这些大学生步入社会、开始工作。
姑且不论Manus是否通用,先看看它是否真的独立。
01
旅游规划
Manus官网上有一个旅游规划案例,恰巧最近我正在为家庭旅行制定计划。
一年多前我曾用过GPT制定旅行计划,当时的LLM还没有推理能力。
这次,我先尝试了一些旅游AI应用,比如Layla,但效果并不理想。
随后,我动用了中美8大AI工具来辅助规划——GPT、Claude、Perplexity、Grok、秘塔搜索、腾讯元宝、通义、Get笔记。每一个都是既能上网查资料又会推理的个中好手。
而Manus底层使用的是Claude和通义千问的LLM。
Manus案例的回放视频接近20分钟,概括来说,它首先制定了一个包含7大环节的Todo列表,随后针对不同方面(景点、日语、旅游Tips等)分别进行联网搜索,最后整合信息制定了完整行程,并做成了一份HTML格式的旅行手册。
整个思考过程看似缜密,搜索详尽,最终的旅行手册也颇为惊艳。但以我个人标准评判,这份旅行计划几乎完全不符合实际需求。
我认为问题在于两个字——"信息"。
制定旅游计划基本是一个统筹规划任务。当我们最初形成旅游想法时,存在着无数可能性(或者不确定性),而信息的核心作用就在于减少不确定性。制定旅行计划是不断收集信息、处理信息,逐渐缩小决策空间的过程。
Manus在制定旅行计划时处理的信息量远远不够。
信息匮乏
Manus缺乏的信息大致可以分为两类 —— 用户需求信息和对行程中各个元素的评价。两者同为主观信息。
在Manus的这个案例中,用户需求如下。
或许只有ESFP性格类型的人,才会在提供旅行计划需求信息时如此简略,甚至连酒店偏好与餐饮要求都只字未提。不出所料,Manus制定出来的行程中并不包含具体酒店与餐厅的推荐。
我数了一下,在制定计划的过程中Manus进行了11次搜索,每次返回20多个网页,但它似乎每次都只阅读了其中一个。即使假设它阅读了所有内容,总共也不过200多个网页。
当我使用Grok的深度搜索功能制定计划时,它阅读了199个网页,数量级相近。秘塔搜索是参考网页数量最多的,达到515个。而其他的几个AI工具参考的网页数量只有10个左右。
200个网页看似很多,但对于一个国外陌生城市的旅游规划,这些信息对于搜集客观信息或许足够,对于评价性的主观信息却差相去甚远。
比如,酒店地址是客观事实,而酒店好坏则是主观评价;餐厅营业时间是客观信息,食物口味则是主观体验;某个公园有无樱花是客观事实,是否是最佳观赏地点则是主观判断。
个人认为,主观信息对于一份旅行计划的影响远大于客观信息。两类主观信息的匮乏导致AI无法制定出真正符合要求、足够细节的旅行计划。
智能体需要的能力
我提供给AI的初版要求也十分简单,但这并非我的全部需求,只是当时就想到这些。需求的完善需要一个过程。
虽然从其他演示视频中看得出,Manus允许用户在它工作时补充信息,但这依赖于用户主动提供。
LLM出现后,不少人认为提问能力是用好LLM的关键。我认为在智能体领域,LLM的提问能力同样是决定智能体优劣的关键。智能体需要足够“聪明”,主动提出好问题,启发用户提供相关信息。
在Manus案例中,它尝试访问TripAdvisor时遇到了人机验证问题,转而查询了其他网站。虽然TripAdvisor的人机验证并不难解决,但这反映了AI可能由于种种原因无法获取某些有用信息。
而在我使用的8大AI工具中,首先有中美的区分。虽然我输入的都是中文指令,但美国AI工具搜索到的都是英文信息。
即便同为中国AI工具,参考的信息也不尽相同。腾讯元宝参考的14篇信息都来自微信公众号,而阿里的通义参考的7篇中有5篇来自于夸克号(同为阿里的产品)。
如今,在中国最被信赖的旅游攻略信息源或许是小红书。即使我明确要求元宝或者通义只参考小红书,它们也无法做到。
而这也是我使用Get笔记的原因。Get笔记可以通过链接将小红书笔记内容转录并存入知识库,这样就能让Get笔记参考这个知识库并利用内嵌的DeepSeek R1制定旅游方案。
旅行计划大概率不会一次定稿,直到旅行实际发生之前都还有变化的可能。
当智能体完成了一版旅行计划后,我们依然会主动或被动的接受到与旅行相关的信息。这些信息可能会影响我们的判断、需求、期望等等。
比如,小红书可能推送了一篇旅行目的地的美食笔记,让我们种草了某家餐厅。我们会希望将去这家餐厅用餐融入旅行计划。智能体需要能够及时同步信息修订行程。
此外,家庭旅行通常涉及多人。智能体需要能同步所有人的信息,而无需其中某一人扮演信息的搬运工。
结语
说回到文章开头的问题 —— Manus是否独立。
如果按照Manus的案例展示看,它的确很独立。在输入任务指令后,它可以全程无需人的干预完成一系列操作并给出最终结果。或许这也是很多人对于智能体的幻想,任何事情一键生成。
但对于相对复杂的任务而言,或许智能体本就不应该完全独立。衡量智能体的标准或许不在于它能够一键完成多少不同种类的任务,而是它是否懂得如何与(不同)人配合完成任务。
智能体需要懂事,更需要懂你。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-05-09
2024-07-23
2024-07-07
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-12-29