支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI Agent大爆发:谁能成为你的首选“超级助手”?

发布日期:2025-05-28 06:54:06 浏览次数: 1574 作者:码上开车TT
推荐语

AI智能代理正重塑未来工作模式,探索2025年Agent元年的超级助手。

核心内容:
1. 2025年作为Agent发展的关键年份,引领AI助理和自动化生产力工具的全新变革
2. 代表性Agent产品:Operator、Deep Research、Manus,及其对行业的影响和应用
3. Agent技术如何结合大语言模型,实现自动化任务执行和提高人机协作效率

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

2025年被普遍视为Agent的元年,在今年可以看到各种各样的Agent如雨后春笋般冒了出来,全面刷新了人们对AI助理和自动化生产力工具的认知。回顾去年至今,有几款极具代表性的Agent产品。


1. OpenAI在今年一月份发布了第一款Agent产品Operator


Operator是一款能够自主操作浏览器完成任务的AI智能代理,在浏览器中Operator agent可以像人类一样通过输入、点击和滚动等方式与网页交互,无需依赖定制API集成。它可以实现在Instacart上自动化在线订餐、购物。


2. 紧接着二月份,OpenAI发布Deep Rearch


Deep Research是专为金融、科学、政策、工程等领域的深度研究设计的AI Agent,提供全面、精准的研究支持,旨在解决高强度知识工作的需求。OpenAI 号称 5-30分钟,能出一份专家级别的调研报


3. 3月份,一款名为ManusAgent产品在社交媒体上引发热议

Manus专注于复杂任务的自动化拆解和高效执行。它结合了大语言模型与多类型智能代理,支持完整的“任务规划—分配—执行—结果汇总”流程。用户只需一句自然语言指令,Manus会自动细化任务、调用浏览器、搜索、编程等多种智能Agent完成所有子任务,并输出结构化结果报告。它的内测邀请码一码难求,甚至被炒至数万元。


那什么是Agent一个最简单清晰的定义:


基于大语言模型,能够根据实时环境反馈,主动使用各种工具自主完成任务的智能产品。


大语言模型(LLM)本质上在语义理解和文本生成方面展现出强大的能力,但它自身却存在诸多局限。例如,LLM只能对文本输入做出响应,却无法行动”——也就是说,它不能自主地去执行操作或与外部环境交互。这使得用户在与LLM协作时,往往只能获得静态的文本输出,而无法直接推动任务的自动化或闭环处理。


Agent 的出现,则为 LLM 增加了一层脚手架”——相当于赋予了其自主行动的能力。通过和各类工具、API 或环境整合,Agent 能够将LLM 的理解和决策能力延展到实际操作的层面,实现感知思考行动的闭环。换句话说,Agent 不但能基于自然语言与用户沟通,还可以自动执行后续步骤,极大提高了人机协作的效率和智能化水平。

我举几个简单的例子:


1. 代码生成领域,典型如Cursor、Winserf

LLM可以根据用户输入的prompt自动生成代码,但是它无法运行、调试代码,用户必须手动将代码粘贴到IDE环境,运行后再将报错信息给到LLMLLM修改后再重新继续上面的流程,整个过程非常的繁琐,如此反复操作,过程冗长、繁琐。而像CursorWindsurf 等辅助编程的 Agent,则很好地解决了这些痛点。它们不仅能自动生成、执行和调试代码,碰到问题还会自主迭代修正,实现了全流程自动化,让开发者只需要关注核心需求,显著提高开发效率。


2. PPT生成领域,典型如Gamma


LLM本身是可以生成PPT,但是如果要生成一个符合我们要求的PPT还是非常难的,首先LLM输出的内容主要是需要的长文本,非法按照内容进行结构化,并映射到幻灯片,并且无法生成图表,模板也比较单一,在对PPT修改的也需要反复追加prompt

Gamma是一个基于LLM的内容创作与可视化工具,Gamma 允许用户只需用一句话或者简单的文本描述,就能一键生成结构化的演示文稿、报告、网页等内容。他在chatgpt基础上集成了数据可视化工具,能够根据文本生成图表,并且自研了智能排版的引擎,自动进行内容分块、分组、页面划分和美观排列,背后可能调用 Web 前端UI布局引擎或自研的排版算法,对内容智能设计。 并且内置大量模板、配色和风格主题,用户选用即可一键切换,涉及模板检索和渲染逻辑。


从上面两个例子,我们可以看出来,目前市场主流的agent的基本是GPT基座+自动场景工作流+界面/交互优化,可以理解为在GPT基础上套壳(套壳指的是在 GPT 模型的基础上,通过定制化的 prompt 以及固定的代码流程和工具来实现某功能)


3. 再来看一下Manus


Manus的核心流程大概分为以下几个步骤:


  • 任务规划:使用Claude 3.7等高级LLM接收用户问题并规划出详细的ToDo List。例如,用户输入“帮我分析并总结最近AI领域的热点趋势,系统会自动细分为收集最新AI相关新闻、检索相关论文、归纳主要观点、撰写趋势报告等子任务。


  • 任务分发:之后, Manus 会通过更轻量级的大模型,智能判断每个子任务应由哪一个专业代理(agent)来处理。比如,数据收集任务可以分配给浏览器操作代理,代码分析任务交给编程代理,信息检索任务分配给搜索API代理,实现任务的自动化与最优分配。


  • 执行代理:各个子任务由对应的智能代理自动执行。Manus 当前主要依赖三类核心代理:


  • 浏览器操作代理(可模拟人工网页浏览和操作,类似 Operator


  • 搜索API调用代理(快速检索并调用网络信息)


  • 编写代码的代理(自动生成、调试、运行代码,处理相关的技术任务)



  • 结果汇总:当子任务完成后,任务汇总生成器(估计用的也是Claude)读取ToDo List和各子任务结果,整合为最终输出,并生成不同格式的文档。


看到这里,我们心里应该有一个疑问,向manusgamma这类Agent的护城河到底在哪里?是不是被大模型厂商一升级或者更多竞品一上线就很容易被取代?


 Agent 的核心护城河并不是单纯的底层模型和通用技术,真正决定其竞争力的是产品体验用户心智。这些优秀的 Agent 产品能够在短时间内积累用户,最关键的原因其实是它们围绕实际需求构建出了高效、顺畅、创新的体验流程,用智能化手段解决了 LLM(大语言模型)本身难以搞定的最后一公里难题。例如,Manus 实现了复杂任务的自动化拆解和多Agent协作,Gamma 则极大降低了内容结构化与可视化转换的门槛。


更进一步地讲,护城河还体现在产品团队对于需求的深刻洞察和对细节的不懈打磨。持续根据用户反馈快速迭代、优化流程,建立起独特的交互范式和服务生态,这些都是后发竞争对手很难短期追赶的。


就像微信等国民级应用,真正把用户“粘”在平台上的未必是最前沿的底层技术,而是极致的产品体验、丰富的生态和牢固的用户习惯。而 Agent 产品在不断完善自身使用流程的过程中,也在逐步构筑起属于自己的高门槛——谁能率先抢占用户心智、塑造行业范式,谁就能在AI新浪潮下成为入口级品牌。


所以,技术进步当然重要,但更深的护城河,往往蕴含在“用得爽”、“效率高”、“能解决实际问题”这些产品体验里。只有不断根据用户需求优化和自我进化,才能真正实现竞争壁垒的积累和品牌价值的沉淀。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询