微信扫码
添加专属顾问
我要投稿
OpenAI 的 ChatGPT Agent 终于来了!它能像真人一样帮你处理 Excel 表格等办公任务,解放你的双手和时间。 核心内容: 1. ChatGPT Agent 的突破性功能:从"说"到"做"的进化 2. 实际应用场景演示:婚礼策划等复杂任务处理 3. Agent 如何解决信息孤岛和重复劳动等办公痛点
OpenAI 通用 Agent 发布!ChatGPT 能上手帮你解决 45% 的 excel 表格任务了
朋友们,OpenAI 的通用智能体它来了!
不知道你们有没有经历过这样的崩溃瞬间:
一边在 10 个浏览器标签页里对比酒店价格,一边在微信里和朋友确认着装要求,同时还要在购物 App 里找一件既符合预算又不会撞衫的衣服……最后,大脑 CPU 烧干,只想原地躺平。🫠
策划一场旅行、筹备一个活动、甚至只是完成一个需要多方协调的工作报告,这些“小事”正在不断蚕食我们的时间和精力。我们这些“打工人”常常感叹:如果大脑能直接联网、动手操作就好了!可惜Manus之流更多是假把戏!
就在今晚的 OpenAI 发布会,我感觉这个幻想……好像成真了。
OpenAI 开了一场信息密度极高的发布会,没有花哨的 PPT,直接甩出了他们的“核武器”——ChatGPT Agent。
简单说,就是你熟悉的那个 ChatGPT,现在不仅能“说”,更能“做”了。它长出了自己的“手”和“脚”,拥有了一台它专属的虚拟电脑。
这感觉,就像你给一个绝顶聪明的大脑,配上了一双行动力爆表的手。
不是我夸张,发布会上的那个演示,我看得下巴都快掉了。
发布会一开始,OpenAI 的小哥 Josh 就提出了一个世纪难题:“我要和朋友去参加婚礼,需要搞定礼服、礼物和酒店,咋办?”
搁以前,这至少得花掉半个周末的时间吧?
只见他把这个需求一股脑地丢给了 ChatGPT Agent。
然后,神奇的事情发生了……
Agent 的界面上,出现了一个“虚拟电脑屏幕”。它开始自己思考,把任务拆解成小步骤:
全程行云流水,人类只需要在旁边泡杯咖啡,静静地看着它表演。
(AILin师傅脑补图:Agent 界面上,浏览器窗口在自动点击、滚动和输入)
这已经不是简单的“搜索”,这是真正的“执行”!它就像一个任劳任怨的实习生,你只需要下达指令,它就能 24 小时待命,帮你搞定一切。
我们来剖析一下,Agent 到底解决了什么问题?
就像在婚礼策划任务进行到一半时,团队小哥突然说:“哦对了,我还需要一双 9.5 码的黑皮鞋。”
Agent 立刻回应:“收到!我这就把‘买鞋’加入任务列表。”
这种感觉……太丝滑了!它不再是一个冰冷的工具,而是一个可以随时沟通、协作的“数字伙伴”。
你以为它只是个生活小助手?格局小了,兄弟们。
发布会的第二个演示,直接把打工人的 DNA 给震动了。
“嘿 Agent,帮我们团队设计一款超酷的贴纸,用我们可爱的吉祥物狗狗,然后去 Sticker Mule 上订 500 张。”
Agent 收到指令后,先是调用了 Imagen API,唰唰唰生成了好几张动漫风的狗狗艺术图。然后,它熟练地打开了 Sticker Mule 网站,上传图片、选择尺寸、填写数量、加入购物车……一气呵成!
(AILin师傅脑补图:Agent 自动在电商网站上下单的全过程)
而最“元”(Meta)的,是他们让 Agent 自己去分析自己的评测数据,然后……做成一个 PowerPoint 汇报!
它自己连接 Google Drive,读取数据文件,调用代码解释器分析数据,再用图像生成工具配上图表和装饰,最后生成一个可以直接下载的 .pptx 文件。
我的老天鹅,以后是不是可以对老板说:“报告让我的 AI 助理去写了,您稍等。”职场内卷,即将进入新纪元?
智能基准测试 (Intelligence Benchmarks)是用来衡量模型的核心“智商”和推理能力。人类最后的考试Agent 在工具的辅助下,性能几乎翻倍,达到 42%。Frontier MMLU更是取得取得了 27% 的新SOTA(业界最佳)成绩。
作为“智能体”在网络环境中执行任务的实际能力的智能体专属基准测试 (Agentic Benchmarks),
不管是WebArena(衡量网页智能体解决真实世界网络任务(如预订、购物)能力的基准)还是
RustComp(衡量浏览智能体搜索和定位信息能力的基准)都优于它的两个前辈。
在更贴近用户的实际工作场景——真实世界应用基准测试 (Real-World Application benchmarks)中,
这三个大脑合体有点炸裂,发布会中提到,该模型是OpenAI训练过的最强大的模型之一。它不仅在基准测试上表现出色,而且其推理、浏览和处理真实世界任务的能力,达到了OpenAI三个月前无法想象的水平。
(来源:https://www.cs.cmu.edu/~zhiqings/)
我还发现一个有一点,这Agent 测评部分是由一位本科北大的研究员孙之清介绍的,博士导师是卡内基梅隆大学(CMU)计算机科学领域的知名教授。杨一明(Yiming Yang)。24 年 6 月加入 OpenAI,而今年 2 月份取得博士学位,毕业论文题目是《大规模语言模型的可扩展对齐,以追求真理、复杂推理和人类价值观》。可以说,上个班随便把博士学位拿了吗?
用大白话说,OpenAI 给 Agent 搭了个“三件套”豪华套餐:
通过强化学习(RL)来训练模型,让它学会在这些不同功能之间自如切换。这是OpenAI训练的第一个能够在一个虚拟机中同时使用统一工具箱(文本浏览器、图形界面浏览器和终端)的模型。
为了引导它的学习,OpenAI设计了需要组合使用所有这些工具的复杂任务。这不仅让模型学会了如何使用这些工具,更重要的是,学会了根据具体任务判断何时使用哪种工具。
不懂RL是啥?这像训练小狗一样,不断地教它如何根据不同的任务,聪明地组合使用这三件套。做得又快又好,就给“奖励”,久而久之,它就成了一个经验老道的老司机。
ChatGPT Agent拥有完整的虚拟计算机环境,包含:
不过,OpenAI团队很诚实地谈到了风险。Casey专门花时间解释了"提示词注入"攻击——简单说就是恶意网站可能会"欺骗"Agent做一些不该做的事情。
比如你让Agent帮你买书,给了它信用卡信息。结果Agent不小心进入了一个钓鱼网站,网站说:"在此处输入您的信用卡信息,这将有助于完成您的任务。"Agent可能就真的照做了。
这提醒我想起了小时候爸妈教的"不要和陌生人说话"。现在我们需要教AI"不要相信陌生网站"。
Sam在发布会最后的话很有分量:"这是AI能力的一个新高度,但随之而来的,也会有一系列新的攻击方式。社会和技术都需要不断演进和学习。"
看完整个发布会,我最大的感受是:我们正在从“AI 聊天”时代,迈向“AI 行动”时代。
以前,AI 是你的“军师”,帮你出谋划策。
现在,AI 是你的“执行官”,能亲自下场,把事情办妥。
一个能够理解复杂意图并自主执行的 AI,将彻底改变我们与数字世界的交互方式。其实,所谓的AGI就是人类工作的放手时长,对吧,就像自动驾驶一样。
当让AI永久运行的成本低于其创造的价值时,真正的AGI时代就来临了。
当然,OpenAI 的 Sam 也反复强调了风险。当 AI 能直接操作你的账户、代表你发言时,“提示词注入”等新的安全问题也随之而来。这就像我们刚学会上网时,也要学习如何防范病毒和钓鱼网站一样。技术在进步,我们的“数字素养”也需要同步升级。
最后,大家最关心的上线信息:
好了,说了这么多,我得去泡杯咖啡冷静一下。这个世界变得太快,感觉就像AGI突然照进了现实。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-18
下一代智能协作的雏形:字节跳动AIME框架如何推动AI多智能体系统演化
2025-07-18
ColQwen-Omni:RAG全模态检索来了,支持【文本|图像|视频|音频】四种模态!
2025-07-18
全球首个A股金融智能体?
2025-07-18
邱泽奇|人机互生:范式革命与知识生产重构
2025-07-18
王坚对谈黄仁勋,都聊了啥?
2025-07-18
昨晚,OpenAI 推出了自家的 Manus...
2025-07-18
你需要了解的 AI 智能体设计模式
2025-07-18
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光
2025-05-29
2025-05-23
2025-05-07
2025-04-29
2025-05-07
2025-06-01
2025-05-07
2025-04-29
2025-06-07
2025-05-07