我要投稿

OpenAI AGI来了！ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了

发布日期：2025-07-18 07:39:30 浏览次数： 1565

作者：AI趋势全天候

微信搜一搜，关注“AI趋势全天候”

OpenAI 通用 Agent 发布！ChatGPT 能上手帮你解决 45% 的 excel 表格任务了

朋友们，OpenAI 的通用智能体它来了！

不知道你们有没有经历过这样的崩溃瞬间：

一边在 10 个浏览器标签页里对比酒店价格，一边在微信里和朋友确认着装要求，同时还要在购物 App 里找一件既符合预算又不会撞衫的衣服……最后，大脑 CPU 烧干，只想原地躺平。🫠

策划一场旅行、筹备一个活动、甚至只是完成一个需要多方协调的工作报告，这些“小事”正在不断蚕食我们的时间和精力。我们这些“打工人”常常感叹：如果大脑能直接联网、动手操作就好了！可惜Manus之流更多是假把戏！

就在今晚的 OpenAI 发布会，我感觉这个幻想……好像成真了。

OpenAI 开了一场信息密度极高的发布会，没有花哨的 PPT，直接甩出了他们的“核武器”——ChatGPT Agent。

简单说，就是你熟悉的那个 ChatGPT，现在不仅能“说”，更能“做”了。它长出了自己的“手”和“脚”，拥有了一台它专属的虚拟电脑。

这感觉，就像你给一个绝顶聪明的大脑，配上了一双行动力爆表的手。

不是我夸张，发布会上的那个演示，我看得下巴都快掉了。

第一幕：“婚礼策划”这种地狱级任务，它搞定了！

发布会一开始，OpenAI 的小哥 Josh 就提出了一个世纪难题：“我要和朋友去参加婚礼，需要搞定礼服、礼物和酒店，咋办？”

搁以前，这至少得花掉半个周末的时间吧？

只见他把这个需求一股脑地丢给了 ChatGPT Agent。

然后，神奇的事情发生了……

Agent 的界面上，出现了一个“虚拟电脑屏幕”。它开始自己思考，把任务拆解成小步骤：

1. 先去婚礼的官网，用文本浏览器快速扒下关键信息（时间、地点、着装要求）。
2. 然后打开可视化浏览器，开始在电商网站上为小哥挑选西装，甚至还会根据天气和场地给出建议！
3. 接着，它又跳到 Booking.com，筛选符合要求的酒店，检查空房情况，还把酒店的截图都贴在了报告里！
4. 最后，连送什么礼物，它都给出了好几个中高端的建议。

全程行云流水，人类只需要在旁边泡杯咖啡，静静地看着它表演。

(AILin师傅脑补图：Agent 界面上，浏览器窗口在自动点击、滚动和输入)

这已经不是简单的“搜索”，这是真正的“执行”！它就像一个任劳任怨的实习生，你只需要下达指令，它就能 24 小时待命，帮你搞定一切。

痛点解析：你的数字生活需要一个“总管家”

我们来剖析一下，Agent 到底解决了什么问题？

过去的痛点 😭

信息孤岛：订票在A App，购物在B App，查资料在浏览器，信息来回切换，烦！
重复劳动：每次都要进行类似的搜索、对比、筛选，累！
任务中断：想做一件事，总被各种琐事打断，思路全无。

Agent 的解决方案 😎

统一入口：所有需求都告诉 Agent，它自己去不同平台操作。
自主规划执行：你给一个模糊的目标，它能自己拆解任务，一步步完成。
全程可控：你随时可以“打断”它，给它补充新指令，甚至亲自“接管”它的鼠标键盘。

就像在婚礼策划任务进行到一半时，团队小哥突然说：“哦对了，我还需要一双 9.5 码的黑皮鞋。”

Agent 立刻回应：“收到！我这就把‘买鞋’加入任务列表。”

这种感觉……太丝滑了！它不再是一个冰冷的工具，而是一个可以随时沟通、协作的“数字伙伴”。

ChatGPT Agent人机协作设计

协作特性

双向沟通：Agent可主动询问澄清问题，用户可随时中断指导
确认机制：重要操作前会请求用户确认（如发送邮件前检查草稿）
接管模式：用户可直接控制浏览器环境进行修正

错误处理

强化学习训练包含自我审查和结果优化
支持用户实时纠正和重新指导

第二幕：它不仅会办事，还会做 PPT 和贴纸！

你以为它只是个生活小助手？格局小了，兄弟们。

发布会的第二个演示，直接把打工人的 DNA 给震动了。

“嘿 Agent，帮我们团队设计一款超酷的贴纸，用我们可爱的吉祥物狗狗，然后去 Sticker Mule 上订 500 张。”

Agent 收到指令后，先是调用了 Imagen API，唰唰唰生成了好几张动漫风的狗狗艺术图。然后，它熟练地打开了 Sticker Mule 网站，上传图片、选择尺寸、填写数量、加入购物车……一气呵成！

(AILin师傅脑补图：Agent 自动在电商网站上下单的全过程)

而最“元”（Meta）的，是他们让 Agent 自己去分析自己的评测数据，然后……做成一个 PowerPoint 汇报！

它自己连接 Google Drive，读取数据文件，调用代码解释器分析数据，再用图像生成工具配上图表和装饰，最后生成一个可以直接下载的 .pptx 文件。

我的老天鹅，以后是不是可以对老板说：“报告让我的 AI 助理去写了，您稍等。”职场内卷，即将进入新纪元？

智能基准测试 (Intelligence Benchmarks)是用来衡量模型的核心“智商”和推理能力。人类最后的考试Agent 在工具的辅助下，性能几乎翻倍，达到 42%。Frontier MMLU更是取得取得了 27% 的新SOTA（业界最佳）成绩。

作为“智能体”在网络环境中执行任务的实际能力的智能体专属基准测试 (Agentic Benchmarks)，

不管是WebArena（衡量网页智能体解决真实世界网络任务（如预订、购物）能力的基准）还是

RustComp（衡量浏览智能体搜索和定位信息能力的基准）都优于它的两个前辈。

在更贴近用户的实际工作场景——真实世界应用基准测试 (Real-World Application benchmarks）中，

SpreadsheetBench（衡量模型编辑和处理真实世界电子表格能力的基准）：Agent 能够解决 30% 的任务，而在获得原始 Excel 文件和终端的访问权限后，性能进一步提升至 45%。
内部投行基准 (Internal Banking Benchmark)：评估模型执行一至三年级投行分析师任务（如制作财务模型）的能力。ChatGPT agent 显著优于之前的 Deep Research 和 o3 模型。

这三个大脑合体有点炸裂，发布会中提到，该模型是OpenAI训练过的最强大的模型之一。它不仅在基准测试上表现出色，而且其推理、浏览和处理真实世界任务的能力，达到了OpenAI三个月前无法想象的水平。

（来源：https://www.cs.cmu.edu/~zhiqings/）

我还发现一个有一点，这Agent 测评部分是由一位本科北大的研究员孙之清介绍的，博士导师是卡内基梅隆大学（CMU）计算机科学领域的知名教授。杨一明（Yiming Yang）。24 年 6 月加入 OpenAI，而今年 2 月份取得博士学位，毕业论文题目是《大规模语言模型的可扩展对齐，以追求真理、复杂推理和人类价值观》。可以说，上个班随便把博士学位拿了吗？