微信扫码
添加专属顾问
我要投稿
OpenAI年度发布会重磅升级,Agent平台、Sora API和第三方接入ChatGPT等多项创新功能亮相,重新定义AI交互方式。核心内容: 1. App inside ChatGPT:加强版Plugin系统,支持第三方应用界面集成 2. Agent Kit和Codex正式版发布,提供更强大的开发工具 3. GPT-5 Pro、Sora等API更新,以及未公开的新模型gpt-image
今天是 OpenAI 的年度发布会:
OpenAI Dev Day 2025
10月7日凌晨一点召开,算是国庆献礼
不愧是你:山伟国
按 Sam 的话来说,这场发布会是聚焦于「如何让人更好的用 AI 去创造」,并带来了以下新鲜内容
不过按我的看法,这次的发布,更像是是聚焦于:让开发者去定义「人与 AI 的交互方式」
这里,让我按发布顺序,仔细盘盘。并且,补充一些发布会上没说的内容
可以理解为,这是更加 Plugin 系统的加强版
先说下插件系统,这是 MCP 或者 Function Call 的鼻祖,于 2023年3月14日发布、5月中灰度上线的到了 ChatGPT。通过这个系统,ChatGPT 可以向外部请求数据,比如联网搜索、查询数据库,或者干脆生成一个视频(HeyGen 当时也接入了 Plugin 系统)
后来,这个系统在去年4月9日下线,取而代之的,是大家更熟悉的 GPTs + 自定义 Action
这次的发布,更像是 Plugin 系统的加强版,第三方应用给到的不单单是数据,而且可以是界面
比如说,在之前的 plugin 系统中,用户通过 ChatGPT 让 Canva 去做一个 ppt,那么用户会获得一个链接,点开后打开对应的 Canva 的对应页面,然后继续编辑
在这个过程中,ChatGPT 也可以直接看到对应的东西,方便了不少。你甚至可以直接在 ChatGPT 里播放 Coursera 的课程视频,一边看一边问问题
Zillow 是美国的链家,在 Zillow 地图上点了个房子,问「这离狗狗公园有多远」,它能结合地图上的信息去搜索回答
配合这个发布的,还有一个 Apps SDK。开发者们可以使用这个 SDK 把自己的应用集成到 ChatGPT 里面,获取流量。Apps SDK 基于 MCP 标准构建,如果你已经有 MCP 服务器,只需要加个返回 HTML 的 resource,就能快速升级成完整的 app
这项功能今天就开始 Preview,可以去 OpenAI 平台开始构建,年底会开放正式提交和审核流程,到时候还会有个 app 目录让用户浏览
首批合作伙伴包括 Figma、Canva、Coursera、Spotify、Zillow 等,今天就能用
即将,还会有更多的专业伙伴加入,比如 Uber(美国的滴滴)、Tripadvisor(美国的携程/大众点评)
同时,未来还会支持多种变现方式,包括新的 Agentic Commerce Protocol,帮助开发者完成商业化的闭环
看这个界面,像不像扣子?没错,OpenAI 发布了他们的 Workflow 编辑器
从产品延续的角度,也可以说是 GPTs 的升级版:给 GPTs 加了更复杂的工作流,也能定义输出的形式
对于上面说的「定义输出的形式」,对于这次的 OpenAI 发布会,如果我想做一个指定场景的工具「DevDay 百事通」,除了能像常规 Workflow 编辑器那样上传数据库之外,还可以给它一个样式模板,比如这个:
在这种情况下,我去问它问题:有什么关于 building agents 的分享?
它回复的,便不再是纯文字:“11:15 有一场 Orchestrating Agents at Scale,由 James 和 Rohan 主讲,讲的是如何构建 agents”
而是给你一个卡片:带着会议时间、主讲人、地点
对了,这个 case 是一个叫做 Christina 小姐姐(看着是华裔)在台上现场搓的,累计没用到 8 分钟,流程包括:
对于这套东西,Ramp 团队用 Agent Builder 几小时就搭出了采购 agent,迭代周期缩短了 70%,两个 sprint 就上线了(以前要两个季度)
这套东西,叫做 Agent Kit,包含以下核心组件:
逐个来说说
Agent Builder
可视化编辑工作流,拖拽节点就能搭。左边是常用的构建模块,包括工具(file search、MCP)、guardrails、human-in-the-loop、各种逻辑节点。支持预览运行、内联 eval 配置、完整版本管理。满意了就发布,拿到 workflow ID 直接用
另外,Agent Builder 里可以启用 Guardrails——开源的模块化安全层,能屏蔽或标记 PII、检测越狱攻击等,让 agent 更可靠、更安全
扯个题外话,这东西很像扣子的「开发平台」
Chat Kit
可嵌入的聊天组件,直接集成到你自己的产品里。处理流式响应、管理对话线程、展示模型思考过程这些复杂的事情都帮你搞定。可以自定义品牌、主题、样式。Canva 说他们用 ChatKit 给开发者社区做支持 agent,省了两周时间,集成只花了不到一小时
扯个题外话,这东西很像扣子的「WebSDK」
Evals for Agents
去年发布的 Evals,这次加了四个新能力:
扯个题外话:这东西,很像扣子的「扣子罗盘」
此外,还有个发布会上没提的、也算在这个 kit 里的东西:Connector Registry
这玩意儿就在 ChatGPT 的设置里面,帮你把所有数据源整合到一个管理面板里,横跨 ChatGPT 和 API。
包括预构建的连接器(Dropbox、Google Drive、SharePoint、Microsoft Teams)和第三方 MCP,让企业能统一管理多个工作区和组织的数据
Codex 今天开始,来到了正式版
这东西,5月发布的:Codex 实测:OpenAI 的云端 Coding Agent
上个月,更新了一版GPT‑5-Codex 发布:OpenAI 的 Claude Code
现在的 Codex 用的是 GPT-5 Codex 模型,专门为写代码和 agentic coding 优化的。现在,OpenAI 内部几乎所有新代码都是 Codex 用户写的,用 Codex 的工程师每周多完成 70% 的 PR,基本上每个 PR 都过 Codex review
现在的 Codex 不只是命令行工具了,可以在你的 IDE、终端、GitHub、ChatGPT 账号里都能用,无缝切换
Codex 这东西,还是靠谱的,在现场的工程师小哥 Ramon 做了个炸裂演示:
Ramon 拿了个会场上方的摄像头,让 Codex 写代码控制它。Codex 自己找到了 30 年前的 VISCA 协议文档,写好了控制代码,还做了个控制面板,并且用 XBox 手柄就能控制摄像头
最后来了个大的:用 Real-time API 加语音,控制会场的灯光系统(通过 MCP)
现场对着 ChatGPT 说:“把观众席的灯打亮”,灯就亮了
整个过程,小哥一行代码都没手写,纯口喷
除此之外,Codex 还多了以下俩玩意儿:
Slack Integration:直接在 Slack 里问 Codex 写代码或回答问题,团队协作更方便
Enterprise Control:给企业用的管理工具,包括环境控制、监控、分析仪表板等,让大公司也能放心用
敲黑板,这里是正片
本次发布会,明面上带来了三套模型的 API:
但其实...还发布了他们家的图像生成 API gpt-image-1-mini,低至 0.005 美分一张图。下面,让我来分别说说
GPT-5 Pro API
8 月发布的 GPT-5 Pro,现在开放 API 了
这模型有 400k 上下文,272k 最长输出,适合金融、法律、医疗这种需要高准确度和深度推理的场景。Cursor、Windsurf、Replit 等头部编程工具都在用 GPT-5 系列改变软件开发方式
内部数据:GPT-5 Codex 已经处理了超过 40 万亿 tokens,是 OpenAI 增长最快的模型之一
Sora 2 发布
重头戏来了,Sora 2 API 开放 Preview,分两个版本:
sora-2:快速版,适合快速迭代。几分钟出结果,适合社交媒体、产品原型、概念设计
sora-2-pro:更大更强,渲染时间更长价格更贵,但画质更精致稳定。适合高分辨率电影镜头、营销素材等对视觉精度要求高的场合
价格呢...如下图,一个 15 秒的视频,需要至少 1.5 美金~10.5 人民币
调用的话,代码大概这么写
from openai importOpenAI
openai = OpenAI()
# 生成视频
video = openai.videos.create(
model="sora-2",
prompt="草地公园的广角镜头,孩子放着红色风筝,黄金时刻阳光"
)
# 轮询状态直到完成
while video.statusin ("in_progress", "queued"):
video = openai.videos.retrieve(video.id)
time.sleep(2)
# 下载视频
content = openai.videos.download_content(video.id)
content.write_to_file("video.mp4")
Real-Time Mini
语音模型 Real-Time Mini,比之前的 Advanced Voice 便宜 70%,质量一样
Sam 说他觉得语音会成为人跟 AI 交互的主要方式,所以把价格打下来,让大家都用得起
(Sam:家人们,我把价格打下来了)
这是个画图的新模型,支持图片、文字输入,然后生图,效果挺不错的
模型也分正式版和mini版,价格如下
这次发布会,还有几个很有意思的点:
开场就说现在有 400 万开发者在用 OpenAI,每周 8 亿人用 ChatGPT(没听错,8亿),API 每分钟处理 60 亿 tokens
而在两年前的时候,是 200 万开发者、1 亿用户、3 亿 tokens/分钟。翻了一倍不止
大屏幕上列出了处理过 100 亿、1000 亿、甚至 1 万亿 tokens 的、在现场的开发者名字,全场鼓掌,颇有种「这些才是真正推动未来的人」的仪式感
Sam 提到了一个案例,日本一个 89 岁的退休老人用 ChatGPT 自学编程,做了 11 个 iPhone app,专门给老年人用。这种故事听着就很暖
以及,开场有一句话我很喜欢
"AI has gone from something people build, play with to something people build with every day."
按 Sam 的话说,AI 已经从「大家拿来研究、试验的新鲜玩意儿」,变成了「每天都在用的生产工具」,一切潜移默化,一切顺利应然
OpenAI 会在每年秋天,进行一场面向开发者的发布会,称为 OpenAI DevDay
第一场 DevDay 2023,聚焦于模型能力,于2023年11月6号召开
这场发布会,带来了新模型 GPT‑4 Turbo(有了多模态理解)、JSON Mode(现在的结构化输出)、GPTs(OpenAI 最早的场景 Agent 探索)
提前拿到了 GPTs 权限...前 100 个 GPTs 里,可能有 3 个是我搓的
第二场是 DevDay 2024,聚焦于业务应用,一连开了3场,分别在旧金山(10月1号)、伦敦(10月30号)和新加坡(11月21号)
这系列的发布,带来了 Realtime API、Prompt Cache、蒸馏工具,并预告了 o1 的各项更新(比如:函数调用、开发者消息、结构化输出和图片理解)
发布会送的徽章,还挺好看的
今天是第三场:Dev Day 2025,N 倍扩大了规模,OpenAI 的朋友跟我说,这次来了上千人,人山人海...那乌压压的场面
这次阴差阳错没去成现场(心痛)
老实来说,每次 DevDay 最有意思的,其实不是台上讲了啥,而是散会之后,一群人开始琢磨「我能用这玩意儿搞点什么」
然后大家对着新的 API 文档,在 GitHub 上传着各种项目,并在 Twitter、朋友圈、即刻、小红书上发布着各种 Demo...
这个时代,着实令人赞叹
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-07
少即是多:失败步骤比例才是思维链质量的关键
2025-10-07
Anthropic官方站台,颠覆认知:给模型"松绑",它反而更听话
2025-10-07
OpenAI 刚刚发布了「AI 原生版」抖音,还有 Sora 2
2025-10-07
实测腾讯版Claude Code,能微信登陆,还能用GPT5、Claude4和Gemini 2.5 pro御三家
2025-10-07
OpenAI 开发者大会DevDay 2025发布了什么?
2025-10-07
大开放!OpenAI 开发者日 2025 S开幕主题演讲精要
2025-10-07
看完OpenAI发布会,我悟了:大模型公司正在谋杀AI创业公司
2025-10-07
一文读懂OpenAI DevDay:应用、Agent、代码三连击,勾勒AI商业帝国的统治蓝图
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28
2025-09-27
2025-09-27
2025-09-25