免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-5 不是技术新范式,是 OpenAI 加速产品化的战略拐点

发布日期:2025-08-12 21:27:07 浏览次数: 1518
作者:海外独角兽

微信搜一搜,关注“海外独角兽”

推荐语

OpenAI战略转型的关键一步:GPT-5标志着从技术实验室到产品公司的蜕变,带来更实用的生产力工具升级。

核心内容:
1. GPT-5作为产品升级:Routing能力统一产品线,UX交互革新
2. 能力提升重点:Vibe coding和Reasoning效率的实用性突破
3. OpenAI的战略转变:从AGI研究转向规模化产品平台

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


作者:Cage, GPT-5





Insight 01

如何评价 OpenAI,决定了如何评价 GPT-5


如果把 OpenAI 当作已经成功破圈的 10 亿 MAU 大众产品公司:


 GPT-5是一次 ChatGPT 产品的重要升级。Routing 能力的加入帮助 ChatGPT 模型第一次把产品线捋顺统一,是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线,短期用户可能被迫适应 GPT-5 这个旗舰产品的优缺点,但长期更容易占领用户心智。


GPT-5 的模型能力强调实用性和生产力,标志着 ChatGPT 产品正在从 “朋友”走向“助手”。Vibe coding 的能力相比前代模型大幅度提升,reasoning model 也变得更可靠、高效。


• GPT-5 引导着 AI 推理的算力需求继续增加。一旦推动更多普通用户、非技术企业的使用习惯向 reasoning model + vibe coding 迁移,会出现更多高 token cost 的推理任务。


如果仍把 OpenAI 看作“追逐 AGI 技术范式的实验室”:


 这次发布看不到明确的范式升级,也没有解锁更高经济价值的新任务类型。


 Router 没有内化到同一个模型中,这个进度有些低于预期。Scaling Law 告诉我们模块化系统的智能程度一定不如端到端模型。


• 对 SOTA 模型做 vibe check 需要更长时间的体验和观察,去多维度、高频交互,就像结识了一个新朋友。未来一定有初创公司基于 GPT-5 降本、解锁新场景,这部分影响需要时间与规模化验证。


这两个视角差异的背后其实是 OpenAI 在最近一年的蜕变:ChatGPT 是 To C 最好的智能产品品牌,他们正在从一个 research lab 公司转变为一个产品平台公司。近半年 ChatGPT 的增速显著加快、用户使用习惯开始泛化、使用粘性也开始增加,这代表着产品开始逃离传统增长困境的引力(escape velocity)、真正破圈走向大众,有了下一个 Google 的影子。


因此我们会更希望 OpenAI 作为产品公司的视角来评价 GPT-5。



Insight 02

GPT-5 是精通现有场景的 Everything Model,但不是次世代 Agentic Model


经过这几天的 vibe check,我们能感受到多数场景下,AI 的任务完成度都有一定提升,不是那种“上手即惊艳的智力飞跃”,但是真正解决了许多现实 use case 的卡点


GPT-5 有几个明显的能力提升:


• Vibe coding 提升幅度大;在复杂问题上仍不及 Claude Opus 4.1 / Sonnet 4,但性价比极高,能平替大量基础任务。


• Reasoning 的效率与效果较 o3 明显提升,长上下文 / 工具使用比前代更稳。


• API 支持自定义工具,能定义高灵活度的 tool-use 工具集。


也有一些明显的短板:


 Agentic 能力体感没有明显进步,Claude Code 类 agentic coding 任务明显不如 Claude 4,Deep Research 的表现似乎也略有下降。


GPT-4o 式有“人味”和情感的对话在 GPT-5 上明显减弱,许多用户希望线上长期保留 4o / 4.5。主要原因可能是 routing system 的加入、 hallucanation 的降低还有 coding 数据比例的增加,后文会展开讨论。


• 指令跟随(instruction following) 不如 Claude,尤其在 Cursor 这类环境比较明显,复杂指令中一部分要求容易被忽略。



Insight 03

GPT-5 不是单一模型,而是一个 Router 驱动的系统


Router (路由器)能按用户给的问题复杂度与 prompt 信号,动态选择不同模型的智力水平、思考深度。用户可以说 think harder 来提示 router 用更深度的思考。


Router 本身是个小模型,利用历史用户行为数据(如切换模型的时机、对回答的偏好/正确性)进行训练。随着 GPT-5 用户数据的积累,router 的模型选择能力会很快优化提升上去。


未来 ChatGPT 计划会把 Router 合入同一个模型。目前仍未统一,这一进度是低于预期的。毕竟 Scaling Law 告诉我们 end-to-end model 比 cascade model 更智能。


Routing 系统和用户抱怨的对话体验差相关性挺高,4o 重度用户使用起来容易不习惯:1/ 对于陪伴型用户,同时与多个“人格”对话,可能出现风格不统一;2/ 对于效率型用户,复杂问题若未被路由到 reasoning model,更容易出现幻觉。


Routing 系统带来的商业影响有些类似 Apple 做手机的路径:只做一款产品,用户需要被迫接受一款单一的产品。但商业上这样有助于把成本优化做到更极致,长期的用户心智更容易占领。这一点明显比 Google Gemini 选择的多产品线(AI Mode, AI Overview, NotebookLM, Project Astra, Project Mariner, ...)并存更好。




Insight 04

下场 API 价格战,价格上对标 Gemini 2.5,做 Claude 4 killer


伴随着 Anthropic API 收入超过 OpenAI 的消息,GPT-5 下场开始打价格战,用性价比挑战 Claude 4 的高端模型定位。



• 旗舰模型价格对比:GPT-5 定价与 Gemini 2.5 Pro 持平,是 Sonnet 4 的一半、Opus 4 的十分之一,比 4o 还便宜。



• 平价模型价格对比: Gemini 2.5 Flash 是 AI Coding 开发者之前最喜欢的平替模型,而 GPT-5 mini 更便宜。




Insight 05

相比 Coding Agent,GPT-5 更适合做 Vibe Coding


24年6月 Claude 3.5 Sonnet 发布以来,Vibe Coding 在这一年成了 AI 能力应用的主航道,OpenAI 终于追上来了。


我们测试和阅读开发者体验后,确信 GPT-5 的 coding 能力确实比前代模型提升很大,但更多是面向 Cursor 这样的 Pair Programming 产品使用,而不是为 Claude Code 这样的 Agentic Coding 产品设计的。


GPT-5 Coding 上的优点是非常适合做 Pair Programmer,在 IDE 中配合进行迭代式开发 / Debug 体验的体验很不错。


对应的缺点就是 GPT-5 还不够适合 Agentic Coding。对比 Claude Code(Opus 4.1),GPT-5 写代码更谨慎,对长代码/长时间执行的任务不够放得开。尽管 GPT-5 在 SWE-Bench 上的成绩为 74.9%,甚至略高于 Claude Opus 4.1 的 74.5%,但我们会认为 GPT-5 目前更像追平 Sonnet 3.7,而非对标 Opus 4.1。


来自 Dan Shipper 的一个测试案例能比较生动地展示这个特点,他要求各个 Coding Model 做一个“地球生态气候系统模拟”的小游戏:


 Gemini 和 o3 完成度很低,基本没跑起来;


 GPT-5 顺利完成了,但是看起来很无趣,更像一个模拟系统,需要用户再去交互、进一步协同修改;



GPT-5 完成的小游戏


 Opus 4.1 one shot 完成了整个任务,并且 gameplay 上明显比 GPT-5 更好,加入了一定的用户 feature 和资源系统


Claude Opus 4.1 完成的小游戏


  (source  https://every.to/vibe-check/gpt-5


相比与 Claude 竞争专业开发者(professional developer)的尖端需求,ChatGPT 可能更适合切入类似 Lovable 的 vibe coding 平台去做泛大众开发者(citizen developer)的 vibe coding 需求。


一个值得思考的问题是:考虑到 ChatGPT 10 亿月活的用户体量,这次是否有机会把 vibe coding 需求推到新的高度?


我们认为OpenAI 其实有机会基于 coding + 用户泛化来做一个生成式软件的平台,这能成为新的 AI workspace 入口。



Insight 06

Reasoning 能力的进步和产品化正在扩散


Sam 在推文中提到普通用户的 reasoning model 使用率正在从不到 1% 提升到 7%,plus 用户从 7% 提升到 24%。传统企业用户使用最多的其实也是 4o 模型,可以给 reasoning model 扩散的空间还很大。



这其中一方面归功于 routing 能力带来的渗透率增加,另一方面值得关注的地方在于,reasoning 能力这次有两个重要进步:不是花哨的前沿解题能力提升,但是在应用中更加使用。


• 幻觉显著优化:早期 o3 的 RL reward hacking 会导致“谎称任务完成/对不确定答案过度自信”。GPT-5 大幅缓解了这一点:在 CharXiv 多模态基准中,把 prompt 里的所有图片移除,o3 在 86.7% 情况下仍“自信回答”并不存在的图片问题,而这一情况在 GPT-5 仅占 9%。



• 推理效率更高:在优于 o3 的同时,token 成本下降 50–80%。API 中也设置了参数可以支持 low / medium / high 三档推理强度(GPT-5 API 中也有 routing 机制,开发者可以选择看到模型 thinking trace)。



Insight 07

Tool use:最有想象力的更新,模型智能进入石器时代?


人类会使用工具,这是人类智能和动物最大的差异。对于机器智能而言,tool use 同样重要,GPT-5 是一个不错的开始。


这次 GPT-5 的发布强调了 tool use 能力的优化:GPT-5 不满足于 get_weather(address) 这类窄工具。它偏好开放式、可组合、以自然语言为输入的工具——能“1+1>2”,像子代理(sub-agent)一样独立理解意图并完成任务。


当我们说工具的时候,通常包含了这样四类:Internal Retrieval(RAG、SQL),Web Search(比前一种检索更开放)、Code Interpreter(沙箱代码执行与数据处理)、Actions(一切对环境产生改变的操作,比如点击 UI、修改文件等)。


过去这几类工具都需要严格的 JSON schema 设计,而 GPT-5 支持了更自由的调用接口,发布中成为 free-form function calling。 这个更新让模型不再强依赖“严格 JSON schema + 精确槽位填充”,而是先给出自然语言级的工具意图(包括基础的工具名/动词/关键参数),由小模型去解析和执行。



另一个重要的更新方向是 Parallel tool calling:这个功能之前在 Claude、Qwen 的技术报告中都涉及过,GPT-5 在智能程度上进了一步,还能判断哪些该并行、哪些该串行,这样未来有机会解锁更长的任务链。


说到这里其实会发现 GPT-5 的 tool use 设计思路比较接近 Claude Code:free-form function calling 类似于一种 subagent 设计,parellel tool calling 也在 Claude Code 中出现过。


本文的大部分篇幅着墨于 GPT-5 在现有任务上是如何成为一个实用、优秀的 everything model,OpenAI 的产品化战略是如何体现在 GPT-5 发布中的。但 OpenAI 长期要保持领先的身位优势,Agentic 能力一定是不能落下的。这次 tool use 是一个不错的探索方向,我们期待 GPT-5 的后续演进上有更多这样的亮点。



排版:夏悦涵

延伸阅读

Default Alive:警惕 AI 公司“亏损死亡螺旋”| AGIX PM Notes


AI 产品定价指南


Chatbot 落幕,企业 LLM 才是 AGI 关键战场|AGIX PM Notes


对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds


Figma:年度最火 IPO,设计与代码生成一体化的最佳选手


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询