微信扫码
添加专属顾问
我要投稿
GPT-5发布引发争议,OpenAI高管揭秘商业战略调整背后的真实考量。 核心内容: 1. GPT-5核心技术升级与用户反馈落差 2. OpenAI高管访谈揭示的商业战略转向 3. 模型能力提升与市场变现的平衡之道
GPT-5终于在昨天晚上正式发布。
OpenAI官方宣称,GPT-5实现了“推理集成”,将快速响应与深度推理统一为一站式体验。同时,它在代码生成、创意写作、多模态能力,以及工具使用等多个维度上实现了整合提升。
然而,我们并没有看到GPT-5在前沿指标上取得明显突破。
尽管OpenAI官方强调,他们的开发策略更关注真实使用场景下的实用性、稳定性和体验的一致性,而不是盲目追求高分或刷指标。但从社区反馈来看,用户的反响并不积极。大量用户批评OpenAI在移除旧模型的同时,并未给出令人信服的替代方案,GPT-5无法胜任全部任务,甚至在部分场景中表现退步。
由此引发不少猜测,有人认为OpenAI此举是一种策略调整,或试图借助GPT-5这种相对封闭的模型体系,来推动更强的商业变现。
发布当天,OpenAI的几位核心高管——总裁Greg Brockman、首席财务官Sarah Frier,以及首席研究官Mark Chen,接受了TBPN独家访谈。在访谈中,他们系统地分享了OpenAI当前的商业战略和品牌发展思路,展示了GPT-5背后的思考。
锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇访谈展示了OpenAI当前的商业版图和一些产品战略,或许能帮助我们更好地理解GPT-5困境背后的原因,因此进行了编译整理。
在这次播客访谈中,多位嘉宾首先讨论了GPT-5模型核心技术上的升级方向。其中最引人注目的是“推理集成”能力的提升:GPT-5通过架构改进和优化,使“快速响应”与“深度推理”可以合二为一,成为“一站式”解决方案,不再需要用户来回选择模型。
除了架构上的推理集成,OpenAI也强化了GPT-5的后训练微调和反馈优化。Mark特别提到,OpenAI在GPT-5中投入了巨大的后训练(post-training)工作,团队针对消费级和企业级使用进行了细致打磨。他坦言这是此次升级的重要组成部分,大幅提升了模型对用户有用的程度。
这包括更好的对话微调、对用户反馈信号的学习,以及强化学习(RLHF/RLAIF)的改进等,使GPT-5在可靠性、对齐性上都超越以往模型。
Sarah Frier(OpenAI首席财务官)也佐证了这一点:OpenAI非常注重模型在推理阶段算力上的投入和优化,她指出RL与预训练的界限正变得模糊,两者都有部分重叠,需要战略性地同时加强。
GPT-5在代码能力上的巨大飞跃是其核心升级的另一亮点。
OpenAI联合创始人Greg Brockman指出,GPT-5为软件开发设立了全新的可靠性和实用性标准,尤其在代码生成和调试方面远胜以往。
技术的飞跃最终体现在业务和市场上。OpenAI首席财务官Sarah Frier在访谈中分享了一组令人瞩目的业务数据,揭示了ChatGPT以及GPT-5背后OpenAI的商业版图与基础设施策略。
首先是用户规模的爆发式增长。Sarah透露,ChatGPT目前的每周活跃用户高达7亿人——也就是说,每周都有近7亿人次在使用ChatGPT!这一数字在短短两年内实现(ChatGPT自2022年底推出),充分证明了大模型产品的大众吸引力。
更令人意外的是,Sarah指出OpenAI用户群的地域分布极为广泛,85%的用户位于美国以外。ChatGPT的主要用户大国包括印度、印度尼西亚、巴西、越南、菲律宾等人口大国。这说明ChatGPT已真正成为一个全球性产品,其影响力遍及发达国家和新兴市场。Sarah对此颇为自豪地说:“我们现在谈论的已是不少国家人口的相当比例”。
除了个人用户,企业客户的采用也在迅猛攀升。Sarah透露,OpenAI目前拥有约500万付费的企业席位用户——这些用户来自各行各业,从大型银行、跨国生物科技公司,到中小初创企业都有。要知道,与企业做生意需要克服安全、合规、集成等一系列复杂问题,但OpenAI在ChatGPT推出仅两年多就让这么多企业掏了腰包,实属不易。
Sarah笑称,作为CFO,她每周都要见4-5家客户,许多传统大企业现在主动找上门来洽谈,将ChatGPT/GPT服务引入他们的业务。这表明ChatGPT已不只是个人消费者的新奇玩具,更正在融入企业IT栈。
而从商业变现角度,OpenAI也已经建立起个人订阅 + 企业服务 + API平台三位一体的业务模式:个人有ChatGPT Plus订阅,企业有ChatGPT Enterprise定制方案,开发者则通过API将GPT能力嵌入自己的产品。Sarah强调,消费端、企业端和API端三块业务需要平衡发展,而目前这三方面都呈现出爆炸式增长势头。
谈及国际市场占比,Sarah提供的85%用户在海外的数字十分引人关注。她进一步提到,许多国家政府也在积极拥抱OpenAI技术,甚至进行国家级部署。例如,爱沙尼亚政府已将ChatGPT引入全国所有高中课堂,让学生接触AI助教;英国、挪威等国政府最近也与OpenAI达成合作,在教育、公共服务上全面采用AI工具。
在财务健康指标方面,Sarah分享了OpenAI内部如何看待衡量公司表现。她提到,传统财务指标如收入、利润等(所谓GAAP指标)往往是滞后的,无法指导高速变化的AI业务
因此她更关注输入型指标,例如月活、周活、日活用户数,以及用户使用时长等。“我们的使命是让AGI惠及全人类,”Sarah说,“那么全世界有多少人真的在用,就是最根本的健康指标。”目前ChatGPT已经可以谈论全球人口的显著百分比,Sarah对此尤为骄傲。同时,她也细心监控用户行为质量指标,比如人均使用时长、对话轮数等,以确保模型带来的是正向价值而非无谓消耗。她举例说,虽然一般来说用户使用时间越长代表粘性越高,但在ChatGPT这里还需要平衡心理健康等因素,不能让AI对话变成令人沉迷上瘾的东西。
在API平台方面,Sarah关注诸如请求延迟、服务弹性等指标,因为开发者需要的是稳定高性能和可预期的成本。她坦言,作为CFO,她甚至希望投资人暂时不要过度关注利润,因为OpenAI当前处于高投入扩张期,应将每一美元利润再投入以赢得未来更大机会。例如,在算力方面,他们必须提前2-3年规划部署,否则等真正需求爆发时再建数据中心就来不及了。
她直言,OpenAI目前依然可能保持一定时期的账面亏损,因为战略上必须优先争取市场和技术领先。不过,由于ChatGPT商业化进展超出预期,OpenAI的营收增长相当迅猛,因此亏损状态可能也比预想更快扭转。总之,Sarah希望投资界用一种更长远的眼光来看OpenAI——就像互联网和铁路时代的拓荒公司一样,在巨大机会面前,适度容忍短期亏损是值得的。
说到算力扩容计划和融资节奏,Sarah提供了不少信息。她证实OpenAI最近刚完成一轮由软银领投的巨额融资,总额达400亿美元。这笔融资“大大增强了我们推进大型算力项目的信心”。
拿到钱后,OpenAI立刻宣布了与甲骨文(Oracle)的超大规模云基础设施合作,并继续与微软、CoreWeave、NVIDIA等供应链伙伴深化关系。Sarah解释,现在AI领域的算力需求之大“超乎过往任何产业”,投资人也越来越认清这是“世代级别的机会”。因此OpenAI的估值才能随着营收同步腾飞,让他们能以相对较小稀释融入巨额资金,用于前置采购算力。
当然,她也坦言不能永远只靠股权融资烧钱,OpenAI会逐渐考虑更多元的融资手段,比如债务融资、合作分成等,以降低资本成本。此外,OpenAI还探索与供应链伙伴建立更紧密的风险共担关系——因为OpenAI的发展也意味着云厂商和芯片厂商的成功,所以未来可能出现一些创新的算力投资合作模式。
在选择算力合作伙伴时,Sarah强调“规模和弹性”是关键:OpenAI需要的是能够一下子提供百万核心级规模、并且能根据需求弹性扩展的伙伴。小型数据中心哪怕效率再高,对OpenAI这种体量也无济于事。
他们更青睐像微软、甲骨文这样起步就有几十兆瓦机房并且能快速翻倍扩容的厂商。Sarah举例说,Oracle最初在德州Abilene为OpenAI建了一个“大”数据中心,后来证明远远不够,Oracle迅速扩展到多个站点联网,这种持续扩张能力正是OpenAI需要的。
此外,地理分布也很重要。ChatGPT用户遍布全球,OpenAI正考虑在世界各地布局推理中心,以降低延迟、提升体验。他们已经与挪威、英国政府宣布合作,计划建立本地的AI基础设施。这也是OpenAI拓展国际市场、融入各国数字战略的一部分。
总体而言,OpenAI在商业和基础设施上的策略可以总结为:不计前期成本争取规模先发,借助强大资本支持大举扩张算力,并深入全球市场建立护城河。
Sarah用几个比喻强调了这一点:有人把AI的意义比作互联网或铁路革命,但她认为甚至超过以往所有浪潮。既如此,OpenAI就必须以互联网/铁路级的手笔来规划资源投入。这家公司从当初不得不“花钱雇人来用我们的产品”到如今用户趋之若鹜,从差点为算力发愁到现在手握充裕资金签下巨额云合同,其财务战略与技术战略一样大胆而超前。
最后值得关注的是,访谈中还探讨了开源 vs. 商业模式的有趣话题。主持人问到:既然OpenAI已经意外地成为了ToC消费巨头,将来是否可能有“OpenAI版的Red Hat”,通过支持开源大模型企业部署来盈利?
Sarah回应称,OpenAI最近确实发布了开源模型,并希望看看社区反响。她认为开源的美妙之处在于社区生态的自发生长——正如Linux和Crypto领域所见,开源能催生出繁荣的生态系统。OpenAI乐见其成,并希望在GPT-5推出前就通过开源模型来“播种”社区,让更多开发者参与进来。
至于商业上是否会成为OpenAI新的增长点,Sarah持谨慎乐观态度。但OpenAI未来不排除提供这类服务,就算不是他们自己去做,也会支持他人去做,因为开源生态壮大最终有利于整个AI普及。
在GPT-5发布的讨论中,一个颇具争议的话题是关于基准测试(Benchmarks)和排行榜的。最近社区里出现了一个名为ARC-AGI的榜单,被某些媒体渲染为通向“AGI水平”的考试。根据主持人的描述,在这个ARC-AGI测试上,GPT-5并未取得最高分,grok4 得分稍高。这立即引发了一些围观者的热议,尤其是Elon Musk的追随者们在社交媒体上大肆宣扬,说OpenAI的GPT-5没能“通关终极测试”,而对手模型如何如何优秀。面对这种论调,播客主持人和嘉宾们在节目中集体泼了一盆冷水。他们质疑ARC-AGI榜单本身的意义,并尖锐地批评了AI领域近来的“刷分”现象。
Mark Chen阐述了反对“跑分崇拜”的理由。他提到,有人说“AGI的标准应该是AI能独立运行一年加油站”等等。这个标准听起来很务实,但如果当成benchmark去训,仍可能被“刷”出来。他打了个比方:假如把“经营加油站一年”这个任务设计成一系列评测,模型团队完全可以通过硬编码规则、模拟环境等手段来针对性优化,最终模型也许拿到满分,但离真正接管加油站还差十万八千里。“我不在乎模型有没有考过一个虚构的加油站测验,我在乎的是它能否真的无师自通把加油站经营下来。”
但与此同时,Mark也承认如果客户有特定重要问题,需要模型在那方面达到近乎满分的水准,OpenAI也会考虑投入资源做定向优化。他举了一个例子:OpenAI组建了一个专门团队,在近期让GPT-5参与了一项顶尖编码竞赛(ACT coder),解决优化调度类难题,最终AI系统达到了世界冠军人类选手的水准。
这种战略部署说明,如果一个任务能带来巨大经济价值,他们不介意让AI去“刷”那个任务,把它吃透。但这和盲目追榜单不同——因为在这个案例中,优化调度问题与Uber等企业的实际需求直接相关,解决它就等于创造价值。所以OpenAI乐于定制模型去直接提供经济价值。
随着GPT-5的推出,多智能体成为讨论的热门话题。所谓多代理系统,指由多个AI Agent协作完成复杂任务的框架,被视为通往更强AI能力的关键路径之一。Mark Chen提到,在OpenAI的研究路线图中,“组织型AI(organizational AI)”是顶层目标。这意味着未来的AI可能由多个专门化代理组成一个团队,类似人类公司里不同部门分工合作,一起朝着共同目标努力。相比单一“大脑”独自工作,多代理协作有望更高效,也更接近真实智能的形态。Mark透露,OpenAI非常重视探索这一愿景,试图验证多个智能体配合是否比单一智能体解决问题更有效。
在播客中,几位创业嘉宾分享了多代理系统实际落地的经验,勾勒出这一前沿理念的现实模样。
Factory.ai的联合创始人兼CTO Eno介绍说,他们正构建一个面向大型企业的软件开发平台,核心理念是“Agent驱动的软件开发”。简单来说,就是把智能代理引入软件开发生命周期的每个阶段,不仅写代码,还参与代码审查、维护、事故响应、文档编写等所有环节。
在Factory的设想中,AI代理将承担这些流程中繁琐低效的部分,而人类工程师则提升到更高层次的规划和决策角色,专注于架构设计、工作拆解等。Eno认为,大型企业的软件开发痛点往往不在于写某段代码,而在于协调上千名工程师进行庞大而复杂的项目。例如,把185个代码库迁移到一个新框架,涉及几千开发者,传统咨询公司报价可能高达数亿美元。这类“大迁移、大改造”项目中,人的沟通与管理是瓶颈。如果让AI代理参与规划、自动执行部分迁移任务,则可以极大缓解人力瓶颈,将开发流程自动化、平行化。Factory.ai正是瞄准了这一点,通过Agent来驱动大规模企业开发,实现开发自动化与企业流程重塑。
Vercel的V0开发者在访谈中描述了一个令人惊叹的场景:他们的智能体可以一边编写前端界面代码,一边截取当前界面的截图并进行审视,从而实现闭环的自我检查和改进。例如,开发者对Vzero说“把这个界面改成深色模式”,Vzero最初改动了一些元素但不完全正确。随后,它自动截屏自己生成的界面,发现与期望不符,竟主动纠正了之前的错误,最终成功实现了要求。这种过程中AI代理扮演了设计师和QA的双重角色:既产出方案,又自我审视调整,仿佛一个小型团队在协作。
事实上,V0背后的理念正是将任务拆分给多个虚拟子代理。
这有点像把团队分成了产品经理、设计师、工程师等不同“角色”,各司其职又共同完成任务。在用户看不到的幕后,可能一个Agent负责布局美观,另一个Agent负责代码实现,还有Agent负责检查效果,然后彼此配合迭代。通过这种类人团队的分工,Vzero能够在极短时间内完成以前需要多人协作的开发工作。这正是多代理系统威力的生动写照:AI不仅是单兵作战,更可以组成“AI团队”协同攻关。
Augment Code同样体现了Agent协作的思想。Augment的Guy介绍,他们为大型代码库构建AI助手时,选择自己开发并集成各种工具插件,而不是完全依赖OpenAI提供的现成方案。通过与OpenAI紧密合作调优提示词,他们让Augment里的Agent能无缝调用这些内部工具,从而在用户提出需求后,自动完成信息查询、代码分析、运行测试等工作。
尽管多智能体系统前景诱人,嘉宾们也坦率地讨论了当前的边界与挑战。Factory.ai的Eno提到一个耐人寻味的现象:很多企业尝试AI编程助手时,最初听闻宣传是效率提高5倍、10倍,但实际落地后往往只能提升10%-15%。问题出在哪儿?
Eno认为,这是因为许多团队只是局部地加速了个人开发者,但并没有改变整体开发流程。“要真正发挥Agent的威力,必须对工作流做出相应改变,”他解释道。如果仍然是每个程序员单打独斗,只是用AI来补全代码,效率提升有限。但如果愿意调整流程,让AI代理在全局范围内并行工作、接管一些协作任务,那么效率收益将非线性放大。这意味着企业需要克服文化和流程上的惯性,才能拥抱Agent带来的革命性变化。
此外,即便模型在实验室测试中表现出色,实际部署后仍需观察其幻觉错误率和误报率。例如在代码审查场景,GPT-5如果“想太多”反而可能报告一些不存在的问题,或者在大规模使用时暴露新的不稳定点。这些在真实环境中暴露的问题需要一线开发团队及时反馈给OpenAI,以便持续改进模型。可见,多代理系统要大规模落地,技术之外还有许多工程实践和人因方面的挑战:如何调整团队分工?如何建立人机信任?如何评估AI决策的风险?等等。这些都需要开发者和企业在实践中不断摸索。
OpenAI的联合创始人兼总裁Greg Brockman在访谈中回顾了GPT系列一路走来的技术与产品脉络。作为每代GPT发布的亲历者,Greg用生动的“一句话总结”刻画了GPT-1到GPT-5的发展轨迹:
在GPT-1到GPT-4这四代模型中,每一代的技术演进和应用意义都有一个非常鲜明的主题。
GPT-1是第一个利用Transformer架构做大规模文本预训练的模型。这个阶段,团队最重要的发现就是“预训练模型真的能学到通用的、有用的语言知识”,也能适用于不同的下游任务。这个结果给了团队极大的信心。团队通过GPT-1模型,第一次看到了预训练语言模型的实际效果,也就是Greg所说的“生命迹象”。
GPT-2在参数量和数据量上进行了大幅提升。GPT-2的标志性进步是模型开始能够生成连贯、有趣的文本内容。OpenAI第一次把生成结果放到公众视野,并通过“独角兽故事”等案例,让大家看到AI生成内容的创造力。虽然准确性还不够,但它的表现已经足够引人注目。
GPT-3的最大突破是模型规模的极大提升,使得AI第一次达到“勉强可用”的程度。GPT-3能够完成写作、编程等实际任务。OpenAI也推出了自己的API服务,让外部用户能够尝试模型。这一阶段,团队的目标变成了让模型真正服务于用户,虽然产品在可靠性上还有欠缺。
GPT-4是可靠性提升的里程碑。这个阶段,AI不只是做演示用,而是能实际解决医疗、法律、编程等领域的专业问题。团队把对话式应用作为突破口,推出了ChatGPT。这个产品很快走进了大众生活,彻底验证了通用对话AI的市场需求。GPT-4不再只是技术实验,而是成为了全球数亿人日常用的工具。
纵观这段历史脉络,可以发现OpenAI在技术演进中遵循了清晰的战略三部曲:
第一层,不断扩大模型规模和数据,提升基础语言能力(GPT-1到GPT-3时期);
第二层,引入对齐技术和推理机制,让模型从会生成转向会深度思考和遵循指令(GPT-3.5到GPT-4时期,通过RLHF等后训练实现);
第三层,构建由模型、工具、代理组成的综合智能体系,让AI具备类似人类团队的协作与自主反馈能力(GPT-4.5到GPT-5时期,MCP框架、多代理架构等登场)。
这个三层架构并非OpenAI官方明确划分,但从访谈信息可以概括出:GPT-5背后的系统由基础大模型+推理层(工具使用、自我反思)+代理编排层组成,各层次协同工作,支撑起更加复杂和智能的行为模式。例如,Mark描述了GPT-5如何能够检查自己的输出并迭代改进,比如数手指或校对事实,从而减少用户提示的负担——这就是第二层推理机制在发挥作用。而在更高层,多个GPT-5代理可以通过MCP等系统协调合作,完成单个模型难以胜任的庞大任务(这对应第三层架构)。
这种“三层技术架构”与ChatGPT产品的插件-模型-用户三层也一脉相承,使得OpenAI的AI体系既有大脑,又有工具臂膀,还有群体智慧。
(完)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28