微信扫码
添加专属顾问
我要投稿
GPT-5编程能力迎来重大突破,或将彻底改变软件开发行业格局。 核心内容: 1. GPT-5在软件工程领域的显著性能提升 2. 与竞争对手Anthropic模型的直接对比表现 3. 自动化编程对AI行业发展的战略意义
据 The Information 报道,OpenAI 的 GPT-5 即将到来,而且早期反馈相当积极。
至少有一位使用过这个未发布版本的人给出了极其正面的评价。
这对 OpenAI 来说是个好消息。
自从去年 11 月OpenAI 在「预训练」阶段使用更多计算资源和数据时遭遇收益递减后,这家 ChatGPT 的创造者就一直承受着压力,需要证明其下一个大型 AI 模型能带来重大突破。
OpenAI 尚未明确 GPT-5 何时会在 ChatGPT 和应用开发者客户中发布。但 CEO Sam Altman 已经开始公开谈论他有多享受使用这个未发布版本:
感到一阵眩晕,然后瘫坐在椅子上。
据一位使用过该模型的人士透露,这个模型旨在实现 Altman 的计划——
将传统的「GPT」品牌大型语言模型与公司的「o」系列推理模型整合到一个模型或聊天界面中。
与 Anthropic 的混合 Claude 模型类似,用户很可能能够控制 GPT-5 对某个问题的「思考」程度,而且模型会根据问题的难度自动开启或关闭推理能力。
所以如果你问它「strawberry」这个词里有多少个「r」,即使你已经指示它要深度思考,它也不会浪费大量计算资源去琢磨这个简单问题。
据这位使用者称,与前几代模型相比,GPT-5 在多个领域都表现出了改进,包括硬科学、在用户浏览器上完成任务以及创意写作。
但最显著的提升出现在软件工程领域,这是大型语言模型越来越有利可图的应用场景。
GPT-5 不仅在学术和竞赛编程问题上表现更好,在现实工程师可能处理的更实际的编程任务上也有提升,比如在充满旧代码的大型复杂代码库中进行修改。
这种细微差别一直是 OpenAI 模型过去的短板,也是竞争对手 Anthropic 能够在许多应用开发者客户中保持领先地位的原因之一。
但OpenAI 充分意识到了这个问题,近几个月一直在努力提升其模型的编码能力。
一位使用过 GPT-5 的人表示,在他们测试的直接对比中,GPT-5 的表现优于 Anthropic 的 Claude Sonnet 4。
不过,这只是一个人的看法——
别忘了Anthropic 还有Claude Opus 4,用过的都知道这两货的区别。
OpenAI 能否自动化更难的编码任务并赢得软件开发者客户的青睐,这对其业务及其竞争对手的业务都有重要影响。Cursor 和其他流行的编码助手每年向 Anthropic 支付数亿美元或更多费用,使用其 Claude 模型为编码应用提供支持。这些钱本可以流向 OpenAI。
此前还有道报道称,OpenAI 的领导层如何将自动化编码,特别是实际编程任务的自动化,视为开发通用人工智能的关键组成部分。
总的来说,GPT-5 的强劲表现对 OpenAI 的芯片供应商 Nvidia、建设数据中心的公司,以及那些对 AI 发展轨迹感到担忧的股权或债务投资者来说似乎都是好消息——
尤其是在关于 OpenAI、Google 和其他公司的 AI 模型开发工作时不时遇到困难的报道之后。
但还有几点需要注意。
我们仍不确定 GPT-5 到底是什么。
它可能是一种路由器,根据问题将查询导向语言模型或推理模型,而不是使用一个能够处理两种类型的新开发的单一模型。
在这种情况下,观察 GPT-5 的性能可能无法帮助我们回答这个问题:
通过在预训练过程中扩大计算和数据规模,我们是否会继续看到显著改进?
事实上,我们已经知道,OpenAI 早期想要最终命名为 GPT-5 的语言模型不够好,其中一个被降级为 GPT-4.5 并逐渐淡出。
可能大部分改进将来自推理模型的进步,而不是传统的语言模型,这意味着它们将发生在后训练阶段,即人类专家参与教导模型新技巧的时候。
即使这是真的,许多研究人员表示他们早就预料到预训练模型的改进会放缓。
他们认为改进 AI 模型的真正机会将来自后训练阶段的强化学习。
这涉及「合成数据」,这用来描述模型如何产生大量对困难问题的可能答案,以及引导它们解决这些问题的人类专家。
值得一提的是,据一位投资者透露,OpenAI 高管告诉投资者,他们相信公司可以通过使用目前驱动其模型的结构(或多或少)达到GPT-8。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-26
看完Anthropic内部内部员工是如何用Claude Code,我彻底惊呆了
2025-07-26
在WAIC现场,全球首个拥有「原生记忆力」的大模型亮相,但不是Transformer
2025-07-26
AI Agent 智能体深度解析:技术脉络、架构核心与未来图景
2025-07-26
你的Chrome要被淘汰了?这届AI浏览器想彻底改变你的「上网」方式 | WAIC特别策划
2025-07-26
企业AI落地实践(三):使用 AI 网关解决 AI Agent 与 LLM 的交互挑战
2025-07-26
腾讯CodeBuddy效果到底咋样?我用它1小时搓出一个在线宠物店!
2025-07-26
Anthropic内部实践首次公开:揭秘Claude Code如何引爆全员生产力
2025-07-26
2025年6月关于 AI 的一些想法
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-04-29
2025-06-07
2025-04-29
2025-06-21
2025-07-25
2025-07-24
2025-07-24
2025-07-24
2025-07-23
2025-07-22
2025-07-22
2025-07-21