我要投稿

GPT-5 最强大的，是编程

发布日期：2025-07-26 04:53:01 浏览次数： 2398

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

据 The Information 报道，OpenAI 的 GPT-5 即将到来，而且早期反馈相当积极。

至少有一位使用过这个未发布版本的人给出了极其正面的评价。

这对 OpenAI 来说是个好消息。

自从去年 11 月OpenAI 在「预训练」阶段使用更多计算资源和数据时遭遇收益递减后，这家 ChatGPT 的创造者就一直承受着压力，需要证明其下一个大型 AI 模型能带来重大突破。

OpenAI 尚未明确 GPT-5 何时会在 ChatGPT 和应用开发者客户中发布。但 CEO Sam Altman 已经开始公开谈论他有多享受使用这个未发布版本：

感到一阵眩晕，然后瘫坐在椅子上。

据一位使用过该模型的人士透露，这个模型旨在实现 Altman 的计划——

将传统的「GPT」品牌大型语言模型与公司的「o」系列推理模型整合到一个模型或聊天界面中。

与 Anthropic 的混合 Claude 模型类似，用户很可能能够控制 GPT-5 对某个问题的「思考」程度，而且模型会根据问题的难度自动开启或关闭推理能力。

所以如果你问它「strawberry」这个词里有多少个「r」，即使你已经指示它要深度思考，它也不会浪费大量计算资源去琢磨这个简单问题。

据这位使用者称，与前几代模型相比，GPT-5 在多个领域都表现出了改进，包括硬科学、在用户浏览器上完成任务以及创意写作。

但最显著的提升出现在软件工程领域，这是大型语言模型越来越有利可图的应用场景。

GPT-5 不仅在学术和竞赛编程问题上表现更好，在现实工程师可能处理的更实际的编程任务上也有提升，比如在充满旧代码的大型复杂代码库中进行修改。

这种细微差别一直是 OpenAI 模型过去的短板，也是竞争对手 Anthropic 能够在许多应用开发者客户中保持领先地位的原因之一。

但OpenAI 充分意识到了这个问题，近几个月一直在努力提升其模型的编码能力。

一位使用过 GPT-5 的人表示，在他们测试的直接对比中，GPT-5 的表现优于 Anthropic 的 Claude Sonnet 4。

不过，这只是一个人的看法——

别忘了Anthropic 还有Claude Opus 4，用过的都知道这两货的区别。

OpenAI 能否自动化更难的编码任务并赢得软件开发者客户的青睐，这对其业务及其竞争对手的业务都有重要影响。Cursor 和其他流行的编码助手每年向 Anthropic 支付数亿美元或更多费用，使用其 Claude 模型为编码应用提供支持。这些钱本可以流向 OpenAI。

此前还有道报道称，OpenAI 的领导层如何将自动化编码，特别是实际编程任务的自动化，视为开发通用人工智能的关键组成部分。

总的来说，GPT-5 的强劲表现对 OpenAI 的芯片供应商 Nvidia、建设数据中心的公司，以及那些对 AI 发展轨迹感到担忧的股权或债务投资者来说似乎都是好消息——

尤其是在关于 OpenAI、Google 和其他公司的 AI 模型开发工作时不时遇到困难的报道之后。

但还有几点需要注意。

我们仍不确定 GPT-5 到底是什么。

它可能是一种路由器，根据问题将查询导向语言模型或推理模型，而不是使用一个能够处理两种类型的新开发的单一模型。

在这种情况下，观察 GPT-5 的性能可能无法帮助我们回答这个问题：

通过在预训练过程中扩大计算和数据规模，我们是否会继续看到显著改进？

事实上，我们已经知道，OpenAI 早期想要最终命名为 GPT-5 的语言模型不够好，其中一个被降级为 GPT-4.5 并逐渐淡出。

可能大部分改进将来自推理模型的进步，而不是传统的语言模型，这意味着它们将发生在后训练阶段，即人类专家参与教导模型新技巧的时候。

即使这是真的，许多研究人员表示他们早就预料到预训练模型的改进会放缓。

他们认为改进 AI 模型的真正机会将来自后训练阶段的强化学习。

这涉及「合成数据」，这用来描述模型如何产生大量对困难问题的可能答案，以及引导它们解决这些问题的人类专家。

值得一提的是，据一位投资者透露，OpenAI 高管告诉投资者，他们相信公司可以通过使用目前驱动其模型的结构（或多或少）达到GPT-8。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

Agent skill 迭代式编写实战

2026-06-12

GPT-5.5和Opus 4.8都搞不定的Bug，被Fable 5一晚上解决

2026-06-12

Codex 大降价要来了，这份官方指南手把手教你高效榨干额度

2026-06-11

GPT-5.6首批实测来了！精准狙击Mythos

2026-06-10

如何利用 Harness “一句话交付产品功能”？

2026-06-10

面向 Agent Skill 的 CLI/SSO 鉴权体系：安全、无感、可追溯

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

更懂你的ChatGPT来了！通过做梦整理记忆，事实准确率83%

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw