支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-5 屠榜式发布,从提示词到智能体能力这六大方面值得关注

发布日期:2025-08-09 08:51:23 浏览次数: 1521
作者:云中江树

微信搜一搜,关注“云中江树”

推荐语

GPT-5震撼发布,六大升级点重新定义AI智能体时代!

核心内容:
1. GPT-5系统架构解析:从单一模型到智能体集群的进化
2. 关键性能突破:80%幻觉率降低与400k上下文支持
3. 编程能力实测:HTML单页应用一键生成演示

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

千呼万唤始出来,GPT-5终于发布!

并且在大模型竞技场直接屠榜式第一。

编程、数学、写作、指令遵循、多轮对话等等测试,还有综合评分,全都是第一名。这成绩确实牛逼。

在Artificial Analysis网站上的评测中也是稳居第一位。

虽然不是OpenAI CEO一直鼓吹的那个实现了AGI的版本,但我今天体验下来,整体的实力还是很赞的。

GPT-5 不只是一个模型!

在聊具体亮点之前,我们先搞清楚一个重要概念:GPT-5不是单纯的一个模型,而是一整个智能体系统

这是个很重要的概念转变:模型正在智能体化,GPT-5就是OpenAI打造的超级智能体。

GPT-5是个统一系统,里面包含了:

  • 一个智能高效的模型来回答大部分问题
  • 一个更深层次的推理模型(GPT-5思考)专门用来解决复杂问题
  • 一个实时路由器,会根据对话类型、复杂度、工具需求,还有你的明确意图(比如你在提示中输入"认真思考这个")来快速决定用哪个模型

换句话说,GPT-5不是一个模型,背后其实是一堆模型,你也可以把它理解成一个智能体。OpenAI把他们所有的模型和能力都整合到了一套系统里,统一叫GPT-5。

这次发布的系统有三个不同规模,适应各种场景需求:GPT-5是旗舰版,还有GPT-5 mini和GPT-5-nano。

https://openai.com/index/introducing-gpt-5/

系统内部各个部分的子模型,基本可以跟之前的模型对应起来看。

https://openai.com/index/gpt-5-system-card/

上下文方面,支持400k输入,最大输出128k。想想GPT-4刚发布的时候,上下文还只支持8k呢。两年半过去了,从8k到400k,直接扩大了50倍。

现在国内的千问、豆包基本也都能做到128k上下文了,Gemini更是达到了1000k。虽然现在上下文长度基本够用了,但长上下文的理解准确度、处理速度这些方面继续提升,肯定是好事儿。相信未来会越来越强。

GPT-5有哪些实际提升?

明白了GPT-5的本质后,咱们再来看看它在实际使用中到底有哪些改进。

01 幻觉率大幅降低 - 说话更靠谱了

AI回复的幻觉率居然降低了80%!

在几个评测集上,直接从o3的5%左右下降到了1%以下。这个提升真的很明显。

看来OpenAI终于找到了一些缓解模型幻觉问题的靠谱解法。

他们在「System Card」里写道:「我们既专注于训练模型有效浏览最新信息,也专注于减少模型依赖自身内部知识时产生的幻觉。」

02 编程能力显著提升 - 你的新码农伙伴

这次发布会,一大半时间都在讲编程能力,官方提供的几个示例确实挺好看的。

可以拿下面这个提示词试试:

在一个HTML文件中创建一个单页应用程序,满足以下要求:
- 名称:跳跃球跑者
- 目标:跳过障碍物,尽可能长时间地生存。
- 特点:增加速度、高分记录、重试按钮,以及动作和事件时的趣味音效。
- 界面应色彩丰富,带有视差滚动背景。
- 角色应看起来像卡通,并且有趣味性。
- 游戏应该让每个人都感到愉快。

我自己试着做了两个前端网页,效果还可以。如果你不太喜欢Claude那种AI味儿,可以试试GPT这种风格,感觉还挺不错的。

从今天大家使用的反馈来看,在编程的精准度还有系统性编程方面,GPT-5是一个不错的全栈工程师!

CodeX CLI工具同步更新

另外,OpenAI的编程工具CodeX CLI也跟着更新了,现在默认就用GPT-5了。

使用方法跟Claude Code差不多,先通过下面这个指令安装,验证完就能用了:

npm install -g @openai/codex

Codex有个挺好的地方,就是还支持其他模型供应商,可以在配置文件里设置。

跟Claude Code一样,直接交互模式运行就行:

codex

或者,你也可以把提示作为输入来运行(还能开启全自动模式):

codex "给我解释一下这个代码库"
codex --approval-mode full-auto "创建一个最炫酷的待办事项应用"

03 智能体能力提升 - 更听话更灵活

Manus首席科学家对这次更新评价很高,他说「GPT-5在我们的内部基准测试中达到了有史以来单模型的最佳表现。」

GPT-5是一个巨大的飞跃。它在我们的内部基准测试中达到了有史以来单模型的最佳表现。GPT-5在各种代理任务中表现出色——甚至在我们对代码进行任何一行调整或定制提示之前。新的引言和更精确的工具使用控制使我们的代理的稳定性和可控性有了显著提升。

https://openai.com/index/introducing-gpt-5-for-developers/

指令遵循更好

简单来说,就是更听话了。

工具调用能力提升

AI 的手脚也更灵活了,操作起来更得心应手。

而且现在还支持自定义工具,这个功能非常实用。

自定义工具的工作方式跟JSON模式驱动的函数工具挺相似的。不过有个区别,就是不用直接向模型提供工具所需输入的明确指令,模型可以把任意字符串当作输入传递给工具。

简单来说,GPT-5现在可以用纯文本调用工具,而不是非得用JSON格式了。

为了让GPT-5按照自定义工具的格式来,开发者可以提供一个正则表达式,甚至是一个更详细的无上下文文法。

上下文无关文法(CFG)其实就是一组规则,用来定义怎么生成特定格式的有效文本。对于自定义工具来说,你可以提供一个CFG,来约束模型的自定义工具文本输入。

参考文档:https://platform.openai.com/docs/guides/function-calling#context-free-grammars

GPT-5怎么用?价格如何?

价格很香 - 性价比提升

GPT-5 在价格方面也给了个惊喜,输入价格只要GPT-4o的一半!

算下来差不多是Claude Sonnet 4价格的1/3了。

非常实惠,性价比很高。

如何使用

要用GPT-5的话,开通GPT Plus就行。好消息是现在plus只要10美元一个月了。

不过有点搞的是,原来的GPT-4o、GPT-4.5都没了...现在就剩GPT-5了。

GPT-5 提示工程指南

OpenAI还专门做了个GPT-5的提示词指南,链接在这儿:

https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

我翻译成了中文:「GPT-5 提示工程指南」在今天次条。

提示词优化器

更贴心的是,OpenAI还为GPT-5专门搞了个提示词优化器。

链接在这里:

https://platform.openai.com/chat/edit?models=gpt-5&optimize=true

我试了试优化后的提示词,嗯嗯,变化不大。

效果貌似还行,让 GPT-5 飞一会儿。

GPT发展史

OpenAI还做了个挺有意思的网站,专门展示从GPT-1到GPT-5整个系列模型的进展,可以说是OpenAI最重要模型的发展史。

链接是:https://progress.openai.com/

时间线梳理一下:2018年发布GPT-1,2019年GPT-2,2021年GPT-3(也就是图中的text-davinci-001,第二年2022年推出了基于GPT的ChatGPT),2023年GPT-4(第一个版本是gpt-4-0314),2025年GPT-5。

对比这些模型对同一个提示词的回答效果,能很明显地看到模型的回答越来越人性化,对事实的把握越来越精准,情感表达也越来越细腻。

写在最后

我们终于迎来了GPT-5时代。

说实话,我原本以为会有GPT-4.7之类的模型,没想到直接跳到GPT-5了。现在看来,GPT-4.5、o1到o4这一系列技术,都是在为GPT-5铺路做准备。

这次体验完,我既没有特别兴奋,也没有失望,就是一种祝福和平静的心态吧。

GPT-5没有那么神,也没有那么差。

AGI实现,还早着呢。也许,是我们太着急了。我们也需要给AI一些时间,让AI飞一会儿。

从GPT-1的青涩稚嫩,到现在GPT-5的日趋成熟,每一次跨越都让我们切身感受到了技术的巨大力量。但同时我也明白,再厉害的模型,我们都得理性看待,毕竟技术是用来解决实际问题的,不是用来制造焦虑的。

谢谢你,OpenAI,把我们带入了AI时代。

也谢谢每一个和我一样,在这个时代里摸索前行的朋友们。

我们一起见证历史,也一起创造未来。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询