我要投稿

GPT-5 屠榜式发布，从提示词到智能体能力这六大方面值得关注

发布日期：2025-08-09 08:51:23 浏览次数： 3330

作者：云中江树

微信搜一搜，关注“云中江树”

千呼万唤始出来，GPT-5终于发布！

并且在大模型竞技场直接屠榜式第一。

编程、数学、写作、指令遵循、多轮对话等等测试，还有综合评分，全都是第一名。这成绩确实牛逼。

在Artificial Analysis网站上的评测中也是稳居第一位。

虽然不是OpenAI CEO一直鼓吹的那个实现了AGI的版本，但我今天体验下来，整体的实力还是很赞的。

GPT-5 不只是一个模型！

在聊具体亮点之前，我们先搞清楚一个重要概念：GPT-5不是单纯的一个模型，而是一整个智能体系统。

这是个很重要的概念转变：模型正在智能体化，GPT-5就是OpenAI打造的超级智能体。

GPT-5是个统一系统，里面包含了：

一个智能高效的模型来回答大部分问题
一个更深层次的推理模型（GPT-5思考）专门用来解决复杂问题
一个实时路由器，会根据对话类型、复杂度、工具需求，还有你的明确意图（比如你在提示中输入"认真思考这个"）来快速决定用哪个模型

换句话说，GPT-5不是一个模型，背后其实是一堆模型，你也可以把它理解成一个智能体。OpenAI把他们所有的模型和能力都整合到了一套系统里，统一叫GPT-5。

这次发布的系统有三个不同规模，适应各种场景需求：GPT-5是旗舰版，还有GPT-5 mini和GPT-5-nano。

https://openai.com/index/introducing-gpt-5/

系统内部各个部分的子模型，基本可以跟之前的模型对应起来看。

https://openai.com/index/gpt-5-system-card/

上下文方面，支持400k输入，最大输出128k。想想GPT-4刚发布的时候，上下文还只支持8k呢。两年半过去了，从8k到400k，直接扩大了50倍。

现在国内的千问、豆包基本也都能做到128k上下文了，Gemini更是达到了1000k。虽然现在上下文长度基本够用了，但长上下文的理解准确度、处理速度这些方面继续提升，肯定是好事儿。相信未来会越来越强。

GPT-5有哪些实际提升？

明白了GPT-5的本质后，咱们再来看看它在实际使用中到底有哪些改进。

01 幻觉率大幅降低 - 说话更靠谱了

AI回复的幻觉率居然降低了80%！

在几个评测集上，直接从o3的5%左右下降到了1%以下。这个提升真的很明显。

看来OpenAI终于找到了一些缓解模型幻觉问题的靠谱解法。

他们在「System Card」里写道：「我们既专注于训练模型有效浏览最新信息，也专注于减少模型依赖自身内部知识时产生的幻觉。」

02 编程能力显著提升 - 你的新码农伙伴

这次发布会，一大半时间都在讲编程能力，官方提供的几个示例确实挺好看的。

可以拿下面这个提示词试试：

在一个HTML文件中创建一个单页应用程序，满足以下要求：
- 名称：跳跃球跑者
- 目标：跳过障碍物，尽可能长时间地生存。
- 特点：增加速度、高分记录、重试按钮，以及动作和事件时的趣味音效。
- 界面应色彩丰富，带有视差滚动背景。
- 角色应看起来像卡通，并且有趣味性。
- 游戏应该让每个人都感到愉快。

我自己试着做了两个前端网页，效果还可以。如果你不太喜欢Claude那种AI味儿，可以试试GPT这种风格，感觉还挺不错的。

从今天大家使用的反馈来看，在编程的精准度还有系统性编程方面，GPT-5是一个不错的全栈工程师！

CodeX CLI工具同步更新

另外，OpenAI的编程工具CodeX CLI也跟着更新了，现在默认就用GPT-5了。

使用方法跟Claude Code差不多，先通过下面这个指令安装，验证完就能用了：

npm install -g @openai/codex

Codex有个挺好的地方，就是还支持其他模型供应商，可以在配置文件里设置。

跟Claude Code一样，直接交互模式运行就行：

codex

或者，你也可以把提示作为输入来运行（还能开启全自动模式）：

codex "给我解释一下这个代码库"
codex --approval-mode full-auto "创建一个最炫酷的待办事项应用"

03 智能体能力提升 - 更听话更灵活

Manus首席科学家对这次更新评价很高，他说「GPT-5在我们的内部基准测试中达到了有史以来单模型的最佳表现。」

GPT-5是一个巨大的飞跃。它在我们的内部基准测试中达到了有史以来单模型的最佳表现。GPT-5在各种代理任务中表现出色——甚至在我们对代码进行任何一行调整或定制提示之前。新的引言和更精确的工具使用控制使我们的代理的稳定性和可控性有了显著提升。

https://openai.com/index/introducing-gpt-5-for-developers/

指令遵循更好

简单来说，就是更听话了。

工具调用能力提升

AI 的手脚也更灵活了，操作起来更得心应手。

而且现在还支持自定义工具，这个功能非常实用。

自定义工具的工作方式跟JSON模式驱动的函数工具挺相似的。不过有个区别，就是不用直接向模型提供工具所需输入的明确指令，模型可以把任意字符串当作输入传递给工具。

简单来说，GPT-5现在可以用纯文本调用工具，而不是非得用JSON格式了。

为了让GPT-5按照自定义工具的格式来，开发者可以提供一个正则表达式，甚至是一个更详细的无上下文文法。

上下文无关文法（CFG）其实就是一组规则，用来定义怎么生成特定格式的有效文本。对于自定义工具来说，你可以提供一个CFG，来约束模型的自定义工具文本输入。

参考文档：https://platform.openai.com/docs/guides/function-calling#context-free-grammars

GPT-5怎么用？价格如何？

价格很香 - 性价比提升

GPT-5 在价格方面也给了个惊喜，输入价格只要GPT-4o的一半！

算下来差不多是Claude Sonnet 4价格的1/3了。

非常实惠，性价比很高。

如何使用

要用GPT-5的话，开通GPT Plus就行。好消息是现在plus只要10美元一个月了。

不过有点搞的是，原来的GPT-4o、GPT-4.5都没了...现在就剩GPT-5了。

GPT-5 提示工程指南

OpenAI还专门做了个GPT-5的提示词指南，链接在这儿：

https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

我翻译成了中文：「GPT-5 提示工程指南」在今天次条。

提示词优化器

更贴心的是，OpenAI还为GPT-5专门搞了个提示词优化器。

链接在这里：

https://platform.openai.com/chat/edit?models=gpt-5&optimize=true

我试了试优化后的提示词，嗯嗯，变化不大。

效果貌似还行，让 GPT-5 飞一会儿。

GPT发展史

OpenAI还做了个挺有意思的网站，专门展示从GPT-1到GPT-5整个系列模型的进展，可以说是OpenAI最重要模型的发展史。

链接是：https://progress.openai.com/

时间线梳理一下：2018年发布GPT-1，2019年GPT-2，2021年GPT-3（也就是图中的text-davinci-001，第二年2022年推出了基于GPT的ChatGPT），2023年GPT-4（第一个版本是gpt-4-0314），2025年GPT-5。

对比这些模型对同一个提示词的回答效果，能很明显地看到模型的回答越来越人性化，对事实的把握越来越精准，情感表达也越来越细腻。

写在最后

我们终于迎来了GPT-5时代。

说实话，我原本以为会有GPT-4.7之类的模型，没想到直接跳到GPT-5了。现在看来，GPT-4.5、o1到o4这一系列技术，都是在为GPT-5铺路做准备。

这次体验完，我既没有特别兴奋，也没有失望，就是一种祝福和平静的心态吧。

GPT-5没有那么神，也没有那么差。

AGI实现，还早着呢。也许，是我们太着急了。我们也需要给AI一些时间，让AI飞一会儿。

从GPT-1的青涩稚嫩，到现在GPT-5的日趋成熟，每一次跨越都让我们切身感受到了技术的巨大力量。但同时我也明白，再厉害的模型，我们都得理性看待，毕竟技术是用来解决实际问题的，不是用来制造焦虑的。

谢谢你，OpenAI，把我们带入了AI时代。

也谢谢每一个和我一样，在这个时代里摸索前行的朋友们。

我们一起见证历史，也一起创造未来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-24

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

2025-12-24

MiniMax M2.1 终于上线，咱憋了一肚子话终于能说了。。。。。

2025-12-24

GLM-4.7发布后，n8n就不用学了！搭个AI Skills一键生成工作流

2025-12-24

在引入 AI Agent 之前，企业至少要先想清楚这 5 件事

2025-12-24

MiniMax M2.1 首测——从零构建应用的新体验

2025-12-24

阿里 Qwen3-TTS 两大更新直接封神！支持跨物种音色克隆，3 秒复刻！

2025-12-23

从“拼模型”走向“拼平台”，Agent真正跑进业务，需要什么样的底座？

2025-12-23

探秘 AgentRun丨流量一大就瘫痪？如何解决 AI 模型调用之痛

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

大家都在问

从“拼模型”走向“拼平台”，Agent真正跑进业务，需要什么样的底座？

2025-12-23

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

Prompt是与LLM对话的唯一方式：如何给大模型装上能指挥“手脚”的脑子？

2025-12-16

200k Tokens 的上下文真的够用吗？

2025-12-15

巨头翻身！谷歌全新AI浏览器Disco问世，PC版灵光？

2025-12-14

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean