支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-5来了,全面第一,但不是AGI

发布日期:2025-08-08 10:11:51 浏览次数: 2031
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

GPT-5震撼登场,全面碾压所有AI模型但尚未达到AGI水平,性能与性价比双突破。

核心内容:
1. GPT-5在各项基准测试中全面领先的惊人表现
2. 与竞品模型的对比优势及独特功能
3. 超乎预期的亲民定价策略

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

全网都在等的GPT-5,终于来了。

时隔两年半,OpenAI终于推出了真正的大版本更新。

2023年3月14日GPT-4发布,到今天2025年8月7日的GPT-5,这个大版本升级用时近900天。

最智能的模型

Sam Altman在直播中强调,GPT-5是一个统一系统,不再需要模型切换器,它自己决定什么时候需要深度思考。

而据Artificial Analysis(@ArtificialAnlys)拿到的早期访问权限并完成的全套基准测试,GPT-5现在是领先的AI模型

在他们的人工智能指数评测中,GPT-5(high)达到了68分,位列第一。

GPT-5(medium)67分,与Grok 4并列第二。

作为对比,OpenAI o3得分67分,Google Gemini 2.5 Pro和DeepSeek R1都是65分,而Anthropic Claude 4 Opus只有59分。

LMArena全面第一

过去几周,数百万用户在LMArena上以代号「summit」测试了GPT-5。

结果出来了:GPT-5在LMArena的所有项目上都是第一。

数学第一、编程第一、创意写作第一。

在Text、WebDev和Vision Arena 上,也都是第一。

在Hard Prompts、Coding、Math、Creativity、Long Queries等所有细分领域,依旧都还是,第一。

GPT-5现在保持着Arena有史以来的最高分。

而让人印象深刻的是,GPT-5能够同时处理高级数学和编程。

有人让它「制作一个中心极限定理应用于具有相同均值的独立但非同分布变量的交互式动画可视化」,它一次就成功了。

各项评测碾压

直播中展示更全面的性能数据:

SWE-bench Verified达到74.9%,软件工程能力远超OpenAI o3的52.8%和GPT-4o的30.8%。

AIME 2025数学竞赛94.6%(使用Python工具时达到100%),GPT-4o只有42.1%。

GPQA Diamond达到88.4%,博士级科学问题测试创新高,GPT-5 pro版本更是达到89.4%。

「人类最后的考试」42%,GPT-5 pro使用工具时达到42%,不使用工具时30.7%。

MMMU多模态理解84.2%,视觉理解能力大幅提升。

HealthBench达到67.2%,HealthBench Hard达到46.2%,幻觉率仅3.6%。

马斯克表示:我不服

老马看到后,表示不服:

Grok 4在ARC-AGI上击败了GPT-5

对GPT-5 略带失望的网友也立刻开始起哄,有人问「Grok 5什么时候?」,还有人建议「是时候让所有用户免费使用Grok 4了」。

极其便宜

GPT-5在API定价上,可算是极其便宜。

GPT-5-mini每百万输入token只要0.25美元,直接用低价碾压了Google的Gemini 2.5 Flash(0.30美元)。

GPT-5 Standard每百万输入token 1.25美元,与Google的Gemini 2.5 Pro完全一致。

但对比Anthropic就很残酷了——

Claude 4 Opus要15美元每百万输入token,GPT-5 Standard只要1.25美元。

整整便宜12倍。

而在访问方式上:

免费用户可以用 GPT-5(含 reasoning),但有使用额度限制,超过后会降级为 GPT-5 mini(一个更快但更小的版本)。

Plus 用户($20/月)可以获得更高的使用额度,可以默认用 GPT-5,不容易触发降级。

Pro 用户则可专属访问 GPT-5 Pro(推理更深、能力更强),拥有最高级别的智能。

Team / Enterprise / Edu客户将于8月14日全面开放,按企业级套餐计费。

智能路由模型系统

OpenAI在Progress页面上展示了从GPT-3到GPT-5的进化路径。

这条路径显示了每一代模型的巨大飞跃,而GPT-5标志着又一个新的里程碑:

统一的智能系统。

不再需要用户选择模型,GPT-5 将自己决定何时需要深度思考。

GPT-5 不再是一个模型,而是一个模型系统:

  • 自动切换器判断查询意图

  • 简单问题路由到聊天版本(极速响应)

  • 复杂问题路由到推理版本(深度思考)

256k token上下文窗口,支持文本和图像输入,支持函数调用和结构化输出。

四个推理努力级别:high、medium、low、minimal,token使用量相差23倍,成本也相应变化。

主动得像个人

GPT-5 的早期体验者Ethan Mollick(@emollick)称:

我有GPT-5的访问权限。我认为这是个大事,因为它非常聪明,会主动为你做事。这是「制作一个程序化粗野主义建筑生成器,让我能以酷炫的方式拖拽和编辑建筑」以及多次「让它更好」的结果。我没碰过任何代码。

当他只是说「让它更好」时,GPT-5主动添加了:霓虹灯、街道上的汽车、立面编辑、预设建筑类型、戏剧性相机角度,甚至完整的保存系统。

「就像在看别人的想象力在工作。」

写作和健康

创意写作展现出文学深度,能处理结构模糊的任务。

官方诗歌对比中,GPT-5用了更有力的意象:「黑色旗帜,一个不再存在的国家」

健康领域也表现卓越,Sam Altman强调这是他们最好的健康模型,能像思维伙伴一样主动标记潜在问题。

极低幻觉率

GPT-5更诚实了。

当任务无法完成时,欺骗率只有2.1%(o3为4.8%)。

当研究人员移除CharXiv测试中的所有图像时,OpenAI o3仍会对不存在的图像自信回答(86.7%),GPT-5只有9%。

图表bug……

有眼尖的网友发现了图示bug。

Joseph Thacker(@rez0__)问道:

52怎么会比69高?

莫非是偷学会了0.9>0.11,反而做不对69.1 < 52.8?

而有看完发布会后失望的网友,已经开始催GPT-6了:

我也先洗洗睡了。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询