我要投稿

GPT-5 发布，成本减半，然后垂类大模型快被端了…

发布日期：2025-08-08 10:11:58 浏览次数： 2431

作者：洛小山

微信搜一搜，关注“洛小山”

一个半小时之前，Ghat GPT 5，千呼万唤始出来，然后端了许多公司。

https://openai.com/index/introducing-gpt-5/

刚刚研读了 GPT5 完整技术文档，先分享一下技术细节。

一、架构革新

GPT-5用了一套统一架构系统，有点像人脑的快慢思考模式。

系统会根据对话类型、复杂度、工具需求、你的明确要求（比如说“认真想想这个问题”）来实时判断。

也就是说，简单问题秒答，复杂问题自动开启深度思考模式，最长能思考几分钟。（Qwen3之前也试过类似的，最近放弃了，GPT-5直接 All In 上线了，不过，还看实际效果咋样）

更牛的是这个路由器会自己进化：它会学习用户什么时候切换模型、更喜欢哪种回答、答案准不准确...

持续优化决策。用完额度后，mini版本自动接管，保证服务不断。

OpenAI说未来要把这三层能力融合成一个模型，如果真做到了，那感觉就是真正的AGI雏形了。

二、性能数据

看到里面的性能数据，我惊呆了。

AIME数学竞赛94.6% - 100% 准确率，这是能进MIT的水平，然后哈佛-MIT数学竞赛100%全对…

这…100 分，好小众的分数，GPT-5 pro已经碾压 99% 的人类了吧？

真实编程任务SWE-bench达74.9%，初级或者专门做逻辑的小开发…

不过还是要让子弹飞一会，看和 Claude 差多远。

但真正炸裂的是效率…

同样解决一个问题，GPT-5只需o3一半的 Token：科学推理从 4000 降到 2000、软件工程从12000降到6000，这养的优化属于降维打击。

因为年初 DeepSeek 发布的时候，论证的一个点：强推理能力模型 + 高质量的推理前文 = 高质量结果。

但因为 DeepSeek 的推理效果不那么好，会浪费许多 Token。

现在 GPT 5 就是超强推理模型 + 高质量而且更短的前文，直接得到更好结果。

然后医疗领域：HealthBench Hard得分46.2%，关键是幻觉率仅3.6%（o3是15.8%），配合博士级科学问题88.4%准确率…

这…已经不是AI工具而是AI主任医生了。

然后，它能靠一个提示生成完整游戏和网站…美术品味还相当不错。

当成本减半、速度翻倍、可靠性达到医疗级别（以及各种垂类场景），这已经不能说是版本升级，这样的 ROI，整个行业的游戏规则都要被改写。

因为垂类大模型可能要开始干不过通用大模型了。

三、可靠性开始质变

看了幻觉率的数据，太强了…

第一张图直接对比了开源提示词的幻觉率，GPT-5深度思考模式在长事实-概念测试只有0.7%（o3是4.5%），长事实-对象测试是0.8%（o3是5.1%），事实准确度评分1.0%（o3是5.7%）...这差距，基本不是一个量级了。

然后医疗场景的健康基准困难模式牛逼，GPT-5深度思考模式幻觉率1.6%，不开思考模式也只有3.6%，而o3是12.9%，GPT-4o直接15.8%...

这个1.6%什么概念？感觉这玩意可能比人类的一些小医生都稳。

之前 Vectara做的第三方的大模型幻觉评测。

Gemini 2.0 flash是0.7，o3-mini高推理模式是0.795，然后GPT-4.5预览版是1.2...

来源：https://huggingface.co/spaces/vectara/leaderboard

对比一下 GPT-5 的数据，很能说明问题…

现在幻觉率能控制在1%以下的，只有谷歌和OpenAI的最新模型。

诚实度测试也很有意思。

CharXiv缺失图像测试：把图删了再问图片内容，o3还会一本正经胡说八道（86.7%），GPT-5只有9%会出问题。

编码欺骗测试，o3有47.4%会假装完成不可能的任务，GPT-5降到16.5%。

安全机制这块，OpenAI搞了个“安全完成”的新模式。

有些问题，GPT会直接再已读不回了，比如问病毒学问题，会给高层次科学指导，但不会教具体制造方法。

拒绝时还解释原因，提供替代方案。

生物安全直接被评为「高能力」级别，上了五层防护：威胁建模、安全训练、实时监控、推理检测、执行管道...

还做了5000小时红队测试。

那么，当幻觉率降到1.6%，当AI学会诚实说「不知道」，当安全边界清晰可控...

这么可控的大模型…

这就不是玩具，是真正的生产力工具。

通过 GPT-5 的细节，我看到了什么

说实话，看完这些数据，我觉得整个模型格局又要换一代了…

路由器 + 双模型架构...

意味着 OpenAI 真的将之前一直说的「系统1」和「系统2」快慢思考模式做出来了：简单问题秒答，复杂问题深思，还能自己判断什么时候该用哪个。

认知架构的突破，不知道是工程化，还是原生。

然后 Token 节省 50 - 80% 这事... 就像解数学题，别人绕10步，它3步就到了。

这种「思维捷径」的发现，意味着 GPT-5 找到了更短的推理路径的方法

其实，这在昨天发布的 OSS 模型上也有体现。

然后，可靠性这块，我觉得已经过了临界点。

幻觉率1.6%、欺骗率2.1%...

这些数字意味着什么？

意味着AI终于可以从「有趣的玩具」变成「可信的工具」了。

然后，通用大模型的专业能力的广度和深度。

他们内部评估：在法律、物流、销售和工程等 40 多个职业的任务中优于 o3 和 ChatGPT Agent。

于是，医疗、法律、金融这些容错率极低的领域，可能可以能真正用起来了。

从诗歌意境分析到太阳能串并联计算，从K-pop巡演财务规划到投手康复医学方案...每个领域都不是泛泛而谈，而是真正的专业级水准。

这种全方位的专业能力，已经不是「通用AI」那么简单了。

这是一个能在任何领域快速成为专家的大模型。

如果这些数据都是真的，那整个AI行业的游戏规则...要变了。

那下面这些，可能就很难成为关键胜负手了。

这会带来什么连锁反应？

【短期】

开源社区...千问加油！

完善的路由器+双模型架构不是简单堆参数能追赶的，因为这可能和 Scaling Law 没太大关系，可能是结构的代差。

但我不太清楚，因为 Qwen 3 之前干过这个事，或许跟进起来也不那么难？

然后，那些做垂类 AI 模型的创业公司更惨。

你说你专注医疗？GPT-5幻觉率1.6%。

你说你专注Coding？GPT-5的SWE-bench 74.9%。

你的「专业化护城河」...

可能就被平滑成水沟了。

企业IT部门要疯狂重构了。

之前是「AI辅助人类」，现在可靠性到这个程度，很多流程可以直接「AI主导，人类审核」了。

可能，半年左右，从效率提升转变到工作模式改变。

中期

三巨头的竞争焦点要变了。

性能已经够用了，现在拼的是谁更便宜、谁更可靠、谁更不会乱讲。

此刻压力给到Claude 和 Gemini。

超强模型的输入Token 成本减半，KVCache 成本下降十倍，这事影响很大。

实时同声传译、全量代码审查、24小时医疗咨询...这些以前太贵用不起的场景，突然都变得可行了。

而且根据这个逻辑推论， MssS（Model as a Service）直接就进化成 IaaS （Intelligence as a Service）了。

长期

效率提升50-80%，意味着边缘部署成为可能。

手机端跑个轻量版GPT-5？完全可行。这会彻底改变移动应用的形态。

2.1%的欺骗率，1.6%的幻觉率...这个可靠性，可以让AI独立处理很多任务了。

去年，我们从「人类主导+AI工具」，

变成现在「AI执行+人类监督」，

以后再到「AI伙伴+人类评价」，AI Agent终于能真正进生产环境了。

GPT-5 的真正意义不在于这个跑分。

而在于它把「强大」转化为「可用」，把「智能」转化为「可信」。

当AI不再幻觉、不再欺骗、成本减半、速度翻倍…

整个 AI 行业的商业化…

可能真的要开始了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-24

MiniMax M2.1 终于上线，咱憋了一肚子话终于能说了。。。。。

2025-12-24

GLM-4.7发布后，n8n就不用学了！搭个AI Skills一键生成工作流

2025-12-24

在引入 AI Agent 之前，企业至少要先想清楚这 5 件事

2025-12-24

MiniMax M2.1 首测——从零构建应用的新体验

2025-12-24

阿里 Qwen3-TTS 两大更新直接封神！支持跨物种音色克隆，3 秒复刻！

2025-12-23

从“拼模型”走向“拼平台”，Agent真正跑进业务，需要什么样的底座？

2025-12-23

探秘 AgentRun丨流量一大就瘫痪？如何解决 AI 模型调用之痛

2025-12-23

智能时代的数据基座：烟台银行构建“可信数据存储安全体系”的实践与展望

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

大家都在问

从“拼模型”走向“拼平台”，Agent真正跑进业务，需要什么样的底座？

2025-12-23

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

Prompt是与LLM对话的唯一方式：如何给大模型装上能指挥“手脚”的脑子？

2025-12-16

200k Tokens 的上下文真的够用吗？

2025-12-15

巨头翻身！谷歌全新AI浏览器Disco问世，PC版灵光？

2025-12-14

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean