微信扫码
添加专属顾问
我要投稿
GPT-5震撼发布:成本减半、性能翻倍,或将彻底颠覆垂类大模型市场! 核心内容: 1. GPT-5革命性的统一架构系统,实现智能快慢思考模式切换 2. 惊人性能数据:数学竞赛满分、医疗领域低至3.6%的幻觉率 3. 效率质的飞跃:推理Token消耗减半,可靠性达到医疗级别标准
一个半小时之前,Ghat GPT 5,千呼万唤始出来,然后端了许多公司。
https://openai.com/index/introducing-gpt-5/
刚刚研读了 GPT5 完整技术文档,先分享一下技术细节。
GPT-5用了一套统一架构系统,有点像人脑的快慢思考模式。
系统会根据对话类型、复杂度、工具需求、你的明确要求(比如说“认真想想这个问题”)来实时判断。
也就是说,简单问题秒答,复杂问题自动开启深度思考模式,最长能思考几分钟。(Qwen3之前也试过类似的,最近放弃了,GPT-5直接 All In 上线了,不过,还看实际效果咋样)
更牛的是这个路由器会自己进化:它会学习用户什么时候切换模型、更喜欢哪种回答、答案准不准确...
持续优化决策。用完额度后,mini版本自动接管,保证服务不断。
OpenAI说未来要把这三层能力融合成一个模型,如果真做到了,那感觉就是真正的AGI雏形了。
看到里面的性能数据,我惊呆了。
AIME数学竞赛94.6% - 100% 准确率,这是能进MIT的水平,然后哈佛-MIT数学竞赛100%全对…
这…100 分,好小众的分数,GPT-5 pro已经碾压 99% 的人类了吧?
真实编程任务SWE-bench达74.9%,初级或者专门做逻辑的小开发…
不过还是要让子弹飞一会,看和 Claude 差多远。
但真正炸裂的是效率…
同样解决一个问题,GPT-5只需o3一半的 Token:科学推理从 4000 降到 2000、软件工程从12000降到6000,这养的优化属于降维打击。
因为年初 DeepSeek 发布的时候,论证的一个点:强推理能力模型 + 高质量的推理前文 = 高质量结果。
但因为 DeepSeek 的推理效果不那么好,会浪费许多 Token。
现在 GPT 5 就是超强推理模型 + 高质量而且更短的前文,直接得到更好结果。
然后医疗领域:HealthBench Hard得分46.2%,关键是幻觉率仅3.6%(o3是15.8%),配合博士级科学问题88.4%准确率…
这…已经不是AI工具而是AI主任医生了。
然后,它能靠一个提示生成完整游戏和网站…美术品味还相当不错。
当成本减半、速度翻倍、可靠性达到医疗级别(以及各种垂类场景),这已经不能说是版本升级,这样的 ROI,整个行业的游戏规则都要被改写。
因为垂类大模型可能要开始干不过通用大模型了。
看了幻觉率的数据,太强了…
第一张图直接对比了开源提示词的幻觉率,GPT-5深度思考模式在长事实-概念测试只有0.7%(o3是4.5%),长事实-对象测试是0.8%(o3是5.1%),事实准确度评分1.0%(o3是5.7%)...这差距,基本不是一个量级了。
然后医疗场景的健康基准困难模式牛逼,GPT-5深度思考模式幻觉率1.6%,不开思考模式也只有3.6%,而o3是12.9%,GPT-4o直接15.8%...
这个1.6%什么概念?感觉这玩意可能比人类的一些小医生都稳。
之前 Vectara做的第三方的大模型幻觉评测。
Gemini 2.0 flash是0.7,o3-mini高推理模式是0.795,然后GPT-4.5预览版是1.2...
来源:https://huggingface.co/spaces/vectara/leaderboard
对比一下 GPT-5 的数据,很能说明问题…
现在幻觉率能控制在1%以下的,只有谷歌和OpenAI的最新模型。
诚实度测试也很有意思。
CharXiv缺失图像测试:把图删了再问图片内容,o3还会一本正经胡说八道(86.7%),GPT-5只有9%会出问题。
编码欺骗测试,o3有47.4%会假装完成不可能的任务,GPT-5降到16.5%。
安全机制这块,OpenAI搞了个“安全完成”的新模式。
有些问题,GPT会直接再已读不回了,比如问病毒学问题,会给高层次科学指导,但不会教具体制造方法。
拒绝时还解释原因,提供替代方案。
生物安全直接被评为「高能力」级别,上了五层防护:威胁建模、安全训练、实时监控、推理检测、执行管道...
还做了5000小时红队测试。
那么,当幻觉率降到1.6%,当AI学会诚实说「不知道」,当安全边界清晰可控...
这么可控的大模型…
这就不是玩具,是真正的生产力工具。
说实话,看完这些数据,我觉得整个模型格局又要换一代了…
路由器 + 双模型架构...
意味着 OpenAI 真的将之前一直说的「系统1」和「系统2」快慢思考模式做出来了:简单问题秒答,复杂问题深思,还能自己判断什么时候该用哪个。
认知架构的突破,不知道是工程化,还是原生。
然后 Token 节省 50 - 80% 这事... 就像解数学题,别人绕10步,它3步就到了。
这种「思维捷径」的发现,意味着 GPT-5 找到了更短的推理路径的方法
其实,这在昨天发布的 OSS 模型上也有体现。
然后,可靠性这块,我觉得已经过了临界点。
幻觉率1.6%、欺骗率2.1%...
这些数字意味着什么?
意味着AI终于可以从「有趣的玩具」变成「可信的工具」了。
然后,通用大模型的专业能力的广度和深度。
他们内部评估:在法律、物流、销售和工程等 40 多个职业的任务中优于 o3 和 ChatGPT Agent。
于是,医疗、法律、金融这些容错率极低的领域,可能可以能真正用起来了。
从诗歌意境分析到太阳能串并联计算,从K-pop巡演财务规划到投手康复医学方案...每个领域都不是泛泛而谈,而是真正的专业级水准。
这种全方位的专业能力,已经不是「通用AI」那么简单了。
这是一个能在任何领域快速成为专家的大模型。
如果这些数据都是真的,那整个AI行业的游戏规则...要变了。
那下面这些,可能就很难成为关键胜负手了。
开源社区...千问加油!
完善的路由器+双模型架构不是简单堆参数能追赶的,因为这可能和 Scaling Law 没太大关系,可能是结构的代差。
但我不太清楚,因为 Qwen 3 之前干过这个事,或许跟进起来也不那么难?
然后,那些做垂类 AI 模型的创业公司更惨。
你说你专注医疗?GPT-5幻觉率1.6%。
你说你专注Coding?GPT-5的SWE-bench 74.9%。
你的「专业化护城河」...
可能就被平滑成水沟了。
企业IT部门要疯狂重构了。
之前是「AI辅助人类」,现在可靠性到这个程度,很多流程可以直接「AI主导,人类审核」了。
可能,半年左右,从效率提升转变到工作模式改变。
三巨头的竞争焦点要变了。
性能已经够用了,现在拼的是谁更便宜、谁更可靠、谁更不会乱讲。
此刻压力给到Claude 和 Gemini。
超强模型的输入Token 成本减半,KVCache 成本下降十倍,这事影响很大。
实时同声传译、全量代码审查、24小时医疗咨询...这些以前太贵用不起的场景,突然都变得可行了。
而且根据这个逻辑推论, MssS(Model as a Service) 直接就进化成 IaaS (Intelligence as a Service)了。
效率提升50-80%,意味着边缘部署成为可能。
手机端跑个轻量版GPT-5?完全可行。这会彻底改变移动应用的形态。
2.1%的欺骗率,1.6%的幻觉率...这个可靠性,可以让AI独立处理很多任务了。
去年,我们从「人类主导+AI工具」,
变成现在「AI执行+人类监督」,
以后再到「AI伙伴+人类评价」,AI Agent终于能真正进生产环境了。
而在于它把「强大」转化为「可用」,把「智能」转化为「可信」。
当AI不再幻觉、不再欺骗、成本减半、速度翻倍…
整个 AI 行业的商业化…
可能真的要开始了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-08
GPT-5,面向开发者。很强,但价格只要Claude的1/10。
2025-08-08
面向大规模代码仓库的结构化知识抽取与分层检索
2025-08-08
谷歌 Gemini 助手曝出重大安全漏洞:一封邮件就能远程控灯、开窗?
2025-08-08
快来看看GPT-5第一波实测
2025-08-08
OpenAI新一代”博士水平“旗舰模型GPT-5能力详解:专家级智能触手可及时代来临
2025-08-08
不再纠结A/B方案:交互设计师如何用代码同时演示多个Demo
2025-08-08
Claude 是如何管理上下文窗口的?三种交互模式全景图解!
2025-08-08
公司各岗位对于大模型的理解
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28
2025-08-08
2025-08-08
2025-08-07
2025-08-07
2025-08-07
2025-08-06
2025-08-06
2025-08-06