微信扫码
添加专属顾问
我要投稿
GPT-5并非单一模型,而是一个由多个专用模型组成的智能系统,其创新架构值得深入探究。 核心内容: 1. GPT-5系统架构解析:多模型协同工作机制 2. 实时路由调度系统的运作原理 3. 各子模型在LM Arena榜单上的表现评估
最近GPT-5发布后,业界的声音比较多。只能说营销大师奥特曼在正式发布前太高调了,把GPT-5的能力吹的也有些过了,大家期待太高了。结果发布会上有些地方翻车,整场发布会过后,GPT-5给人的感觉进展也没有大家想象中那么大,所以难免有些失望,铺天盖地的负面声音袭来。其实我个人感觉,GPT-5这次发布还是有一定创新的,而且不知道大家是否清楚,GPT-5他不是一个模型,而是一个系统,人家System Card第一句就说了这个事。
可能有些人不知道System Card是什么,这里简单普及下这个知识。模型的System Card就是指每次模型发布的时候,都会同步发布一个对应的System Card,是一个模型的说明文档,里面会披露该模型一些关键信息,例如训练数据、用途、限制、风险、安全、评测结果、幻觉如何等。关于GPT-5的System Card,大家可以文章最后扫码去我知识星球《极客e家》中获取(免费),里面还有很多其他AI领域的文档,大家可以关注下。
接下来,将带大家解读下GPT-5的核心内容。
GPT-5本质上不是一个模型,而是一个系统,和之前的GPT-4o,o1、o3等完全不同。那这个系统是由什么组成的呢?这个问题很关键。大家请看下面的图:
大家可以看到,GPT-5中包含了很多的模型。既有通用的模型GPT-5-main,也有推理的模型GPT-5-thinking,也都有对应的mini版,还有一个专为开发者设计,更小、更快的推理模型GPT-5-thinking-nano,还有一种专门面向Pro、团队、企业和教育用户推出的推理能力增强版本GPT-5-thinking-pro,它采用并行计算方式,运算时间更长但质量更高,擅长解决极具挑战性的任务。上面说的这些新模型在之前模型中都能找到对应的老版本模型,所以之前熟知OpenAI模型的朋友们可以很容易理解上面这张图。
那他背后是如何调度这些模型的呢?其是很简单,本质上是GPT-5系统内部有一个实时的路由,会根据对话类型、复杂性、工具需求和明确意图等,快速判断使用哪个模型最合适。例如你提问时,让他认真想一想,那大概率他就会分给thinking的模型去处理。
以上就是GPT-5整体的一个构成,希望给大家说明白了。
然后我们再来看看模型能力。GPT-5虽然本质是一个系统,其内部是由多个模型组成,并且这些模型都是对之前的模型进行了升级。那这些升级后的模型能力怎样呢,我们可以参照LM Arena榜单。
地址:
https://lmarena.ai/leaderboard
现在各大模型厂商基本已经不存在刷榜的情况了,所以通过榜单来证明模型能力还是有一定参考性的。我们通过榜单可以看到,虽然GPT-5没有在所有领域都第一,但是在文本生成、编码和视觉等多个领域的榜单都是第一名,所以对于新模型的基础能力,还是有一定提升的。
除了模型的基础能力之外,在幻觉层面,GPT-5也是做了很大的提升,相比于之前发布的o3和4o都有了很大的进步。
除此之外,报告中还有各种维度的评测,例如模型安全性的评测,在越狱情况下,模型会不会出现谄媚的情况、前沿AI的策略性欺骗等。
这里还需要特别强调下,这次GPT-5的编程能力得到了显著提升,我们通过SWE-bench榜单也可以看出来。并且发布会上连Cursor创始人都来站台,宣布GPT-5会变成Cursor的默认模型。
地址:
https://www.swebench.com/
但是GPT-5整体能力都是提升的吗?很明显不是,最近有很多人吐槽GPT-5(背后是GPT-5-main和GPT-5-main-mini)在写作上不如以前,变得更啰嗦了,不够简洁;还有人吐槽GPT-5智商变高了,但是情商变低了...各种声音都有,而奥特曼后来也是承认了这一点。
------
最后,都是因为大家对OpenAI的期待太高了,发布会后从大家使用的结果上看跟大家预期反差比较大,所以各种声音就比较多,还有人因为下架了GPT-4o模型,要求OpenAI恢复提供可选GPT-4o。OpenAI其实这次还做了一个我认为了不起的工作,在安全对齐方面下了很大的功夫,并且在模型的执行效率上也有了很大的提升,而这些微小的变化,大家在使用过程中是很难感受到的,但是在System Card中都有说明。建议大家有时间真应该好好读一读GPT-5的System Card,可以了解到更多模型背后的一些内容。大家如果想学习AI大模型,去了解他们背后到底用什么方式、从哪些方向去测试和评估AI大模型的话,这个System Card更是非常值得一看。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-10
2025-08-09