微信扫码
添加专属顾问
我要投稿
从GPT-4到行业反思,一文读懂大模型领域的技术演进与未来挑战。 核心内容: 1. GPT-4的技术突破与行业范式转变 2. 规模扩张范式的局限性及效率瓶颈 3. 稀疏架构等新兴技术方向的探索
一、2023年的GPT-4开始
唯参数规模论时代的终结
1.1 2023年基线:GPT-4范式
这一理念的顶峰体现便是OpenAI的GPT-4,作为2023年当时最先进的AI,GPT-4被呈现为一个大规模的典范,基础架构依然是Transformer,但是拉长参数量,看上去就可以很好的work。尤其它在多种专业和学术基准测试中展现出与人类相当的水平,例如在模拟律师资格考试中取得了排名前10%的成绩,而前身GPT-3.5的得分则位于后10%。
相较于GPT-3.5,GPT-4的关键进步体现在几个方面。首先是上下文窗口长度的极大扩展,提供了8K和32K两种规格的上下文长度,远超前代的4K和2K,有点像当年软盘时代,内存从1K到1M的变化。这使得模型能够处理更长、更复杂的任务,OpenAI也宣称GPT-4在可靠性、创造力,甚至处理细微指令的能力上均优于GPT-3.5。
不过GPT-4的发布也让OpenAI有了个别名,CloseAI,就是因为架构保密。在技术报告中,OpenAI明确表示,出于竞争格局和大规模模型的安全影响的考量,将不提供关于架构(包括模型参数大小)、硬件、训练计算量、数据集构建或训练方法的任何细节。这个决定引发了社区关于透明度的广泛讨论,也使得外界对内部工作原理的理解主要依赖于间接推测和性能分析。当时一直有说法GPT-4拥有高达1760B的巨大参数量,但这从未得到官方证实,可它进一步强化了当时业界普遍持有的 Scaling-is-all-you-need 的信念,当时很多说法都是 GPU集群/数据量/更大的参数量 is all you need。
GPT-4的成功,给整个领域指明了一条通过不断扩大模型规模和数据量来提升智能水平的路径。
1.2 Scaling范式中浮现的裂痕
随后到2024年,直到年底,一年多的时间该挖的数据、该买的算力、该请的人才都到位了,但还没出现GPT5,唯规模论的范式,迎来了深刻反思和系统性挑战。这一时期的模型演进并非由单一技术突破驱动,而是源于对现有范式局限性的多方面冲击。
1. 对效率的迫切需求:传统Transformer架构的注意力机制具有与序列长度成二次方关系的计算复杂度(O(L^2)复杂度),加之密集型(Dense)模型高昂的推理成本,共同构成了一个严重的性能瓶颈。这极大地限制了上下文长度的扩展和模型的实际部署,从而催生了对稀疏架构和新型注意力机制的迫切需求。
2. 对推理的迫切需求:业界逐渐认识到,单纯的规模扩张并不能赋予模型强大的、多步骤的逻辑推理能力。模型在面对需要复杂规划和逻辑演绎的任务时,依然表现不佳。这一瓶颈促使研究方向发生根本性转变,从完全依赖预训练阶段的计算投入,转向在推理阶段分配额外计算资源,即思考(thinking)模型的诞生。
3. 智能体的迫切需求:随着模型推理能力的增强,下一个重点目标是让模型能够根据推理结果采取行动。这要求模型不仅能思考,还能与外部工具和环境进行交互,从而执行复杂任务,这标志着智能体AI(Agentic AI)时代的产生。
这三者有相互关联的驱动力,并非孤立存在,而是构成了一条紧密相连的因果链,清晰地勾勒出2023至2025年间前沿模型架构的演进脉络。效率的提升是实现经济可行的推理模型的前提,而强大的推理能力则是构建有效智能体的基石。
这条演进路径的逻辑为:
1. 需要对架构进行改进:密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题,模型需要更大的上下文窗口来容纳所有相关信息,并需要更复杂的内部处理流程。然而,O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济上和技术上都难以为继。因此,架构上的效率创新成为第一要务。混合专家(MoE)架构通过稀疏激活来降低计算量,而线性注意力等机制则直接攻击了二次方复杂度的瓶颈。这些在第二部分将详细分析的创新,为后续发展铺平了道路。
2. 需要提升可解释性,找到新的增长范式:一旦模型的基础架构在效率上得到优化,实验室便有了资本去探索计算成本更高的推理过程。在推理时进行thinking,也就是让模型在给出最终答案前进行一系列内部的、复杂的思考步骤,只有在底层架构已经足够高效的前提下才具有经济可行性,不然thinking一次巨长时间又巨贵,没什么可用性。没有MoE或线性注意力等技术降低基础成本,为每一次查询增加数倍乃至数十倍的thinking计算量是无法想象的。
3. 需要有商业价值,有用:一个能够进行多步推理并形成复杂计划的模型固然强大,但一个能够利用工具去影响其他系统,做出实践的模型,才具有真正的变革性。因此,Agent能力的开发,成为应用推理能力的自然延伸。它是这条因果链的第三个环节,也是最高阶的体现。一个模型只有在能够高效地进行深度思考之后,才能可靠地决定何时、如何以及使用何种工具来完成任务。
二、2024年至今对效率的迫切需求 2.1 稀疏化的兴起:混合专家(MoE)架构
这样对于输入序列中的每一个token,一个门控网络(gating network)或称为路由器(router)的机制会动态地选择一小部分专家来处理它。按这个模式,模型的总参数量可以急剧增加(比如R1直接到671B的总参数量),但每次前向传播(即推理)时实际激活的参数量和计算量(FLOPs)却只占一小部分(比如R1实际上只激活37B),从而实现了经济的训练和高效的推理。
DeepSeek是推广和开源MoE架构的重要部分,从V2开始,到R1等系列模型清晰地展示了MoE架构的演进和威力,到现在基本全是MoE的模型。
DeepSeek-V2:该模型引入了名为DeepSeekMoE
的稀疏MoE架构。在236B(2360亿)参数的版本中,每个token仅激活21B(210亿)参数。这展示了超过10:1的总参数与激活参数之比,是MoE理念的经典体现,这种设计使得模型能够在保持巨大知识容量的同时,显著降低推理成本。
DeepSeek-V2-Lite:为了便于学术研究和更广泛的部署,DeepSeek推出了16B参数的轻量版MoE模型,每个token仅激活2.4B参数。其技术报告详细说明了其实现方式:除了第一层外,所有FFN层都被MoE层取代。每个MoE层包含2个所有token共享的专家(shared experts)和64个路由选择的专家(routed experts),每次会为每个token激活6个路由专家。这种细粒度的设计(共享专家处理通用模式,路由专家处理特定子问题)展示了MoE架构的灵活性和复杂性。
DeepSeek R1:作为一款专为推理设计的模型,R1同样基于MoE架构。它有惊人的671B总参数,而每个token的激活参数量为37B,这其实进一步证明了MoE架构是实现数千亿级别参数模型的可行路径,尤其是在HPC(高性能计算)协同设计的加持下。
2.1.2 Qwen的混合产品组合策略
2.1.3 Minimax-m1的混合MoE
2.2 注意力机制革命,超越二次方缩放
2.2.1 DeepSeek的多头潜在注意力(MLA)
在V3中的演进:在DeepSeek-V3中,MLA得到了进一步的优化,引入了更复杂的动态管理策略。例如,动态低秩投影(Dynamic Low-Rank Projection)可以根据序列长度自适应地调整压缩强度,短序列少压缩以保留保真度,超长序列(如32K-128K)则深度压缩以控制内存增长。分层自适应缓存(Layer-Wise Adaptive Cache)会在模型的更深层修剪掉较早的KV条目,进一步优化了在极端长上下文场景下的内存使用,这些演进表明,对注意力机制的优化已进入精细化、动态化的阶段。
三、2025年来推理Thinking走向台前 3.1 CoT的逐渐拉长
另外还短时期流传出了Kingfall这个模型,也支持推理模式,据说性能极其的牛,但我还没试过,可以参考这篇文章:如何评价Google泄露AI模型KingFall,其性能和现有顶尖模型相比有提升么?
https://www.zhihu.com/question/1917689645715677739/answer/1918068480168691553
3.1.4 Qwen的方法
Qwen3:同样引入了“思考”和“非思考”模式,并在API中直接提供了一个名为思考预算(thinking budget)的参数,表明这一范式已成为行业共识。思考模式专用于处理复杂的逻辑、数学和编码任务,而非思考模式则用于高效的通用聊天。
3.2 为推理而训练,强化学习的演进角色
强化学习(RL)的角色在这一时期发生了根本性的转变。它不再仅仅是用于对话对齐(如RLHF)的工具 ,而是成为了教授模型如何进行推理的核心方法,推理时间也成为了新的Scaling Laws。
Thinking范式的出现,为扩展AI性能引入了一个全新的、正交的轴线:推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前,AI的进步主要沿着训练时计算和参数数量这两个轴线来衡量。主流的假设是,用更多数据训练一个更大的模型,它就会变得更聪明。这是2024年之前的旧轴线。
然而,o系列及同类模型证明,对于一组固定的模型权重,通过增加推理期间使用的计算量,可以极大地提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示,在AIME基准上的准确率随着测试时计算量的增加而提升,这便是新轴线的直接证据。
这一转变带来了深远的、高阶的影响。首先,它预示着对推理硬件的需求将大规模增长,而不仅仅是训练硬件。运行一次查询的成本不再是固定的,而是根据问题的难度动态变化,这为硬件市场带来了新的增长点。其次,它将研究重点从单纯地扩大预训练规模,转向开发更高效的推理算法(如在思考链中进行更优的搜索或规划)和更有效的RL技术来引导推理过程。另外它也催生了新的产品设计和商业模式,Model is the product的商业模式正在演变,以适应这个新维度,催生了如Gemini Flash与Pro、o4-mini与o3这样的分层产品,其中Thinking成为一个关键特性和差异化卖点,允许客户根据任务需求购买相应水平的智能。
3.2.1 DeepSeek-R1的RL优先流水线
机制:DeepSeek-R1的训练过程是一个以RL为中心的多阶段流程。在通过SFT(监督微调)进行Cold Start后,模型会进入一个大规模的RL阶段,该阶段专注于基于规则的评估任务,以激励模型生成准确且结构清晰的推理过程。此后,再进行更多的SFT和一个最终用于通用对齐的RL阶段。
目标:这种RL优先的方法促进模型自发地涌现出自我验证和错误修正等高级行为,产生了Aha moment,从而减少对大规模人工标注推理数据集的依赖,所以GRPO基本是目前广泛使用的模式,很多变体都是基于这个进行改进。
3.3 从理想到行动:智能体工具使用的黎明
这些模型是首批被描述为具备“智能体工具使用”(agentic tool use)能力的模型。它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL-E图像生成等工具来解决一个复杂的用户请求。例如,模型可以多次搜索网页,分析返回结果,并根据分析动态调整后续策略。
3.3.2 Anthropic的Claude 4
Claude 4的发布伴随着一套专为构建智能体而设计的新API功能:一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。这些功能,再结合独特的“计算机使用”(computer use)能力(即生成鼠标和键盘操作),使Claude成为构建能够与数字信息和图形用户界面(UI)进行交互的强大智能体的理想平台,目前Claude Code也给Cursor这些带来很大的危机感。
四、当前综合与竞争格局 4.1 各大模型的架构哲学比较
OpenAI:专注于开创“推理计算”范式,以o系列模型引领潮流,并利用先发优势打造新一类智能体模型。其战略是能力优先,架构细节作为核心竞争优势保持专有。
DeepSeek:奉行清晰的开源共享战略。他们在MoE、MLA等公开透明的架构上积极创新,并采用GRPO这些强化学习的方法,以更低成本提供与SOTA相媲美的模型,直接挑战专有生态系统,在国际上都有很高的评价。
Anthropic:采取“安全优先,能力驱动”的路线。他们紧随OpenAI进入推理(“混合推理”)和智能体(“计算机使用”、智能体API)领域,但通常更强调可控、可理解的过程和企业级的可靠性,并且目前更加强调代码能力。
Google:实施“平台与产品组合”战略。通过Gemini 2.5家族(Pro, Flash, Lite),他们提供了一套基于统一“思考模型”架构的分层模型,并深度集成到Google Cloud生态系统(Vertex AI)中,为企业提供具有明确性能权衡控制的解决方案。
Qwen:采用“灵活产品组合”战略。通过同时提供密集和MoE模型(Qwen3),并开创超长上下文(Qwen2.5-1M),他们满足了广泛的用例需求,并在多个战线(尤其是在多语言和开源领域)展开竞争。
Minimax:展现了新颖混合的探索精神。其m1模型将多种前沿但不同的思想(MoE、线性/softmax混合注意力、新颖RL算法)融合到一个强大的开源权重模型中,显示出他们探索独特架构组合的意愿。
4.2 这两年主要LLM架构列表对比 4.3 推理与Coding的Benchmark表现
截止到今年6月的表现如下:
模型架构的演进直接导致了Benchmark评估的分化。传统的NLP基准测试,如MMLU(大规模多任务语言理解),正迅速变得饱和,对于区分前沿模型的能力越来越有限。与此同时,一类专注于复杂推理(如GPQA, AIME)和智能体执行(如SWE-bench, Terminal-bench)的新基准,已成为衡量SOTA的真正标准。
这一转变的背后逻辑是:随着模型普遍能力的提升,它们在MMLU等知识密集型、选择题式的基准上的得分开始聚集在高端区间,难以拉开差距。2025年AI指数报告明确指出了MMLU、GSM8K和HumanEval等传统AI基准的饱和。作为回应,学术界和工业界将注意力转向了能够有效测试新一代推理能力的基准。AIME(高难度数学竞赛)、GPQA(需要研究生水平知识的问答)以及特别是SWE-bench(要求模型像软件工程师一样修复真实的GitHub问题),现在已成为Claude 4、o3和DeepSeek-R1等模型发布公告中反复引用的事实标准。
这一转变的更高阶影响是,SOTA的定义本身发生了变化。它不再是一个单一的、普适的头衔。一个模型可能在一个维度上是SOTA,但在另一个维度上则不是。例如,根据SWE-bench的领先表现,Anthropic的Claude 4被定位为SOTA的编码智能体。而OpenAI的o3/o4-mini则凭借在AIME上的卓越成绩,成为数学和推理领域的SOTA。Google的Gemini 2.5 Pro则在上下文处理和多模态能力上独占鳌头。这种由架构选择驱动的专业化,意味着选择最佳模型已成为一个依赖于具体用例的决策过程,反映出一个日益成熟和多样化的市场。
五、未来轨迹与结论 5.1 也许是具身智能与世界模型
Corki
框架所提出的,将致力于算法与硬件的协同设计,通过让LLM预测未来的运动轨迹而非单一的、离散的动作,来解耦高延迟的LLM推理与低延迟的机器人控制。这预示着“世界模型”(World Models)——即能够理解和预测物理世界动态的AI系统将成为下一个研究热点。 5.2 对后Transformer架构的探索
ResiDual
)来稳定深度Transformer的训练 ,或者开发更高效的长上下文处理方法 ,这些都是在现有范式内的增量创新。5.3 整体结论,现代AI架构的三大支柱
1.效率(Efficiency):通过稀疏化(MoE)和先进的注意力机制(MLA、混合注意力)实现。效率创新使得巨大的模型规模和超长的上下文处理在经济上变得可行,为后续发展奠定了基础。
2.推理(Reasoning):通过将计算资源重新分配到推理阶段(“思考预算”)以及利用先进的强化学习技术训练模型涌现出解决问题的能力来实现。这使得模型从知识的存储器转变为问题的解决者。
3.智能体(Agency):作为推理能力的应用,它使模型能够自主地使用工具与数字乃至物理世界进行交互。这是将模型智能转化为实际行动的关键一步。
这一演进将大型语言模型从复杂的文本预测器,转变为初具形态的通用问题解决系统,为未来十年的人工智能发展奠定了坚实的架构基础。在这场新的竞赛中,胜利不再仅仅属于规模最大的模型,而是属于那些最有效率、思考最深刻、行动最强大的系统。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-04-11
2025-04-12
2025-04-29
2025-04-12
2025-04-29
2025-05-23
2025-05-07
2025-05-07
2025-05-07
2025-07-08
2025-07-07
2025-07-05
2025-07-04
2025-07-04
2025-07-03
2025-07-03
2025-07-02