微信扫码
添加专属顾问
我要投稿
回顾过去一年LLM圈的突破性进展,从推理模型到Agent应用,带你快速把握行业脉搏。核心内容: 1. 2024-2025年六大关键模型发布与技术突破 2. 行业格局重塑:OpenAI、Google、Anthropic的三方角力 3. 音频生成、编程Agent等新兴应用场景的爆发式发展
最近新东西不多,但又觉得应该写点什么,这时候就适合考古了。现在的AI圈是个非常能体现“人的记忆不超过3个月”的领域。
本文写得比较干,如果读者在某些地方没看懂,可以用GPT-5 Thinking来进行解读补充。
可能很多人已经遗忘了,o1-preview 于 2024年9月12日 发布,至今刚好一年。
跟之前发布的Claude 3.5 Sonnet一样,公众(包括我在内)对于o1模型的能力认知经历了一个不算快的过程。从最初一个看起来“看起来效果有些改善,但很贵”的模型,直到12月o1发布的时候,我还在发文提醒,不要低估o1模型的能力。
到了2025.1.20日,DeepSeek R1完成了推理模型的首次用户普及教育,让大多数人都体验到了推理模型的能力。
OpenAI在2025.2.2日发布了首个基于RL post-train的Agent应用:Deep Research。标志着端到端优化的Agentic应用的崛起。
后续的OpenAI 云端Codex、o3+Search、ChatGPT Agent Mode等都是这条线的产物。
2025是模型公司重新洗牌的一年,一个标志就是Google的Gemini 2.5 Pro的发布。而Google当初对这个模型发布也是非常小心谨慎,从2025.3.25发布首个exp版本后,过了3个月才正式GA。
在2025.8.1日,Gemini上线了Deep Think功能。而这是我目前最喜欢的深度思考模型产品。
NotebookLM一直以来是个默默无闻的产品,但2024.9月发布的Audio Overview功能却一下震撼了整个圈子。导致在当时有一波资源投入到高质量TTS、双工语音模型、高质量语音的播客生成、其他音频类场景中。
在2025年冒出的这类应用大多是当时入场的。
除了音频生成外,过去的1年中,图片和视频的生成也都有着持续的进展,只是产品发布没有LLM这边频率这么高。
在应用层中,Claude Code是无法无视的案例。它在2025.2.24日作为预览版发布,在5.22日GA。
它同时包括如下标签:编程、真Agent、快速验证了PMF、无GUI、极其昂贵、模型厂通过自身低成本优势与基于 API 调用的上层应用进行竞争。这buff简直多到没法无视。
而且Claude Code确实很能打,但到目前为止,已经在其编程主战场被OpenAI生态的Cursor + GPT-5追上。
MCP是一股热潮,它的难得之处在于符合一般人的逻辑,而生态中大部分没有任何积累的参与者又可以很容易地进行适配。
Manus作为少有的真Agent产品,在发布之后,到现在还能有创新真的不容易。做过真Agent产品的创业公司很多,但能在发布之后还有创新的并不多。在我的标准下,只有Wide Research算是一个产品上的创新。(技术上很多人能看到,但是不会去尝试做它)
推理模型的RL post-train范式,从传统RL的角度来看,证明了:世界模型pretrain对于RL的重要价值。(对于文本模态来说,LLM就是这里世界模型。)这种方式不止限于文本推理,也适用于其他模态。我们距离做出能在真实世界自主行动的实体机器人又近了一步。
但看文本模态,RL post-train的范式的价值也尚未完全挖掘,但瓶颈除了众所周知的RL post-train infra外,还有两个方面:
(1)对目标业务场景的足够重视,毕竟如果就不想提升编程能力,那么也做不出一个编程能力强的模型。
(2)对于Reward和仿真环境构建的足够重视。由于pretrain的世界模型,RL的成本已经大幅降低了,所以相对于过去的传统RL时代,对于reward和仿真环境的要求已经低了很多,但仍然需要投入。
目前来看: (1)记忆能力的价值已经成为海内外的共识之一。
(2)我目前判断,通用的记忆能力大概率是模型厂在模型层面实现的,类似于目前LLM对于tool的使用能力。
海外3家头部厂商可能会在2-3个季度之后在该方面达到60分。在这之前,最快可能有厂商在未来一个季度就宣称实现该功能,但效果不足60分。
LLM有一定的泛化能力,但大多还是在同一个问题域之内的。目前来看,不同问题域之间的能力仍然是基本独立的,一个模型在某个领域效果好不好,完全看它的训练过程和数据是否有在该方面投入一定的工作。
究其原因,还是因为LLM在训练过程中并没有被要求跨问题域泛化。我们构建了一个领域的Reward/环境,然后就让模型在其中不断学习直到边际收益较低。模型实际上被训练在该领域中最优化,而不是在一个环境中学习如何适应新环境。
这其实并不是个技术问题,而是考验模型厂在不同领域的Reward/环境构建中到底投入了多少工作的问题。毕竟你不能指望模型仅仅适应过1个领域就能触类旁通。领域之间的共性的学习需要足够多的领域的探索经验,而为了不在训练集上评测,评测就需要更多领域的Reward/环境。
而当模型学会记忆以及如何泛化之后,我估计这个Agent就已经自然地有了所谓的好奇心,而不需要人工植入什么好奇心算法/目标。这方面我估计可能最快会在未来2-3年左右实现。
很多在追逐前沿AI进展的人应该会觉得自己的不少想法很独创,“我有了一个深刻的认知”。
由于我已经能够触达不少人,从这些网络的反馈能让我认识到我的大部分想法并不原创,我也并不觉得别人的认知就独创。实际上我已经很少看到能让我觉得真的独创的想法了,或多或少都能想到一些这个想法的前置想法。
实际上现在大家都在用着相同的产品和API、看着相同的信息,受到内部认知共识度更高的资本圈和大众圈的影响。大部分人得出的判断和结论其实也是大同小异的。差别一般是:每个人的历史经历给他的“偏见”,每个人能拿到的资源。
虽然想法上找到类似的很容易,但最后能做出来,甚至还能广为人所知的就凤毛麟角(有独创性)了。
AI圈每个季度都有明显的进展,而且2025年的进展实际上比过去都快,每个细分领域,每2个月就有新进展。
但新消息的来源仍然是超过大部分人的耐心范围的,再加上目前人类的媒体和传播方式仍旧很原始,导致充斥着各种狼来了,以及对于效果的夸大。这些能在半年之内,把刚进入这个圈子的人的耐心消磨殆尽。
保持对于新产品的关注和体验是一个很难的事情,当产品变得越来越贵的时候就更是如此了。
前沿AI产品已经从过去每月20刀的穷人的游戏,变成了每月200刀的中产的游戏。
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.9.14 首发于微信公众号
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-14
为什么说阿里巴巴正转身“AI科技公司”
2025-09-14
阿里云赢 AI 云的真相:不是模型比人强,是把 “用 AI 的门槛” 拆成了 “可复制的效率”
2025-09-14
一万两千字,解读智能应用开发最佳实践
2025-09-14
AI 新玩法:GraphRAG × Ollama 打造更聪明的智能体
2025-09-14
阿里云视觉多模态理解大模型开发训练部署
2025-09-14
抢先实测美团首个AI Agent,让我体验一把「懒人点餐」的快乐
2025-09-14
从Chat到Agent的进化
2025-09-14
Qwen3-Coder与Claude Code深度对比:谁是你的AI编程助手?
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08