我要投稿

2025年6月关于 AI 的一些想法

发布日期：2025-07-26 04:51:40 浏览次数： 2765

作者：liupc看世界

微信搜一搜，关注“liupc看世界”

全文近7000字，预计阅读时间约25分钟。

0.缘起

从2023年3月14日 GPT-4 发布算起，时间已经过去两年零三个月，

从2022年11月30日 ChatGPT 发布算起，时间已经过去两年半，

从2016年3月9日 AlphaGo 战胜李世石的第一局算起，时间已经过去九年多。

过去九年多，特别是过去两年零三个月里，AI 总是时不时在某个地方戳我一下，提醒着我它的存在，在某个维度上形成一种精神张力。

我并不是一位计算机算法领域的专家，甚至都不能算是内行，顶多只能结合教科书、搜索引擎和一些科普文章，大致理解这些年来 AI 从原理上发现了什么，从工程上实现了什么，从商业上影响了什么。

算法的演进、工程的推进和商业世界的实践，从我们出生以来，甚至在我们出生之前就一直在发生。

但是，在2016年之前的我的人生三十年里，这些事情都不会关联到一件事，也是那三十年里最底层的一个不言自明的真理——以人为核心的人类文明是独一无二的。

过去九年的 AI 演进历程，让我对这个真理产生了怀疑。这是一个漫长的过程。

从这个意义上来说，AI 已经（already）深刻地改变了我。

今天写这篇文章，不是因为我已经完成了价值观基座的重建，而只是阶段性找到了一个可以指引自己在未来若干年里看待 AI 的方式，也顺便为后续看待世界找到了一个新的视角。

1.疑似停滞的模型

以 Sam Altman 和 Ilya Sutskever 为代表的这一轮 AI 变革驱动者们，过去几年一直在面向全世界渲染 AGI 即将实现并深刻改变人类生活，甚至威胁地球安全的论调。

但我们认真回看过去两年，一个开玩笑的说法是：

2023年3月14日，世界上最好用的 AI 大模型是 GPT-4；

两年又三个月过去之后，世界上最好用的 AI 大模型是 GPT-4.1。

认真来讲，其实这里的以编号命名策略，极大地误导了人们对大模型能力提升程度和进度预期的线性外推：

2022年11月末，OpenAI发布了GPT-3.5；

不到4个月后，2023年3月下旬，OpenAI发布了GPT-4。

于是，一个合理预期是，GPT-N和N+0.5差半年以内，一个自然的推论是 GPT-N+1也就不到一年之遥。

实际上，这里出现了两个问题，或者说是一个问题的两个表现：

一是模型迭代的速度大大慢于预期。

具体表现是 GPT-5 一再跳票，从2023年11月15日 Altman 第一次官宣 OpenAI 正在开发 GPT-5，预期会在未来几个月发布，到2024年6月 Murati 修正正式发布时间至2025年底或2026年初，再到2025年4月 Altman 宣布无限期推迟 GPT-5 的发布，这个进程就是一个不断爽约，前期还试着找理由，后面直接放弃治疗的过程；

二是在发布出来的模型表现方面，细节上局部超预期，但整体惊喜越来越少，失望越来越多。

人们在不断基于现实矫正预期的基础上，也逐渐丧失了最初对新模型能力的惊叹与激动，逐步变成了「就这…，OpenAI 还值得我们期待什么」。

如果我们同时也听到了一些AI领域的理论研究专家的观点，可能会对这种现象有更高的接受度：毕竟对于一个尚无系统化理论指引的领域，任何对未来的预测，和掷骰子也没有什么本质的区别，猜大固然可能开出大，但开出小也不令人意外。

2.模型能力的评判标准

另一个关联的问题是，当 OpenAI 不断开枝散叶（团队崩坏），加上其他巨头纷纷加速布局之后，市面上充斥了令人目不暇接的大模型和各种版本发布。

除了 OpenAI 的 GPT 模型，还有 Anthropic 公司的 Claude 模型， Google 旗下的 Gemini 模型，Elon Musk 砸重金组建的 Grok 公司发布的同名模型，以及中国的 X 小龙和 Y 巨头，当然还有欧洲的一些独立厂商发布的大模型，和 DeepSeek、Qwen、Llama 这一批开源模型。

这些模型的能力如何评价，如何对比？

答案是，跑个分。

比如，DeepSeek-R1 发布的论文里，开发者提供了 AIME2024、 CodeForce、GPQA Diamond、MATH-500、MMLU、SWE-bench Verified 场景/基准下与 OpenAI-o1-1217、OpenAI-o1-mini 等模型的六组跑分对比。

可是，有分数就能反映真实的模型能力吗？不一定。有时候人们有一把尺子并不一定意味着就具备了度量能力，也可能只是因为他们觉得自己需要一把尺子，于是就造了一个工具，并称其为尺子。

除了这些具体场景的跑分测试之外，还有 LMArena 等 AI 测评平台，采用匿名对战对方式由用户投票来选出更优秀的模型进行排名。

这些尺子的局限是：

要么不具备动态性，一旦被广泛使用，其测试价值就迅速下降；

要么模型并不是通过真实的智能能力，而仅通过「模式记忆」来刷分；

要么交给模型的封闭问题，比如编程，不涉及真实软件工程的架构与上下文理解；

要么在人类或其他模型参与过程中，呈现出的结果缺乏稳定和一致的持续表现。

总体来看，几乎没有评价机制能够真实和准确地度量模型的泛化能力。

3.对模型降智的一个猜测

除了上述两个情况之外，用户在使用大模型的过程中，还有一个几乎无处不在的烦恼，那就是——模型降智。

或者，更温和一点的表达是，模型表现出的智能水平不够稳定，不能做到持续符合预期。

多数人感受到的模型降智表现是：用模型在某些时刻或连续对话中表现突然变笨，理解力下降、回答质量变差、不如之前聪明。

用户常见的另一种使用体验是：对模型的输出乍一看感觉十分惊艳，可是看到更多输出，或者多几轮对话之后，看到的模型输出就会变得平庸。

有一些研究者认为，生成式模型在输出 token 过程中表现出的降智的可能原因包括，上下文遗忘（当对话过长或复杂，模型可能丢失前面的关键信息）、注意力漂移（在长上下文中，模型注意力分布不均，导致抓错重点，偏离目标）、推理链断裂（多步骤推理中，缺乏自我检查与回溯机制，前后步骤脱节）等。

当然这些原因都有其道理，不过我有一个更偏重人类自身的预期形成机制和特征相关的猜测：

在大部分的人类对话场景中，人们都会一边接受对方的输出，一边结合环境动态信息（比如，交流各方的肢体语言、或者是大家共同接受到的环境变化，等）来调整自己的表达，因此也会对对方的输出产生一个动态的预期。对此的一个极端抽象是，人类之间的交流里，人的输出是坐标轴里一条斜率为正的线。

而生成式 AI 的输出，在缺乏有实质性增量信息的 prompt 时，是一条斜率为零的线。

问题在于，人类习惯了以这条斜率为正的曲线为 benchmark 来判断交流对象的输出内容质量时，一条斜率为零的线，自然就体现为某种程度的「降智」。

这里强调的人类持续接受环境动态信息，在我看来，是理解后续 AI 演进趋势的一个关键视角。不过，在展开这个关键视角之前，我想先把话题拉回到大模型主题下。

4.回顾大模型的进展和影响

过去三年的大模型，做到了哪些事情？

从 input 视角看，大模型在持续消耗算力，卷入数据，迭代算法，不断进行工程优化；同时，大模型在大量的场景应用，引起了广泛的舆论关注，对社会生产和生活产生了巨大的影响。

以上两方面在社交媒体上已经有了大量的讨论，在此不赘述。

值得一提的是，在持续扩大算力消耗，卷入更多数据，继续大幅迭代算法，不断进行工程优化方面，越来越多的从业者开始降低产出预期。

重点说一下，除了最早引爆的 ChatGPT几乎定义了聊天作为本轮大模型的主流产品形态基础上，大模型在应用方面已经验证了 PMF 的两个最重要的领域：Deep Research 和 AI Coding，行业里的代表性作品是 GPT-o3 Deep Research 和基于Claude Opus 4的编程产品Claude Code。

以下简单介绍GPT-o3 Deep Research 和 Claude Code的目标用户画像和核心应用场景。

腾讯元宝认为，Deep Research的目标用户是需高效处理复杂信息的专业人士及高价值消费者，核心场景覆盖金融分析、科研创新、政策评估、技术研发及消费决策。其价值在于将数小时乃至数天的研究压缩至数十分钟，并通过可审计的报告提升决策质量。

GPT认为，GPT-o3 Deep Research 旨在通过提供智能化、数据驱动的支持，帮助科研人员在繁重的信息处理中提高效率，在跨学科合作中促进创新，并在学术与产业界的前沿推动科技进步。

在我看来，Deep Research（结合搜索引擎）可以做到的，是基于互联网上可获得的结构化数据，结合大模型的理解能力，进行多轮的任务拆解、信息和数据检索、模型生成来完成信息产出。

Gemini 认为，GPT-o3 Deep Research 可以在一定程度上减轻数据获取的局限性，通过智能推理、模拟和引导来弥补信息不足。但它不能完全克服这些局限性，特别是在数据本身就未公开、受保护或根本不存在的情况下。在这样的情况下，模型更像是一个高级的“信息参谋”，指导人类用户如何更有效地获取和处理那些它无法直接触及的数据（虽然也未必有效）。

Claude Opus 4被 Anthropic 称为“全球最强编程模型”，专为复杂、长时间任务设计（如代码重构、跨文件系统开发）。Claude Code 是基于 Anthropic 大模型（主要是 Opus 4 和 Sonnet 4）构建的 AI 编程工具，其功能实现依赖底层模型的代码生成、问题分析和工具调用能力。

Claude Code 及同类产品，目前存在的最大局限性是，模型生成的代码可能引用不存在的内部包或缺少足够的验证机制（如简单的单元测试反馈），导致代码无法直接运行或存在逻辑错误。

5.大模型的局限性

当下的大模型，在预期范围里，还有哪些做不到或做不好的重要的事情？

Gemini 认为，当前阶段，即使是最顶尖的大模型，也依然有一系列核心缺陷，具体包括：

在严谨的逻辑推理和数学推断方面的可靠性不足、缺乏常识背后的常识和对常识的抽象理解，以及在长文本语境中保持连贯性方面的挑战。

此外，诸如时间线混乱、事实不一致、幻觉和对人类细微差别及情感理解的初步水平等问题依然普遍存在。

在我看来，大模型最大的局限性是，作为已经掌握了海量数据的一个数据压缩机器，在对物理世界相关的实际数据的掌握方面，依然存在重大瓶颈。

这意味着，在需要采用精密逻辑或精确数值计算的时候，模型并不能自主确认调用合适的能力来解决问题；

需要卷入适配的常识来支撑理解、决策和沟通时，无法做到选择恰当的常识。

长文本的连贯性体现的是记忆（遗忘）机制的不完善。这是另外一个（开放的）严重问题。

至于事实不一致和幻觉，其实质依然是广泛的数据掌握不足带来的局限；

对人类细微差别及情感理解的初步水平，则要归因于对特定对象的数据掌握不足时，采用大样本的均值替代带来的效果偏差。

6.大模型的改进空间和短期天花板

接下来一两年，还有哪些是大模型确定花时间就可以得到改进的领域？

关于大模型短中期内（6-12个季度）可以做到和不能做到的事情，我有几条无责暴论：

可以做到：结合符号逻辑、强化学习和规划算法，使模型能够进行更严谨的链式推理（Chain-of-Thought）和自我修正；

不能做到：主动进行广泛全面的物理世界连接，验证信息并提供来源，消灭幻觉。

可以做到：通过新的注意力机制或记忆模块，使模型能更有效地识别、存储和检索长文本中的关键信息；

不能做到：主体级别的个性化遗忘机制，反向用遗忘和记忆的分割来定义主体性。

可以做到：进一步优化RAG系统，使其能够无缝、低延迟地访问和整合最新信息；

不能做到：在机器人和智能体领域，通过与传感器数据的深度融合，让大模型构建更丰富的世界模型。

基于以上，关于大模型下一阶段的能力演进，我们如何展望？

借鉴 AlphaGo 超越人类职业围棋选手的历程，我曾经在之前的笔记中提到过，通过图灵测试后的 AI 进化过程中，将会有三个重要的里程碑，分别是：

AI 自主完成数据标注和数据生成，AI 完成世界模型的构建并自主迭代新的 AI 模型，AI 全面连接和接管物理世界。

2023年猜测这三个里程碑时，我曾认为这三个环节是次第达成的。但今天我倾向于认为，这三个里程碑实质上是同一个里程碑的三个方面的表现，如果真的成为现实，大概率会是同步达成的。

达成这个里程碑的关键突破是，AI 构建出了世界模型。

在那之前的阶段，我称之为本轮 AI 的演进迭代阶段；而在世界模型上取得突破之后，AI 将进入创世阶段。

后续的讨论，均聚焦于本轮 AI 的演进迭代阶段，最后留一点点篇幅来展望创世阶段的实现路径和达成后的表现。

7.大模型和人类的协作关系

AI 接下来会如何替代人类展开工作，其中包含怎样的 AI 间协作？AI 又将如何与人类展开协作？

我们以比特世界和物理世界的二分法视角，来探讨 AI 如何替代人类，以及如何和人类展开协作。

某种程度来看，纯粹的比特世界里，AI 已经在多数方面对人类具备了碾压的优势。人类仅在「遗忘机制」、「token 成本」、「推理效率」等方面拥有一些阶段性长板。因此，在面向比特世界的信息掌握和处理维度上，我们定义一项关键指标——人类-AI 认知重叠度。

而物理世界，在 AI 和具身机器人全面联动之前，还是人类的优势领域。故，在面向物理世界的行动模式上，我们定义一项关键指标——现实世界锚定强度。

如下图所示，我们用人类-AI 认知重叠度和现实世界锚定强度这两个维度的高低组合构成一个四象限框架：

III 区，左下角（低低），人类-AI 认知重叠度低且现实世界锚定强度低，这意味着命中的是比较传统的、不重要的线上信息处理任务，因此定义为淘汰区——拥抱 AI 的新人类和 AI 都不感兴趣的领域；

IV 区，右下角（高低），人类-AI 认知重叠度低而现实世界锚定强度高，这意味着命中的是短期内 AI 拥有显著的认知差异化优势和行动优势的领域，因此定义为人类优势区——具身发现和识别问题，然后有限调用 AI 来协助的领域；

I 区，右上角（高高），人类-AI 认知重叠度和现实世界锚定强度均高，这意味着AI 在该领域掌握了接近于人类的信息，同时因为这类场景还与现实世界锚定强度较高，人类作为传感器依然具备独特优势，因此定义为人机共生区——人类在该区域贡献局部优势，并不断给 AI 赋能，从而让 AI 建立长期优势的区域，具体表现形态可能是脑机接口或增强现实；

II 区，左上角（低高），人类-AI 认知重叠度高而现实世界锚定强度低，这意味着 AI 在该领域可以对人类形成碾压，因此定义为人工智能殖民区——那些被 AI 幻觉和生成虚假内容（注意这里只是现实世界锚定强度低，未必意味着效用和经济价值低）所主导的领域，人类会成为 AI 的菜。

基于以上极限抽象的框架，我们用接近于终极思考的视角，回到本节开始提出的第一个问题：AI 接下来会如何替代人类展开工作？

所有还在从事「现实世界锚定强度低」的两个象限工作的人群，都会面临显著的 AI 替代挑战。只是在替代形式上稍有差异：

左上角（低高），人类-AI 认知重叠度高而现实世界锚定强度低的象限里，AI 会对人类形成正面碾压；

左下角（低低），人类-AI 认知重叠度低且现实世界锚定强度低的象限里，AI 会通过海量数据生成的方式，顺手将还有人在工作的这个领域，彻底荒漠化，最终形成一片不毛之地。

第二个问题：AI 又将如何与人类展开协作？协作体系如何演进？

在所有「现实世界锚定强度高」的领域，AI 都需要和人类协作来推进具体任务，并在海量具体任务推进过程中，形成一套全新的数字化系统，让对应领域的人类-AI 认知重叠度不断提升，不断挤压人类优势区域，同时放大人机共生区。

进一步地，在人机共生区不断放大的过程中，将越来越多的领域从 I 区转换到 II 区，同时让一些残存的 IV 区丧失价值蜕变为 III 区。

8.正在开始的 AI 驱动的数字化2.0历程

关于数字化1.0，亦即过去20余年里，由软件和互联网的普及带动，社会生产实践逐步从物理世界的机械式操作为主，逐步转换为物理世界的机械操作和比特世界针对数字的操作相耦合的生产方式。

这个过程在美国是先由软件行业驱动，后来进一步被互联网行业和云计算加速。在中国则是主要由互联网行业，特别是平台公司所驱动，同时软件和 SaaS 行业起了一定的辅助作用。

在上述过程中，特定业务的数字化，很大程度上是一个结果而非原因。以我所从事的新零售领域为例，「零售数字化升级」是在商家日常面对消费者、商品和运营场域，为了提升业务效率，改善业务效果，持续引入新的数字技术和新的作业流程，在达成相应业务目标的同时，实现了业务流程数字化和数据能力的建设提升。

这里面要强调的一个逻辑细节是，业务的数字化是业务在具体场景中采用具体技术解决具体问题后，自然而然带来的一个状态结果，而非反过来，先把技术植入到业务里进入某个状态，再来帮助业务解决问题和带来增益。这是数字化1.0的基本原理。

再说回到我们要聊的数字化2.0：

由于大模型极大的拓展了「业务在具体场景中采用具体技术解决具体问题」这个链路里的具体技术的可行边界，导致接下来若干年里，数字化进程将会被极大加速。

不过，如果只是技术可行边界被拓展，还不必称之为2.0.实际上，更大的变化是，AI 需要更多的数字化。

这一点会极大改变数字化的演进飞轮——对比数字化1.0里面，虽然也有数据量积累和提升带来更强数据能力，产生更强大技术应用的小飞轮，新一轮的数字化进程中， AI 对物理世界里海量信息的吞噬需求，也就是上一节提到的越来越多 IV 区的业务，因为数字化进入到 I 区，又因为 AI 能力提升进入到 II 区的过程，是真正的 AI 创世纪。

这将是比上一轮数字化更加波澜壮阔，影响更大也更加不可预知的时代进程。