免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-5 = Scaling Law失效?毕树超:永远有效,因为它反应的是数据结构,客观规律

发布日期:2025-08-12 08:04:57 浏览次数: 1517
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

GPT-5表现引发争议,但Scaling Law作为数据结构的客观规律将永远有效。

核心内容:
1. Scaling Law的本质与数据瓶颈问题
2. 自监督学习与强化学习的双轨发展历程
3. 未来AI突破依赖高级强化学习范式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


 

GPT-5的发布让大家比较失望,甚至业内大佬比如Fast AI创始人Jeremy Howard 认为:Scaling Law 的时代快结束了,每家实验室都会经历一个类似 小扎“Llama 4 时刻” 的节点——Grok 已经经历了,OpenAI 也刚经历

那么scaling law 真的已经走到尽头了吗?Shuchao Bi(前OpenAI 多模态后训练负责人兼 YouTube Shorts 联合创始人,已经被小扎高价挖到了超级智能实验室) 给出了否定回答,Shuchao Bi 认为scaling law会永远有效,因为它反应的是数据结构,是客观规律,失效的只会是数据

最近Shuchao Bi大神在哥伦比亚大学做了一个演讲《推进硅基智能的前沿:过去、开放性问题与未来》,系统性地阐述了他对人工智能发展的深邃思想。他首先回顾了过去十五年 AI 领域的两条核心发展路径——自监督学习(Self-Supervised Learning)与强化学习(Reinforcement Learning),并强调了“苦涩的教训”(The Bitter Lesson)这一核心思想:即大规模的计算(Compute)和数据(Data)最终会胜过人类精心设计的归纳偏见(Inductive Bias)

演讲的核心论点是,当前 AI 的进步主要源于计算规模的扩展,但正逐渐面临高质量数据的瓶颈。为此,未来的突破将依赖于能够将计算转化为新知识和新数据的高级强化学习范式,Scaling Law本身是数据内在结构的一种反映,它是一种客观规律,不会失效,真正的问题是,我们已经耗尽了互联网上大部分高质量、智能化的文本数据

以下是详细内容


1. 发展轨迹:自监督与强化学习的“双城记”

Shuchao Bi 将过去十几年人工智能的发展历程,比作一个关于两座城市的故事。这两座城市分别是自监督学习(Self-Supervised Learning)和强化学习(Reinforcement Learning)。它们各自独立发展,最终在近年汇合,共同推动了当前生成式 AI 的革命

第一座城市:自监督学习与规模化的力量

自监督学习的浪潮,始于大约 2012 年。当时,一个名为 AlexNet 的大规模深度学习模型,利用 GPU 和海量数据,在 ImageNet 图像识别挑战中取得了惊人的成果,其错误率远低于以往任何方法。这件事的标志性意义在于,它证明了只要有足够的数据和计算能力,神经网络就能够超越人类数十年来手工设计的视觉算法。这对当时的计算机视觉领域来说是一场噩梦,因为研究者们过去几十年精心调整的特征工程(hand-tuned features)一夜之间变得几乎毫无价值。这一事件重新点燃了学术界和工业界对神经网络的兴趣,被广泛视为深度学习革命的开端

a.从 Word2Vec 到 Everything2Vec (2013):

谷歌推出的 Word2Vec 模型展示了如何用向量(vector)来表示单词,并在这些向量上进行有意义的数学运算,例如 vector('king') - vector('man') + vector('woman') 约等于 vector('queen')。这证明了语言的语义可以被嵌入到代数结构中。更重要的是,这些嵌入向量在下游任务中表现出色,由此引发了万物皆可向量化(Everything2Vec)的趋势。无论是推荐系统中的应用、视频,还是用户,都可以被表示为向量,极大地推动了各类应用的发展

b.架构与优化的演进:

ResNet (残差网络, 2015,何凯明大神神作):深度学习面临的一个核心挑战是,训练非常深层的网络极其困难,因为梯度(gradient)在反向传播过程中容易消失或爆炸。ResNet 通过引入跳跃连接(skip connection)巧妙地解决了这个问题。每一层的输入可以直接跳到下一层,作为其原始输入的一部分。这可以被理解为一种集成方法,将从浅层到深层的所有网络进行了集成。这使得损失曲面(loss surface)变得异常平滑,极大地简化了优化过程。如今,几乎所有现代神经网络都采用了类似的结构

Adam 优化器 (2014): Adam 提供了一种标准化的学习算法,研究者不再需要手动调整大量的学习参数。它对于大规模、高噪声的数据集尤其有效,简化了训练流程,至今仍然是主流的优化方法

c.Transformer (2017) - 革命的集大成者

早期处理序列数据的模型(如 RNN、LSTM)存在两大瓶颈:一是其递归结构难以并行化,限制了模型和数据的规模;二是它们在处理长序列时仍然会面临梯度消失的问题。2017 年的论文《Attention Is All You Need》提出的 Transformer 架构,彻底摒弃了递归结构,完全依赖于自注意力机制(self-attention)。它通过堆叠多头注意力层和前馈网络,实现了卓越的数据效率和并行化能力。这使得训练前所未有的大模型成为可能,并成为了几乎所有前沿语言模型和多模态模型的骨干架构

从 AlexNet 到 Transformer,自监督学习的发展轨迹清晰地印证了 Rich Sutton 提出的“苦涩的教训”(The Bitter Lesson):

那些充分利用计算规模扩展的通用方法,最终会胜过那些依赖人类精巧设计和归纳偏见的方法

我们不应该试图将人类的先验知识(prior)硬塞进模型,而是应该创建一个结构尽可能简洁、只想要学习的模型,然后用海量的数据和计算去训练它

第二座城市:强化学习与智能的探索

强化学习的发展则呈现出另一番景象,它更多地关注决策、探索和与环境的互动。

从游戏到超越人类:

Deep Q-Network (DQN, 2015):DeepMind 展示了 DQN 能够在数百种雅达利(Atari)游戏中达到远超人类的水平。这些 AI 甚至发现了人类玩家从未想过的外星智能策略

AlphaGo (2016) & AlphaGo Zero (2017): AlphaGo 的成功是 AI 发展史上的一个里程碑。它最初从人类棋谱中学习,结合了深度神经网络、自对弈(self-play)和蒙特卡洛树搜索(Monte Carlo Tree Search),击败了世界围棋冠军。而其继任者 AlphaGo Zero 则更进一步,完全不使用任何人类数据,仅仅通过自对弈就达到了超越所有前代版本的水平。这就像一位武林高手,在找不到对手后,开始左右互搏,从而达到更高的境界

AlphaZero (2018): 该模型将这种能力推广到其他棋类游戏(如国际象棋),证明了其方法的通用性

然而,尽管这些在游戏领域的成就令人印象深刻,并产生了巨大的社会影响力,但它们却未能直接创造显著的经济价值。Bi 指出,其根本原因在于,这些成就高度依赖于专门的、不具备广泛通用性的环境。换句话说,它们是特定任务的超级智能,而非通用智能。

双城汇合:预训练模型与强化学习的联姻

真正的变革发生在这两条路径交汇之时。当强化学习不再是从零开始,而是与经过大规模数据预训练、拥有广泛世界知识的语言模型相结合时,奇迹发生了

InstructGPT (2022) & ChatGPT (2022):通过使用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RHF),研究者们将一个只会进行文本补全的预训练模型,转变为一个能够理解并遵循人类指令、乐于助人的对话式 AI。ChatGPT 的发布引爆了全球的热情,每周活跃用户超过 5 亿,其应用场景从日常答疑、内容创作到拯救生命的医疗诊断,展示了前所未有的实用价值

这场变革的关键在于,强化学习现在被应用在一个具有极高经济价值的通用环境中,并且其起点是一个已经具备了海量知识的通用“先验”(prior)——即预训练语言模型。绝大部分的通用性仍然来自于预训练阶段,而强化学习则扮演了对齐(alignment)的角色,让模型的行为更符合人类的期望。正如 Yann LeCun 的蛋糕比喻:自监督学习是蛋糕的主体,监督学习是糖霜,而强化学习只是蛋糕顶上那颗画龙点睛的樱桃。尽管目前 RL 的计算占比很小,但 Bi 相信,要实现更高级的 AGI 和 ASI,需要投入更多计算资源到强化学习中,使其能够适应全新的、甚至人类从未见过的环境


2. 当前的挑战:通往 AGI 之路上的开放性问题

在回顾了辉煌的过去之后,Shuchao Bi 指出,通往通用人工智能(AGI)的道路并非一帆风顺,当前我们正面临一系列核心的开放性问题。这些问题主要围绕着数据、效率、探索和安全展开

核心瓶颈:数据,而非算法

许多人观察到,近期模型的性能提升似乎放缓,并宣称Scaling Law 失效了。但 Bi 提出了截然不同的看法:失效的不是Scaling Law,而是数据。他认为,Scaling Law本身是数据内在结构的一种反映,它是一种客观规律,不会失效。真正的问题是,我们已经耗尽了互联网上大部分高质量、智能化的文本数据

a.Scaling Law本质:

Bi 倾向于认为,Scaling Law源于数据分布的幂律特性(power-law distribution)。在现实世界中,简单、常见的知识(如算术)非常多,而复杂、稀有的知识(如代数几何)则要少得多。模型需要消耗指数级增长的计算资源,才能从数据中学习到那些更稀有、更深奥的模式。这也解释了涌现能力(emergent abilities)现象:模型的能力并非平滑增长,而是在计算量跨越某个阈值后,突然掌握了某项新技能(如微积分),这正是因为它终于有足够的算力去理解数据中那些极其稀有的相关模式

b.数据的困境:

学习从根本上是受数据约束的(data-bonded)。如果没有更多、更好、更智能的数据,单纯增加模型参数和计算量,其收益将会递减。因此,根本性的挑战变成了如何获取新的、高质量的数据

如何创造新数据?高算力强化学习的希望与挑战

既然人类数据已近枯竭,一个自然的想法是:我们能否将计算资源转化为数据? 毕竟,人类的知识本身就是人类大脑通过与环境互动(即消耗生物计算)产生的。理论上,硅基计算机也可以做到这一点。DeepMind 的 AlphaGo 和 AlphaDev 已经在特定领域证明了这一点的可行性。然而,将这一模式推广到通用领域,还面临几个重大挑战:

a.可验证性的限制 (Verifiability): 目前,通过强化学习生成新数据的方法,主要局限于那些结果可以被轻易验证的领域,例如数学问题(有标准答案)或代码生成(可以通过单元测试)。但在更多开放性、创造性的领域,如何定义一个可靠的奖励信号(reward signal)来判断生成内容的好坏,是一个悬而未决的难题

b.探索的困境 (Exploration): 在围棋这样的封闭环境中,可以通过随机探索(如蒙特卡洛树搜索)来发现新策略。但在语言模型这样一个组合空间大到难以想象的领域,随机生成词元(token)几乎不可能产生任何有意义的内容。这意味着我们需要更高效的探索策略。Bi 认为,一种可能的方向是,模型可以基于已有的庞大知识库进行插值(interpolation)和外推(extrapolation),这种有引导的探索本身可能就足以推动智能的边界。AlphaDev 的成功——在 50 年未有突破的算法排序问题上发现了更优解——为这一方向提供了鼓舞人心的证据

c.RL 能否创造新思想? 最近有研究指出,当前的强化学习(如 RHF)更多的是在激发而非创造基础模型中已有的能力。也就是说,它能让模型更可靠地输出正确答案,但答案的种子在预训练阶段就已经存在了。Bi 对此持保留态度,他相信更先进的 RL 范式将能够真正生成全新的知识

学习效率的鸿沟:人脑 vs. 机器

另一个核心问题是数据效率。与人类相比,当前 AI 的学习效率极低。一个人类学习新棋盘游戏,可能只需要几分钟的讲解和几局练习(相当于数千个 tokens)。但要让一个 AI 模型达到同等水平,可能需要数百万甚至更多的样本

Bi 推测,这种效率差异的根源可能在于学习目标的不同

AI 的学习方式:

当前的语言模型通过预测下一个词元来学习。这意味着模型不仅要学习语义和逻辑,还被迫浪费大量的计算资源去拟合语言中随机的、表面的结构(例如,同一个意思有一百种不同的说法,模型却试图去预测具体的遣词造句)

人类的学习方式:人类学习时,并不是在预测下一个词。我们是在一个更高的、更抽象的层次上进行预测和理解。我们关注的是思想的本质,而非其表面的语言形式

如何设计一种新的模型架构或损失函数,使其能够像人一样在更抽象的层次上学习,是通往更高数据效率的关键。解决这个问题的人,可能会开启下一个 AI 范式,其意义不亚于 Transformer

安全与对齐:不可忽视的基石

随着模型能力越来越强,安全问题也变得日益突出。Bi 将其分为三类:

内容安全:模型可能生成有害、不安全的内容,这类似于传统的信任与安全问题。

恶意使用: 坏人可能利用强大的 AI 从事犯罪活动。

失控与对齐风险 (Misalignment):这是最严峻的挑战,即模型自身的目标与人类的价值观不一致,可能导致灾难性后果

确保 AI 的发展是安全、可控且符合人类利益的,是所有前沿 AI 研究机构都必须严肃对待的核心问题


3. AI 将如何重塑我们的世界

在演讲的最后一部分,Shuchao Bi 分享了他对 AI 未来的畅想。他引用了 Sam Altman 的一句话:日子很长,但十年很短(The days are long, but the decades are short)。这句话提醒我们,人们往往会高估 AI 的短期影响,却严重低估其在中长期的颠覆性力量。Bi 预见,当我们拥有了一个具备通用知识的先验模型,并将其与无限制的强化学习计算和良好的交互环境相结合时,其结果将是超级智能的诞生

AI for Science:科学发现的新范式

Bi 对于 AI 在科学领域的应用感到极为兴奋。他认为,科学发现本质上是一个在巨大空间中的搜索问题(a massive search space)。历史上,科学家们通过直觉、实验和理论,在这个空间中艰难地寻找真理的鹅卵石。AI 的力量在于,它可以极大地压缩这个搜索空间,让原本需要灵光一现的偶然发现(serendipity)变成可以系统性达成的目标

AI 将成为科学的新数学:

他引用 DeepMind Isomorphic Labs 首席科学家的话说:不用 AI 做药物设计,就像不用数学做科学研究一样。AI 将成为未来十年所有科学领域的基础工具

正向飞轮的形成:

模型引导搜索:AI 模型(如 AlphaFold)分析问题,提出高可能性的假说(例如,哪些蛋白质结构可能有效)

自动化实验验证: 实验室中的机器人和自动化设备根据 AI 的提议进行高通量实验

数据反馈与模型迭代:实验结果被迅速反馈给 AI,AI 在这些新数据上持续学习和进化,从而提出更精准的假说

这个“假说 -> 实验 -> 反馈”的闭环将以惊人的速度运转,远超人类科学家的效率,从而加速在材料科学、药物研发、物理学等领域的突破。Bi 甚至梦想,未来我们可以建造一个通用的科学模型,而不是为每个学科都建立一个专门的模型,来解决像黎曼猜想这样的世纪难题

AI for Education:实现真正的个性化与精英化学习

教育是 AI 最能带来公平和效率的领域之一。当前的教育体系,最大的不公之一在于优质教育资源的稀缺和分配不均。AI 有潜力从两个方面彻底改变这一现状。

降低学习门槛:AI 可以将复杂的知识点,用最适合个体学习者理解的方式重新组织和呈现。它可以生成无数的、个性化的例子和解释,将原本令人生畏的学科变得平易近人

提升学习上限(Raise the Ceiling):AI 可以充当一个全天候、全知全能的个人导师(personal tutor)。研究表明,一对一辅导可以将学习效率提升数倍。对于求知欲强的学习者,AI 可以成为10x 学习者的加速器。Bi 以自己为例,他可以利用 AI 在一个周末内对一个全新领域建立起入门级的认知。他大胆假设,在未来,一个人用五年时间,或许不再是攻读一个博士学位,而是可以获得五个甚至十个不同领域的博士级知识

其他领域的颠覆

AI Agents:在未来一两年内,我们将看到更加可靠和能干的 AI 代理成为现实,它们能够代表人类执行复杂的数字任务,这更多的是一个工程执行问题,而非基础研究问题

AI for Healthcare:AI 已经-在诊断方面展现出超越大多数普通医疗提供者的能力。未来,如果 AI 能够获取一个人的完整健康史和生命体征数据,它将不仅能治疗疾病,更能进行精准的预防性健康管理

具身智能 (Embodied AI):尽管这是一个更长远的挑战,因为我们缺乏像互联网文本那样海量的机器人交互数据,并且如何高效地对动作进行标记(tokenize)仍是个难题。但一旦实现,具身智能将对实体经济产生巨大影响,甚至可以代替人类去探索危险的深海和遥远的宇宙。

Bi 认为,从某种意义上说,人类数百年来的文明进程——从发明印刷术记录知识,到发明计算机和互联网汇集数据——似乎都是在为 AGI 的诞生做准备。现在,这个时刻正在以前所未有的速度向我们走来


总结

从 Shuchao Bi 的演讲中,我们可以提炼出两个核心的框架和心智模型来理解AI未来发展,至少我觉得Shuchao Bi能够为我带来一种较为可信的视角和思想,希望对大家能有帮助,这样也会减少一些人云亦云的噪音

心智模型一:“苦涩的教训”——拥抱规模,摒弃偏见

这是贯穿整个演讲的基石思想,源自强化学习之父 Rich Sutton 的经典文章《The Bitter Lesson》。它要求我们在思考 AI 发展路径时,彻底转变思维模式

核心原则:通用方法 + 海量计算 = 最终胜利

历史反复证明,那些试图将人类的知识、规则和启发式方法(heuristics)硬编码进系统的努力,虽然在短期内可能看似有效,但最终都会被那些更通用、更简洁且能够从大规模计算中获益的方法所超越

应该做什么:专注于可扩展的两件事——搜索(Search)和学习(Learning)

学习: 指的是模型从数据中自动发现模式和结构的能力,其代表是基于神经网络的自监督学习。我们应该设计出能够吸收海量数据的通用架构(如 Transformer),而不是为特定任务设计复杂的模块

搜索:指的是在一个巨大的可能性空间中进行探索以找到最优解的能力,其代表是强化学习中的蒙特卡洛树搜索等方法

应该避免什么:过度依赖人类的归纳偏见(Inductive Bias)

当我们设计一个算法时,很容易将自己的直觉和对问题的理解(即偏见)加入其中。例如,在传统的计算机视觉中,研究者们手工设计了边缘检测器、角点检测器等特征。然而,深度学习的成功表明,让模型自己从原始像素中学习这些特征,效果要好得多。Turing 在 70 年前就提出,我们不应试图模拟一个成人大脑(包含各种偏见和知识),而应模拟一个婴儿大脑,并给予它适当的教育(即数据和训练)。

实践应用:

在选择研究方向或技术方案时,优先考虑那些可扩展性(scalability)强的方法。问自己一个问题:如果我的计算资源增加 100 倍,这个方法的性能会线性甚至超线性地提升吗?

在构建模型时,保持架构的简洁和通用性。相信数据和计算的力量,而不是试图用巧妙的技巧去教模型太多东西。让模型just want to learn(只想学习)。

这个心智模型解释了为什么深度学习能够在视觉、语言等多个领域取得突破,并预示着未来的进步将继续依赖于计算和数据规模的指数级增长。

心智模型二:计算-数据飞轮——通往超级智能的自增强回路

面对高质量人类数据枯竭的瓶颈,Bi 描绘了一个通过 AI 自身来创造新知识、从而驱动智能增长的正向飞轮框架。这个框架是“苦涩教训”的自然延伸,核心是将计算资源转化为数据资产。

飞轮的引擎:规模法则 (Scaling Laws)。 这是底层物理规律,确保了投入更多高质量的数据和计算,就能换来更强的模型能力

飞轮的启动燃料:人类的全部知识。我们首先利用现有的人类数据(文本、代码、图像等)来预训练一个强大的基础模型(如 GPT-4)。这个模型是飞轮的起点,它拥有一个对世界广泛而通用的先验知识

飞轮的运转机制:一个“生成-验证-学习”的闭环

第一步:AI 提出假说(Hypothesis Generation)。利用基础模型的强大推理和知识能力,在一个特定问题域(如数学、材料科学)中进行有引导的探索和搜索,生成新的想法、解决方案或设计。这一步是将模型的潜在能力显性化。

第二步:环境提供反馈(Verification & Feedback)。 将 AI 生成的假说放入一个可验证的环境中进行检验。这个环境可以是一个数学证明器、一个物理模拟器、一个代码编译器,或者是一个自动化的湿实验室(wet lab)。环境会返回一个明确的信号:这个假说是否正确、有效或更优

第三步:成功的探索转化为新数据(New Data Creation)。所有被验证为成功的探索结果(例如,一个新的数学定理、一种更高效的算法、一个性能更优的分子结构),都被视为全新的、高质量的、由 AI 生成的数据

第四步:模型在学习中进化(Model Evolution)。将这些新生成的高质量数据,用于对基础模型进行持续的训练或微调。这会让模型在该领域的能力变得更强,从而在下一轮的循环中能够提出更深刻、更有效的假说

飞轮的最终目标:实现智能的自我驱动增长。通过这个不断加速的飞轮,AI 系统将能够摆脱对人类数据的依赖,进入一个自我完善、自我进化的轨道。计算资源被高效地转化为新知识,而新知识又反过来提升了转化效率。这条路径,被认为是通往 ASI(人工超级智能)的最可能途径。

这个框架不仅为解决数据瓶颈提供了清晰的路线图,也为我们理解未来 AI 如何可能在科学等前沿领域产生颠覆性影响提供了深刻的洞察。它要求我们不仅将 AI 视为一个工具,更要将其视为一个能够与我们共同探索未知、创造新知的合作伙伴

参考:

https://www.youtube.com/watch?v=E22AOHAEtu4

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询