OpenAI 内部专家深入解读o1：语言领域首次真正使用强化学习

发布日期：2024-09-14 12:04:33 浏览次数： 3650

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

OpenAI 全新推理模型 o1 系列来了，它不仅推理能力爆表，还能像人类一样“思考”，标志着 AI 发展进入全新阶段！这次发布引发了 AI 圈的热烈讨论，多位专家学者纷纷点赞，认为 o1 模型代表了 AI 的未来方向

下面，我们就来看看o1开发专家对 OpenAI o1 模型的各项细节解读：

大佬集体点赞：

Boris Power：“这是第一次在语言领域真正使用强化学习！这让我回想起早期计算机通过自我对弈变得越来越擅长围棋的那些日子。”

Noam Brown：“今天，我很高兴与大家分享我们在 OpenAI 努力创建具有真正通用推理能力的 AI 模型的成果：OpenAI 的新 o1 模型系列！（又名草莓）。我们还将分享我们（尚未完成的）o1 模型的评估结果，向全世界展示这不是一次性的改进——这是一种新的扩展范式，我们才刚刚开始

Max Schwarzer：“我一直相信，无需达到 GPT-6 水平的基础模型，也能实现人类级别的推理能力，而强化学习正是通往通用人工智能（AGI）的关键要素。”

今天，我们有了证明——o1

Jim Fan：“OpenAI Strawberry (o1) 发布了！我们终于看到推理时间扩展的范式在生产中得到普及和部署。正如 Sutton 在“苦涩的教训”中所说，只有两种技术可以随着计算量的增加无限扩展：学习和搜索。现在是时候将重点转移到后者了:

1. 你不需要一个庞大的模型来执行推理。许多参数都用于记忆事实，以便在诸如问答之类的基准测试中表现出色。可以将推理与知识分离，即一个知道如何调用浏览器和代码验证器等工具的“推理核心”。预训练计算可能会减少
2. 大量的计算从预训练/后训练转移到服务推理。LLM 是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景，模型最终将收敛到好的解决方案。这个过程是一个经过充分研究的问题，就像 AlphaGo 的蒙特卡洛树搜索 (MCTS)
3. OpenAI 一定很早就发现了推理缩放定律，而学术界最近才发现这一定律。上个月，两篇论文相隔一周发表在 Arxiv 上：- 大型语言猴子：通过重复采样扩展推理计算量。Brown 等人发现，**DeepSeek-Coder **在 SWE-Bench 上的得分从 1 个样本的 15.9% 提高到 250 个样本的 56%，超过了 Sonnet-3.5。- 以最佳方式扩展 LLM 测试时间计算量可能比扩展模型参数更有效。Snell 等人发现，PaLM 2-S 通过测试时间搜索在 MATH 上的表现优于一个 14 倍大的模型
4. 将 o1 产品化比完成学术基准测试要难得多 对于现实世界中的推理问题，如何决定何时停止搜索？奖励函数是什么？成功标准是什么？何时在循环中调用代码解释器之类的工具？如何考虑这些 CPU 进程的计算成本？他们的研究文章没有分享太多内容
5. Strawberry 很容易成为一个数据飞轮。如果答案是正确的，那么整个搜索轨迹就会变成一个小型训练数据集，其中包含正奖励和负奖励。这反过来又会改进未来版本的 GPT 的推理核心，类似于 AlphaGo 的价值网络——用来评估每个棋盘位置的质量——随着 MCTS 生成越来越精细的训练数据而改进。”

Jason Wei：“超级激动终于可以分享我在 OpenAI 的工作成果了！o1 是一个在给出最终答案之前会思考的模型。用我自己的话说，以下是 AI 领域最大的更新（更多细节请参见OpenAI博客文章）：

1. 不要仅仅通过提示来进行思维链，而是要训练模型使用 RL 来更好地进行思维链
2. 在深度学习的历史中，我们一直在尝试扩展训练计算量，但思维链是一种自适应计算形式，也可以在推理时进行扩展
3. 在 AIME 和 GPQA 上的结果非常棒，但这并不一定意味着用户可以感受到。即使是从事科学工作的人，也不容易找到 GPT-4o 失败、o1 表现出色且我可以对答案进行评分的那一部分提示。但当你确实找到这样的提示时，o1 会让人感觉非常神奇。我们都需要找到更难的提示
4. AI 模型使用人类语言进行思维链在很多方面都非常出色。该模型做了很多类似人类的事情，比如将棘手的步骤分解成更简单的步骤、识别和纠正错误以及尝试不同的方法。游戏规则已经完全改变了。”

Lukasz Kaiser：“我很高兴看到 o1 发布！近三年来，我一直与我的同事们领导这项研究，甚至更长时间地研究相关想法，这让我确信：这是一种新的范式。训练隐藏 CoT 的模型比原始 Transformer 更强大，可以用更少的数据学习，泛化能力更强。”

Joanne Jang："? 我的订阅源上有很多关于 o1 的炒作，所以我担心它可能会设定错误的期望值。o1 是什么：第一个在真正困难的任务中表现出色的推理模型，而且它只会变得更好。（我个人对模型的潜力和发展轨迹感到非常兴奋！）o1 还不是什么（目前！）：一个奇迹模型，它在所有方面都比以前的模型做得更好。如果你对o1有这样的期望，你可能会失望——但我们正在努力实现这一目标！"

OpenAI 内部员工都在用：

OpenAI 的研究人员和工程师们已经开始用 o1 模型代替 ChatGPT 了， o1 实力强大！William Fedus说道:

" ChatGPT 现在不再立即给出答案，而是可以先思考一下。最好的比喻是，ChatGPT 正在从只使用系统 1 思维（快速、自动、直觉、容易出错）进化到使用系统 2 思维（缓慢、刻意、有意识、可靠）。这使得它能够解决以前无法解决的问题。从用户体验来看，这是一个小小的进步。在简单的提示下，用户可能不会注意到太大的区别（但如果你有一些棘手的数学或编码问题，你就会注意到?）。但这是一个重要的迹象，预示着未来将会发生什么。"

o1 的核心技术：

强化学习 (RL) + “私密思维链”： o1 模型使用 RL 进行训练，通过一个“私密思维链”来“思考”问题，思考时间越长，推理能力越强！

推理时间 = 新的扩展维度： o1 模型的发布，意味着 AI 能力的提升不再局限于预训练阶段，还可以通过扩展推理时间来实现！正如Noam Brown 所说:

"o1 是通过 RL 训练的，通过一个私密的思维链在响应之前进行“思考”。它思考的时间越长，在推理任务上的表现就越好。这为扩展打开了一个新的维度。我们不再受预训练的限制。我们现在也可以扩展推理计算了。我们的 o1 模型并不总是比 GPT-4o 好。许多任务不需要推理，有时等待 o1 响应与快速 GPT-4o 响应相比不值得。发布 o1-preview 的一个动机是看看哪些用例会流行起来，以及模型需要在哪些方面改进。"

o1 的两个版本：

o1-preview： 预览版模型，功能相对较少，但推理能力强大

o1-mini： 更小、更快的推理模型，特别擅长编程，成本也更低

o1 的局限性：

并非所有任务都需要推理， 有些任务用 GPT-4o 更快更方便

o1-preview 还存在一些缺陷， 例如在井字棋游戏中也会犯错

推理时间长，成本高， 但对于那些需要突破性成果的任务，例如研发新药、开发新电池、证明黎曼猜想等，高成本也是值得的。

o1 的未来：

思考时间更长，能力更强： OpenAI 的目标是让未来的 o1 模型能够思考数小时、数天甚至数周，从而解决更复杂、更困难的问题

成为数据飞轮： o1 模型的推理过程可以生成大量的训练数据，这些数据可以用来进一步改进 o1 模型，形成一个良性循环

Jim Fan 对 o1 模型的未来发展以及推理时间扩展的意义做了更深层的解读：

这可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的一张图。关键是两条曲线协同工作,而不是一条

这是大语言模型（LLM）研究中的关键突破，重点在于模型能力的提升不仅依赖训练阶段的缩放（scaling），还包括推理阶段的缩放，即在推理时增加计算量也能有效提高模型表现

1. 两个曲线共同作用：

过去，人们主要关注训练时的缩放定律，认为通过投入更多的计算资源进行训练，可以提高模型性能。然而，许多研究者预测，这种方法会逐渐出现边际效益递减的现象（即随着计算资源的增加，模型性能的提升会逐渐变小）

jim fan指出，大家忽略了推理阶段的缩放（即推理时增加计算资源的方式），这才是应对边际效益递减的关键。也就是说，通过在推理时投入更多的计算资源，可以有效克服训练时的边际递减问题，持续提高模型性能

2. LLM能力提升的瓶颈被突破：

过去无法在LLM领域复现类似于AlphaGo自我改进的成功，因为现有的自我改进算法无法有效突破三轮以上的训练改进。这意味着，虽然AlphaGo等系统在某些任务上通过自我改进达到了超人类表现，但这种方法未能在LLM中成功复制

现在，通过推理阶段的缩放，jim fan认为模型性能已经突破了此前的瓶颈，这种突破标志着LLM能力的新里程碑，开启了一个新的篇章

Noam Brown 回顾了他在游戏 AI 领域的研究经历，并将其与 o1 模型的开发联系起来：

“多年来，我一直在研究扑克和 Diplomacy 等游戏中的 AI 自我博弈和推理。我现在将研究如何使这些方法真正通用。如果成功的话，我们可能有一天会看到比 GPT-4 强 1000 倍的 LLM。在 2016 年，AlphaGo 在 AI 领域的一个里程碑事件中击败了李世石。但关键在于 AI 能够在每次行动前“思考”约 1 分钟。这使它提高了多少？对于 AlphaGoZero 来说，这相当于将预训练规模扩大了约 100,000 倍（使用搜索约为 5200 Elo，不使用搜索约为 3000 Elo）。同样在 2016 年，我在扑克游戏中也观察到了类似的现象。这一见解导致了我们的 Libratus 扑克 AI 首次击败了顶级人类。我们在 Hex 中详细研究了训练时间/测试时间计算量权衡，发现了类似的模式。所有这些先前的方法都是特定于游戏的。但如果我们能发现一个通用的版本，那么好处将是巨大的。是的，推理可能会慢 1000 倍，成本也会更高，但我们会为一种新的抗癌药物支付多少推理成本？或者为黎曼猜想的证明支付多少？改进的能力总是存在风险，但如果这项研究成功，它对安全研究也可能很有价值。想象一下，能够花费 100 万美元进行推理，看看一个更有能力的未来模型可能是什么样子。这将给我们一个我们原本缺乏的警告。”

最后是OpenAI总裁评价：

Greg Brockman ，

OpenAI o1 — 我们第一个通过强化学习训练的模型，在回答问题之前深入思考问题。为团队感到非常自豪！

这是一个全新的范式，带来了巨大的机遇。这在定量上很明显（例如，推理指标已经有了跨越式的提升），在定性上也很突出（例如，忠实的思维链使模型更具可解释性，因为它可以让你用简单的英文“读懂模型的思维”）。

可以这样理解，我们的模型使用的是系统一思维，而思维链解锁了系统二思维。人们早就发现，提示模型“一步一步思考”可以提高性能。但是，通过试错方式训练模型从头到尾地执行这个过程更加可靠——正如我们在围棋或《Dota》游戏中所看到的那样，这种方式能够产生非常令人印象深刻的结果。

o1技术还处于早期阶段。它带来了新的安全机遇，我们正在积极探索，包括在可靠性、幻觉问题以及抵御对抗性攻击的鲁棒性方面。例如，通过让模型通过思维链推理政策，我们在安全指标上看到了显著的提升。

其准确性也有巨大的提升空间——例如，在我们的发布文章中提到，我们的模型在今年的国际信息学奥林匹克竞赛（IOI）中，在模拟人类的条件下（每个问题允许50次提交）达到了49百分位（在参赛者中间，它的成绩比49%的参赛者好） / 213分。但如果每个问题有1万次提交，模型则获得了362.14分——超过了金牌门槛。因此，模型的潜力远远超过初看时的表现。??

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业