2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

OpenAI 内部专家深入解读o1:语言领域首次真正使用强化学习

发布日期:2024-09-14 12:04:33 浏览次数: 3650
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”


OpenAI 全新推理模型 o1 系列来了,它不仅推理能力爆表,还能像人类一样“思考”,标志着 AI 发展进入全新阶段!这次发布引发了 AI 圈的热烈讨论,多位专家学者纷纷点赞,认为 o1 模型代表了 AI 的未来方向

下面,我们就来看看o1开发专家对 OpenAI o1 模型的各项细节解读:

大佬集体点赞:

Boris Power:“这是第一次在语言领域真正使用强化学习!这让我回想起早期计算机通过自我对弈变得越来越擅长围棋的那些日子。”

Noam Brown:“今天,我很高兴与大家分享我们在 OpenAI 努力创建具有真正通用推理能力的 AI 模型的成果:OpenAI 的新 o1 模型系列!(又名草莓) 。我们还将分享我们(尚未完成的)o1 模型的评估结果,向全世界展示这不是一次性的改进——这是一种新的扩展范式,我们才刚刚开始

Max Schwarzer:“我一直相信,无需达到 GPT-6 水平的基础模型,也能实现人类级别的推理能力,而强化学习正是通往通用人工智能(AGI)的关键要素。”

今天,我们有了证明——o1


Jim Fan:“OpenAI Strawberry (o1) 发布了!我们终于看到推理时间扩展的范式在生产中得到普及和部署。正如 Sutton 在“苦涩的教训”中所说,只有两种技术可以随着计算量的增加无限扩展:学习和搜索。现在是时候将重点转移到后者了:

  1. 1. 你不需要一个庞大的模型来执行推理。许多参数都用于记忆事实,以便在诸如问答之类的基准测试中表现出色。可以将推理与知识分离,即一个知道如何调用浏览器和代码验证器等工具的“推理核心”。预训练计算可能会减少


  2. 2. 大量的计算从预训练/后训练转移到服务推理。LLM 是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景,模型最终将收敛到好的解决方案。这个过程是一个经过充分研究的问题,就像 AlphaGo 的蒙特卡洛树搜索 (MCTS)


  3. 3. OpenAI 一定很早就发现了推理缩放定律,而学术界最近才发现这一定律。上个月,两篇论文相隔一周发表在 Arxiv 上:- 大型语言猴子:通过重复采样扩展推理计算量。Brown 等人发现,**DeepSeek-Coder **在 SWE-Bench 上的得分从 1 个样本的 15.9% 提高到 250 个样本的 56%,超过了 Sonnet-3.5。- 以最佳方式扩展 LLM 测试时间计算量可能比扩展模型参数更有效。Snell 等人发现,PaLM 2-S 通过测试时间搜索在 MATH 上的表现优于一个 14 倍大的模型


  4. 4. 将 o1 产品化比完成学术基准测试要难得多 对于现实世界中的推理问题,如何决定何时停止搜索?奖励函数是什么?成功标准是什么?何时在循环中调用代码解释器之类的工具?如何考虑这些 CPU 进程的计算成本?他们的研究文章没有分享太多内容


  5. 5. Strawberry 很容易成为一个数据飞轮。如果答案是正确的,那么整个搜索轨迹就会变成一个小型训练数据集,其中包含正奖励和负奖励。这反过来又会改进未来版本的 GPT 的推理核心,类似于 AlphaGo 的价值网络——用来评估每个棋盘位置的质量——随着 MCTS 生成越来越精细的训练数据而改进。”


Jason Wei:“超级激动终于可以分享我在 OpenAI 的工作成果了!o1 是一个在给出最终答案之前会思考的模型。用我自己的话说,以下是 AI 领域最大的更新(更多细节请参见OpenAI博客文章)

  1. 1. 不要仅仅通过提示来进行思维链,而是要训练模型使用 RL 来更好地进行思维链


  2. 2. 在深度学习的历史中,我们一直在尝试扩展训练计算量,但思维链是一种自适应计算形式,也可以在推理时进行扩展


  3. 3. 在 AIME 和 GPQA 上的结果非常棒,但这并不一定意味着用户可以感受到。即使是从事科学工作的人,也不容易找到 GPT-4o 失败、o1 表现出色且我可以对答案进行评分的那一部分提示。但当你确实找到这样的提示时,o1 会让人感觉非常神奇。我们都需要找到更难的提示


  4. 4. AI 模型使用人类语言进行思维链在很多方面都非常出色。该模型做了很多类似人类的事情,比如将棘手的步骤分解成更简单的步骤、识别和纠正错误以及尝试不同的方法。游戏规则已经完全改变了。”

Lukasz Kaiser:“我很高兴看到 o1 发布!近三年来,我一直与我的同事们领导这项研究,甚至更长时间地研究相关想法,这让我确信:这是一种新的范式。训练隐藏 CoT 的模型比原始 Transformer 更强大,可以用更少的数据学习,泛化能力更强。”

Joanne Jang:"? 我的订阅源上有很多关于 o1 的炒作,所以我担心它可能会设定错误的期望值。o1 是什么:第一个在真正困难的任务中表现出色的推理模型,而且它只会变得更好。(我个人对模型的潜力和发展轨迹感到非常兴奋!)o1 还不是什么(目前!):一个奇迹模型,它在所有方面都比以前的模型做得更好。如果你对o1有这样的期望,你可能会失望——但我们正在努力实现这一目标!"

OpenAI 内部员工都在用:

OpenAI 的研究人员和工程师们已经开始用 o1 模型代替 ChatGPT 了, o1 实力强大!William Fedus说道:

" ChatGPT 现在不再立即给出答案,而是可以先思考一下。最好的比喻是,ChatGPT 正在从只使用系统 1 思维(快速、自动、直觉、容易出错)进化到使用系统 2 思维(缓慢、刻意、有意识、可靠)。这使得它能够解决以前无法解决的问题。从用户体验来看,这是一个小小的进步。在简单的提示下,用户可能不会注意到太大的区别(但如果你有一些棘手的数学或编码问题,你就会注意到?)。但这是一个重要的迹象,预示着未来将会发生什么。"

o1 的核心技术:

强化学习 (RL) + “私密思维链”: o1 模型使用 RL 进行训练,通过一个“私密思维链”来“思考”问题,思考时间越长,推理能力越强!

推理时间 = 新的扩展维度: o1 模型的发布,意味着 AI 能力的提升不再局限于预训练阶段,还可以通过扩展推理时间来实现!正如Noam Brown 所说:

"o1 是通过 RL 训练的,通过一个私密的思维链在响应之前进行“思考”。它思考的时间越长,在推理任务上的表现就越好。这为扩展打开了一个新的维度。我们不再受预训练的限制。我们现在也可以扩展推理计算了。我们的 o1 模型并不总是比 GPT-4o 好。许多任务不需要推理,有时等待 o1 响应与快速 GPT-4o 响应相比不值得。发布 o1-preview 的一个动机是看看哪些用例会流行起来,以及模型需要在哪些方面改进。"

o1 的两个版本:

o1-preview: 预览版模型,功能相对较少,但推理能力强大

o1-mini: 更小、更快的推理模型,特别擅长编程,成本也更低

o1 的局限性:

并非所有任务都需要推理, 有些任务用 GPT-4o 更快更方便

o1-preview 还存在一些缺陷, 例如在井字棋游戏中也会犯错

推理时间长,成本高, 但对于那些需要突破性成果的任务,例如研发新药、开发新电池、证明黎曼猜想等,高成本也是值得的。

o1 的未来:

思考时间更长,能力更强: OpenAI 的目标是让未来的 o1 模型能够思考数小时、数天甚至数周,从而解决更复杂、更困难的问题

成为数据飞轮: o1 模型的推理过程可以生成大量的训练数据,这些数据可以用来进一步改进 o1 模型,形成一个良性循环

Jim Fan 对 o1 模型的未来发展以及推理时间扩展的意义做了更深层的解读:

这可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的一张图。关键是两条曲线协同工作,而不是一条


这是大语言模型(LLM)研究中的关键突破,重点在于模型能力的提升不仅依赖训练阶段的缩放(scaling),还包括推理阶段的缩放,即在推理时增加计算量也能有效提高模型表现


1. 两个曲线共同作用:


过去,人们主要关注训练时的缩放定律,认为通过投入更多的计算资源进行训练,可以提高模型性能。然而,许多研究者预测,这种方法会逐渐出现边际效益递减的现象(即随着计算资源的增加,模型性能的提升会逐渐变小)


 jim fan指出,大家忽略了推理阶段的缩放(即推理时增加计算资源的方式),这才是应对边际效益递减的关键。也就是说,通过在推理时投入更多的计算资源,可以有效克服训练时的边际递减问题,持续提高模型性能


2. LLM能力提升的瓶颈被突破:


过去无法在LLM领域复现类似于AlphaGo自我改进的成功,因为现有的自我改进算法无法有效突破三轮以上的训练改进。这意味着,虽然AlphaGo等系统在某些任务上通过自我改进达到了超人类表现,但这种方法未能在LLM中成功复制


现在,通过推理阶段的缩放,jim fan认为模型性能已经突破了此前的瓶颈,这种突破标志着LLM能力的新里程碑,开启了一个新的篇章


Noam Brown 回顾了他在游戏 AI 领域的研究经历,并将其与 o1 模型的开发联系起来:

“多年来,我一直在研究扑克和 Diplomacy 等游戏中的 AI 自我博弈和推理。我现在将研究如何使这些方法真正通用。如果成功的话,我们可能有一天会看到比 GPT-4 强 1000 倍的 LLM。在 2016 年,AlphaGo 在 AI 领域的一个里程碑事件中击败了李世石。但关键在于 AI 能够在每次行动前“思考”约 1 分钟。这使它提高了多少?对于 AlphaGoZero 来说,这相当于将预训练规模扩大了约 100,000 倍(使用搜索约为 5200 Elo,不使用搜索约为 3000 Elo)。同样在 2016 年,我在扑克游戏中也观察到了类似的现象。这一见解导致了我们的 Libratus 扑克 AI 首次击败了顶级人类。我们在 Hex 中详细研究了训练时间/测试时间计算量权衡,发现了类似的模式。所有这些先前的方法都是特定于游戏的。但如果我们能发现一个通用的版本,那么好处将是巨大的。是的,推理可能会慢 1000 倍,成本也会更高,但我们会为一种新的抗癌药物支付多少推理成本?或者为黎曼猜想的证明支付多少?改进的能力总是存在风险,但如果这项研究成功,它对安全研究也可能很有价值。想象一下,能够花费 100 万美元进行推理,看看一个更有能力的未来模型可能是什么样子。这将给我们一个我们原本缺乏的警告。”

最后是OpenAI总裁评价:

Greg Brockman ,

OpenAI o1 — 我们第一个通过强化学习训练的模型,在回答问题之前深入思考问题。为团队感到非常自豪!

这是一个全新的范式,带来了巨大的机遇。这在定量上很明显(例如,推理指标已经有了跨越式的提升),在定性上也很突出(例如,忠实的思维链使模型更具可解释性,因为它可以让你用简单的英文“读懂模型的思维”)。

可以这样理解,我们的模型使用的是系统一思维,而思维链解锁了系统二思维。人们早就发现,提示模型“一步一步思考”可以提高性能。但是,通过试错方式训练模型从头到尾地执行这个过程更加可靠——正如我们在围棋或《Dota》游戏中所看到的那样,这种方式能够产生非常令人印象深刻的结果。

o1技术还处于早期阶段。它带来了新的安全机遇,我们正在积极探索,包括在可靠性、幻觉问题以及抵御对抗性攻击的鲁棒性方面。例如,通过让模型通过思维链推理政策,我们在安全指标上看到了显著的提升。

其准确性也有巨大的提升空间——例如,在我们的发布文章中提到,我们的模型在今年的国际信息学奥林匹克竞赛(IOI)中,在模拟人类的条件下(每个问题允许50次提交)达到了49百分位(在参赛者中间,它的成绩比49%的参赛者好 / 213分。但如果每个问题有1万次提交,模型则获得了362.14分——超过了金牌门槛。因此,模型的潜力远远超过初看时的表现。??

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅