微信扫码
添加专属顾问
我要投稿
趁着昨天 OpenAI o1 的发布,难得从每日忙碌的产品研发中抽出点时间来,学习跟进一下最近非常火热的 LLM 新范式。
首先推荐阅读一下拾象的《LLM 的范式转移:RL 带来新的 Scaling Law》,很好地科普了一下基于 RL 的新 LLM scaling 范式。
之前我们常说的 scaling law 一般指的是 pre-train 阶段通过算力、数据、模型参数量的提升来不断提升模型智能水平。不过最近一年来看,碰到了不少瓶颈:
所以大家普遍有感觉,自从 GPT-4 发布后,基本没有出现让人惊艳的模型能力大幅提升的“魔法时刻”了。
不过 Claude-3.5 和 OpenAI o1 还是逐渐展现出一个新的发展方向,也就是拾象所谓的 RL 带来的新范式。RL 这个定义其实很广泛,在 OpenAI o1 里是怎么体现的呢?可以看他们的这张图:
左图讲的是训练时的 scaling,结合前面所说的数据量的挑战,这块结合 RL 的主要做法就是所谓的“合成数据”。
就如上面这张经典的图,我们可以通过 LLM 来生成一系列回答,再通过 LLM 自己作为 reward model 给回答打分,挑选出质量好的回答形成新的训练数据(这个图里是偏好数据)。大家之前普遍认为 Claude-3.5 在数学、代码等方面的能力提升很大一部分来自于这个方法。尤其是数学和代码方面比较容易形成更精确的 reward 计算(类比 AlphaZero 等)。
右图讲的是推理阶段的 scaling,这个最初的形式可能就是 Jason Wei 提出的思维链(CoT)方法了,后来的诸如 ToT 也是其拓展,跟 AlphaZero 中的 MCTS 方法很类似。
结合官方给的这张图,大家对 o1 的一个直观理解就是自带了多轮隐含 CoT 的模型,当然背后的方法可能比较复杂。这里一个很重要的点仍然是之前提到的用来筛选数据的 reward model,可以帮助在 test time 评估多个候选生成、推理步骤。
总结来看,reward model 的确是个核心,在合成数据时,能帮忙判断数据质量;在 test time search 时,同样也是评估生成质量,看是否继续探索,或者及时剪枝。
这两个应用 RL 的方式看起来还是比较直观的,但背后还是有许多有趣的问题,例如:
带着这些问题,我也去找了些 paper 来读,不过个人视野范围非常有限,可能遗漏了不少重要的工作,也欢迎各位大佬推荐好的学习资料。
Reinforced Self-Training (ReST) for Language Modeling
link: https://arxiv.org/abs/2308.08998
一篇比较早的讲合成数据应用于模型训练提升的文章,方法比较直观。
Self-Rewarding Language Models
link: https://arxiv.org/abs/2401.10020
前面合成数据的示意图就来自这篇文章,也是相当知名的一篇工作。
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
link: https://arxiv.org/abs/2402.05808
同样是讲合成数据结合 RL,重点在 reward model 和数据构建的创新上。
合成数据能否实现“飞升”是个很有意思的问题。一开始我想到的是 OpenAI 的 weak-to-strong[2],但读了下发现这个主要是用于 scalable alignment,用弱模型来对齐下一代的强模型,对齐后的强模型能力会下降,但确保了安全。而我们更关心的是模型在简单问题上训练能否泛化到解决困难的问题。
Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
link: https://arxiv.org/abs/2403.09472
在 AlphaZero 这类游戏环境中,模型的确可以通过完全的自我探索,生成数据,训练提升来达到超过人类的水平,但对于数学这类更难定义 reward 的领域如何呢?
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
link: https://arxiv.org/abs/2401.06751
上一篇文章中提到在简单问题上训练的效果泛化到困难问题上,甚至比用了困难数据训练的模型效果还要好。这篇文章也给出了类似的结论:
Small Language Models Need Strong Verifiers to Self-Correct Reasoning
link: https://arxiv.org/abs/2404.17140
合成数据与 test time search 交叉的一个研究。
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
link: https://arxiv.org/abs/2407.21787
非常知名的一篇讲 test time search 提升模型效果的文章。
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
link: https://arxiv.org/abs/2408.00724
一篇类似的研究 test time search 策略和效果的文章。
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
link: https://arxiv.org/abs/2408.03314
研究如何平衡在训练阶段投入算力和在推理阶段投入算力,达到总体最好的效果。
Retrieval Augmented Thought Process for Private Data Handling in Healthcare
link: https://arxiv.org/abs/2402.07812
一篇比较有趣的 RAG 结合 MCTS 的文章,应用于 healthcare 领域。领域特定的 reward model 仍然十分关键,不过文章中没有比较 MCTS 与一些更简单搜索算法的效果。
OpenAI 在文章中展示了 o1 相对于 gpt-4o 在各个领域的提升,其中也包括像法律、公共关系这类偏文科的专业领域。所以他们是否已经找到了构建通用 reward model 的路径?个人有一些猜测:
大家在构建 reward model 时有什么经验和想法,也欢迎交流讨论。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
2025-04-30
深度解析OpenAI和Google智能体白皮书及背后两种路线|大模型研究
2025-04-30
MCP入门指南:大模型时代的USB接口
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28