我要投稿

OpenAI o1架构师爆料：AI Scaling已到瓶颈，AGI需要会自学的模型

发布日期：2026-01-30 16:50:36 浏览次数： 1767

作者：硅星GenAI

微信搜一搜，关注“硅星GenAI”

当整个硅谷都在狂热地讨论"堆更多数据、砸更多算力"的scaling法则时，一个曾亲手打造OpenAI o1、o3推理模型的核心人物站出来说：这条路走不通了。Jerry Tworek，这位刚刚离开OpenAI研究团队的前主管，在最新访谈中首次系统阐述了一个颠覆性观点——真正的AGI不是靠"喂更多数据"训练出来的，而是需要模型自己学会"从失败中持续学习"。 这场对话不仅揭示了当前AI技术的深层困境，也为所有AI从业者的职业选择提供了意外的务实建议。

原文链接：https://www.youtube.com/watch?v=XtPZGVpbzOE

Scaling还管用吗？一个让人不安的答案

Jerry Tworek的身份让他的话格外有分量。作为OpenAI推理模型（o1、o3）和Codex的核心架构师，他亲历了从GPT-3到GPT-4、再到推理模型的整个技术演进。当被问到"预训练和强化学习的scaling是否还有效"时，他给出了一个微妙的回答：

“这确实能让我们走到某个地方……但问题是，这些模型能泛化吗？”

他解释道，当前的scaling逻辑非常直接：想让模型在某个任务上表现更好？那就在这个任务上做更多强化学习训练。想让它理解更多世界知识？那就喂更多预训练数据。这套方法在特定目标上确实奏效——你训练什么，就得到什么。

但问题恰恰在这里：模型只会做你教它的事，却不会举一反三。

Jerry指出了一个被行业刻意忽视的瓶颈：大模型实验室现在的工作流程是"发现模型哪里不行→针对性收集数据→重新训练"。听起来合理，但这个反馈循环慢得要命。每一轮迭代都需要几周甚至几个月，而更致命的是——你永远无法穷尽所有可能的失败场景。

“根本问题是：我们能否用更少的数据得到更好的结果？或者更本质地，让模型学会从已学知识中更好地泛化？” 这个问题，到现在也没人有答案。

AGI的关键：当模型"卡住"时会怎么办

如果说scaling的局限还只是技术瓶颈，那Jerry对AGI的重新定义则是一次彻底的认知升级。

他坦言，自己曾经是个乐观主义者：“我以前觉得，只要在模型上做强化学习，我们就能达到AGI……也许它已经是AGI了。” 但当他真正在日常工作中使用编程模型时，幻想破灭了：这些模型依然会犯错，而且一旦失败，它们就会变得"绝望"。

“我认为当今模型最大的局限是：当它们失败时，你会很快感到无望——因为模型没有任何机制去更新自己的信念和内部知识。”

他举了个简单的例子：当你让AI帮你写一段复杂代码，它给出了一个方案但运行失败了。人类程序员会怎么做？检查错误信息、调整思路、尝试另一个角度、搜索相关文档、请教同事……直到问题解决。但现在的AI模型呢？它会再生成一个类似的错误答案，然后又一个，最终你不得不放弃或者自己动手。

“除非我们让模型学会自己突破困境、自己解决卡壳的问题，否则我不会把它叫做AGI。” Jerry说，“真正的智能总能找到出路（Intelligence always finds a way），而当前的模型做不到这一点。”

这个观点的颠覆性在于：它不是在争论"模型需要多少参数"“训练需要多少GPU”，而是在质疑整个技术路线的根基——静态的、一次性训练出来的模型，无论规模多大，都不可能真正"智能"，因为它们缺乏最基本的学习能力：从失败中持续进化。

推理模型的秘密：你以为的"思考"其实只是更长的输出

作为o1和o3的缔造者之一，Jerry对"推理模型"这个概念有着异乎寻常的清醒认识。

当被问到"推理模型到底是什么"时，他给出了一个让人意外的简单答案：“本质上就是让模型生成更多token。” 这听起来有点反高潮，但他解释得很透彻：

人类在解决复杂问题时，不会一口气给出答案，而是会在脑子里反复推演、试错、修正。推理模型模仿的就是这个过程——通过生成更长的"思维链"（chain of thought），让模型在给出最终答案前有更多"思考空间"。

但这里有个巨大的成本问题：生成token需要钱。 如果一个任务本来只需要50个token就能回答，现在为了"推理"要生成5000个token，成本直接翻了100倍。这就是为什么推理模型会专门标注"推理时间"和"输出token数"——用户需要在质量和成本之间做权衡。

Jerry透露了一个行业共识：当你真的需要高质量答案时（比如写关键代码、分析复杂合同、设计系统架构），多花10倍甚至100倍成本让模型"深度思考"是值得的。但对于简单查询（比如"今天天气怎么样"），就完全没必要。

这也解释了为什么OpenAI、Anthropic、Google都在同时维护"快速模型"和"推理模型"两条产品线——不同任务需要不同的"思考深度"，而这直接对应着不同的成本结构。

数据困境：当全世界的文本都不够用了

如果你以为"数据瓶颈"只是个理论问题，Jerry会告诉你——这已经是实打实的现实危机。

"我们已经把互联网上能抓的高质量文本基本都用完了，"他说得很直白，“现在的问题是：下一批训练数据从哪来？”

目前行业的主流方案是"合成数据"——让AI生成数据来训练AI。听起来像个完美的闭环，但Jerry指出了致命缺陷：你无法让模型教会自己它不知道的东西。 如果模型从来没见过某类推理模式、某种编程技巧、某个科学概念，那它生成的"合成数据"里也不会有这些内容。

更麻烦的是，合成数据可能带来"模型近亲繁殖"——AI生成的数据训练出来的AI，会越来越像原来的AI，逐渐失去多样性和创造力。就像一个只看自己写的文章的作家，最终会陷入思维定式。

那出路在哪？Jerry提到了一个方向：让模型去解决真实世界的问题，把成功和失败的经验作为新数据。 比如让编程模型去修实际的bug、让科学模型去验证真实的假设。这种"在实战中学习"的模式，可能是突破数据瓶颈的关键。

但这又回到了前面的问题：如果模型"卡住"了，它会自己想办法突破吗？还是会一直重复同样的错误？

实验室还是创业公司？一个关于选择的坦诚建议

访谈的后半段，Jerry聊到了一个很多AI从业者都在纠结的问题：该去大实验室还是创业公司？

他的回答出人意料地务实：“如果你早上醒来，发现自己不再热爱现在的工作，那就是个信号——该换方向了。”

这不是心灵鸡汤，而是基于残酷现实的建议。Jerry强调，作为研究者，如果你对工作没有100%的热情，就不可能做出最好的成果。 AI领域的竞争已经白热化到什么程度？当你带着"还行吧"的心态在实验室磨洋工时，隔壁桌的同事可能正在通宵调试下一个突破性模型。

他还分享了团队建设的心得：“最好组建一个有共同价值观、共同方法论的团队。” 这听起来很基础，但Jerry指出，很多实验室在招人时贪图"全能型人才"，结果拼凑出一个理念不合、目标冲突的团队，反而效率低下。

"目标一致的团队行动更快，"他说，“与其试图讨好所有人,不如双向筛选，找到真正契合的人。”

关于"什么样的人能成为优秀AI研究者"，Jerry给出了三个标准：

既懂系统工程，又懂理论——只会写论文或只会调参数都不够
敢于提出反主流观点——当所有人都在做A时，你要有勇气去试B
愿意追求未经证实的高风险方向——真正的突破往往来自"大家都觉得不太可能"的想法

最后这一点尤其关键。Jerry提到，OpenAI内部有大量项目最终被证明是"死胡同"，但正是因为有人敢于尝试这些看似疯狂的方向，才偶尔能碰到o1这样的突破。

职业建议的弦外之音：管理者的核心能力是什么

当被问到"如何成为好的研究管理者"时，Jerry的回答让人印象深刻：

“最重要的技能是强大的人员管理能力——深入理解团队的工作，然后赋予他们自主权和主人翁意识。”

这句话看似简单，背后却是对"微观管理"的彻底否定。很多技术出身的管理者习惯于事无巨细地指导下属"应该怎么做"，但Jerry认为，真正优秀的管理者应该做的是：确保团队成员热爱自己的课题，然后放手让他们去探索。

他还提到了一个有趣的观察：很多人在同一个岗位上待久了，会逐渐失去激情。"这时候最糟糕的选择是硬撑，"Jerry说，“承认自己需要改变，然后主动去寻找新方向，这不是失败，而是成熟。”

这个建议对很多在大厂感到疲惫的AI工程师来说，可能是个及时的提醒。

机器人的春天：两三年内就会来

访谈接近尾声时，Jerry聊到了一个让人意外的预测：具身智能（机器人）会在2-3年内实现实用化。

这个判断基于一个简单的逻辑：编程任务已经被AI攻克到了相当高的水平，而机器人的核心难题——运动规划、视觉识别、任务分解——本质上都是"在物理世界里的编程问题"。既然代码世界的问题能用强化学习解决，物理世界的问题为什么不行？

当然，他也承认机器人面临独特的挑战：试错成本高得多。 在代码世界里，模型可以每秒尝试成千上万次，失败了大不了重来；但在物理世界里，让机器人"学习"抓取一个杯子，可能需要几千次真实的尝试，每次都要耗费时间、电力、机械磨损，甚至可能摔坏设备。

但Jerry认为，随着模拟器技术的进步和迁移学习能力的提升，这个问题正在被快速解决。“我预计在未来两三年内，我们会看到机器人在特定领域（比如仓库分拣、家庭清洁）达到实用水平。”

这个时间线比大多数人想象的要激进得多。

尾声：一个关于"不完美智能"的未来

整场访谈最打动人的，不是那些关于技术细节的讨论，而是Jerry对AI本质的清醒认识。

他从不声称"我们快要实现AGI了"，也不贩卖"AI将改变一切"的焦虑。相反，他反复强调的是当前技术的局限、未解决的难题、以及那些被行业集体忽视的根本性问题。

当他说"除非模型学会从失败中持续学习，否则我不会称其为AGI"时，你能感觉到这不是技术术语的咬文嚼字，而是一个亲手打造过最强推理模型的工程师，在直面自己作品局限时的诚实。

这种诚实在当下的AI圈子里异常稀缺。当大多数公司都在宣传"我们的模型多么强大"时，Jerry在说"模型会卡住，而且它们不知道怎么自救"。当投资人都在问"什么时候能盈利"时,他在说"我们连下一批训练数据从哪来都不确定"。

但也正是这种坦诚,让他的建议格外有价值。无论你是在大厂做研究、在创业公司调模型，还是在观望要不要转行AI——Jerry的访谈都在提醒你：

这个行业远没有表面看起来那么确定。真正的机会不在于跟风"堆算力"“卷参数”，而在于找到那些被主流忽视的根本性问题，然后有勇气去啃这块硬骨头。

至于AGI什么时候来？也许当我们停止追问"还需要多少数据"，转而开始追问"如何让模型学会自学"时，答案就会自然浮现。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业