微信扫码
添加专属顾问
OpenAI前首席科学家Ilya Sutskever重磅发声:规模扩张已到极限,AI研究正回归本质。 核心内容: 1. Ilya对当前AI发展现状的深刻反思与批判 2. 模型评测表现与经济影响之间的巨大鸿沟分析 3. 未来AI研究可能转向的新方向与路径
“如果再增加100倍规模,一切就会被彻底改变吗?我不这么认为。所以,我们重新回到了研究时代。”
#1
他的出现本身就是新闻
2025年11月25日,Ilya Sutskever出现在Dwarkesh Patel的播客中。
这本身就是新闻。
自从2024年离开OpenAI、创立Safe Superintelligence (SSI)以来,Ilya几乎从公众视野中消失。他的新公司融资30亿美元、估值320亿美元,却几乎没有任何公开信息。没有产品发布,没有技术博客,没有社交媒体上的只言片语。
所以当这期长达96分钟的访谈上线时,整个AI研究社区都停下了手头的工作。
Dario Amodei(Anthropic CEO)在社交媒体上宣布这是“Ilya播客日”,并开玩笑说这足以成为请病假的理由。
这场对话没有让人失望。Ilya对当前AI发展的判断,比任何公开声明都更坦率、更深刻、也更令人不安。
#2
开场:科幻照进现实
对话以一个近乎哲学的观察开始。
Ilya:“你知道什么是疯狂的吗?这一切都是真的。”
Dwarkesh:“什么意思?”
Ilya:“这些AI的东西,这些湾区正在发生的事情……难道不觉得像是科幻小说照进现实吗?”
Dwarkesh指出另一件疯狂的事:我们正在把GDP的1%投入AI,但这感觉如此……正常。没有人觉得这是什么大事。
Ilya的解释很简单:“我们适应得很快。而且目前这一切还很抽象。”
你在新闻里看到某某公司宣布了某个难以理解的天文数字投资。然后呢?然后就没有然后了。你的日常生活没有任何改变。
但Ilya不认为这种“正常感”会持续下去。
“AI会渗透到经济的每一个角落。会有非常强大的经济力量推动这件事,每个人都会非常强烈地感受到它的影响。”
问题是:什么时候?
#3
最令人困惑的现象:评测与现实的鸿沟
Dwarkesh问了一个很多人都在想的问题:模型看起来这么聪明,为什么经济影响这么滞后?
Ilya的回答揭示了他对当前AI的核心困惑:
“这是目前模型最令人困惑的事情之一。如何调和这个事实——它们在评测上表现得如此之好?你看那些评测,会想,‘这些是相当难的题目啊!’它们做得很好。但经济影响似乎大大滞后。”
然后他举了一个具体例子,任何用过AI编程助手的人都会立刻认出来:
“比如说你在用vibe coding做什么东西。你遇到一个bug,然后告诉模型,‘你能修一下这个bug吗?’模型说,‘天哪,你说得太对了。我有一个bug。让我来修。’然后它引入了第二个bug。
你告诉它,‘你现在有了这个新的第二个bug。’它说,‘天哪,我怎么会这样?你又说对了。’然后它把第一个bug带回来了。你可以在这两个bug之间无限循环。
这怎么可能?”
Ilya承认他不确定答案,但提出了两个可能的解释。
解释一:强化学习让模型“太过专注”
第一个解释有点“玄学”:
“也许强化学习(RL)训练让模型变得太过于一心一意、狭隘聚焦了,太缺乏觉察力——尽管它在其他方面又变得更有觉察力。”
这是一个微妙的观察。强化学习让模型在特定任务上变得极其强大,但可能也让它们失去了某种更宽广的视野——那种让你能注意到“等等,我是不是在两个bug之间来回跳”的认知能力。
解释二:人类研究者才是真正的“奖励黑客”
第二个解释更加犀利,也更有启发性。
在预训练时代,“用什么数据”的问题有一个简单的答案:所有数据。你不需要思考取舍。
但在强化学习训练时代,你必须选择。你需要设计训练环境,决定用什么任务来训练模型。
“据我所知,所有公司都有团队在不断生产新的训练环境,然后加入训练组合。问题是,这些环境是什么?有太多自由度了。"
然后Ilya指出了一个关键洞察:
“人们会从评测中获取灵感。你会说,‘嘿,我希望我们发布模型的时候评测成绩很漂亮。什么样的强化学习训练能帮助提升这个任务的表现?’我认为这种事情正在发生。”
Dwarkesh精准地总结了这个逻辑:
“我喜欢你的这个想法:真正的‘奖励黑客’其实是那些过度关注评测的人类研究者。”
这是一个深刻的批评。当整个行业都在追逐基准测试的分数时,我们可能正在系统性地训练出一种特定类型的“聪明”:能在考试中拿高分,但在真实世界中处处碰壁的聪明。
#4
两种学生的比喻
为了让这个观点更具体,Ilya用了一个精彩的比喻。
假设有两个学生要学竞赛编程:
学生A决定要成为最好的竞赛程序员。他练习了10000小时,做遍了所有题目,背熟了所有证明技巧,能够快速正确地实现所有算法。他成了顶尖高手。
学生B觉得“竞赛编程挺酷的”,练习了100小时,也表现得相当不错。
“你觉得哪个学生在职业生涯后期会更成功?”
答案显然是学生B。
“我认为这基本上就是目前正在发生的事情。模型更像是第一个学生,甚至更极端。“
因为训练者会说:模型应该擅长竞赛编程,所以让我们收集所有竞赛编程题目,再做一些数据增强生成更多题目,然后用这些来训练。
结果呢?你得到了一个很棒的竞赛程序员——所有算法和证明技巧都信手拈来。但正因为这种程度的准备,它不一定能泛化到其他事情。
Dwarkesh追问:“那第二个学生的‘底子’到底是什么? 是预训练吗?是进化给的先天结构吗?还是别的什么?”
Ilya:“我认为他们有‘那个东西’(it factor)。那种‘天赋因子’。我本科的时候认识这样的学生,所以我知道有这种人的存在。”
#5
情感在决策中的作用
后来,对话进入了一个意想不到的领域——情感在决策中的作用。
Ilya讲述了一个他读到的神经科学案例:
“有一个人因为中风或事故,大脑中处理情感的部分受损了。他不再感受到任何情感。
他仍然很能说会道,能解决小谜题,在测试中表现正常。但他不感到悲伤,不感到愤怒,不感到激动。
他变得极其难以做任何决定。比如,他会花好几个小时决定穿哪双袜子,做出非常糟糕的财务决定。”
这个案例揭示了什么?
“我们内置的情感在让我们成为一个有效的决策者方面,扮演着什么角色?”
在机器学习的语言中,情感可能就是人类的价值函数——那个在你做决定时告诉你“这个中间状态是好还是坏”的东西。
没有价值函数,你必须等到最终结果出来才能学习。有了价值函数,你可以在过程中就得到信号。
比如下棋——你丢了一个棋子,立刻就知道“我搞砸了”。你不需要下完整盘棋才知道哪一步是错的。
“价值函数让你能够缩短那种‘等到最后才知道结果’的过程。”
而人类的价值函数——情感——有一个惊人的特性:它极其稳健。
人类的情感系统在极其多样的环境中都能正常工作。一个学开车的青少年,在没有外部老师的情况下,能够自我纠正和学习。他是怎么做到的?
“答案是他们有自己的价值函数。他们有一种普遍的感觉……无论人类的价值函数是什么,除了少数关于成瘾的例外,它实际上非常非常稳健。”
#6
核心问题:人类为什么泛化得更好?
对话逐渐聚焦到一个根本性问题:
“这些模型在泛化能力上显著地、戏剧性地比人类差。这太明显了。这似乎是一个非常根本性的问题。”
Ilya区分了两个子问题:
1. 样本效率:为什么模型需要比人类多得多的数据才能学会东西?
2. 可教性:为什么教模型某个东西比教人类难这么多?
对于人类,你不需要设置一个可验证的奖励来教他们。你在指导研究者的时候,只是和他们交谈,给他们看你的代码,展示你的思维方式。他们就能从中学到你的思考方式和研究方法。
“你不需要给他们设一个可验证的奖励,说‘好的,这是课程的下一部分,现在这是课程的下一部分。哦,这次训练不稳定。’没有这种烦琐的、定制化的过程。”
你可能会说,也许是进化给了人类某种先验知识。对于视觉、听觉、运动这些能力,这个论点很有说服力——我们的祖先确实需要这些能力存活了几百万年。
但数学、编程呢?这些技能直到现代才存在。
“如果人在一个直到最近才存在的领域也展现出了卓越的能力、可靠性、稳健性和学习能力,那这更像是一个迹象,表明人类可能就是拥有更好的机器学习。”
当Dwarkesh问如何用机器学习的类比来理解这种能力时——更少的样本、更无监督、更稳健——Ilya的回答出人意料地坦率:
“这是一个很好的问题,也是一个我有很多想法的问题。但不幸的是,我们生活在一个并非所有机器学习想法都能自由讨论的世界。”
#7
“我们回到了研究时代”
对话进入了最具冲击力的部分——关于整个AI产业方向的判断。
“这是一个可能有些争议的说法——大概20%的研究者会不同意,但可能不超过这个比例——我们对预训练规模定律的理解,有点像古代英国人或古埃及人对太阳的理解。
他们能测量得极其精确,金字塔的东西轴完美对准春分点,巨石阵的东西轴也是如此。测量精度惊人。
但他们完全不理解轨道力学。他们不知道太阳为什么东升西落。”
规模定律也是如此——我们测量得精确,但不理解原理。
然后Ilya提出了一个让整个科技圈都为之侧目的判断:
“从2012年到2020年,是研究时代。从2020年到2025年,是规模时代——可能有正负误差——因为人们说,‘这太神奇了,你得扩大规模。继续扩大。’一个词就是:规模(scaling)。
但现在规模已经如此之大,我们真的相信,如果再增加100倍,一切就会被彻底改变吗?
会有所不同,当然。但我们真的相信只要增加100倍规模,一切就会被彻底转变吗?我不认为如此。
所以,我们回到了研究时代。不同的是,我们现在用了更厉害的计算机。”
这不是一个边缘观点。这是来自OpenAI联合创始人、首席科学家、深度学习革命核心推动者的判断。
当规模带来的边际收益递减,当花10倍的钱只能得到1.1倍的提升,你就必须回到实验室,回到白板前,回到那个“让我们试试这个,试试那个”的时代。
#8
SSI的计划:直接射向超级智能?
Dwarkesh问了一个很多人都想知道的问题:SSI到底在做什么?
Ilya的回答既坦率又留有余地:
“我描述的方式是这样的:有一些我认为有前景的想法,我想调查它们,看看它们是否真的有前景。就是这么简单。这是一次尝试。”
SSI最初的计划是绕过所有中间产品,直接研发超级智能。这样做的好处是:
“不参与市场竞争的日常竞争是非常好的。竞争相当困难,因为它让你面临需要做出的艰难权衡。能够把自己隔离开来,只专注于研究,只有在准备好的时候才出来,而不是之前——这很好。”
但Ilya承认,他的想法已经发生了变化。
“有一件事真的很难做到:感受AGI。我们可以谈论它,但想象一下讨论变老和虚弱是什么感觉。你可以讨论,可以尝试想象,但很难,然后你回到现实,那里并非如此。”
“我认为AGI和它未来的力量的很多问题,都源于它非常难以想象。”
所以,也许需要让人们真正看到强大的AI。不是读一篇论文说“AI会变成这样那样”,而是真正看到AI在做这个、做那个。
“这是无可比拟的。”
这意味着SSI可能会改变计划,在到达最终目标之前就发布一些东西。
#9
研究品位是什么?
在播客的最后,Dwarkesh问了一个关于“研究品位”的问题——Ilya被广泛认为是AI领域品位最好的研究者之一,从AlexNet到GPT系列,他参与了深度学习历史上几乎所有重大突破。
“什么指引着我个人,是一种关于AI应该是什么样子的美学——通过正确地思考人类是什么样子。”
正确地思考,这是关键。很容易错误地思考关于人类的事情。
“人工神经元的想法直接受到大脑的启发,这是一个很棒的想法。为什么?因为你说大脑有所有这些不同的器官,有这些褶皱,但褶皱可能不重要。为什么我们认为神经元重要?因为它们的数量很多。感觉是对的。”
然后是分布式表示的想法。大脑对经验做出反应,因此神经网络应该从经验中学习。
“你有点在问自己,这个东西是根本性的还是非根本性的?事物应该是什么样子。我认为这一直在相当大程度上指引着我。
从多个角度思考,寻找美——美和简洁。
丑陋是不行的。必须是美、简洁、优雅、对大脑的正确灵感。所有这些东西需要同时存在。它们存在得越多,你对一个自上而下的信念就越有信心。”
“自上而下的信念是什么东西支撑你——当实验与你矛盾的时候。”
#10
时间线与收尾
在被问到超级智能的时间线时,Ilya给出了一个范围:
“5到20年。”
这比很多硅谷的预测保守得多——Sam Altman说2030年前达到超越人类的智能,Elon Musk说可能就在今年或明年。
但从另一个角度看,10-15年达到超级智能,这仍然是人类历史上最剧烈的变化。
“这仍然是一个非常乐观的时间线,只是与当前的炒作相比才显得不那么乐观。”
#11
这场对话告诉我们什么?
如果说Gavin Baker的播客是从资本和产业的角度理解AI,Ilya的这场对话则是从技术和认知的角度。
他的核心信息可以归纳为几点:
1. 规模不是答案——至少不再是唯一的答案。我们正在从“扩大规模”回到“做研究”。
2. 当前模型有根本性缺陷——泛化能力不足是核心问题,评测成绩和真实世界表现的鸿沟令人困惑。
3. 人类有某种我们尚未理解的东西——可能与情感/价值函数有关,可能与学习机制有关。理解这一点可能是通往真正智能的关键。
4. 超级智能可能不是你想象的样子——不是一个全知全能的神,而是一个学习能力超强、能在世界中不断进化的存在。
5. 展示比讨论更重要——让人们真正看到强大的AI,可能是推动社会适应的最好方式。
对于那些正在考虑AI投资、产品或战略的人来说,这场对话最重要的信息可能是:不要只看基准测试的分数。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
Hermes 的记忆层有 8 种实现,我为什么选了最反常识的那个
2026-07-05
Codex 负责人谈 AI 时代唯一值钱的能力
2026-07-05
复旦期末考「造反」了:51名学生联手围攻Claude、DeepSeek,谁能让AI交白卷谁就是学霸
2026-07-05
Loop Engineering 会是 AI 的下个关键词吗?
2026-07-04
Cursor 如何把 AI 部署进企业内部
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-14
2026-04-24
2026-04-22
2026-05-19
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。