微信扫码
添加专属顾问
我要投稿
谷歌SIMA 2不只是游戏AI,更是AI迈向真实世界的关键一步,它能像人类一样思考并适应全新环境。核心内容: 1. SIMA 2的核心能力:基于视觉输入和推理能力玩游戏 2. 与第一代相比的突破:具备Gemini大模型赋能的推理能力 3. 游戏作为AI训练场的深远意义:为真实世界应用铺路
划重点
游戏,是AI通往真实世界的训练场。
作为一个常年在峡谷里单排的王者荣耀玩家,我对“队友”这个词有着复杂的情感。
有时忙了一天,晚上好不容易想要放松一下,玩一局游戏,结果开局三分钟就有人挂机,中路法师见人就送,射手全程瞎晃悠。不管是“集合”还是“猥琐发育”,队友们根本不理你。
更绝的是,有时候遇到那种水晶已经告急,马上就要输掉的情况,有些佛系玩家,还在野区不紧不慢地打着小怪,慢悠悠地说:“不就是个游戏嘛,至于吗?”
每次遇到这种情况,我就在想,要是能有个靠谱的AI搭子该多好。不挂机、不送人头、还能配合我的打法,关键是它永远不会阴阳怪气地说“不就是个游戏嘛”。
这两天,谷歌DeepMind推出的SIMA 2,让我看到了这个希望。说实话,当我看到这个产品介绍的时候,第一反应是:我们这些游戏宅男终于有救了。
官方Demo:SIMA 1和SIMA 2对比
我来按照自己的理解和你分享一下这个研究。虽然在AI上,我可能眼光水平有限,但是在电子游戏上,我可是有超过三十年经验的资深玩家了。
那么SIMA 2到底是个什么东西?
首先,“SIMA”的全称叫Scalable Instructable Multiworld Agent,翻译过来就是“可扩展指令多世界智能体”。你别被这些高大上的名词吓住了,说白了,它现在表现出来就是一个能陪你打游戏的AI搭子。
但关键在于,它不是那种开外挂、直接操纵游戏底层代码的AI,而是真正“像人一样”去玩游戏——只看屏幕画面,用虚拟键盘和鼠标操作。
这个能力设定听起来似乎没什么了不起,但其实这才是最难的地方。你想想,我们人类是如何玩游戏的?眼睛盯着屏幕,大脑快速判断局势,手指在键盘鼠标上操作。
SIMA 2也是这样工作的,它不走后门,不作弊,完全按照人类的方式来。
SIMA 2相比第一代,最大的进步在于有了推理能力。
这一推理能力来自谷歌的Gemini大模型。这意味着什么?就是它不再是简单地执行指令,而是能思考、能对话、能理解你的意图。
比如你在游戏里对它说“去砍树”,它不会机械地找到树然后哐哐砍,而是会先判断:我现在有斧头吗?树在哪里?砍树是为了什么?然后再行动。
更厉害的是,SIMA 2有很强的泛化能力。那么什么叫泛化?就是它在从来没见过的游戏里也能玩得有模有样。
谷歌的研究人员用MineDojo来测试,这个MineDojo你可以理解为是在“我的世界”这款游戏基础上,为AI搭建的超级实验环境,里面有几千种开放式的实验任务。SIMA 2之前从没玩过这个游戏,但它靠着推理能力,居然能完成任务。
这就好比让一个从来没打过王者荣耀的人去玩,他可能前几局会懵,但如果他有足够的游戏经验和理解能力,很快就能上手。SIMA 2就是这样。
还有一个让我印象深刻的细节,就是SIMA 2能理解多模态的提示。
这是什么意思?就是你不仅能用语言指挥它,还可以在屏幕上画个箭头、画个圈,它就能理解你的意思。甚至你发个表情符号,比如一个斧头加一棵树,它就知道你是让它去砍树。
官方Demo:SIMA 2能理解emoji
这种交互方式,真的很像你在和一个真人队友沟通。
当然,SIMA 2现在还不完美。它在处理特别长、特别复杂的任务时还是很吃力,记忆也不够长,只能在有限的上下文中工作。但你要知道,这已经是一个巨大的进步了。
从SIMA 1到SIMA 2,它的能力提升是肉眼可见的。
说到这里,你可能会想:谷歌花这么大力气做一个游戏AI,是不是显得有点大材小用了?难道只是为了让我们玩游戏玩得更爽吗?
当然不是。游戏,只是表象。我猜谷歌真正的目标,是想通过在游戏中训练AI,进而在真实世界中提升AI机器人的能力。
为什么要用游戏来训练AI?这个问题其实很好理解。你想想,训练一个机器人在真实世界里工作,成本有多高?你得准备真实的环境、真实的物体,还得承担机器人摔坏、撞坏东西的风险。
更重要的是,真实世界的试错成本太高了。而游戏不一样,作为虚拟环境,它可以无限重复、快速迭代,并且成本极低。
而且游戏有个天然的优势:规则明确、反馈即时。你在游戏里做了什么,马上就能看到结果。这种即时反馈,对AI学习太重要了。就像小孩学走路,摔一跤就知道这个姿势不对,下次就会调整。
AI在游戏里也是这样,试错、调整、再试错、再调整,这个循环可以非常快速地进行。
谷歌在SIMA 2的研究中特别强调了一点:它重点训练的几种能力,比如从导航、使用工具到与他人协作完成任务,正是将来让机器人在现实世界中成为“人类助手”所需要的底层能力。
你看,这就是游戏训练场的逻辑:在虚拟世界里学会的技能,可以迁移到真实世界。
更厉害的是,SIMA 2还有自我学习的能力。这是什么意思?就是它最初从人类示范中学习之后,可以完全通过自主游戏继续学习,不需要额外的人类数据。它自己玩游戏,自己总结经验,自己变强。
这种自我进化的能力,才是最令人震惊的。
谷歌为了测试SIMA 2的泛化能力,还使用了另一个产品Genie 3来配合。Genie 3是谷歌的世界模型,可以生成全新的3D虚拟世界。
谷歌让SIMA 2在这些“架空世界”里行动,这些世界遵循物理规律,但与真实世界的展现完全不同。结果呢?SIMA 2依然能保持良好的环境适应能力。
这说明什么?说明SIMA 2学到的不是某个具体游戏的技巧,而是一种通用的理解能力和行动能力。它理解的是“什么是障碍”、“什么是目标”、“如何使用工具”,而不是“这个游戏的第三关怎么过”。
所以你看,游戏对谷歌来说,不是目的,而是手段。
其实,“虚拟世界训练真实能力”这个逻辑,早就有人说透了。
你肯定听说过一本老书,2011年游戏设计师简·麦戈尼格尔写了一本书,名字叫《Reality Is Broken》,中文版叫《游戏改变世界》。
当时看到这本书的时候,我整个人就有点儿扬眉吐气的感觉,觉得自己当年在网吧的每次包夜都没有白费,吃的每一包方便面都没有浪费。
所以当时我还把这本书推荐给了很多同事,背后的潜台词是“你看,虽然我经常打游戏,但我不是玩物丧志,我是梦想着改变世界的那种人,你们不懂我”。
不过,说实在的,我自己在看这本书的时候,心里也经常犯嘀咕,就是为什么人家玩游戏能总结出这么多道理。
麦戈尼格尔在书里提出了一个颠覆性的观点:游戏不是逃避现实的工具,而是解决现实问题、改善生活质量、创造美好未来的利器。
她用了很多真实案例来证明这个观点,至今还有一个案例让我印象特别深刻,叫《Foldit》。
这个案例是这样的。科学家们面临一个巨大的难题:要了解蛋白质如何折叠,才能阻止疾病,比如阿尔茨海默症、囊肿性纤维化、癌症。
但问题是,仅仅研究一种蛋白质的所有可能折叠组合,就可能要花费十余年时间。等你研究出来时,病人可能早已不在了。
怎么办?华盛顿大学的研究人员想了个办法,他们开发了一个游戏,叫《Foldit》,中文翻译为“折叠它”。
游戏《Foldit》官网
这个游戏不是让电脑去模拟蛋白质折叠,而是让玩家自己动手,在游戏里折叠数字蛋白质。就像玩折纸游戏一样,你要想办法把蛋白质折成最稳定的形状。
你可能会想,这不是瞎搞吗?蛋白质折叠如此专业的事情,怎么能让普通人来做?
然而,结果令人震惊。这个游戏于2008年公测,仅8个月就吸引了近8万名玩家,2年里吸引了20多万名玩家参与。关键是,大部分玩家此前在蛋白质折叠领域都没有任何经验——他们就是普通人,可能是学生,也可能是上班族,或者家庭主妇。
但就是这些普通人,在游戏里“折叠”,破解了科学家多年未能解决的医学难题。比如在2020年疫情期间,Foldit就上线了阻断新冠病毒的蛋白质谜题,众多玩家积极提交设计,为疫苗开发贡献了力量。
现在打开官网,你就能看到这款游戏对自己的定义是“革命性的众包电脑游戏,让你为科学研究贡献力量”。
大多数游戏在官网发布的动态,通常是关于上线了什么新的道具,达到了什么数据里程碑,而这款游戏的最新一条新闻,是2025年10月9日发布的一篇题为《一篇重构生物论文正式发表了》的动态,并在论文的附录里,感谢了许多游戏中的玩家。
这个案例给我的冲击特别大,因为它完美地证明了一件事:虚拟世界的技能,可以直接转化为真实世界的能力。
那些玩家在游戏里学会的“折叠”技巧,本质上就是在训练空间想象能力、逻辑推理能力、试错能力。而这些能力,恰恰是破解蛋白质折叠难题所需要的。
书里还有很多这样的游戏案例,例如还讲到了《Halo》这款游戏,玩家都是陌生队友,能在10分钟内形成自发角色分工,去集体完成高难任务。
这款游戏甚至被很多研究团队管理的学者拿来做实验。如果你像我一样,是《生活大爆炸》这部剧的粉丝,也能经常在剧里看到谢尔顿拉着好友们一起玩《Halo》的场景。
回到谷歌的这个游戏搭子,我很期待这个AI智能体的进一步迭代。
说实话,在写这篇稿子的时候,我不止一次感叹我们正处在一个科技爆炸的好时代。光是在语言翻译这一关,AI就帮了我们大忙。
我记得刚上大学的时候,有一段时间沉迷于《大航海时代》游戏,但当时只有日文版和英文版,我真的抱着一本英汉词典在玩。在本子上记下各个核心港口和它们的特长,例如威尼斯盛产玻璃、水晶、雕塑工艺品,伊斯坦布尔盛产土耳其挂毯等等。
只有同宿舍的舍友知道我是为了打游戏,而其他同学都以为我一入学就立志要考研,所以玩命学英语呢。
相关链接:
谷歌关于SIMA 2的文章:
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
游戏《FoldIt》官网:
https://fold.it/
福利领取
这篇文章是我在得到AI学习圈里的日更内容。除了每天更新的AI专栏外,AI学习圈里还有不同行业的AI落地案例手册,和不同主题的实操课程,希望带你上手、用好AI。添加AI学习圈官方小助手,就可以领取一张AI学习圈体验卡。
推荐阅读
设置星标
👆👆tips:亲爱的读者朋友,由于微信的推送规则,即使你关注了我,可能也常常收不到推送,记得点击“快刀青衣”名片,设为星标🌟,每次文章更新,都会自动推送。
⬇️ 点击【阅读原文】,了解【得到AI学习圈】
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-18
你以为在训练AI,其实是暴露你对自己业务的无知
2025-11-18
AI认知 | 99%的AI Agent项目会死于“伪需求”,用OSCAR模型,成为那幸存的1%。
2025-11-18
AI、游戏双驱动,腾讯「赚麻了」
2025-11-18
小米发布 MiMo-Audio:用 1 亿小时音频预训练打造“通用语音大模型”
2025-11-18
为什么 LLM 搞不定复杂任务?ReAct 与 Reflexion 技术综述
2025-11-18
LLM还不是世界操作系统:语言大模型的七个致命缺陷
2025-11-18
EI Search:生成式AI时代的知识探索新范式?
2025-11-18
Kosmos发布:一个让博士生“失业"的科研AI?
2025-08-21
2025-08-21
2025-10-02
2025-09-16
2025-09-19
2025-09-08
2025-09-17
2025-09-29
2025-08-20
2025-10-26
2025-11-18
2025-11-18
2025-11-17
2025-11-15
2025-11-14
2025-11-12
2025-11-10
2025-11-09