我要投稿

谷歌SIMA 2：“AI游戏搭子”背后的真实世界野心

发布日期：2025-11-18 07:29:36 浏览次数： 1877

作者：快刀青衣

微信搜一搜，关注“快刀青衣”

划重点

游戏，是AI通往真实世界的训练场。

作为一个常年在峡谷里单排的王者荣耀玩家，我对“队友”这个词有着复杂的情感。

有时忙了一天，晚上好不容易想要放松一下，玩一局游戏，结果开局三分钟就有人挂机，中路法师见人就送，射手全程瞎晃悠。不管是“集合”还是“猥琐发育”，队友们根本不理你。

更绝的是，有时候遇到那种水晶已经告急，马上就要输掉的情况，有些佛系玩家，还在野区不紧不慢地打着小怪，慢悠悠地说：“不就是个游戏嘛，至于吗？”

每次遇到这种情况，我就在想，要是能有个靠谱的AI搭子该多好。不挂机、不送人头、还能配合我的打法，关键是它永远不会阴阳怪气地说“不就是个游戏嘛”。

这两天，谷歌DeepMind推出的SIMA 2，让我看到了这个希望。说实话，当我看到这个产品介绍的时候，第一反应是：我们这些游戏宅男终于有救了。

官方Demo：SIMA 1和SIMA 2对比

但我仔细研究后发现，如果认为谷歌做这个就是为了让全世界玩家玩游戏玩得更爽，那可真是想简单了。游戏，正在成为AI通往真实世界的训练场。而这个逻辑，其实十几年前就有人说透了。

我来按照自己的理解和你分享一下这个研究。虽然在AI上，我可能眼光水平有限，但是在电子游戏上，我可是有超过三十年经验的资深玩家了。

01 什么是SIMA 2

那么SIMA 2到底是个什么东西？

首先，“SIMA”的全称叫Scalable Instructable Multiworld Agent，翻译过来就是“可扩展指令多世界智能体”。你别被这些高大上的名词吓住了，说白了，它现在表现出来就是一个能陪你打游戏的AI搭子。

但关键在于，它不是那种开外挂、直接操纵游戏底层代码的AI，而是真正“像人一样”去玩游戏——只看屏幕画面，用虚拟键盘和鼠标操作。

这个能力设定听起来似乎没什么了不起，但其实这才是最难的地方。你想想，我们人类是如何玩游戏的？眼睛盯着屏幕，大脑快速判断局势，手指在键盘鼠标上操作。

SIMA 2也是这样工作的，它不走后门，不作弊，完全按照人类的方式来。

关键进步：具备推理能力

SIMA 2相比第一代，最大的进步在于有了推理能力。

这一推理能力来自谷歌的Gemini大模型。这意味着什么？就是它不再是简单地执行指令，而是能思考、能对话、能理解你的意图。

比如你在游戏里对它说“去砍树”，它不会机械地找到树然后哐哐砍，而是会先判断：我现在有斧头吗？树在哪里？砍树是为了什么？然后再行动。

强大的泛化能力

更厉害的是，SIMA 2有很强的泛化能力。那么什么叫泛化？就是它在从来没见过的游戏里也能玩得有模有样。

谷歌的研究人员用MineDojo来测试，这个MineDojo你可以理解为是在“我的世界”这款游戏基础上，为AI搭建的超级实验环境，里面有几千种开放式的实验任务。SIMA 2之前从没玩过这个游戏，但它靠着推理能力，居然能完成任务。

这就好比让一个从来没打过王者荣耀的人去玩，他可能前几局会懵，但如果他有足够的游戏经验和理解能力，很快就能上手。SIMA 2就是这样。

多模态交互方式

还有一个让我印象深刻的细节，就是SIMA 2能理解多模态的提示。

这是什么意思？就是你不仅能用语言指挥它，还可以在屏幕上画个箭头、画个圈，它就能理解你的意思。甚至你发个表情符号，比如一个斧头加一棵树，它就知道你是让它去砍树。

官方Demo：SIMA 2能理解emoji

这种交互方式，真的很像你在和一个真人队友沟通。

当然，SIMA 2现在还不完美。它在处理特别长、特别复杂的任务时还是很吃力，记忆也不够长，只能在有限的上下文中工作。但你要知道，这已经是一个巨大的进步了。

从SIMA 1到SIMA 2，它的能力提升是肉眼可见的。

02 在游戏中训练AI

说到这里，你可能会想：谷歌花这么大力气做一个游戏AI，是不是显得有点大材小用了？难道只是为了让我们玩游戏玩得更爽吗？

当然不是。游戏，只是表象。我猜谷歌真正的目标，是想通过在游戏中训练AI，进而在真实世界中提升AI机器人的能力。

为何用游戏训练AI

为什么要用游戏来训练AI？这个问题其实很好理解。你想想，训练一个机器人在真实世界里工作，成本有多高？你得准备真实的环境、真实的物体，还得承担机器人摔坏、撞坏东西的风险。

更重要的是，真实世界的试错成本太高了。而游戏不一样，作为虚拟环境，它可以无限重复、快速迭代，并且成本极低。

而且游戏有个天然的优势：规则明确、反馈即时。你在游戏里做了什么，马上就能看到结果。这种即时反馈，对AI学习太重要了。就像小孩学走路，摔一跤就知道这个姿势不对，下次就会调整。

AI在游戏里也是这样，试错、调整、再试错、再调整，这个循环可以非常快速地进行。

虚拟技能迁移至现实

谷歌在SIMA 2的研究中特别强调了一点：它重点训练的几种能力，比如从导航、使用工具到与他人协作完成任务，正是将来让机器人在现实世界中成为“人类助手”所需要的底层能力。

你看，这就是游戏训练场的逻辑：在虚拟世界里学会的技能，可以迁移到真实世界。

更厉害的是，SIMA 2还有自我学习的能力。这是什么意思？就是它最初从人类示范中学习之后，可以完全通过自主游戏继续学习，不需要额外的人类数据。它自己玩游戏，自己总结经验，自己变强。

这种自我进化的能力，才是最令人震惊的。

通用理解与行动能力

谷歌为了测试SIMA 2的泛化能力，还使用了另一个产品Genie 3来配合。Genie 3是谷歌的世界模型，可以生成全新的3D虚拟世界。

谷歌让SIMA 2在这些“架空世界”里行动，这些世界遵循物理规律，但与真实世界的展现完全不同。结果呢？SIMA 2依然能保持良好的环境适应能力。

这说明什么？说明SIMA 2学到的不是某个具体游戏的技巧，而是一种通用的理解能力和行动能力。它理解的是“什么是障碍”、“什么是目标”、“如何使用工具”，而不是“这个游戏的第三关怎么过”。

所以你看，游戏对谷歌来说，不是目的，而是手段。

03 游戏改变世界

其实，“虚拟世界训练真实能力”这个逻辑，早就有人说透了。

你肯定听说过一本老书，2011年游戏设计师简·麦戈尼格尔写了一本书，名字叫《Reality Is Broken》，中文版叫《游戏改变世界》。

当时看到这本书的时候，我整个人就有点儿扬眉吐气的感觉，觉得自己当年在网吧的每次包夜都没有白费，吃的每一包方便面都没有浪费。

所以当时我还把这本书推荐给了很多同事，背后的潜台词是“你看，虽然我经常打游戏，但我不是玩物丧志，我是梦想着改变世界的那种人，你们不懂我”。

不过，说实在的，我自己在看这本书的时候，心里也经常犯嘀咕，就是为什么人家玩游戏能总结出这么多道理。

麦戈尼格尔在书里提出了一个颠覆性的观点：游戏不是逃避现实的工具，而是解决现实问题、改善生活质量、创造美好未来的利器。

她用了很多真实案例来证明这个观点，至今还有一个案例让我印象特别深刻，叫《Foldit》。

Foldit：游戏的现实力量

这个案例是这样的。科学家们面临一个巨大的难题：要了解蛋白质如何折叠，才能阻止疾病，比如阿尔茨海默症、囊肿性纤维化、癌症。

但问题是，仅仅研究一种蛋白质的所有可能折叠组合，就可能要花费十余年时间。等你研究出来时，病人可能早已不在了。

怎么办？华盛顿大学的研究人员想了个办法，他们开发了一个游戏，叫《Foldit》，中文翻译为“折叠它”。

游戏《Foldit》官网

这个游戏不是让电脑去模拟蛋白质折叠，而是让玩家自己动手，在游戏里折叠数字蛋白质。就像玩折纸游戏一样，你要想办法把蛋白质折成最稳定的形状。

你可能会想，这不是瞎搞吗？蛋白质折叠如此专业的事情，怎么能让普通人来做？

然而，结果令人震惊。这个游戏于2008年公测，仅8个月就吸引了近8万名玩家，2年里吸引了20多万名玩家参与。关键是，大部分玩家此前在蛋白质折叠领域都没有任何经验——他们就是普通人，可能是学生，也可能是上班族，或者家庭主妇。

但就是这些普通人，在游戏里“折叠”，破解了科学家多年未能解决的医学难题。比如在2020年疫情期间，Foldit就上线了阻断新冠病毒的蛋白质谜题，众多玩家积极提交设计，为疫苗开发贡献了力量。

现在打开官网，你就能看到这款游戏对自己的定义是“革命性的众包电脑游戏，让你为科学研究贡献力量”。

大多数游戏在官网发布的动态，通常是关于上线了什么新的道具，达到了什么数据里程碑，而这款游戏的最新一条新闻，是2025年10月9日发布的一篇题为《一篇重构生物论文正式发表了》的动态，并在论文的附录里，感谢了许多游戏中的玩家。

虚拟技能的现实转化

这个案例给我的冲击特别大，因为它完美地证明了一件事：虚拟世界的技能，可以直接转化为真实世界的能力。

那些玩家在游戏里学会的“折叠”技巧，本质上就是在训练空间想象能力、逻辑推理能力、试错能力。而这些能力，恰恰是破解蛋白质折叠难题所需要的。

书里还有很多这样的游戏案例，例如还讲到了《Halo》这款游戏，玩家都是陌生队友，能在10分钟内形成自发角色分工，去集体完成高难任务。

这款游戏甚至被很多研究团队管理的学者拿来做实验。如果你像我一样，是《生活大爆炸》这部剧的粉丝，也能经常在剧里看到谢尔顿拉着好友们一起玩《Halo》的场景。

04 结语

回到谷歌的这个游戏搭子，我很期待这个AI智能体的进一步迭代。

说实话，在写这篇稿子的时候，我不止一次感叹我们正处在一个科技爆炸的好时代。光是在语言翻译这一关，AI就帮了我们大忙。

我记得刚上大学的时候，有一段时间沉迷于《大航海时代》游戏，但当时只有日文版和英文版，我真的抱着一本英汉词典在玩。在本子上记下各个核心港口和它们的特长，例如威尼斯盛产玻璃、水晶、雕塑工艺品，伊斯坦布尔盛产土耳其挂毯等等。

只有同宿舍的舍友知道我是为了打游戏，而其他同学都以为我一入学就立志要考研，所以玩命学英语呢。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业