我要投稿

Kosmos发布：一个让博士生“失业"的科研AI？

发布日期：2025-11-18 07:31:45 浏览次数： 2377

作者：AI Pioneer

微信搜一搜，关注“AI Pioneer”

当一个AI系统能在一天内完成博士生6个月的研究工作时，你的第一反应是什么？

震惊？怀疑？还是隐隐的不安？

这不是科幻小说的情节。FutureHouse刚刚发布的新一代AI科学家Kosmos，正在改写我们对科学研究的认知。

它不是简单的文献检索工具，也不是代码生成助手，而是一个能够独立完成复杂科学发现的系统——在真实的科研场景中，它已经在神经科学、材料科学、统计遗传学等多个领域做出了7项重要发现。

更令人震撼的是：其中三项发现，是对人类科学家未发表或刚刚发表成果的独立复现。

突破LLM的"记忆瓶颈"：结构化世界模型的革命

要理解Kosmos的突破性，我们首先要理解AI科研面临的核心挑战。

传统的AI助手，包括上一代Robin，都受制于语言模型的上下文窗口限制。想象一个侦探，他的记事本只能记录有限的线索——当案情越来越复杂，线索越来越多时，他就不得不丢弃早期的信息。这就是为什么以往的AI科学家只能处理相对简单的研究问题：它们会"忘记"推理过程中的关键信息，无法维持长期的研究连贯性。

Kosmos的核心创新在于结构化世界模型（Structured World Models）。这不是简单的扩大上下文窗口，而是一种全新的信息组织方式。它将从数百个代理轨迹中提取的信息高效整合，在数千万token的规模上保持对特定研究目标的连贯性。

具体到数字：一次Kosmos运行会

阅读 1500篇论文，

运行 42000行分析代码。

这远超目前已知的任何其他AI代理。

这种能力意味着AI终于可以进行真正意义上的"深度研究"——那种需要综合大量文献、进行复杂数据分析、在多个假设间反复验证的研究工作。

七个发现，见证AI科研的成年礼

让我们看看Kosmos究竟做出了什么。

复现未发表研究：AI的"独立思考"能力

第一项发现最能说明问题。Kosmos使用代谢组学数据，独立识别出低温小鼠大脑中核苷酸代谢是主要改变的代谢通路——这一结论与一篇当时尚未发表的手稿完全一致。值得注意的是，描述原始工作的预印本是在Kosmos运行之后才发布到BioRxiv上的。

这不是巧合，也不是"记忆"训练数据。这是真正的独立科学推理。

第二项发现同样令人印象深刻。在材料科学领域，Kosmos复现了一项发现：热退火期间的绝对湿度是决定钙钛矿太阳能电池效率的主导因素，并识别出了临界的"致命过滤器"阈值（约60 g/m³以上设备会失效）。而这项研究的预印本发表时间，晚于Kosmos所使用的任何语言模型的训练数据截止日期，且Kosmos在运行时也未能访问到这篇论文。

换句话说，面对相同的数据，AI和人类科学家得出了相同的结论。

从统计到机制：AI的科学洞察力

如果说前三项发现展示了Kosmos的复现能力，那么后四项发现则展示了它的创新能力。

在第四项发现中，Kosmos使用公开的GWAS和pQTL数据进行孟德尔随机化分析，提供了统计学证据：高水平的循环超氧化物歧化酶2（SOD2）可能因果性地降低心肌T1时间和心肌纤维化。虽然SOD2在心肌纤维化中的作用已在小鼠中得到证实，但这一发现支持了其在人类中的相关性。

第五项发现更进一步：Kosmos利用公开的多组学和统计遗传学数据，提出了一种新的分子机制，解释单核苷酸多态性（SNP）如何降低2型糖尿病的风险。

第六项发现开发了一种新的分析方法，利用阿尔茨海默病患者的蛋白质组学数据，确定导致神经元中tau蛋白积累的分子事件序列。

临床相关性：从基础研究到疾病理解

最令人兴奋的是第七项发现。

Kosmos接到的任务是理解衰老中的神经元脆弱性——一个非常宽泛的研究目标。它对年轻和年老小鼠的单细胞核转录组数据进行了大规模无偏探索，识别出：内嗅皮层神经元（阿尔茨海默病中首先出现tau蛋白积累的神经元）随年龄增长，翻转酶基因表达减少。

这一发现的意义在哪里？翻转酶表达减少可能导致细胞表面磷脂酰丝氨酸"吃掉我"信号的暴露增加，从而触发小胶质细胞吞噬和降解这些脆弱的神经元。

更关键的是，研究团队在人类阿尔茨海默病病例的独立单细胞RNA测序数据集中验证了这一发现：与无皮质病变阶段（Braak 0期）相比，Braak II期内嗅皮层上颗粒神经元中翻转酶表达减少，表明翻转酶表达减少与该区域tau病理的出现同时发生。

这不仅是一个科学发现，更是一个具有潜在临床转化价值的洞察。研究团队目前正在湿实验室验证这一发现。

“6个月”背后：我们如何衡量AI的科研能力？

让我们回到那个最震撼的数字：一次Kosmos运行相当于6个月的博士或博士后科学家工作量。

这个估算是如何得出的？

研究团队对7位Beta测试用户进行了调查。用户提供研究目标，团队运行Kosmos并提供输出，然后询问用户估计自己得出相同结论需要多长时间。对于20步的Kosmos运行，平均估算为6.14个月。

听起来像是主观评估？确实。但研究团队提供了两个更客观的验证角度。

首先，技术报告中描述的三项发现此前已被人类科学家做出，但在运行Kosmos时要么未发表，要么发表时间晚于Kosmos模型的截止日期。在每种情况下，原始工作大约需要4个月时间，而Kosmos在单次运行中就复现了核心发现。

其次，团队进行了独立估算：假设科学家阅读一篇论文需要15分钟，执行一次数据分析轨迹需要2小时（与METR对当前代理能运行的软件工程轨迹持续时间的估计一致）。

计算一次平均Kosmos运行中的论文数量和分析轨迹数量，假设每周工作40小时，大约相当于4.1个月的时间。

更有趣的是，研究团队发现了一个推理时间缩放法则：感知的工作等效性与Kosmos运行的深度呈线性关系。这是首批针对科学研究的推理时间缩放法则之一。

重新思考AI能力评估：不只是时间长度

这个"6个月"的发现，实际上揭示了一个更深层的问题：

我们应该如何评估AI的能力？

目前，像METR这样的评估机构主要关注AI代理能够连贯执行任务的人类等效持续时间。但Kosmos的表现表明，这种评估可能过于简化。

想想这些例子：

PaperQA2（基于GPT-4o的文献搜索代理）能够撰写引用完整、准确度超越人类的维基百科文章，即使METR估计GPT-4o只能处理4到15分钟人类等效时长的代理任务。
GPT-5能够一次性生成复杂的数学证明，而这显然需要超过4小时的人类等效时间（METR对GPT-5的估计）。

真相是：AI代理能够执行的最长人类等效任务时长，强烈依赖于所考虑的任务类型。

这给我们什么启示？也许我们需要重新定义"智能"的衡量标准。不是简单的时间长度，而是：

信息综合的深度
逻辑推理的复杂性
跨领域知识的整合能力
从数据到洞察的跨越能力

透明性：科学的生命线

在所有这些令人兴奋的成果中，有一点至关重要但容易被忽视：透明性和可追溯性。

当前许多AI系统的问题在于，它们产生结论时缺乏清晰的来源。一个"黑箱"给出答案，你能相信吗？在科学研究中，这是致命的。

Kosmos的设计哲学是：每一个结论都必须能够追溯到具体的代码行或科学文献的具体段落。这意味着Kosmos的报告始终是完全可审计的。

这不仅是技术问题，更是伦理问题。科学的本质是可重复、可验证。当AI开始参与科学发现时，我们必须确保它遵循这一基本原则。否则，我们得到的不是科学，而是算法炼金术。

局限性：AI科学家还不完美

让我们保持理性。

Kosmos虽然强大，但远非完美。

首先，它经常会"走进死胡同"——追逐统计上显著但科学上无关紧要的发现。研究团队通常会在相同目标上多次运行Kosmos，以采样它可能采取的各种研究路径。

其次，存在一个潜在的问题：随着运行深度增加，Kosmos越来越可能陷入兔子洞。研究团队怀疑，如果将缩放法则推向逻辑极端，可能会看到反转——Kosmos运行的价值可能会随着深度增加而开始下降。

这需要底层语言模型的改进来解决。

最后，Kosmos不是聊天机器人，更像是一个"试剂盒"——你在高价值目标上按需运行。它需要一定的学习曲线才能有效提示。目前定价为每次运行200美元，这不便宜，但考虑到它能产生的价值，可能物有所值。

科研的未来：协作而非替代

回到开头的问题：AI会让科学家"失业"吗？

答案显然是否定的。

但答案的理由，可能和你想的不一样。

Kosmos的出现，不是要替代科学家，而是要 放大他们的能力。

想象一下：

年轻的博士生可以用Kosmos快速验证初步想法，避免在不靠谱的方向上浪费数月时间
资深科学家可以用Kosmos探索多个研究方向，然后选择最有前景的进行深入
跨学科合作变得更容易，因为AI可以帮助桥接不同领域的知识鸿沟

更重要的是，Kosmos揭示了科研工作的本质：真正有价值的不是机械的文献阅读和数据分析（虽然这些必不可少），而是提出正确的问题、设计巧妙的实验、解释结果的含义。

AI可以做前者，但后者仍然需要人类的创造力、直觉和对科学意义的深刻理解。

一个开始，而非终点

Kosmos的79.4%准确率意味着什么？意味着它还有20.6%的错误率。但人类呢？我们的准确率能达到100%吗？

显然不能。

科学从来不是完美的。它是一个不断试错、自我修正的过程。

Kosmos的出现，是在这个过程中增加了一个强大的工具——一个可以快速探索、大规模验证、跨领域综合的工具。

FutureHouse团队在技术报告中提到，他们目前正在湿实验室验证Kosmos的发现。这才是关键：AI生成假设，人类验证和完善。

这是一个新的科研范式的开始。

我们正站在一个转折点上。AI不再只是辅助工具，而是开始成为科研的真正参与者。但这不应该让我们恐惧，而应该让我们兴奋：当机器可以处理大量的"脏活累活"时，人类科学家可以将更多精力投入到真正需要创造力和洞察力的工作中。

也许，真正的问题不是"AI会取代科学家吗"，而是"当AI承担了大部分常规科研工作后，我们将如何重新定义科学家的角色和价值"？

这是一个值得我们所有人深思的问题。而答案，可能就藏在下一个由人机协作完成的重大科学发现中。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业