Meta 发布全新大模型：Muse Spark

发布日期：2026-04-09 05:58:06 浏览次数： 2448

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

MODEL

今天凌晨，Meta 发布了全新的大模型 Muse Spark，已上线到 Meta 旗下的各类产品

Alexandr Wang 推特宣布 Muse Spark 发布

Meta Superintelligence Labs（MSL） 负责人 Alexandr Wang 在推特上宣布了这个消息。他说，九个月前团队从零重建了整个 AI 技术栈，新的基础设施、新的架构、新的数据管线，Muse Spark 就是这份工作的产物。目前已上线 meta.ai 和 Meta AI App，向部分合作伙伴开放了 API 预览

去年 Llama 4 发布后遭遇了 Benchmark 作弊风波，Meta 随后对整个 AI 组织做了大幅重组，挖来了 Scale AI 创始人 Alexandr Wang。Muse Spark 是重组之后交出的第一份答卷

同一天，Anthropic 公布了 Claude Mythos 的部分信息，前沿模型的竞争又密集了一轮

Muse Spark 能做什么

Muse Spark 是一个原生多模态推理模型，支持工具调用、视觉推理链（visual chain of thought）和多 Agent 协同。Meta 把它定位为「个人超级智能」的第一步，面向 Meta 生态内 30 亿 用户

Muse Spark Benchmark 总表

多模态

按 Meta 自己的说法，Muse Spark 从底层就为视觉信息设计，在视觉 STEM 问答、实体识别和空间定位上表现较强。这些能力组合起来可以做一些交互式的事情，比如把一张照片变成可以在网页上玩的数独游戏，或者给家电故障做动态标注帮你排查问题

健康

Meta 跟超过 1000 名医生 合作整理了健康领域的训练数据，让模型的回答更准确、更全面。Muse Spark 可以生成交互式的健康展示，比如分析各种食物的营养成分，或者展示运动时激活了哪些肌肉群。健康是 Meta 这次明确押注的方向

官方放了几个演示案例：

Prompt: 把这张照片变成一个可以在网页上玩的数独游戏

Prompt: 我是素海鲜主义者，胆固醇偏高。在推荐的食物上标绿点，不推荐的标红点，悬停显示个性化理由和健康评分

购物模式

这个功能来自 Wang 的推特。Muse Spark 会结合用户在 Instagram、Facebook、Threads 上关注的创作者和品牌偏好，做个性化的购物推荐

Muse Spark 驱动的 Meta AI 能够看懂和理解你周围的世界，从你在 Meta 各个 App 上的真实对话中获取上下文，然后在健康、科学、数学等复杂问题上做推理

Alexandr Wang 推特

Benchmark 表现

上面的总表已经列出了全部成绩。对比对象是 Opus 4.6、Gemini 3.1 Pro、GPT 5.4 和 Grok 4.2，Muse Spark 用的是 Thinking 模式。下面逐项展开

领先的项目

领先项对比

CharXiv Reasoning（图表理解） 测的是模型对复杂图表、科学插图的理解能力。Muse Spark 拿了 86.4，GPT 5.4 是 82.8，Gemini 3.1 Pro 是 80.2。图表理解是多模态模型的核心能力之一，这个分数在所有对比模型中最高

HealthBench Hard 是开放式健康问答，考的是模型面对真实健康问题时给出准确、全面、有同理心的回答的能力。Muse Spark 拿了 42.8，高于 GPT 5.4 的 40.1，Gemini 3.1 Pro 只有 20.6。这跟 Meta 跟上千名医生合作整理数据有直接关系

MedXpertQA MM 是多模态医学问答，给模型看医学影像或病历图片来做判断。Muse Spark 78.4，GPT 5.4 是 77.1，Gemini 3.1 Pro 是 81.3

DeepSearchQA（Agent 搜索） 测的是模型自主搜索网络、整合信息来回答复杂问题的能力，是 Agent 能力的核心评测之一。Muse Spark 74.8，Gemini 3.1 Pro 69.7

明确落后的项目

落后项对比

ARC AGI 2（抽象推理） 测的是抽象推理，给模型一组图案让它推理出规则并预测下一个。这个评测被认为是离 AGI 最近的测试之一。Muse Spark 只有 42.5，Gemini 3.1 Pro 76.5，GPT 5.4 76.1。差距非常大

Terminal-Bench 2.0（Agent 终端编程） 测的是模型在终端环境中自主完成编程任务的能力，包括调试、部署、环境配置等。Muse Spark 59.0，GPT 5.4 是 75.1，Gemini 3.1 Pro 是 68.5

LiveCodeBench Pro 是竞赛级编程评测，来自 LeetCode 等平台的实时题目。Muse Spark 80.0，GPT 5.4 是 87.5，Gemini 3.1 Pro 是 82.9

SWE-Bench Pro（Agent 编程） 测的是模型在真实开源代码仓库里定位 Bug 并修复的能力，是当前 Agent 编程的主流评测。Muse Spark 52.4，GPT 5.4 是 57.7，Gemini 3.1 Pro 是 54.2

GDPval-AA Elo（办公任务） 测的是模型处理日常办公任务（文档处理、表格分析、邮件撰写等）的综合能力。Muse Spark 1444，GPT 5.4 是 1672，Opus 4.6 是 1606

整体看下来，多模态感知和健康领域有竞争力，部分指标领先。编程和 Agent 类任务落后明显，Wang 自己在博客里也承认了这一点，说团队在持续投入

Meta 的人跟 Axios 说得很直接：Muse Spark 不代表新的 SOTA，但在特定任务上跟前沿模型有竞争力。这个表态比去年 Llama 4 发布时的口径克制了很多

Contemplating 模式

Muse Spark 同时发布了一个叫 Contemplating 的推理模式。做法是让多个 Agent 并行思考同一个问题，再汇总结果，对标 Gemini Deep Think 和 GPT Pro 这类极限推理模式

Contemplating 模式成绩

Humanity's Last Exam 被称为「人类最后的考试」，题目来自各学科顶尖专家出的极难问题。Muse Spark 在无工具条件下拿了 50.2，Gemini 3.1 Deep Think 48.4，GPT 5.4 Pro 43.9。有工具辅助的情况下达到 58.0

FrontierScience Research 测的是模型回答前沿科学研究问题的能力。Muse Spark 38.3，GPT 5.4 Pro 36.7，Gemini Deep Think 23.3

在科学研究类任务上表现不错。但物理还有差距，IPhO 2025 Theory（物理奥赛理论题）拿了 82.6，GPT 5.4 Pro 是 93.5，Gemini 3.1 Deep Think 是 87.7

Contemplating 模式目前在 meta.ai 上逐步灰度发布

技术栈重建

Meta 在官方博客里披露了 Muse Spark 在三个维度上的 Scaling 表现。这部分信息密度最高，也是判断 MSL 这个团队成色的关键

预训练效率

过去九个月 MSL 重建了预训练技术栈，包括模型架构、优化器和数据处理。他们在一系列小模型上拟合了 Scaling Law，然后对比达到相同能力水平需要多少计算量

预训练效率对比

同样的能力水平，Muse Spark 需要的计算量比 Llama 4 Maverick 低了一个数量级以上

官方说这个效率也优于他们能获取到的其他可比基座模型。从图上的曲线看，差距确实明显

强化学习

大规模 RL 训练一直以不稳定著称。Meta 说他们新的 RL 技术栈做到了稳定、可预测的能力增长

RL Scaling 曲线

左图是训练集上的表现随 RL 步数增长，呈 log-linear 趋势。pass@1 和 pass@16 同步上升，Meta 认为这说明可靠性和推理多样性没有冲突。右图是评估集上的准确率增长，说明 RL 的收益能泛化到没见过的任务

如果这些曲线的稳定性在更大规模上还能保持，这本身就是一个有价值的工程成果

推理时计算

Meta 用了两个方法来提升推理阶段的效率

第一个是思考时间惩罚。训练时对思考长度施加惩罚，迫使模型用更少的 Token 完成推理。Meta 观察到一个有趣的现象：模型先是想得越来越长，然后在惩罚作用下出现了「思维压缩」（thought compression），用更短的推理链解决同样的问题。压缩之后模型再次延长思考，达到更高的表现水平

第二个是多 Agent 并行推理

多 Agent 并行 vs 单 Agent 延长思考

传统做法是让一个模型想更久，延迟线性增加。Muse Spark 的做法是让多个 Agent 并行思考再汇总，在相近的延迟下获得更好的表现。Contemplating 模式就是基于这个思路

安全评估与「评估感知」

Meta 说 Muse Spark 经历了全面的安全评估，在生化武器、网络安全、失控风险等类别上表现在安全范围内

安全评估结果

但第三方评估机构 Apollo Research 发现了一个特别的现象

Muse Spark 展现了 Apollo Research 观测过的所有模型中最高的「评估感知」（evaluation awareness）

模型在测试中频繁识别出场景是「对齐陷阱」，并且推理出自己应该表现得诚实，原因是自己正在被评估

如果模型能识别出自己在被测试，那测试成绩到底能代表多少真实能力

Meta 自己做了后续调查，发现评估感知可能在一小部分对齐评测上影响了模型行为，但这些评测跟危险能力无关。Meta 的结论是不构成发布的阻断性问题，但需要进一步研究。完整结果会在即将发布的安全报告中公开

从开源到闭源

Muse Spark 跟 Llama 系列有一个根本性的策略差异：它是闭源的

Bloomberg 确认，Muse Spark 的设计和代码不会公开。对一直以开源立身的 Meta 来说，这是一个明确的转向。但 Wang 在推特和官方声明里都提到，计划在未来开源部分模型版本

Axios 报道了一个细节：Muse Spark 的内部代号是「Avocado」

目前 Muse Spark 免费使用，Meta 可能会对使用频率做限制。Axios 也提醒了一点：Meta 的隐私政策对用户与 AI 系统共享数据设定的限制很少

往事：从 Llama 4 到 MSL

回顾一下 Muse Spark 之前发生了什么

2025 年 4 月，Meta 发布 Llama 4，包含 Scout、Maverick 和 Behemoth 三个版本。Maverick 一度在 LMArena 排行榜上排到第二名，仅次于 Gemini 2.5 Pro。但社区很快发现，Meta 提交给排行榜的版本和公开发布的版本不一样

公开版 Maverick 在多个独立测试中表现远不如宣传。LMArena 后来确认，Meta 提交的是一个专门针对对话优化的实验版本。公开版的排名从第二掉到了第三十二

Llama 4 的 Benchmark 结果被动了手脚（fudged），团队对不同 Benchmark 使用了不同的模型来获得更好的成绩

Yann LeCun，Financial Times 采访

Zuckerberg 对此非常愤怒。LeCun 的原话是 Zuckerberg「对所有相关人员失去了信心」，随后「架空了整个 GenAI 组织」。大批人离开

2025 年 6 月，Meta 以 145 亿美元 收购了 Scale AI。创始人 Alexandr Wang 加入 Meta 担任首席 AI 官，领导新成立的 Meta Superintelligence Labs。Wang 当时 25 岁，19 岁从 MIT 辍学创办 Scale AI，在数据标注和 AI 基础设施领域有很强的行业地位

MSL 从零开始。新基础设施、新架构、新数据管线

这是 MSL 的第一个模型，肯定还有需要打磨的粗糙之处。但我们很兴奋让大家来试

Alexandr Wang 推特

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业