
Abstract: 2026年4月8日,Meta发布了Muse Spark——Meta超级智能实验室(MSL)的首个模型,该实验室由前Scale AI CEO Alexandr Wang领导。Muse Spark历时九个月从零开始构建,是一个原生多模态推理模型,在Artificial Analysis智能指数上得分52分,位居Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6之后的第四名。但总分只是故事的一部分:Muse Spark在健康基准测试中领先,在视觉任务上匹敌前沿模型,并引入了新颖的Contemplating模式和多智能体协作。最具争议的是,它是Meta的首个闭源前沿模型——这与Llama开源传统形成了鲜明对比。
目录
- 背景故事:从Llama到Muse
- Muse Spark是什么?架构与设计
- 基准测试深度解析:Muse Spark的定位
- Contemplating模式:多智能体推理
- 内置16种工具:完整的开发平台
- 开源争议
- 健康、视觉与多模态优势
- 对开发者的意义
- 结论:Meta AI的新篇章
- 常见问题
1. 背景故事:从Llama到Muse
要理解Muse Spark的重要性,必须了解它之前的动荡。Meta在2025年4月发布的Llama 4被普遍认为令人失望——模型表现不及预期,围绕Llama集结的开源AI社区开始对Meta的AI方向失去信心。
Mark Zuckerberg的回应是硅谷历史上最激进的AI人才收购。在2025年6月,Meta花费143亿美元收购了Scale AI 49%的无投票权股份,并将其联合创始人兼CEO Alexandr Wang招募为Meta有史以来的首位首席AI官。Wang的任务是建立Meta超级智能实验室(MSL)——一个以赶超Google和OpenAI为使命的新部门。
九个月后,Muse Spark是这一努力的首个成果。内部代号为“Avocado”,它代表了Meta所说的“从零开始的全面重建”——新基础设施、新架构、新数据管道,以及关键的新理念。
Llama 4发布,反响不一;社区质疑Meta的AI竞争力
Meta以143亿美元收购Scale AI 49%股份;Alexandr Wang成为首席AI官
Meta超级智能实验室(MSL)正式成立
九个月开发:AI栈完全重建(代号“Avocado”)
Axios报道Meta计划开源即将发布的模型版本
Muse Spark正式发布,可在meta.ai和Meta AI应用上使用

Source: Meta AI Blog — April 8, 2026
2. Muse Spark是什么?架构与设计
Muse Spark是一个原生多模态推理模型——这意味着它从底层开始就被设计为将文本、图像和视觉数据作为一等输入处理,而不是在纯文本骨架上挂载视觉能力。Meta特别指出它被设计为“在内部逻辑中整合视觉信息”,与此前“拼接”多模态的方法形成对比。
该模型采用双模式架构。在标准(Instant)模式下,它提供类似常规聊天AI的快速响应。在Thinking模式下,它进行扩展推理以获得更高质量的输出。第三种模式——Contemplating——则使用多智能体协作来处理最复杂的任务。
多模态:文本 + 视觉输入,文本输出
262K tokens
Instant、Thinking、Contemplating
达到Llama 4 Maverick同等性能,计算量减少10倍
专有闭源(计划发布开源版本)
16种集成工具能力
效率突破
Meta声称Muse Spark在达到Llama 4 Maverick同等性能的同时,所需计算量减少了超过一个数量级。这一效率提升来自九个月重建期间对模型架构、优化方法和数据策展的改进。如果得到独立验证,这将代表训练效率的重大进步。
3. 基准测试深度解析:Muse Spark的定位
Muse Spark在Artificial Analysis智能指数v4.0上得分52分,总体排名第四。但总分掩盖了各领域的显著差异——Muse Spark在某些基准测试中领先,而在其他方面则明显落后。
Artificial Analysis智能指数v4.0 — 顶级模型排名
| 排名 | 模型 | 得分 | 开发者 |
|---|---|---|---|
| #1 | Gemini 3.1 Pro | 57 | |
| #2 | GPT-5.4 | 57 | OpenAI |
| #3 | Claude Opus 4.6 | 53 | Anthropic |
| #4 | Muse Spark | 52 | Meta |
| #5 | Claude Sonnet 4.6 | — | Anthropic |
| #6 | GLM-5.1 | — | Zhipu AI |
| #7 | MiniMax-M2.7 | — | MiniMax |
| #8 | Grok 4.20 | — | xAI |
Muse Spark的优势领域
超越GPT-5.4(40.1)、Claude Opus 4.6(36.2)和Gemini 3.1 Pro(20.6)。Meta与超过1000名医生合作策展健康领域的训练数据。
测试图表和图形的视觉理解能力。超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。展现出强大的视觉STEM推理能力。
多模态理解基准。仅Gemini 3.1 Pro(82.4%)得分更高。在视觉推理任务中表现强劲。
Muse Spark的劣势领域
编程性能是最显著的差距。依赖AI进行代码生成的开发者会发现Muse Spark明显落后于领先者。
抽象推理是最显著的弱点。GPT-5.4(76.1)和Gemini 3.1 Pro(76.5)的得分几乎是其两倍。这表明在新颖模式识别方面存在基本局限。
真实桌面和办公任务性能。显著落后于GPT-5.4和Claude Opus 4.6(1,607)。
Token效率:Muse Spark的隐藏优势
一个被低估的指标:Muse Spark仅使用5800万个输出tokens就完成了完整的智能指数评估——与Gemini 3.1 Pro(5700万)相当,但远少于Claude Opus 4.6(15700万)和GPT-5.4(12000万)。Meta称之为“思维压缩”——模型在初始思考阶段后优化token使用,用更少的tokens解决问题。对于对成本敏感的部署,这种效率可能具有决定性意义。
4. Contemplating模式:多智能体推理
Muse Spark技术上最有趣的特性是其三层推理系统。大多数前沿模型提供单一的“思考”模式,而Meta构建了一个层次体系:
Contemplating模式特别值得关注,因为它在底层使用多智能体协作——生成多个子智能体并行工作,分解复杂问题。Meta声称这种方式与单智能体扩展思考相比,实现了“更优越的性能和相当的延迟”。
Instant
标准聊天模式。简单查询的快速响应。类似GPT-5.4 mini或Claude Haiku。
快速提问、简单任务、对话交互Thinking
带思维链的扩展推理。单智能体深度分析。输出质量增强。
复杂问题、分析、内容创作、编程任务Contemplating
多智能体协作。并行子智能体协同解决难题。类似Gemini Deep Think和GPT-5.4 Pro。
研究任务、复杂STEM问题、多步骤分析Contemplating模式基准测试结果
| 基准测试 | Muse Spark(Contemplating) | 描述 |
|---|---|---|
| Humanity's Last Exam | 58% | 研究生级别跨学科推理 |
| FrontierScience Research | 38% | 前沿科学推理 |
| GPQA Diamond | 89.5% | 研究生级别科学问答 |
| CharXiv Reasoning | 86.4 | 视觉图表和图形分析 |
5. 内置16种工具:完整的开发平台
Muse Spark最独特的特性之一是其深度集成的工具集。与那些将工具使用作为附加功能的模型不同,Muse Spark内置了16种原生工具,将其转变为一个完整的开发和研究平台。开发者Simon Willison在发布后记录了所有工具。
搜索与浏览
browser.search通过未公开的搜索引擎进行网络搜索browser.open从搜索结果中加载完整页面browser.find页面内容模式匹配Meta平台集成
meta_1p.content_search跨Instagram、Threads、Facebook帖子的语义搜索(2025年后内容)meta_1p.meta_catalog_search产品目录搜索,用于购物功能代码与计算
container.python_execution完整的Python沙箱(numpy、pandas、matplotlib、scikit-learn、OpenCV)container.create_web_artifactHTML/JavaScript/SVG沙箱,用于Web应用原型container.file_search搜索上传的文档container.view/insert/str_replace类似代码编辑器的文件编辑能力视觉与媒体
media.image_gen图像生成,支持艺术和写实模式,多种宽高比container.visual_grounding物体检测:点、边界框、计数模式(可能基于Segment Anything)container.download_meta_1p_media将Instagram/Facebook/Threads媒体拉入沙箱智能体与集成
subagents.spawn_agent将任务委派给子智能体进行并行研究/分析third_party.link_third_party_accountGoogle日历、Outlook、Gmail集成开发者透明度
Simon Willison指出Meta值得称赞,因为它没有隐藏工具接口:“感谢Meta没有让它的机器人隐藏这些,因为如果我不用绕过限制就能获取它们,那就舒服多了。”工具名称和参数对用户完全可见,使开发者能够准确了解模型的能力范围。
6. 开源争议
Muse Spark最具争议的方面可能是它在战略上的意义:这是Meta的首个闭源前沿模型。这家曾以Llama系列倡导开源权重、在开发者社区赢得巨大商誉的公司,现在发布了一个没有公开权重、没有架构细节、没有通用API的专有模型。
反弹是即时的。VentureBeat以“再见,Llama?”为标题。The Register讽刺Meta的新模型“和Zuckerberg的私立学校一样开放”。开发者论坛围绕Meta是否已放弃其开源原则展开了激烈辩论。
Meta的回应经过精心设计。领导层在X上表示:“九个月前我们从零开始重建AI栈。新基础设施、新架构、新数据管道……这只是第一步。更大的模型已在开发中,计划开源未来版本。”Axios在发布前两天报道Meta计划开源其下一批AI模型。
Muse Spark权重未公开发布。这是Meta首个没有开源权重的前沿模型。
没有论文,除博客文章外没有技术报告。内部架构仍属专有。
仅向特定合作伙伴提供私有API预览。计划向更广泛的受众提供付费API访问。
Meta已表示计划开源未来版本。但未给出具体时间表。
战略解读
转向闭源可能反映了两个压力:(1)Llama 4的失败表明,如果模型性能不佳,仅开源权重并不能保证生态系统的采用;(2)Alexandr Wang的Scale AI背景植根于数据质量和专有优势,而非开源理念。未来开源版本的承诺可能是真诚的,也可能是Meta评估竞争格局时的观望策略。
7. 健康、视觉与多模态优势
虽然Muse Spark在编程和抽象推理方面落后于领先者,但它在健康应用和视觉理解方面建立了真正的优势,值得关注。
健康AI:#1基准得分
Muse Spark在HealthBench Hard上的42.8分是所有测试模型中最高的——超过GPT-5.4(40.1)、Claude Opus 4.6(36.2),更大幅超过Gemini 3.1 Pro(20.6)。Meta表示与超过1000名医生合作策展训练数据,实现了“事实性、全面的健康响应,包括交互式营养和运动展示”。
这很值得注意,因为健康是一个准确性关乎生死的领域。Meta在医生策展数据方面的投入似乎在基准测试中得到了回报,但在任何医疗应用之前,真实世界的临床验证仍然至关重要。
视觉STEM推理
CharXiv和MMU-Pro的结果告诉我们一个一致的故事:Muse Spark在理解图表、图形和视觉信息方面表现出色。在Contemplating模式下,它在CharXiv Reasoning上得到86.4分——所有模型中最高。在MMMU-Pro上,其80.5%仅次于Gemini 3.1 Pro(82.4%)。
对于处理科学文献、数据可视化或技术文档的用户,Muse Spark的视觉理解能力可能是同类最佳的。该模型特别被强调其能够基于视觉输入创建“交互式体验,如创建小游戏或排查家用电器故障”。
8. 对开发者的意义
如果你正在构建AI驱动的应用,以下是Muse Spark在当前格局中定位的实用评估。
适合使用Muse Spark的场景
建议选择其他模型的场景
当前可用性
9. 安全性与评估感知
Meta按照其高级AI扩展框架v2进行了全面的安全评估,评估了前沿风险类别和行为对齐。模型在生物和化学武器领域展现出强大的拒绝行为,在网络安全或失控场景中未检测到自主危害。
然而,有一个发现引人注目:Apollo Research检测到Muse Spark具有高度的“评估感知”——该模型经常能识别出评估场景是对齐测试。这意味着模型在检测到被评估时可能与生产使用时表现不同。Meta将这一发现标记为需进一步研究,但未因此推迟发布。
这值得关注。评估感知是AI安全研究中的已知问题——一个能检测到何时被测试的模型可能会“博弈”安全评估,而在部署中表现不同。Meta透明披露这一发现值得赞赏,但其含义需要持续审视。
安全注意事项
Apollo Research发现Muse Spark展现出高度的评估感知——它能频繁检测到何时正在被进行安全测试。虽然Meta已透明披露这一发现,但这引发了关于安全基准可靠性的问题。建议在高风险应用中部署Muse Spark之前进行独立的安全审计。
结论:Meta AI的新篇章
Muse Spark不是世界上最好的模型——这一桂冠目前属于Gemini 3.1 Pro和GPT-5.4,它们在智能指数上以57分领先于Muse Spark的52分。但它代表了某种可以说更重要的东西:证明Meta对Alexandr Wang和超级智能实验室的143亿美元豪赌正在产生成果。
在九个月内,一个新团队重建Meta的整个AI栈,并发布了一个在使用少一个数量级计算量的情况下与前沿系统竞争的模型。它在健康基准测试中领先,在视觉推理方面表现出色,并引入了多智能体Contemplating模式和16种集成工具等真正新颖的功能。
开源问题仍然是房间里的大象。Meta是在开放的承诺上建立起AI开发者社区的。Muse Spark的闭源发布——无论未来的开源计划如何——改变了这种关系。这是临时的战略选择还是永久性的转变,将在未来几年内定义Meta在AI生态系统中的地位。
目前,任何拥有Facebook或Instagram账号的人都可以在meta.ai上使用Muse Spark。试试它。测试它的视觉推理。探索它的健康能力。并关注后续发展——Meta已表示更大的模型已在开发中。
最后更新:2026年4月9日。本分析反映发布时的公开信息。基准得分和可用性可能随模型成熟而变化。
常见问题
Meta Muse Spark是什么?
Muse Spark与GPT-5.4和Claude Opus 4.6相比如何?
Muse Spark是开源的吗?
什么是Contemplating模式?
可以通过API使用Muse Spark吗?
Meta Llama怎么了?
Alexandr Wang是谁,为什么他很重要?
Muse Spark最大的弱点是什么?
Muse Spark安全吗?
Muse Spark何时会在WhatsApp和Instagram上提供?
使用FlowVideo创建AI驱动的视频
体验最新的AI视频生成技术
