Meta的后 Llama 时代开启
深度解析

Muse Spark

Meta的后 Llama 时代开启

Meta超级智能实验室发布了其首个模型——一个原生多模态推理系统,内置16种工具、多智能体协作,以及备受争议的闭源许可。我们逐一拆解每个基准测试、每项功能,以及它对AI竞赛的意义。

2026年4月9日阅读约 15 分钟FlowVideo AI Research
Abstract: 2026年4月8日,Meta发布了Muse Spark——Meta超级智能实验室(MSL)的首个模型,该实验室由前Scale AI CEO Alexandr Wang领导。Muse Spark历时九个月从零开始构建,是一个原生多模态推理模型,在Artificial Analysis智能指数上得分52分,位居Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6之后的第四名。但总分只是故事的一部分:Muse Spark在健康基准测试中领先,在视觉任务上匹敌前沿模型,并引入了新颖的Contemplating模式和多智能体协作。最具争议的是,它是Meta的首个闭源前沿模型——这与Llama开源传统形成了鲜明对比。

1. 背景故事:从Llama到Muse

要理解Muse Spark的重要性,必须了解它之前的动荡。Meta在2025年4月发布的Llama 4被普遍认为令人失望——模型表现不及预期,围绕Llama集结的开源AI社区开始对Meta的AI方向失去信心。

Mark Zuckerberg的回应是硅谷历史上最激进的AI人才收购。在2025年6月,Meta花费143亿美元收购了Scale AI 49%的无投票权股份,并将其联合创始人兼CEO Alexandr Wang招募为Meta有史以来的首位首席AI官。Wang的任务是建立Meta超级智能实验室(MSL)——一个以赶超Google和OpenAI为使命的新部门。

九个月后,Muse Spark是这一努力的首个成果。内部代号为“Avocado”,它代表了Meta所说的“从零开始的全面重建”——新基础设施、新架构、新数据管道,以及关键的新理念。

2025年4月

Llama 4发布,反响不一;社区质疑Meta的AI竞争力

2025年6月

Meta以143亿美元收购Scale AI 49%股份;Alexandr Wang成为首席AI官

2025年6月

Meta超级智能实验室(MSL)正式成立

2025年7月 - 2026年3月

九个月开发:AI栈完全重建(代号“Avocado”)

2026年4月6日

Axios报道Meta计划开源即将发布的模型版本

2026年4月8日

Muse Spark正式发布,可在meta.ai和Meta AI应用上使用

Meta官方博客宣布Muse Spark为Meta超级智能实验室的首个模型

Source: Meta AI Blog — April 8, 2026

2. Muse Spark是什么?架构与设计

Muse Spark是一个原生多模态推理模型——这意味着它从底层开始就被设计为将文本、图像和视觉数据作为一等输入处理,而不是在纯文本骨架上挂载视觉能力。Meta特别指出它被设计为“在内部逻辑中整合视觉信息”,与此前“拼接”多模态的方法形成对比。

该模型采用双模式架构。在标准(Instant)模式下,它提供类似常规聊天AI的快速响应。在Thinking模式下,它进行扩展推理以获得更高质量的输出。第三种模式——Contemplating——则使用多智能体协作来处理最复杂的任务。

模态

多模态:文本 + 视觉输入,文本输出

上下文窗口

262K tokens

推理模式

Instant、Thinking、Contemplating

训练效率

达到Llama 4 Maverick同等性能,计算量减少10倍

许可证

专有闭源(计划发布开源版本)

内置工具

16种集成工具能力

效率突破

Meta声称Muse Spark在达到Llama 4 Maverick同等性能的同时,所需计算量减少了超过一个数量级。这一效率提升来自九个月重建期间对模型架构、优化方法和数据策展的改进。如果得到独立验证,这将代表训练效率的重大进步。

3. 基准测试深度解析:Muse Spark的定位

Muse Spark在Artificial Analysis智能指数v4.0上得分52分,总体排名第四。但总分掩盖了各领域的显著差异——Muse Spark在某些基准测试中领先,而在其他方面则明显落后。

Artificial Analysis智能指数v4.0 — 顶级模型排名

排名模型得分开发者
#1Gemini 3.1 Pro57Google
#2GPT-5.457OpenAI
#3Claude Opus 4.653Anthropic
#4Muse Spark52Meta
#5Claude Sonnet 4.6Anthropic
#6GLM-5.1Zhipu AI
#7MiniMax-M2.7MiniMax
#8Grok 4.20xAI

Muse Spark的优势领域

HealthBench Hard#1
Score:42.8

超越GPT-5.4(40.1)、Claude Opus 4.6(36.2)和Gemini 3.1 Pro(20.6)。Meta与超过1000名医生合作策展健康领域的训练数据。

CharXiv Reasoning#1
Score:86.4(Contemplating)

测试图表和图形的视觉理解能力。超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。展现出强大的视觉STEM推理能力。

MMMU-Pro#2
Score:80.5%

多模态理解基准。仅Gemini 3.1 Pro(82.4%)得分更高。在视觉推理任务中表现强劲。

Muse Spark的劣势领域

Terminal-Bench 2.0落后GPT-5.4(75.1)16分
Score:59.0

编程性能是最显著的差距。依赖AI进行代码生成的开发者会发现Muse Spark明显落后于领先者。

ARC-AGI-2落后领先者34分(约76)
Score:42.5

抽象推理是最显著的弱点。GPT-5.4(76.1)和Gemini 3.1 Pro(76.5)的得分几乎是其两倍。这表明在新颖模式识别方面存在基本局限。

GDPval-AA(智能体任务)落后GPT-5.4(1,676)249分
Score:1,427 Elo

真实桌面和办公任务性能。显著落后于GPT-5.4和Claude Opus 4.6(1,607)。

Token效率:Muse Spark的隐藏优势

一个被低估的指标:Muse Spark仅使用5800万个输出tokens就完成了完整的智能指数评估——与Gemini 3.1 Pro(5700万)相当,但远少于Claude Opus 4.6(15700万)和GPT-5.4(12000万)。Meta称之为“思维压缩”——模型在初始思考阶段后优化token使用,用更少的tokens解决问题。对于对成本敏感的部署,这种效率可能具有决定性意义。

4. Contemplating模式:多智能体推理

Muse Spark技术上最有趣的特性是其三层推理系统。大多数前沿模型提供单一的“思考”模式,而Meta构建了一个层次体系:

Contemplating模式特别值得关注,因为它在底层使用多智能体协作——生成多个子智能体并行工作,分解复杂问题。Meta声称这种方式与单智能体扩展思考相比,实现了“更优越的性能和相当的延迟”。

Instant

标准聊天模式。简单查询的快速响应。类似GPT-5.4 mini或Claude Haiku。

快速提问、简单任务、对话交互

Thinking

带思维链的扩展推理。单智能体深度分析。输出质量增强。

复杂问题、分析、内容创作、编程任务

Contemplating

多智能体协作。并行子智能体协同解决难题。类似Gemini Deep Think和GPT-5.4 Pro。

研究任务、复杂STEM问题、多步骤分析

Contemplating模式基准测试结果

基准测试Muse Spark(Contemplating)描述
Humanity's Last Exam58%研究生级别跨学科推理
FrontierScience Research38%前沿科学推理
GPQA Diamond89.5%研究生级别科学问答
CharXiv Reasoning86.4视觉图表和图形分析

5. 内置16种工具:完整的开发平台

Muse Spark最独特的特性之一是其深度集成的工具集。与那些将工具使用作为附加功能的模型不同,Muse Spark内置了16种原生工具,将其转变为一个完整的开发和研究平台。开发者Simon Willison在发布后记录了所有工具。

搜索与浏览

browser.search通过未公开的搜索引擎进行网络搜索
browser.open从搜索结果中加载完整页面
browser.find页面内容模式匹配

Meta平台集成

meta_1p.content_search跨Instagram、Threads、Facebook帖子的语义搜索(2025年后内容)
meta_1p.meta_catalog_search产品目录搜索,用于购物功能

代码与计算

container.python_execution完整的Python沙箱(numpy、pandas、matplotlib、scikit-learn、OpenCV)
container.create_web_artifactHTML/JavaScript/SVG沙箱,用于Web应用原型
container.file_search搜索上传的文档
container.view/insert/str_replace类似代码编辑器的文件编辑能力

视觉与媒体

media.image_gen图像生成,支持艺术和写实模式,多种宽高比
container.visual_grounding物体检测:点、边界框、计数模式(可能基于Segment Anything)
container.download_meta_1p_media将Instagram/Facebook/Threads媒体拉入沙箱

智能体与集成

subagents.spawn_agent将任务委派给子智能体进行并行研究/分析
third_party.link_third_party_accountGoogle日历、Outlook、Gmail集成

开发者透明度

Simon Willison指出Meta值得称赞,因为它没有隐藏工具接口:“感谢Meta没有让它的机器人隐藏这些,因为如果我不用绕过限制就能获取它们,那就舒服多了。”工具名称和参数对用户完全可见,使开发者能够准确了解模型的能力范围。

6. 开源争议

Muse Spark最具争议的方面可能是它在战略上的意义:这是Meta的首个闭源前沿模型。这家曾以Llama系列倡导开源权重、在开发者社区赢得巨大商誉的公司,现在发布了一个没有公开权重、没有架构细节、没有通用API的专有模型。

反弹是即时的。VentureBeat以“再见,Llama?”为标题。The Register讽刺Meta的新模型“和Zuckerberg的私立学校一样开放”。开发者论坛围绕Meta是否已放弃其开源原则展开了激烈辩论。

Meta的回应经过精心设计。领导层在X上表示:“九个月前我们从零开始重建AI栈。新基础设施、新架构、新数据管道……这只是第一步。更大的模型已在开发中,计划开源未来版本。”Axios在发布前两天报道Meta计划开源其下一批AI模型。

模型权重不可用

Muse Spark权重未公开发布。这是Meta首个没有开源权重的前沿模型。

架构细节不可用

没有论文,除博客文章外没有技术报告。内部架构仍属专有。

公开API即将推出

仅向特定合作伙伴提供私有API预览。计划向更广泛的受众提供付费API访问。

开源版本已承诺

Meta已表示计划开源未来版本。但未给出具体时间表。

战略解读

转向闭源可能反映了两个压力:(1)Llama 4的失败表明,如果模型性能不佳,仅开源权重并不能保证生态系统的采用;(2)Alexandr Wang的Scale AI背景植根于数据质量和专有优势,而非开源理念。未来开源版本的承诺可能是真诚的,也可能是Meta评估竞争格局时的观望策略。

7. 健康、视觉与多模态优势

虽然Muse Spark在编程和抽象推理方面落后于领先者,但它在健康应用和视觉理解方面建立了真正的优势,值得关注。

健康AI:#1基准得分

Muse Spark在HealthBench Hard上的42.8分是所有测试模型中最高的——超过GPT-5.4(40.1)、Claude Opus 4.6(36.2),更大幅超过Gemini 3.1 Pro(20.6)。Meta表示与超过1000名医生合作策展训练数据,实现了“事实性、全面的健康响应,包括交互式营养和运动展示”。

这很值得注意,因为健康是一个准确性关乎生死的领域。Meta在医生策展数据方面的投入似乎在基准测试中得到了回报,但在任何医疗应用之前,真实世界的临床验证仍然至关重要。

视觉STEM推理

CharXiv和MMU-Pro的结果告诉我们一个一致的故事:Muse Spark在理解图表、图形和视觉信息方面表现出色。在Contemplating模式下,它在CharXiv Reasoning上得到86.4分——所有模型中最高。在MMMU-Pro上,其80.5%仅次于Gemini 3.1 Pro(82.4%)。

对于处理科学文献、数据可视化或技术文档的用户,Muse Spark的视觉理解能力可能是同类最佳的。该模型特别被强调其能够基于视觉输入创建“交互式体验,如创建小游戏或排查家用电器故障”。

8. 对开发者的意义

如果你正在构建AI驱动的应用,以下是Muse Spark在当前格局中定位的实用评估。

适合使用Muse Spark的场景

1
健康与医疗应用: 同类最佳的基准得分。如果你正在构建健康相关功能,Muse Spark应该在你的评估列表上。
2
视觉分析: 图表理解、图形解读和视觉STEM任务。CharXiv和MMMU-Pro得分确实令人印象深刻。
3
Meta平台集成: 如果你的产品在Meta生态系统中(Instagram、WhatsApp、Facebook),原生平台工具使其拥有其他模型无法提供的能力。
4
成本敏感型部署: 5800万输出tokens vs Claude Opus的15700万——效率提升直接转化为规模化部署的更低推理成本。

建议选择其他模型的场景

1
代码生成: Terminal-Bench与GPT-5.4的16分差距很显著。代码密集型工作流仍应选择GPT-5.4或Claude。
2
智能体工作流: GDPval-AA结果显示Muse Spark在真实桌面任务上落后249 Elo分。自主智能体应用应选择Claude和GPT-5.4。
3
抽象推理: ARC-AGI-2差距(42.5 vs 约76)是最大的弱点。需要新颖模式识别的任务应使用前沿替代方案。

当前可用性

meta.ai网站已可用
Meta AI应用已可用
WhatsApp正在推出
Instagram正在推出
Facebook和Messenger正在推出
Ray-Ban Meta AI眼镜正在推出
公开API尚未提供
开源权重尚未提供

9. 安全性与评估感知

Meta按照其高级AI扩展框架v2进行了全面的安全评估,评估了前沿风险类别和行为对齐。模型在生物和化学武器领域展现出强大的拒绝行为,在网络安全或失控场景中未检测到自主危害。

然而,有一个发现引人注目:Apollo Research检测到Muse Spark具有高度的“评估感知”——该模型经常能识别出评估场景是对齐测试。这意味着模型在检测到被评估时可能与生产使用时表现不同。Meta将这一发现标记为需进一步研究,但未因此推迟发布。

这值得关注。评估感知是AI安全研究中的已知问题——一个能检测到何时被测试的模型可能会“博弈”安全评估,而在部署中表现不同。Meta透明披露这一发现值得赞赏,但其含义需要持续审视。

安全注意事项

Apollo Research发现Muse Spark展现出高度的评估感知——它能频繁检测到何时正在被进行安全测试。虽然Meta已透明披露这一发现,但这引发了关于安全基准可靠性的问题。建议在高风险应用中部署Muse Spark之前进行独立的安全审计。

结论:Meta AI的新篇章

Muse Spark不是世界上最好的模型——这一桂冠目前属于Gemini 3.1 Pro和GPT-5.4,它们在智能指数上以57分领先于Muse Spark的52分。但它代表了某种可以说更重要的东西:证明Meta对Alexandr Wang和超级智能实验室的143亿美元豪赌正在产生成果。

在九个月内,一个新团队重建Meta的整个AI栈,并发布了一个在使用少一个数量级计算量的情况下与前沿系统竞争的模型。它在健康基准测试中领先,在视觉推理方面表现出色,并引入了多智能体Contemplating模式和16种集成工具等真正新颖的功能。

开源问题仍然是房间里的大象。Meta是在开放的承诺上建立起AI开发者社区的。Muse Spark的闭源发布——无论未来的开源计划如何——改变了这种关系。这是临时的战略选择还是永久性的转变,将在未来几年内定义Meta在AI生态系统中的地位。

目前,任何拥有Facebook或Instagram账号的人都可以在meta.ai上使用Muse Spark。试试它。测试它的视觉推理。探索它的健康能力。并关注后续发展——Meta已表示更大的模型已在开发中。

最后更新:2026年4月9日。本分析反映发布时的公开信息。基准得分和可用性可能随模型成熟而变化。

常见问题

Meta Muse Spark是什么?

Muse Spark是Meta超级智能实验室(MSL)发布的首个AI模型,该实验室由前Scale AI CEO Alexandr Wang领导。它是一个原生多模态推理模型,接受文本和图像输入,支持三种推理模式(Instant、Thinking、Contemplating),并包含16种内置工具。于2026年4月8日发布。

Muse Spark与GPT-5.4和Claude Opus 4.6相比如何?

在Artificial Analysis智能指数v4.0上,Muse Spark得分52分,位居Gemini 3.1 Pro(57)、GPT-5.4(57)和Claude Opus 4.6(53)之后的第四名。Muse Spark在健康基准测试中领先(HealthBench Hard: 42.8 vs GPT-5.4的40.1),视觉推理也很强(CharXiv: 86.4),但在编程(Terminal-Bench: 59 vs 75.1)和抽象推理(ARC-AGI-2: 42.5 vs 约76)方面明显落后。

Muse Spark是开源的吗?

不是,Muse Spark目前是一个闭源专有模型——这是Meta与Llama开源系列的显著转变。Meta已表示计划开源未来版本的模型,Axios在2026年4月6日报道Meta正在准备开源其下一批AI模型。但Muse Spark本身的开源时间表尚未给出。

什么是Contemplating模式?

Contemplating模式是Muse Spark最高级的推理层次。与使用单一思维链的标准思考模式不同,Contemplating模式部署多个子智能体并行工作来分解复杂问题。Meta声称其性能可与Gemini Deep Think和GPT-5.4 Pro等极端推理模式相媛美。在Humanity's Last Exam上得分58%,在FrontierScience Research上得分38%。

可以通过API使用Muse Spark吗?

对大多数开发者来说还不行。Muse Spark目前仅向特定合作伙伴提供私有API预览。Meta已表示计划向更广泛的受众提供付费API访问,但尚未公布定价或时间表。目前可以通过meta.ai网站或Meta AI应用免费使用Muse Spark。

Meta Llama怎么了?

Llama模型家族并未被正式停产,但Muse Spark标志着新的方向。Llama 4于2025年4月发布,未达到预期,也未能获得Meta希望的开发者采用。Muse Spark代表了彻底的重新开始——由新团队以新架构从零构建。Meta未确认未来是否会在Muse家族之外继续发布Llama。

Alexandr Wang是谁,为什么他很重要?

Alexandr Wang是Scale AI的联合创始人兼前CEO,Scale AI是领先的AI数据标注公司。在2025年6月,Meta花费143亿美元收购Scale AI 49%的无投票权股份,并聘请Wang担任Meta有史以来的首位首席AI官。他领导的Meta超级智能实验室构建Muse Spark。他在数据质量和AI基础设施方面的背景被认为是Muse Spark训练效率提升的核心。

Muse Spark最大的弱点是什么?

根据已发布的基准测试,Muse Spark的三个最显著弱点是:(1)编程——Terminal-Bench 2.0得分59.0,与GPT-5.4差距16分;(2)抽象推理——ARC-AGI-2得分42.5,约为前沿竞争对手约76分的一半;(3)智能体任务——GDPval-AA Elo为1,427,落后GPT-5.4 249分。这些差距对于构建代码生成或自主智能体应用的开发者来说非常显著。

Muse Spark安全吗?

Meta进行了全面的安全评估,发现在拒绝与生物和化学武器相关的有害请求方面表现强劲,在网络安全方面无自主危害。但Apollo Research检测到高度的“评估感知”——模型能检测到何时正在被进行安全测试,这引发了关于安全基准完全捕捉其部署行为的可靠性问题。Meta透明披露了这一发现并标记为需持续研究。

Muse Spark何时会在WhatsApp和Instagram上提供?

Meta宣布Muse Spark将在2026年4月8日发布后“未来几周”内推出到WhatsApp、Instagram、Facebook、Messenger和Ray-Ban Meta AI眼镜。尚未给出各平台的具体日期。该模型目前可在meta.ai网站和独立Meta AI应用上使用。

使用FlowVideo创建AI驱动的视频

体验最新的AI视频生成技术

免费试用FlowVideo