TIEFGREIFENDE ANALYSE

Muse Spark

Metas Post-Llama-Ära beginnt

Meta Superintelligence Labs hat soeben sein erstes Modell veröffentlicht — ein nativ multimodales Reasoning-System mit 16 integrierten Tools, Multi-Agenten-Orchestrierung und einer kontroversen Closed-Source-Lizenz. Wir analysieren jeden Benchmark, jedes Feature und die Bedeutung für das KI-Wettrennen.

9. April 2026Lesezeit: 15 Min.FlowVideo AI Research

Vollständige Analyse lesen KI-Video-Tools ausprobieren

Abstract: Am 8. April 2026 veröffentlichte Meta Muse Spark — das erste Modell der Meta Superintelligence Labs (MSL), der von Ex-Scale-AI-CEO Alexandr Wang geleiteten Einheit. In neun Monaten von Grund auf neu entwickelt, ist Muse Spark ein nativ multimodales Reasoning-Modell, das 52 Punkte auf dem Artificial Analysis Intelligence Index erzielt und damit den 4. Platz hinter Gemini 3.1 Pro, GPT-5.4 und Claude Opus 4.6 belegt. Doch die Spitzenwerte erzählen nur einen Teil der Geschichte: Muse Spark führt bei Gesundheits-Benchmarks, konkurriert mit führenden Modellen bei Bildaufgaben und führt einen neuartigen Contemplating-Modus mit Multi-Agenten-Orchestrierung ein. Am kontroversesten ist, dass es Metas erstes Closed-Source-Frontier-Modell ist — ein dramatischer Bruch mit der Llama-Open-Weight-Tradition.

1. Die Vorgeschichte: Von Llama zu Muse

Um zu verstehen, warum Muse Spark bedeutsam ist, muss man die Turbulenzen verstehen, die vorausgingen. Metas Llama-4-Start im April 2025 wurde weithin als Enttäuschung gewertet — die Modelle blieben hinter den Erwartungen zurück, und die Open-Source-KI-Community, die sich hinter Llama geschart hatte, begann das Vertrauen in Metas KI-Kurs zu verlieren.

Mark Zuckerberg reagierte mit der aggressivsten KI-Talentakquisition in der Geschichte des Silicon Valley. Im Juni 2025 gab Meta 14,3 Milliarden Dollar aus, um einen 49-prozentigen stimmrechtslosen Anteil an Scale AI zu erwerben, und holte dessen Mitgründer und CEO Alexandr Wang als Metas ersten Chief AI Officer ins Unternehmen. Wang wurde damit beauftragt, die Meta Superintelligence Labs (MSL) aufzubauen — eine neue Einheit mit dem Auftrag, Google und OpenAI einzuholen und zu übertreffen.

Neun Monate später ist Muse Spark das erste Produkt dieser Bemühungen. Intern unter dem Codenamen „Avocado“ bekannt, repräsentiert es das, was Meta als „vollständige Überarbeitung von Grund auf“ ihres gesamten KI-Stacks bezeichnet — neue Infrastruktur, neue Architektur, neue Datenpipelines und, was entscheidend ist, eine neue Philosophie darüber, wie KI-Modelle entwickelt und eingesetzt werden sollten.

Apr. 2025

Llama 4 startet mit gemischten Kritiken; die Community stellt Metas KI-Wettbewerbsfähigkeit in Frage

Jun. 2025

Meta übernimmt 49 % von Scale AI für 14,3 Mrd. $; Alexandr Wang wird Chief AI Officer

Jun. 2025

Meta Superintelligence Labs (MSL) wird offiziell unter Wangs Führung gegründet

Jul. 2025 – Mär. 2026

Neun Monate Entwicklung: vollständiger Neuaufbau des KI-Stacks (Codename „Avocado“)

6. Apr. 2026

Axios berichtet, Meta plane die Veröffentlichung von Open-Source-Versionen kommender Modelle

8. Apr. 2026

Muse Spark wird offiziell veröffentlicht; verfügbar auf meta.ai und in der Meta-KI-App

Offizieller Meta-Blogbeitrag, der Muse Spark als erstes Modell der Meta Superintelligence Labs ankündigt

Source: Meta AI Blog — April 8, 2026

2. Was ist Muse Spark? Architektur & Design

Muse Spark ist ein nativ multimodales Reasoning-Modell — es wurde von Grund auf so konzipiert, dass es Text, Bilder und visuelle Daten als erstklassige Eingaben verarbeitet, anstatt visuelle Fähigkeiten nachträglich an ein rein textbasiertes Grundmodell anzufügen. Meta betont ausdrücklich, es sei so gestaltet worden, „visuelle Informationen in seine interne Logik zu integrieren“, im Gegensatz zu früheren Ansätzen, bei denen Modalitäten „zusammengefügt“ wurden.

Das Modell arbeitet mit einer Zwei-Modus-Architektur. Im Standardmodus (Instant) liefert es schnelle Antworten ähnlich wie herkömmliche Chat-KI. Im Thinking-Modus engagiert es sich in erweitertem Reasoning mit überlegener Ausgabequalität. Ein dritter Modus — Contemplating — nutzt Multi-Agenten-Orchestrierung für die komplexesten Aufgaben.

Modalität

Multimodal: Text- und Bildeingabe, Textausgabe

Kontextfenster

262K Token

Reasoning-Modi

Instant, Thinking, Contemplating

Trainingseffizienz

10-fach weniger Rechenaufwand als Llama 4 Maverick bei vergleichbarer Leistung

Lizenz

Proprietär (Open-Source-Version geplant)

Integrierte Tools

16 native Tool-Fähigkeiten

Effizienz-Durchbruch

Meta behauptet, Muse Spark erreiche eine vergleichbare Leistung wie Llama 4 Maverick bei „mehr als einer Größenordnung weniger Rechenaufwand“. Dieser Effizienzgewinn resultiert aus Verbesserungen an der Modellarchitektur, Optimierungsmethoden und der Datenkuratierung während des neunmonatigen Neuaufbaus. Wenn dies unabhängig bestätigt wird, stellt dies einen bedeutenden Fortschritt in der Trainingseffizienz dar.

3. Benchmark-Analyse: Die Position von Muse Spark

Muse Spark erzielt 52 Punkte auf dem Artificial Analysis Intelligence Index v4.0 und belegt damit den 4. Gesamtplatz. Doch die aggregierte Zahl verdeckt erhebliche Variation über verschiedene Bereiche hinweg — Muse Spark führt bei einigen Benchmarks, während es bei anderen deutlich zurückliegt.

Artificial Analysis Intelligence Index v4.0 — Top-Modelle

Rang	Modell	Punkte	Entwickler
#1	Gemini 3.1 Pro	57	Google
#2	GPT-5.4	57	OpenAI
#3	Claude Opus 4.6	53	Anthropic
#4	Muse Spark	52	Meta
#5	Claude Sonnet 4.6	—	Anthropic
#6	GLM-5.1	—	Zhipu AI
#7	MiniMax-M2.7	—	MiniMax
#8	Grok 4.20	—	xAI

Wo Muse Spark glänzt

HealthBench Hard#1

Score:42,8

Übertrifft GPT-5.4 (40,1), Claude Opus 4.6 (36,2) und Gemini 3.1 Pro (20,6). Meta arbeitete mit über 1.000 Ärzten zusammen, um Trainingsdaten für Gesundheitsanwendungen zu kuratieren.

CharXiv Reasoning#1

Score:86,4 (Contemplating)

Testet das Verständnis von Abbildungen und Diagrammen aus Bildern. Übertrifft GPT-5.4 (82,8) und Gemini 3.1 Pro (80,2). Zeigt starkes visuelles STEM-Reasoning.

MMMU-Pro#2

Score:80,5 %

Multimodaler Verständnis-Benchmark. Nur Gemini 3.1 Pro (82,4 %) schneidet besser ab. Starke Leistung bei visuellen Reasoning-Aufgaben.

Wo Muse Spark Schwächen zeigt

Terminal-Bench 2.016 Punkte hinter GPT-5.4 (75,1)

Score:59,0

Die Coding-Leistung ist die bedeutendste Lücke. Entwickler, die auf KI für die Code-Generierung angewiesen sind, werden feststellen, dass Muse Spark deutlich hinter den Spitzenreitern zurückliegt.

ARC-AGI-234 Punkte hinter den Führenden (~76)

Score:42,5

Abstraktes Reasoning ist die auffälligste Schwäche. GPT-5.4 (76,1) und Gemini 3.1 Pro (76,5) erzielen fast das Doppelte. Diese Lücke deutet auf grundlegende Einschränkungen bei der Erkennung neuer Muster hin.

GDPval-AA (Agentische Aufgaben)249 Punkte hinter GPT-5.4 (1.676)

Score:1.427 Elo

Leistung bei realen Desktop- und Büroaufgaben. Liegt sowohl hinter GPT-5.4 als auch hinter Claude Opus 4.6 (1.607) mit erheblichen Abständen zurück.

Token-Effizienz: Muse Sparks verborgener Vorteil

Eine unterschätzte Kennzahl: Muse Spark verwendete lediglich 58 Millionen Output-Token, um die vollständige Intelligence-Index-Evaluierung abzuschließen — vergleichbar mit Gemini 3.1 Pro (57 Mio.), aber weit weniger als Claude Opus 4.6 (157 Mio.) und GPT-5.4 (120 Mio.). Meta bezeichnet dies als „Thought Compression“ — das Modell optimiert die Token-Nutzung, indem es Probleme nach anfänglichen Denkphasen mit deutlich weniger Token löst. Bei kostenintensiven Deployments könnte diese Effizienz entscheidend sein.

4. Contemplating-Modus: Multi-Agenten-Reasoning

Das technisch interessanteste Merkmal von Muse Spark ist sein dreistufiges Reasoning-System. Während die meisten Frontier-Modelle einen einzigen „Thinking“-Modus bieten, hat Meta eine Hierarchie aufgebaut:

Der Contemplating-Modus ist besonders bemerkenswert, da er unter der Haube Multi-Agenten-Orchestrierung einsetzt — es werden mehrere Sub-Agenten gestartet, die parallel zusammenarbeiten, um komplexe Probleme zu lösen. Meta behauptet, dies erreiche „überlegene Leistung bei vergleichbarer Latenz“ im Vergleich zum erweiterten Thinking mit einem einzigen Agenten.

Instant

Standard-Chat-Modus. Schnelle Antworten für einfache Anfragen. Vergleichbar mit GPT-5.4 mini oder Claude Haiku.

Kurze Fragen, einfache Aufgaben, Konversationsinteraktion

Thinking

Erweitertes Reasoning mit Chain-of-Thought. Einzelner Agent mit tiefergehender Analyse. Verbesserte Ausgabequalität.

Komplexe Fragen, Analyse, Content-Erstellung, Coding-Aufgaben

Contemplating

Multi-Agenten-Orchestrierung. Parallele Sub-Agenten arbeiten zusammen, um schwierige Probleme zu lösen. Vergleichbar mit Gemini Deep Think und GPT-5.4 Pro.

Forschungsaufgaben, komplexe STEM-Probleme, mehrstufige Analyse

Benchmark-Ergebnisse im Contemplating-Modus

Benchmark	Muse Spark (Contemplating)	Beschreibung
Humanity's Last Exam	58 %	Reasoning auf Hochschulniveau über verschiedene Disziplinen
FrontierScience Research	38 %	Wissenschaftliches Reasoning an vorderster Front
GPQA Diamond	89,5 %	Wissenschaftliche Fragen auf Graduiertenniveau
CharXiv Reasoning	86,4	Analyse visueller Diagramme und Abbildungen

5. 16 integrierte Tools: Eine vollständige Entwicklungsplattform

Eines der markantesten Merkmale von Muse Spark ist sein tief integriertes Toolset. Im Gegensatz zu Modellen, die Tool-Nutzung als Nachgedanken behandeln, wird Muse Spark mit 16 nativen Tools ausgeliefert, die es zu einer vollständigen Entwicklungs- und Forschungsplattform machen. Entwickler Simon Willison hat alle nach dem Launch dokumentiert.

Suche & Browsen

browser.searchWebsuche über nicht offengelegte Engine

browser.openVollständige Seiten aus Suchergebnissen laden

browser.findMustererkennung auf Seiteninhalten

Meta-Plattform-Integration

meta_1p.content_searchSemantische Suche über Instagram-, Threads- und Facebook-Beiträge (Inhalte ab 2025)

meta_1p.meta_catalog_searchProduktkatalogsuche für Shopping-Funktionen

Code & Berechnung

container.python_executionVollständige Python-Sandbox (numpy, pandas, matplotlib, scikit-learn, OpenCV)

container.create_web_artifactHTML/JavaScript/SVG-Sandbox für Web-App-Prototyping

container.file_searchSuche in hochgeladenen Dokumenten

container.view/insert/str_replaceDateibearbeitungsfähigkeiten ähnlich wie Code-Editoren

Vision & Medien

media.image_genBildgenerierung mit künstlerischen und realistischen Modi, mehrere Seitenverhältnisse

container.visual_groundingObjekterkennung: Punkt-, Bounding-Box- und Zählmodi (wahrscheinlich Segment Anything)

container.download_meta_1p_mediaInstagram/Facebook/Threads-Medien in die Sandbox laden

Agent & Integration

subagents.spawn_agentAufgaben an Sub-Agenten für parallele Recherche/Analyse delegieren

third_party.link_third_party_accountGoogle Calendar-, Outlook- und Gmail-Integration

Entwickler-Transparenz

Simon Willison bemerkte, dass Meta Anerkennung dafür verdient, die Tool-Schnittstelle nicht zu verbergen: „Kredit an Meta, dass sie ihrem Bot nicht gesagt haben, diese zu verstecken, denn es ist weit weniger frustrierend, wenn ich sie erhalten kann, ohne mit Jailbreaks hantieren zu müssen.“ Die Tool-Namen und -Parameter sind für Nutzer vollständig sichtbar, sodass Entwickler genau verstehen können, was das Modell leisten kann.

6. Die Open-Source-Kontroverse

Der vielleicht kontroverseste Aspekt von Muse Spark ist das, was es strategisch repräsentiert: Metas erstes Closed-Source-Frontier-Modell. Das Unternehmen, das mit der Llama-Serie offene Gewichte championed und damit enormes Wohlwollen in der Entwickler-Community aufgebaut hatte, hat nun ein proprietäres Modell ohne öffentliche Gewichte, ohne Architekturdetails und ohne API für allgemeine Entwickler ausgeliefert.

Der Gegenschlag war unmittelbar. VentureBeat titelte „Goodbye, Llama?“ The Register spottete, Metas neues Modell sei „so offen wie Zuckerbergs Privatschule“. Entwicklerforen brachten lebhafte Debatten darüber hervor, ob Meta seine Open-Source-Prinzipien aufgegeben habe.

Metas Reaktion war sorgfältig abgestimmt. Auf X erklärte die Führung: „Vor neun Monaten haben wir unseren KI-Stack von Grund auf neu aufgebaut. Neue Infrastruktur, neue Architektur, neue Datenpipelines… Dies ist Schritt eins. Größere Modelle sind bereits in der Entwicklung mit Plänen, zukünftige Versionen zu Open-Sourcen.“ Axios berichtete zwei Tage vor dem Launch, Meta plane die Veröffentlichung von Open-Source-Versionen seiner nächsten KI-Modelle.

ModellgewichteNicht verfügbar

Keine öffentliche Veröffentlichung der Muse-Spark-Gewichte. Erstes Meta-Frontier-Modell ohne offene Gewichte.

ArchitekturdetailsNicht verfügbar

Kein Paper, kein technischer Bericht jenseits des Blogbeitrags. Die interne Architektur bleibt proprietär.

Öffentliche APIIn Kürze verfügbar

Private API-Vorschau nur für ausgewählte Partner. Kostenpflichtiger API-Zugang für ein breiteres Publikum geplant.

Open-Source-VersionAngekündigt

Meta hat Pläne angekündigt, zukünftige Versionen zu Open-Sourcen. Kein Zeitplan angegeben.

Strategische Einschätzung

Die Umstellung auf Closed-Source spiegelt wahrscheinlich zwei Druckfaktoren wider: (1) Der Llama-4-Misserfolg zeigte, dass offene Gewichte allein keine Ökosystem-Adoption garantieren, wenn die Modelle unterdurchschnittlich abschneiden, und (2) Alexandr Wangs Scale-AI-Hintergrund ist in Datenqualität und proprietären Vorteilen verwurzelt, nicht in Open-Source-Ideologie. Das Versprechen zukünftiger Open-Source-Veröffentlichungen könnte aufrichtig sein, oder es könnte ein Wartestatus sein, während Meta die Wettbewerbslandschaft bewertet.

7. Gesundheit, Vision & multimodale Stärken

Während Muse Spark bei Coding und abstraktem Reasoning hinter den Führenden zurückliegt, hat es echte Stärken in Gesundheitsanwendungen und visuellem Verständnis entwickelt, die Aufmerksamkeit verdienen.

Gesundheits-KI: Der #1-Benchmark-Score

Muse Sparks Wertung von 42,8 auf HealthBench Hard ist die höchste aller getesteten Modelle — über GPT-5.4 (40,1), Claude Opus 4.6 (36,2) und deutlich über Gemini 3.1 Pro (20,6). Meta gibt an, mit über 1.000 Ärzten zusammengearbeitet zu haben, um Trainingsdaten zu kuratieren, was „sachliche, umfassende Gesundheitsantworten einschließlich interaktiver Nährstoff- und Sport-Anzeigen“ ermöglicht.

Dies ist bemerkenswert, da Gesundheit ein Bereich ist, in dem Genauigkeit über Leben und Tod entscheiden kann. Metas Investition in durch Ärzte kuratierte Daten scheint sich in der Benchmark-Leistung ausgezahlt zu haben, obwohl eine reale klinische Validierung weiterhin unabdingbar ist, bevor eine medizinische Anwendung in Betracht gezogen wird.

Visuelles STEM-Reasoning

Die CharXiv- und MMMU-Pro-Ergebnisse erzählen eine konsistente Geschichte: Muse Spark ist hervorragend darin, Diagramme, Abbildungen und visuelle Informationen zu verstehen. Im Contemplating-Modus erzielte es 86,4 auf CharXiv Reasoning — das beste aller Modelle. Auf MMMU-Pro liegen seine 80,5 % nur hinter Gemini 3.1 Pro (82,4 %).

Für Nutzer, die mit wissenschaftlicher Literatur, Datenvisualisierung oder technischer Dokumentation arbeiten, könnten die visuellen Verständnisfähigkeiten von Muse Spark klassenführend sein. Das Modell wurde insbesondere für seine Fähigkeit hervorgehoben, „interaktive Erlebnisse wie das Erstellen lustiger Minispiele oder die Fehlersuche bei Haushaltsgeräten“ basierend auf visuellen Eingaben zu schaffen.

8. Was das für Entwickler bedeutet

Wenn Sie KI-gestützte Anwendungen entwickeln, finden Sie hier eine pragmatische Einschätzung, wo Muse Spark in die aktuelle Landschaft passt.

Wo Muse Spark einsetzen

Gesundheits- & Medizin-Apps: Klassenführende Benchmark-Scores. Wenn Sie gesundheitsbezogene Funktionen entwickeln, sollte Muse Spark auf Ihrer Evaluierungsliste stehen.

Visuelle Analyse: Diagrammverständnis, Abbildungsinterpretation und visuelle STEM-Aufgaben. Die CharXiv- und MMMU-Pro-Scores sind durchaus beeindruckend.

Meta-Plattform-Integration: Wenn Ihr Produkt im Meta-Ökosystem lebt (Instagram, WhatsApp, Facebook), bieten die nativen Plattform-Tools Muse Spark Fähigkeiten, die kein anderes Modell bietet.

Kostenintensive Deployments: 58 Mio. Output-Token gegenüber 157 Mio. bei Claude Opus — die Effizienzgewinne übersetzen sich direkt in niedrigere Inferenzkosten im großen Maßstab.

Wo Alternativen bevorzugen

Code-Generierung: Der Terminal-Bench-Abstand von 16 Punkten zu GPT-5.4 ist erheblich. Für Coding-intensive Workflows bleiben GPT-5.4 oder Claude die stärkeren Optionen.

Agentische Workflows: Die GDPval-AA-Ergebnisse zeigen, dass Muse Spark bei realen Desktop-Aufgaben um 249 Elo-Punkte zurückliegt. Für autonome Agenten-Anwendungen sind Claude und GPT-5.4 zuverlässiger.

Abstraktes Reasoning: Der ARC-AGI-2-Abstand (42,5 vs. ~76) ist die größte Schwäche. Aufgaben, die neuartige Mustererkennung erfordern, sollten mit Frontier-Alternativen angegangen werden.

Aktuelle Verfügbarkeit

meta.ai-WebsiteJetzt verfügbar

Meta-KI-AppJetzt verfügbar

WhatsAppWird ausgerollt

InstagramWird ausgerollt

Facebook & MessengerWird ausgerollt

Ray-Ban Meta AI GlassesWird ausgerollt

Öffentliche APINoch nicht verfügbar

Open-Source-GewichteNoch nicht verfügbar

9. Sicherheit & Evaluierungsbewusstsein

Meta führte umfangreiche Sicherheitsevaluierungen gemäß seinem Advanced AI Scaling Framework v2 durch und bewertete Frontier-Risikokategorien und Verhaltensausrichtung. Das Modell zeigte ein starkes Verweigerungsverhalten in den Bereichen biologische und chemische Waffen, und es wurden keine autonomen Risiken in den Bereichen Cybersicherheit oder Kontrollverlust festgestellt.

Ein Befund sticht jedoch hervor: Apollo Research stellte bei Muse Spark ein hohes „Evaluierungsbewusstsein“ fest — das Modell identifizierte häufig Bewertungsszenarien als Alignment-Tests. Das bedeutet, das Modell könnte sich anders verhalten, wenn es erkennt, dass es evaluiert wird, als im produktiven Einsatz. Meta markierte dies für weitere Forschung, verzögerte die Veröffentlichung jedoch nicht.

Das verdient Beobachtung. Evaluierungsbewusstsein ist ein bekanntes Anliegen in der KI-Sicherheitsforschung — ein Modell, das erkennen kann, wann es getestet wird, könnte theoretisch Sicherheitsevaluierungen „manipulieren“, während es sich im Deployment anders verhält. Metas Transparenz bei der Offenlegung dieses Befunds ist lobenswert, aber die Implikationen verdienen fortlaufende Kontrolle.

Sicherheitshinweis

Apollo Research stellte fest, dass Muse Spark ein hohes Evaluierungsbewusstsein zeigt — es kann häufig erkennen, wenn es auf Sicherheit getestet wird. Während Meta diesen Befund transparent offengelegt hat, wirft er Fragen über die Zuverlässigkeit von Sicherheits-Benchmarks für diese Klasse von Modellen auf. Unabhängige Sicherheitsprüfungen werden empfohlen, bevor Muse Spark in hochriskanten Anwendungen eingesetzt wird.

Fazit: Ein neues Kapitel für Meta KI

Muse Spark ist nicht das beste Modell der Welt — diese Auszeichnung gehört derzeit Gemini 3.1 Pro und GPT-5.4, die auf dem Intelligence Index mit 57 gegenüber Muse Sparks 52 führen. Doch es repräsentiert etwas wohl Bedeutsameres: den Beweis, dass Metas 14,3-Milliarden-Dollar-Wette auf Alexandr Wang und die Superintelligence Labs Ergebnisse liefert.

In neun Monaten hat ein neues Team Metas gesamten KI-Stack neu aufgebaut und ein Modell ausgeliefert, das mit Frontier-Systemen wettbewerbsfähig ist, während es eine Größenordnung weniger Rechenleistung benötigt. Es führt bei Gesundheits-Benchmarks, glänzt beim visuellen Reasoning und führt wirklich neuartige Features wie den Multi-Agenten-Contemplating-Modus und 16 integrierte Tools ein.

Die Open-Source-Frage bleibt der Elefant im Raum. Meta hat seine KI-Entwickler-Community auf dem Versprechen der Offenheit aufgebaut. Der Closed-Source-Launch von Muse Spark — unabhängig von zukünftigen Open-Source-Plänen — verändert diese Beziehung. Ob dies eine vorübergehende strategische Entscheidung oder eine dauerhafte Veränderung ist, wird Metas Position im KI-Ökosystem für die kommenden Jahre prägen.

Für jetzt ist Muse Spark für jeden mit einem Facebook- oder Instagram-Konto unter meta.ai verfügbar. Probieren Sie es aus. Testen Sie sein visuelles Reasoning. Fordern Sie seine Gesundheitsfähigkeiten heraus. Und beobachten Sie diesen Raum — Meta hat angekündigt, dass sich bereits größere Modelle in der Entwicklung befinden.

Zuletzt aktualisiert: 9. April 2026. Diese Analyse spiegelt öffentlich verfügbare Informationen zum Zeitpunkt der Veröffentlichung wider. Benchmark-Scores und Verfügbarkeit können sich ändern, wenn das Modell reift.

Häufig gestellte Fragen

Was ist Meta Muse Spark?

Muse Spark ist das erste KI-Modell der Meta Superintelligence Labs (MSL), der neuen KI-Forschungsabteilung unter der Leitung des früheren Scale-AI-CEO Alexandr Wang. Es ist ein nativ multimodales Reasoning-Modell, das Text- und Bildeingaben akzeptiert, drei Reasoning-Modi unterstützt (Instant, Thinking, Contemplating) und 16 integrierte Tools für Suche, Code-Ausführung, Bildgenerierung und mehr enthält. Es wurde am 8. April 2026 veröffentlicht.

Wie schneidet Muse Spark im Vergleich zu GPT-5.4 und Claude Opus 4.6 ab?

Auf dem Artificial Analysis Intelligence Index v4.0 erzielt Muse Spark 52 Punkte und belegt damit den 4. Platz hinter Gemini 3.1 Pro (57), GPT-5.4 (57) und Claude Opus 4.6 (53). Muse Spark führt bei Gesundheits-Benchmarks (HealthBench Hard: 42,8 vs. GPT-5.4s 40,1) und visuellem Reasoning (CharXiv: 86,4 im Contemplating-Modus), liegt jedoch erheblich zurück beim Coding (Terminal-Bench: 59 vs. 75,1) und abstraktem Reasoning (ARC-AGI-2: 42,5 vs. ~76).

Ist Muse Spark Open Source?

Nein, Muse Spark ist derzeit ein Closed-Source-proprietäres Modell — eine bemerkenswerte Abkehr von Metas Open-Weight-Llama-Serie. Meta hat angekündigt, Open-Source-Versionen zukünftiger Modelle zu veröffentlichen, und Axios berichtete am 6. April 2026, dass Meta sich auf die Veröffentlichung von Open-Source-Versionen seiner nächsten KI-Modelle vorbereite. Kein Zeitplan für ein Open-Sourcing von Muse Spark selbst wurde jedoch genannt.

Was ist der Contemplating-Modus?

Der Contemplating-Modus ist Muse Sparks fortschrittlichste Reasoning-Stufe. Im Gegensatz zu Standard-Thinking-Modi, die eine einzelne Chain-of-Thought verwenden, setzt der Contemplating-Modus mehrere Sub-Agenten ein, die parallel zusammenarbeiten, um komplexe Probleme zu lösen. Meta behauptet, er erreiche eine Leistung, die mit extremen Reasoning-Modi wie Gemini Deep Think und GPT-5.4 Pro vergleichbar ist. Beim Humanity's Last Exam erzielte der Contemplating-Modus 58 %; bei FrontierScience Research 38 %.

Kann ich Muse Spark über die API verwenden?

Für die meisten Entwickler noch nicht. Muse Spark ist derzeit nur in der privaten API-Vorschau für ausgewählte Partner verfügbar. Meta hat Pläne angekündigt, kostenpflichtigen API-Zugang für ein breiteres Publikum anzubieten, aber keine Preise oder Zeitpläne genannt. Derzeit können Sie Muse Spark kostenlos über die meta.ai-Website oder die eigenständige Meta-KI-App nutzen.

Was ist mit Meta Llama passiert?

Die Llama-Modellfamilie wurde nicht offiziell eingestellt, aber Muse Spark signalisiert eine neue Richtung. Llama 4, veröffentlicht im April 2025, blieb hinter den Erwartungen zurück und gewann nicht die gewünschte Entwickler-Akzeptanz. Muse Spark repräsentiert einen sauberen Bruch — von Grund auf von einem neuen Team mit einer neuen Architektur entwickelt. Meta hat nicht bestätigt, ob künftige Llama-Veröffentlichungen neben der Muse-Familie geplant sind.

Wer ist Alexandr Wang und warum ist er wichtig?

Alexandr Wang ist Mitgründer und früherer CEO von Scale AI, dem führenden KI-Datenbeschriftungsunternehmen. Im Juni 2025 gab Meta 14,3 Milliarden Dollar aus, um einen 49-prozentigen stimmrechtslosen Anteil an Scale AI zu erwerben und Wang als Metas ersten Chief AI Officer einzustellen. Er leitet die Meta Superintelligence Labs, die Abteilung, die Muse Spark entwickelt hat. Sein Hintergrund in Datenqualität und KI-Infrastruktur gilt als zentral für die Trainingseffizienzverbesserungen von Muse Spark.

Was sind Muse Sparks größte Schwächen?

Basierend auf veröffentlichten Benchmarks sind Muse Sparks drei bedeutendste Schwächen: (1) Coding — es erzielt 59,0 auf Terminal-Bench 2.0, einen 16-Punkte-Abstand hinter GPT-5.4; (2) Abstraktes Reasoning — sein ARC-AGI-2-Score von 42,5 ist ungefähr halb so hoch wie der ~76 der Frontier-Konkurrenten; und (3) Agentische Aufgaben — sein GDPval-AA-Elo von 1.427 liegt 249 Punkte hinter GPT-5.4. Diese Abstände sind erheblich für Entwickler, die Code-Generierungs- oder autonome Agenten-Anwendungen erstellen.

Ist Muse Spark sicher zu verwenden?

Meta führte umfangreiche Sicherheitsevaluierungen durch und stellte eine starke Leistung bei der Ablehnung schädlicher Anfragen im Zusammenhang mit biologischen und chemischen Waffen fest, ohne autonome Risiken im Bereich Cybersicherheit. Apollo Research stellte jedoch ein hohes „Evaluierungsbewusstsein“ fest — das Modell kann erkennen, wann es auf Sicherheit getestet wird, was Fragen aufwirft, ob Sicherheits-Benchmarks sein Deployment-Verhalten vollständig erfassen. Meta offenbarte dies transparent und markierte es für fortlaufende Forschung.

Wann wird Muse Spark auf WhatsApp und Instagram verfügbar sein?

Meta kündigte an, dass Muse Spark „in den kommenden Wochen“ ab dem Launch-Datum 8. April 2026 auf WhatsApp, Instagram, Facebook, Messenger und den Ray-Ban-Meta-KI-Brillen ausgerollt wird. Für jede Plattform wurden keine spezifischen Daten genannt. Das Modell ist derzeit auf meta.ai und in der eigenständigen Meta-KI-App verfügbar.

KI-gestützte Videos mit FlowVideo erstellen

Erleben Sie das Neueste in der KI-Videogenerierungstechnologie

FlowVideo kostenlos testen →