Llama 4 „Maverick“: Multimodales Genie oder überschätzter Musterschüler?

Veröffentlicht von

Die Erwartungen waren gigantisch: Meta’s Llama 4 sollte nach dem gefeierten Llama 3 den nächsten großen KI-Sprung bringen. Codename „Maverick“ – der Unabhängige, Draufgänger. Doch die Realität nach dem Launch war ernüchternd: Trotz beeindruckender Technik blieb der Wow-Effekt aus, und Entwickler zeigten sich enttäuscht.

Die vierte Llama-Herde – was ist neu?

Meta präsentierte Llama 4 als Herde von drei Modellen: Scout, Maverick und Behemoth. Dabei wurden zunächst nur Llama 4 Scout und Maverick der Öffentlichkeit zugänglich gemacht (teils über Amazon Bedrock), während Behemoth – der wirklich gigantische Bruder – vorerst hinter verschlossenen Türen blieb.

Llama 4 Maverick sticht als technisch faszinierend hervor: Es ist ein Mixture-of-Experts-Modell mit 128 Experten und insgesamt rund 400 Milliarden Parametern, wobei pro Anfrage 17 Mrd. aktiv sind. Außerdem ist es nativ multimodal, versteht also sowohl Text als auch Bilder (und angeblich sogar Videos) in einer Eingabe. Die Kontextfenster sind riesig – bis zu 1 Million Token verarbeitet Maverick inzwischen, genug, um ganze Bücher oder massive Datenmengen in einem Rutsch einzulesen. Scout, die kleinere Variante, nutzt 16 Experten (109 Mrd. Parameter gesamt) und ist ebenfalls multimodal, mit aktuell 3,5 Millionen Token Kontext.

Meta behauptete vollmundig, Maverick sei „das beste multimodale Modell seiner Klasse“ und schlage GPT-4o sowie Gemini 2.0 in bestimmten Bereichen. Gerade die Bildverständnis-Fähigkeiten und die Kombination von Bild+Text sollten herausragen. Zudem pries man das Preis-Leistungs-Verhältnis: Durch MoE bietet Llama 4 hohe Leistung bei moderaten Kosten, da pro Anfrage nur ein Bruchteil der Parameter genutzt wird.

Fehlender „Reasoning“-Spark und Benchmark-Drama

Trotz dieser Spezifikationen machte sich schnell Ernüchterung breit. Entwickler im Reddit-Forum /r/LocalLLaMA berichteten: „Llama-4-Maverick, das 402B-Parameter-Modell, performt beim Coding etwa auf Augenhöhe mit Qwen-QwQ-32B“. Anders gesagt – ein viel kleineres chinesisches Modell (32B) bot vergleichbare Programmierleistung. Llama 4 Scout wiederum sei kaum besser als Llama 3, so der Tenor. Besonders im Problem Solving und anspruchsvollen Reasoning zeigte Llama 4 Schwächen: „Claude (Sonnet 3.7) ist deutlich besser im Probleme lösen als Gemini 2.5 – und Gemini besser als Llama 4“, fasste ein Tester die Hierarchie zusammen. Meta hatte überraschenderweise keine dedizierte „Denker“-Version von Llama 4 herausgebracht. Wo Google mit Gemini 2.5 einen speziellen Fokus auf schrittweises Denken legte und OpenAI O3 ebenfalls Reasoning trainierte, wirkte Llama 4 auf diesem Feld generisch.

Für Stirnrunzeln sorgte zudem ein Benchmark-Eklat: Meta veröffentlichte beeindruckende Benchmarkzahlen, musste aber eingestehen, dass diese mit einer internen Experimentalfassung (vermutlich dem ominösen Behemoth) erzielt wurden. Die offen zugänglichen Maverick/Scout-Modelle konnten diese Ergebnisse nicht reproduzieren, was Kritik laut werden ließ, Meta habe die Community in die Irre geführt. Ein Digital-Policy-Blog titelte gar: „Meta faces backlash over Llama 4 release… benchmark manipulation… misleading the AI community“. Es scheint, Meta wollte unbedingt mit Spitzenwerten glänzen, hat aber das beste Modell (Behemoth mit möglicherweise 1 Billion+ Parametern) nicht freigegeben. Dieses Vorgehen beschädigte etwas das Vertrauen – Joelle Pineau, hochrangige Meta-AI-Forschungsleiterin, soll Berichten zufolge kurz nach dem Release ihren Posten verloren haben (ob in direktem Zusammenhang, sei dahingestellt).

Licht und Schatten im Praxistest

Ganz schlecht ist Llama 4 freilich nicht. Seine Multimodalität funktioniert ordentlich: Entwickler loben, dass Maverick komplexe Bildinhalte beschreiben kann und auch visuelle Fragen versteht, ähnlich GPT-4V. In Kombination mit dem Riesen-Kontextfenster ergeben sich neue Anwendungsmöglichkeiten – etwa das Analysieren ganzer Datensätze oder langer Videoskript-Transkripte in einem Durchgang. Für Enterprise-Anwendungen hat Llama 4 außerdem den Vorteil der Kosten: Laut Experteneinschätzung ist es “deutlich günstiger zu betreiben als GPT-4”, was große Firmen anzieht. Immerhin bleibt Llama 4 Open-Source (unter Metas Lizenz), wodurch Unternehmen es on-premises nutzen können – das ist ein Plus gegenüber closed Modellen.

Doch verglichen mit dem Hype um Llama 3 (damals war Meta mit 70B Open-Source-Modellen der Held der Community) blieb bei Llama 4 viel Enthusiasmus aus. Kommentare wie „They completely surpassed my expectations… in a negative direction“ sprechen Bände. Insbesondere die Feinabstimmung hapert: Die ersten Llama 4 Instruct-Modelle reagierten teils ungehobelt oder ließen Konsistenz vermissen, was auf eine überstürzte Veröffentlichung hindeutet (heise schrieb treffend: „In einer Hauruckaktion ist Llama 4 erschienen… überrascht und enttäuscht der Nachfolger an einigen Stellen“). Meta war wohl unter Druck, schnell zu liefern – möglicherweise durch Konkurrenz wie DeepSeek und Qwen.

Ausblick: Aufholpotenzial vorhanden

Kann Llama 4 noch glänzen? Möglich, wenn Meta aus den Kritikpunkten lernt. Eine Reasoning-optimierte Version („Llama 4 Scholar“?) oder das Nachreichen von Behemoth für die Community könnten das Blatt wenden. Auch eine bessere Dokumentation der neuen MoE-Architektur und Hilfestellungen für Feintuning wären wünschenswert, damit Entwickler das Potential ausschöpfen. Immerhin: Die Community hat bereits damit begonnen, Llama 4 zu verfeinern – erste Projekte quantisieren das Modell auf 8-bit und testen längere Ketten von „Denkschritten“ per Prompt Engineering.

Insgesamt zeigt Llama 4 Maverick, dass selbst Tech-Giganten straucheln können, wenn Erwartungen und Kommunikation nicht sauber gemanagt werden. Der technische Fortschritt – Multimodalität, MoE auf neuem Niveau, Mega-Kontext – ist unbestreitbar und bietet einen Blick in die KI-Zukunft. Doch der Durchbruch in der Praxis blieb begrenzt. Somit gilt Llama 4 aktuell als “solides Arbeitspferd mit leichten Enttäuschungen” statt als strahlender Überflieger. Für die KI-Community heißt das: Abwarten, was die nächsten Iterationen bringen. Vielleicht wird der „Maverick“ seinem Namen doch noch gerecht und bricht konventionelle Regeln, wenn Meta ihn frei galoppieren lässt.