Größer, größer, größer – lange schien das das Mantra der KI-Welt. Doch in den letzten Monaten zeichnete sich ein Trendwechsel ab: Klevere Trainingsmethoden und neue Frameworks schlagen brachiale Größe. Zwei Beispiele: Microsofts experimentelles KBLaM speist externes Wissen direkt ins Modell ein, und Googles Gemma 3-Modelle zeigen, dass kleine KI ganz groß rauskommen können.
Eingebautes Faktenwissen mit KBLaM
Eine der größten Schwächen großer Sprachmodelle ist das Halluzinieren – Fakten erfinden, weil ihnen Wissen fehlt. Klassisch begegnete man dem mit Retrieval: Ein externes System sucht Fakten, die das Modell dann einbaut. Microsoft Research hat im März einen anderen, radikalen Ansatz vorgestellt: KBLaM (Knowledge Base Language Model). Dabei wird strukturiertes externes Wissen direkt im LLM enkodiert – quasi als zusätzlicher Speicher. Im Gegensatz zu Retrieval-Augmented Generation (RAG) entfällt der externe Suchschritt: Das Modell trägt die Wissensbasis in sich
.
KBLaM encodiert z.B. eine Unternehmensdatenbank oder Wikipedia-Artikel in ein kompaktes Format und integriert dieses als Plug-and-Play-Modul ins Sprachmodell. Das Besondere: Dies kann erfolgen, ohne das Hauptmodell neu zu trainieren. Erste Ergebnisse zeigen, dass damit Antworten fundierter und konsistenter werden, weil das Modell auf die eingebetteten Fakten zurückgreifen kann, statt zu halluzinieren. Halluzinationen sinken, die Effizienz steigt – die KI muss nicht mehr in Echtzeit suchen, sondern hat ihren Wissensschatz dabei.
Konkret demonstrierte Microsoft etwa, wie KBLaM einem Modell beibringt, eine API-Dokumentation zu beherrschen: Die strukturierten Funktionsbeschreibungen wurden ins Modell eingespeist. Anschließend konnte das LLM Fragen zur API beantworten, als hätte es die Dokumentation gelesen – aber schneller und ohne Kontextlimit, da das Wissen bereits Teil seines parametrischen Gedächtnisses war. Dieser Ansatz steht noch am Anfang, könnte aber z.B. Firmen erlauben, eigene Fakten-Kernel in Standard-LLMs einzuklinken, um firmeninternes Wissen sicher und effizient nutzbar zu machen.
. KBLaM reiht sich hier als innovative Lösung ein, indem es Wissensinseln schafft, die ein Modell gezielt nutzen kann. Dies erinnert an das Konzept modularer Expertensysteme, nun aber verschmolzen mit dem neuronalen Netz.
Gemma 3: Kleine Modelle, große Wirkung
Während Microsoft an der Wissensseite schraubt, hat Google ein Zeichen für Effizienz gesetzt. Mit Gemma 3 (von „gemini“ abgeleitet) erschien im März eine familie von leichtgewichtigen KI-Modellen, die so leistungsfähig wie nie für ihre Größe sind. Google beschreibt Gemma 3 als „unsere fortschrittlichsten und portabelsten offenen Modelle, designt für den Einsatz direkt auf Geräten“. Tatsächlich laufen Gemma-Modelle auf Hardware vom Smartphone bis zur Workstation – eine Demo zeigte einen Gemma 3 sogar auf einem Smart Speaker-Chip.
Wie ist das möglich? Google hat massiv in Optimierung und Kompression investiert. Die Modelle nutzen 4-Bit-Quantisierung und distilliertes Wissen aus größeren Vorläufern, behalten aber erstaunlich viel Kompetenz. So erreicht Gemma 3 (Scout), eine 13-Milliarden-Parameter-Version, annähernd die Leistung eines 70B-Modells vom Vorjahr, braucht aber nur einen Bruchteil an Rechenressourcen. Laut Google genügt eine einzelne GPU oder TPU, um Gemma 3 in Echtzeit zu betreiben. Damit wird KI demokratisiert: Man braucht keine Rechenzentren mehr, um ein fortgeschrittenes Sprachmodell laufen zu lassen – ein Laptop reicht.
Besonders eindrucksvoll ist die Kontextlänge, die Gemma 3 verarbeiten kann. Während GPT-4 mit 32k Token schon als enorm gilt, erlaubt Gemma 4 (eine experimentelle Version) Millionen von Token Kontext. Das bedeutet, ein komplettes Buch könnte als Prompt gegeben werden, und das Modell behält den Überblick. Diese Leistung erzielte Google durch sparsames Architekturen-Design (MOE mit vielen Experten, aber kleiner Aktivierung pro Token) – ähnlich wie bei Llama 4 Maverick, worauf wir gleich eingehen werden.
Gemma 3 ist auch open-source (Apache-Lizenz) und soll als Baukasten dienen. Entwickler können die vortrainierten Gewichte laden und mit wenigen GPU-Stunden auf eigene Datensätze fine-tunen. Erste Community-Projekte nutzen Gemma-Modelle bereits für Chatbots, die komplett offline auf dem Smartphone laufen, oder für Sprachassistenten in smarten Geräten – Bereiche, wo bisher aus Datenschutzgründen ungern Cloud-KIs eingesetzt wurden. Mit kleinen, performanten Modellen eröffnen sich hier neue Anwendungen, von privaten KI-Assistenten bis hin zur Integration in sicherheitskritische Systeme, wo Cloud-Verbindungen problematisch wären.
Fazit: Qualität vor Quantität
Diese Entwicklungen zeigen einen hoffnungsvollen Trend: Innovation schlägt pure Größe. Statt einfach immer mehr Parameter anzuhäufen, finden Forscher Wege, Modelle geschickter zu machen. KBLaM adressiert ein Kernproblem (fehlendes Faktenwissen) durch einen strukturellen Trick, Gemma demonstriert, dass Effizienz nicht im Widerspruch zu Leistungsfähigkeit stehen muss.
Für die KI-Zukunft bedeutet das: Wir können optimistisch sein, dass KI-Systeme zugänglicher, sicherer und flexibler werden. Wenn ein mittelgroßes Modell dank eingebautem Wissen so gut wie ein Riese sein kann, oder wenn ein Smartphone eine Konversation mit Buchlänge stemmen kann – dann rückt der Einsatz von KI in breiter Front näher. In einem professionell-technischen, aber optimistischen Ton kann man sagen: Die Hidden Champions der KI sind geboren. Es muss nicht immer der größte Transformer im Bunde sein; manchmal reicht ein schlauerer.