Stimmen der Zukunft: Wettrennen der Open-Source-TTS-Systeme

Veröffentlicht von

Eine KI-Stimme lacht herzhaft über einen Witz – und man kann kaum glauben, dass kein Mensch dahintersteckt. Das Jahr 2025 hat einen Durchbruch in der Sprachsynthese erlebt: Open-Source-Modelle wie Orpheus, Dia, Tortoise und Bark 2 liefern gesprochene Sprache mit Ausdruck und Persönlichkeit, die den Angeboten großer Firmen in nichts nachsteht.

Von blechern zu beeindruckend: der Wandel in 3 Monaten

Noch vor kurzem klangen Open-Source-TTS (Text-to-Speech) eher blechern und monoton. Wer natürliche Stimmen wollte, griff zu Closed-Source-APIs wie ElevenLabs oder Google. Doch innerhalb weniger Wochen änderte sich das Bild drastisch. Im März präsentierte Canopy Labs ihr Orpheus TTS – ein Modell, das auf dem LLaMA-3B-Sprachmodell aufbaut und damit LLM-Technik in die Sprachausgabe bringt. Orpheus beeindruckte mit menschlicher Intonation, Emotion und Rhythmus, die laut Entwicklern „den geschlossenen Modellen der Konkurrenz überlegen“ seien. Kurz darauf erschien Dia 1.6B von Nari Labs, entwickelt von einem Zwei-Personen-Team in Korea. Toby Kim, einer der Macher, behauptete selbstbewusst, Dia übertreffe ElevenLabs und sogar Googles neueste Spracherzeugung in Qualität. Diese Ansage sorgte für Aufsehen – und unabhängige Tests gaben ihm teilweise Recht.

Orpheus TTS: LLM als Stimmkünstler

Orpheus verfolgt einen neuartigen Ansatz: Statt wie klassische TTS direkt auf Audio-Wellenformen zu modellieren, nutzt es einen sprachmodellgetriebenen Weg. Es gibt eine „Speech-LLM“-Architektur, wo Audio als Sequenz von Tokens behandelt wird, analog zu Text. Orpheus wurde mit über 100.000 Stunden Sprachdaten trainiert und lernt so, Sprachmuster ähnlich wie Sprachmodelle Textmuster lernen. Dadurch zeigt es bemerkenswerte Zero-Shot-Fähigkeiten, etwa Stimmen zu klonen, ohne spezielles Training: Man gibt wenige Sekunden Stimmdemo, und Orpheus kann im selben Timbre sprechen. Zudem kann es durch einfache Tags in der Eingabe Emotionen steuern – etwa <joy> oder <anger> einfügen, und die Ausgabe klingt fröhlich bzw. wütend. Mit etwa 3 Milliarden Parametern ist Orpheus nicht riesig, aber dank der LLM-basierten Darstellung hoch kompetent. Community-Demos zeigten Orpheus-Stimmen, die lachten, seufzten oder ironischen Unterton trafen – Dinge, die man Open-Source nie zugetraut hätte.

https://github.com/canopyai/Orpheus-TTS

Dia: David gegen Goliath

Ohne Funding starteten sie – und knapp ein Jahr später veröffentlichten sie Dia 1.6B open-source. Dia ist ein klassischeres TTS-Modell als Orpheus, aber extrem gut feinjustiert auf Dialoge. Es kann mehrere Sprecher in einem Gespräch nachahmen, inklusive Zwischenlauten wie Lachen, Seufzen oder „Hm“. Nari Labs zielte darauf, wirklich natürlich klingende Konversation zu erzeugen, nicht nur vorgelesenen Text. Und tatsächlich: Hörproben von Dia zeigen verblüffend echte Wechsel zwischen zwei Stimmen in einem Dialog, inkl. emotionaler Reaktionen. Toby Kim schrieb auf X (Twitter), Dia „rivalisiert das Podcast-Feature von NotebookLM und übertrifft ElevenLabs Studio in Qualität“. Diese Selbstbewusstsein untermauerte er mit dem Verweis, man habe ohne einen Cent Investment dieses Niveau erreicht – ermöglicht u.a. durch Unterstützung via Googles TPU Research Cloud. Dia’s Code und Gewicht sind frei auf GitHub und HuggingFace verfügbar, sodass jeder es lokal ausprobieren kann. Die Demokratisierung könnte also kaum größer sein: High-End-TTS für alle.

Ein Open-Source-Enthusiast fasste den Stand zusammen: „Im lokalen TTS-Rennen 2025 liegen Orpheus und Dia vorn“, aber auch Projekte wie MegaTTS 3 (eine Forschung von Microsoft) und NVIDIA’s EDGESpeech drängen nach. Auf Reddit wurde gar eine „TTS-Bestenliste“ geführt, die Edit für Edit aktualisiert wurde, als neue Modelle erschienen. Das Feld bewegt sich rasant.

https://github.com/nari-labs/dia

Auswirkungen: Personalisierte Stimmen für alle

Die technischen Durchbrüche haben greifbare Auswirkungen. Individuen können nun ihre eigene Stimme klonen oder Wunschstimmen erschaffen, ohne auf einen kommerziellen Dienst angewiesen zu sein. Das wirft natürlich ethische Fragen auf – aber es gibt auch positive Kreativ-Beispiele: Fan-Projekte lassen verstorbene Sprecher wieder Hörbücher „lesen“ (mit Erlaubnis der Nachfahren), Hobby-Spieleentwickler fügen ihren Charakteren vollvertonten Dialog hinzu, und Barrierefreiheit-Tools erzeugen personalisierte Stimmen für Menschen, die ihre Sprache verloren haben.

Open-Source-TTS ermöglicht zudem Transparenz: Anders als bei cloudbasierten Lösungen behält der Nutzer die Kontrolle über die erzeugten Audio-Daten, was z.B. in der Medienproduktion wichtig ist. Deutsche Forschungsprojekte – etwa an der Uni Augsburg – experimentieren bereits damit, Dialekte und Akzente mittels offener Modelle zu bewahren, indem sie lokale Sprachaufnahmen in Modelle wie Orpheus/Dia einfließen lassen.

Insgesamt erleben wir ein leicht futuristisch-optimistisches Szenario: Maschinenstimmen, die wir nicht mehr von menschlichen unterscheiden können, stehen jedermann zur Verfügung. Diese Demokratisierung der Sprach-KI erinnert an die der Bild-KI durch Stable Diffusion. Natürlich bleibt abzuwarten, wie die Qualität sich weiterentwickelt und ob Closed-Source-Anbieter kontern (ElevenLabs etwa hat bereits „ElevenLabs 3“ angekündigt, um die Führung zu halten). Doch klar ist: Die letzten drei Monate haben die Messlatte für KI-Stimmen massiv höher gelegt – und diesmal sind die Protagonisten Open-Source-Projekte, die optimistisch in eine Zukunft blicken, in der jeder seine eigene erstklassige KI-Stimme haben kann*.