Wenn KI laufen lernt: Googles Gemini Robotics erobert die reale Welt

Eine Roboterhand sortiert Werkzeuge, geleitet von einem unsichtbaren Geist. Dieser „Geist“ ist kein Mensch, sondern ein KI-Modell, das versteht, was der Roboter sieht, und ihm sagt, was zu tun ist. Science-Fiction? Seit neuestem Realität: Googles Gemini Robotics bringt KI-Hirn und Roboterkörper zusammen.

Bei der Google-Entwicklerkonferenz im Frühjahr staunten Beobachter: Unter dem Namen Gemini Robotics stellte Google zwei KI-Modelle vor, die als “Vision-Language-Action”-System fungieren. Ihr Ziel: KI ins physische Umfeld zu bringen – Maschinen das Verstehen ihrer Umgebung und das Handeln darin zu ermöglichen. Damit betritt die KI-Entwicklung endgültig die Fabrikhallen, Krankenhäuser und Straßen.

Sehen, denken, handeln – alles in einem

Das erste Modell, schlicht Gemini Robotics genannt, basiert auf Googles etabliertem Gemini 2.0, wurde aber um eine Visions-Komponente und Aktionsschnittstellen erweitert. Es verarbeitet simultan Kamerabilder und Sprachbefehle und generiert direkt Steuerbefehle für Roboter. Im Grunde vereint es Bildverständnis (Vision), Sprachverständnis (Language) und Handlungskontrolle (Action). Das zweite Modell namens Gemini Robotics-ER fokussiert auf Embodied Reasoning, also räumliches Vorstellungsvermögen. Es hilft Robotikern dabei, eigene Programme zu schreiben, die Gemini’s „verkörpertes“ Verständnis nutzen – etwa um einem Roboter komplexe Wegfindung beizubringen.

Ein einfaches Beispiel verdeutlicht die Fähigkeiten: Man zeigt einer mit Gemini Robotics ausgestatteten Roboterplattform ein Bild eines unaufgeräumten Schreibtischs und gibt den Befehl: „Räume alle roten Gegenstände in die obere Schublade.“ Das KI-Modell erkennt dank Vision-Modul die Objekte und deren Farbe, versteht die Anweisung sprachlich und plant die Aktionen. Der Roboterarm setzt dies präzise um, indem er nacheinander rote Objekte greift und in die Schublade legt. Diese gesamte Kette, vom Sehen übers Planen bis zum Greifen, wird vom Gemini-Modell koordiniert – ein Novum, denn bisher brauchte man dafür getrennte Systeme (Bildverarbeitung, Pfadplanung, Robotersteuerung), die mühsam integriert werden mussten.

KI zieht in Fabriken und Krankenhäuser ein

Die technischen Implikationen sind gewaltig. Ein einziges KI-Modell kann nun Aufgaben übernehmen, für die vorher mehrere spezialisierte Komponenten erforderlich waren. Google spricht von einer „neuen Generation hilfreicher Roboter“, die durch Gemini Robotics möglich werden soll. Beispiele aus Pilotprojekten:

Lagerroboter navigieren autonom durch Hallen, identifizieren visuell Produkte und kommissionieren Bestellungen, indem Gemini Robotics ihnen visuelle und sprachliche Hinweise gibt.
Krankenhaus-Assistenzroboter verstehen gesprochene Anweisungen von Personal („Hol bitte die Patientenakte von Zimmer 12“), lesen Beschriftungen an Türen und führen die Aufgabe selbstständig aus.
Haushaltsroboter könnten visuell erkennen, ob Geschirr schmutzig ist, und auf Sprachbefehl hin abwaschen – ein großes Stück Autonomie verglichen mit heutigen, stumpfen Robotersaugern.

Gemini Robotics erlaubt es auch, Roboter in unbekannten Umgebungen agieren zu lassen. Dank des Embodied Reasoning-Modells (ER) kann ein Roboter räumlich „nachdenken“ – etwa abschätzen, ob er durch einen engen Gang passt, oder wie er ein Möbelstück drehen muss, um durch eine Tür zu kommen. Dieses Verständnis hatten klassische Robotiksysteme nur, wenn Programmierer es manuell einbrachten. Nun kommt es vortrainiert aus einem allgemeinen KI-Modell.

Synergien mit Gemini 2.5 und Gemma

Spannend ist, dass Gemini Robotics auf derselben Plattform aufbaut wie Googles Sprachmodell Gemini 2.5. Letzteres ist jüngst als Denk- und Reasoning-Experte bekannt geworden (dazu später mehr) und teilt sich vermutlich einen Teil der Architektur mit der Robotics-Variante. Das heißt: Fortschritte im Denken von KI schlagen direkt auf deren Handeln durch. Google hat angedeutet, künftige Modelle würden von vornherein multimodal und handlungsfähig konzipiert.

. Eine Variante von Gemma 3 könnte bald als „Gehirn für jeden Roboter“ dienen – günstig, lokal und ohne Cloud-Anbindung. Tatsächlich hat Google Gemma 3 zusammen mit Gemini Robotics angekündigt, um Entwickler zu ermuntern, kostengünstige KI-Roboter zu bauen. „Unsere fortschrittlichsten Modelle laufen jetzt auf einem einzigen TPU-Chip“, verkündet Google stolz– was vor wenigen Jahren noch unvorstellbar war.

Ausblick: Alltag mit KI-Maschinen

Die Verzahnung von KI und Robotik verheißt eine leicht futuristische Vision: Von der Küchenhilfe bis zum industriellen Montageroboter könnten Maschinen bald Kontext verstehen und flexibel agieren. Statt stumpfer Automatisierung träumt man von Roboterkollegen, die Anweisungen verstehen, nachfragen und sogar proaktiv unterstützen. Google hat mit Gemini Robotics einen technischen Meilenstein geliefert, doch auch andere ziehen nach – OpenAI experimentierte mit GPT-4-gesteuerten Robotern, und Startups erforschen Kombinationen aus Vision-und-Sprache-Modellen für Drohnen.

Klar ist: Die KI-Entwicklungen der letzten drei Monate markieren den Schritt aus der reinen Datenwelt hinaus in die physische Welt. Was mit Sprache begann, erreicht nun Motoren und Greifarme. Die Durchbrüche in der KI-Architektur (multimodale Transformer) machen dies möglich. In naher Zukunft könnten wir Roboter erleben, die aus unseren Worten Handlungen formen – ein aufregender und optimistischer Ausblick, der zeigt, wie rasant sich KI vom abstrakten Denker zum praktischen Macher entwickelt.