Google DeepMind hat am 14. April 2026 die Veröffentlichung von Gemini Robotics-ER 1.6 bekannt gegeben. Diese neue Version des "Embodied Reasoning"-Frameworks bietet verbesserte räumliche Wahrnehmung und eine neue "Agentic Vision"-Fähigkeit. Das Modell ist ab sofort über die Gemini API und Google AI Studio für Entwickler verfügbar und markiert einen schnellen Fortschritt in der Robotik.
Wichtige Erkenntnisse
- Gemini Robotics-ER 1.6 verbessert die räumliche Wahrnehmung und Präzision.
- Die neue "Agentic Vision" ermöglicht das autonome Ablesen von Instrumenten.
- Das Modell bietet eine verbesserte Erkennung des Aufgabenerfolgs durch Multi-View-Reasoning.
- Es ist das bisher sicherste Robotermodell von DeepMind mit erhöhter Einhaltung von Sicherheitsbeschränkungen.
- DeepMind verfolgt weiterhin die Strategie eines universellen Roboter-Betriebssystems.
Ein Fortschritt in der Robotik-Intelligenz
Das Gemini Robotics-ER 1.6 Modell ist eine Weiterentwicklung des im Herbst 2025 eingeführten Zwei-Teile-Architektur-Ansatzes von DeepMind. Es konzentriert sich auf die Verbesserung der Fähigkeit von Robotern, komplexe, offene Ziele zu interpretieren und physische Aktionen präzise auszuführen. Dies schließt die Lücke zwischen digitaler Intelligenz und der realen Welt.
Laut den DeepMind-Forschern Laura Graesser und Peng Xu übertrifft Gemini Robotics-ER 1.6 seine Vorgängerversion ER 1.5 sowie das Basismodell Gemini 3.0 Flash deutlich. Das System kann Werkzeuge wie Google Search oder spezialisierte VLA-Modelle (Vision-Language-Action) nativ aufrufen, um Aufgaben zu lösen.
Faktencheck
Gemini Robotics-ER 1.6 zeigt eine erhebliche Leistungssteigerung gegenüber früheren Modellen, insbesondere bei Aufgaben zum Ablesen von Instrumenten und zur räumlichen Wahrnehmung.
Präzision und räumliche Logik im Fokus
Ein zentraler Aspekt des 1.6-Updates ist die "Pointing"-Fähigkeit. Roboter nutzen Punkte, um Objekte zu identifizieren, Flugbahnen zu kartieren und Beziehungen wie "von-nach" zu definieren. DeepMind berichtet, dass das neue Modell nun komplexere Einschränkungen bewältigen kann. Es identifiziert beispielsweise Objekte in einer Szene, die klein genug sind, um in einen bestimmten Behälter zu passen, mit wesentlich höherer Genauigkeit als frühere Versionen.
Agentic Vision: Autonomes Instrumentenablesen
Die wohl wichtigste Neuerung ist die Fähigkeit, Instrumente abzulesen. Diese Funktion wurde in enger Zusammenarbeit mit Boston Dynamics entwickelt. Roboter wie der elektrische Atlas oder der vierbeinige Spot können nun analoge Druckmesser, Thermometer und digitale Anzeigen bei Anlageninspektionen interpretieren.
Der Prozess der Agentic Vision umfasst mehrere Schritte:
- Heranzoomen an hochauflösende Details eines Messgeräts.
- Schätzung von Proportionen und Intervallen mittels Code-Ausführung.
- Interpretation des Kontexts unter Nutzung von Weltwissen, um festzustellen, ob ein Messwert eine Sicherheitsgefahr darstellt.
"Fähigkeiten wie das Ablesen von Instrumenten... werden es Spot ermöglichen, reale Herausforderungen völlig autonom zu sehen, zu verstehen und darauf zu reagieren.", sagte Marco da Silva, VP und GM von Spot bei Boston Dynamics.
Hintergrundinformationen
Boston Dynamics' Roboter Spot kann mit Gemini Robotics-ER 1.6 nun autonom Industrieanlagen navigieren, um komplexe Instrumente wie Temperaturanzeigen zu lokalisieren und zu interpretieren. Dies ist ein entscheidender Schritt für die Automatisierung von Wartungs- und Inspektionsaufgaben in industriellen Umgebungen.
Verbesserte Erkennung des Aufgabenerfolgs
Ein anhaltendes Problem in der physischen KI ist die "Success Detection" – die Fähigkeit eines Roboters zu erkennen, wann eine Aufgabe tatsächlich abgeschlossen ist. Gemini Robotics-ER 1.6 führt ein fortschrittliches Multi-View-Reasoning ein. Dies ermöglicht es dem Modell, Daten aus mehreren Kameraströmen zu synthetisieren, beispielsweise aus einer Draufsicht und einer am Handgelenk montierten Kamera.
Diese Fähigkeit ist entscheidend, um über geskriptete Labordemonstrationen hinauszugehen und in die "chaotische" Realität von Fabriken einzudringen. Der Roboter kann nun die Aufgabenerfüllung auch in verdeckten oder schlecht beleuchteten Umgebungen bestätigen. Dies erhöht die Zuverlässigkeit und Autonomie in realen Anwendungsszenarien.
Sicherheit und physische Beschränkungen
DeepMind bezeichnet 1.6 als sein "sicherstes Robotermodell bisher". Es zeigt eine deutlich verbesserte Fähigkeit, physische Sicherheitsbeschränkungen einzuhalten. Dazu gehört beispielsweise die Verweigerung, Objekte aufzunehmen, die das Gewichtslimit eines Greifers überschreiten, oder die Vermeidung gefährlicher Materialien wie Flüssigkeiten.
In Tests, die auf realen Unfallberichten basieren, verbesserten sich die Robotics-ER-Modelle um 10% bei der Identifizierung von Sicherheitsgefahren in Videoszenarien im Vergleich zum Standard Gemini 3.0 Flash. Dieser Fokus auf "Alignment für verkörperte Intelligenz" spiegelt ähnliche Bemühungen von Wettbewerbern wie Generalist AI wider, die sicherstellen wollen, dass autonome Improvisationen in der Fabrikhalle sicher bleiben.
Die "Android der Robotik"-Strategie wird fortgesetzt
Die Einführung von Gemini Robotics-ER 1.6 unterstreicht DeepMinds Bestreben, ein universelles Betriebssystem für Roboter zu entwickeln. Indem das Reasoning-Modell über eine API verfügbar gemacht wird, positioniert DeepMind seine Software als das "Gehirn" für ein vielfältiges Ökosystem von Hardware. Dazu gehören der humanoide Roboter Agile ONE und der Apptronik Apollo.
Im Verlauf des Jahres 2026 verlagert sich der Fokus der Industrie zunehmend von einfachen motorischen Fähigkeiten auf das hochrangige Reasoning. Dieses ist erforderlich, damit Roboter die "Long Tail" der realen industriellen Probleme bewältigen können. Die Fähigkeit, unvorhergesehene Situationen zu meistern und sich an neue Umgebungen anzupassen, wird immer wichtiger.





