Das in Palo Alto ansässige Startup Rhoda AI hat eine Finanzierungsrunde der Serie B in Höhe von 450 Millionen US-Dollar abgeschlossen. Dies katapultiert das Unternehmen auf eine Bewertung von 1,7 Milliarden US-Dollar. Angeführt wurde die Runde von Premji Invest. Gleichzeitig stellte Rhoda AI sein neues „Direct Video-Action (DVA)“-Modell vor, das Roboter in die reale Welt bringen soll.
Wichtige Erkenntnisse
- Rhoda AI erhält 450 Millionen US-Dollar und erreicht eine Bewertung von 1,7 Milliarden US-Dollar.
- Das Unternehmen stellt das Direct Video-Action (DVA)-Modell vor, das auf Internetvideos basiert.
- DVA soll Industrieroboter robust für den Einsatz in realen Fabriken machen.
- Gründer Jagdeep Singh setzt auf die Nutzung großer, öffentlich verfügbarer Videodaten.
Ein Paradigmenwechsel in der Robotik
Jagdeep Singh, Gründer und CEO von Rhoda AI, war zuvor Leiter des Festkörperbatterie-Pioniers QuantumScape. Er setzt nun darauf, dass der Schlüssel zur „physischen KI“ nicht in spezialisierten Robotikdaten liegt. Stattdessen nutzt er das riesige, ungenutzte Archiv des Internets. Das DVA-Modell ist ein sogenanntes Fundamentmodell. Es wurde entwickelt, um die Robustheitslücke zu schließen, die intelligente Roboter lange Zeit auf kontrollierte Laborumgebungen beschränkt hat.
Faktencheck
- Finanzierung: 450 Millionen US-Dollar in Serie B.
- Bewertung: 1,7 Milliarden US-Dollar.
- Führender Investor: Premji Invest.
- Modellname: Direct Video-Action (DVA).
Video als Richtlinie für Roboter
Viele Wettbewerber verwenden Vision-Language-Action (VLA)-Modelle. Diese lernen typischerweise durch Nachahmung menschlicher Teleoperatoren. Rhoda AI verfolgt eine „Video-First“-Strategie. Das DVA-Modell funktioniert, indem es die Zukunft visuell vorhersagt. Danach übersetzt es diese Bilder in physische Bewegungen.
Das System besteht aus zwei Hauptkomponenten:
- Kausales Videomodell: Dieses Modell wurde mit Hunderten Millionen öffentlich verfügbarer Internetvideos vortrainiert. Es lernt ein tiefes „Vorwissen“ über Bewegung, 3D-Struktur und intuitive Physik.
- Inverses Dynamikmodell: Ein kleinerer Übersetzer, der die vorhergesagten Videobilder in spezifische Motordrehmomente und Gelenkwinkel für den Roboter umwandelt.
„Die intelligenten Roboter der Branche… funktionieren in einer Laborumgebung gut“, erklärte Singh in einem Launch-Video. „Aber wenn man dieselben Modelle in die reale Welt bringt, funktionieren sie nicht so gut. Ihr gesamtes Verständnis der Physik stammt aus einem relativ kleinen Roboter-Teleoperationsdatensatz.“
Rhoda AI behauptet, dass ihr Modell komplexe, langfristige industrielle Aufgaben mit nur 10 bis 20 Stunden spezifischer Robotikdaten erlernen kann. Es verlässt sich dabei auf sein vortrainiertes „Weltmodell“, um die komplexen Variablen der Realität zu handhaben.
Vom Labor zur Produktionslinie
Um die Wirksamkeit des Modells zu beweisen, demonstrierte Rhoda AI seine Hardware in einer der größten Automobilfabriken der Welt. Anders als die präzise kontrollierten Auspackaufgaben, die während der Stealth-Phase angedeutet wurden, zeigen die neuen Daten Roboter, die schwere industrielle Arbeitslasten bewältigen.
Herausforderungen in der Industrie
Eine „Dekantieraufgabe“ erforderte vom System, 10 kg schwere Kartons auszupacken, kleine Laschen zu ziehen und verformbare Plastiktüten zu sortieren. Dieser Prozess galt für den Industriepartner zuvor als „nicht automatisierbar“. Eine weitere Demonstration zeigte das Zerlegen von 23 Kilogramm schweren „Contico“-Behältern. Hier musste der Roboter partielle Beobachtbarkeit und hohe Krafteinwirkungen bewältigen.
Kontext
Dieser Schritt hin zu „fabrikbereiten“ Werkzeugen bringt Rhoda AI in direkte Konkurrenz zu Unternehmen wie Physical Intelligence (Pi) und Generalist AI. Pi stellte kürzlich sein π0.6-Modell für E-Commerce-Verpackungen vor. Generalist AI konzentriert sich auf physikalischen gesunden Menschenverstand durch groß angelegte reale Interaktionsdaten.
Die „Allzweck-Bimanipulationsplattform“ von Rhoda AI zeigte ihre Fähigkeit, Dekantier- und Kartonhandhabungsaufgaben in einer Live-Automobilfabrik auszuführen. Dies unterstreicht das Potenzial für breitere industrielle Anwendungen.
Speicher und Mehrdeutigkeit lösen
Ein herausragendes Merkmal des DVA-Modells ist sein Langzeit-Visual-Memory. Während Standard-VLA-Modelle oft nur wenige Bilder der Vergangenheit verarbeiten können, verarbeitet die Architektur von Rhoda AI nativ Hunderte von Bildern. Dies ermöglicht dem Roboter, visuelle Mehrdeutigkeiten ohne die Notwendigkeit von handgefertigten „Gerüsten“ oder Unteraufgabenindikatoren zu lösen.
Der „Hütchenspiel“-Test
In einem technischen Blogbeitrag demonstrierte das Unternehmen diesen Speicher durch eine „Hütchenspiel“-Herausforderung. Der Roboter verfolgte erfolgreich ein Objekt, das unter drei sich mischenden Hütchen versteckt war. Diese Aufgabe erfordert ein kontinuierliches Verfolgen eines Objekts, das er nicht mehr sehen kann.
Dieser Ansatz des Speichers bietet einen faszinierenden Kontrast zu Pi’s Multi-Scale Embodied Memory (MEM). MEM kombiniert kurzfristige Videos mit langfristigen Textzusammenfassungen, um den Kontext für bis zu 15 Minuten aufrechtzuerhalten.
Das Daten-Wettrüsten in der Robotik
Das Auftauchen von Rhoda AI verstärkt eine wachsende Kluft in der Art und Weise, wie die Branche den „Datenengpass“ handhabt. Einige aktuelle Beispiele:
- Google DeepMind: Argumentiert weiterhin, dass ein weiterer großer Durchbruch erforderlich ist, um die Lücke zwischen dem Sehen der Welt und dem Umgang damit zu schließen.
- Sunday Robotics: Setzt auf die Übertragung von Fähigkeiten von Mensch zu Roboter mittels seines Skill Capture Glove.
- Rhoda AI: Wetten darauf, dass die „Physik von allem“ bereits auf YouTube aufgezeichnet ist.
Investoren scheinen Singhs Vision zuzustimmen. Die 450-Millionen-Dollar-Runde umfasste die Beteiligung von Khosla Ventures, Temasek und John Doerr. Vinod Khosla, der das Unternehmen in seiner Firma inkubierte, bemerkte:
„Die reale Welt ist unübersichtlich… tatsächlich an Produktionslinien arbeiten zu können, ist viel, viel schwieriger als die Demo zu machen.“
Während Rhoda AI von der Stealth-Phase zur Skalierung übergeht, plant das Unternehmen nicht nur seine Software zu lizenzieren, sondern auch eigene Hardware zu entwickeln. Diese Hardware soll als Datenerfassungsmaschine dienen. Für eine Branche, die nach zuverlässigen, vielseitigen Agenten hungert, könnte Rhoda AI’s „Direct Video-Action“ die nächste große Entwicklung im Streben nach physischer AGI darstellen.





