NVIDIA hat mit der Veröffentlichung von DreamDojo ein neues Kapitel in der Robotik aufgeschlagen. Das quelloffene Weltmodell soll Robotern helfen, komplexe Aufgaben und Umgebungen besser zu verstehen. Es basiert auf 44.000 Stunden menschlicher Videodaten und zielt darauf ab, das bisherige Datenproblem in der Robotik zu lösen.
Wichtige Erkenntnisse
- NVIDIA hat DreamDojo als quelloffenes Weltmodell freigegeben.
- Es nutzt 44.000 Stunden menschlicher Videos, um intuitive Physik zu lernen.
- Das Modell überwindet das Datenproblem in der Robotik durch generative Simulation.
- DreamDojo ermöglicht Echtzeit-Teleoperation und verbesserte Planung für Roboter.
- Die Initiative fördert die Entwicklung allgemeiner Roboter.
Ein Durchbruch für die Robotik
Die Robotik stand lange vor einem grundlegenden Problem: Roboter benötigen enorme Mengen an Daten, um ihre Umgebung zu verstehen und Aufgaben präzise auszuführen. Traditionelle Datensätze sind oft begrenzt und spezialisiert. NVIDIA geht diesen Engpass nun mit einem innovativen Ansatz an: DreamDojo.
Dr. Jim Fan von NVIDIA bezeichnet DreamDojo als „Simulation 2.0“. Es lernt direkt aus Pixeln und kann komplexe Robotikaufgaben sowie Interaktionen mit der Umgebung simulieren. Dieser Ansatz soll die Entwicklung von Robotern erheblich beschleunigen, indem er ihnen ein umfassendes Verständnis der physischen Welt vermittelt.
Faktencheck: Datensätze
- DreamDojo-HV: Über 44.711 Stunden menschlicher Videos.
- Aufgabenvielfalt: 6.015 einzigartige Aufgaben abgedeckt.
- Szenen: 1.135.000 Trajektorien und 2.000x mehr Szenen als die meisten Robotik-Datensätze.
- Fähigkeiten: 96x mehr Fähigkeiten als vergleichbare öffentliche Datensätze.
Das Geheimnis der menschlichen Videos
Das Herzstück von DreamDojo ist der Datensatz DreamDojo-HV. Er gilt als der bisher größte und vielfältigste Video-Korpus für das Vortraining von Weltmodellen. Während herkömmliche Robotik-Datensätze wie RT-1 oder BridgeData V2 Hunderte von Stunden umfassen, bietet DreamDojo-HV über 44.711 Stunden egozentrischer Erfahrungen.
Diese Videos zeigen Menschen bei alltäglichen Aktivitäten: Wäsche falten, Gegenstände zusammenbauen oder Werkzeuge benutzen. Durch das Training an diesen menschlichen Handlungen erwirbt das Modell ein verallgemeinertes Verständnis der Physik. Dieses Wissen kann dann auf verschiedene Roboter-Körper übertragen werden. Es ist ein ähnlicher Ansatz, wie ihn auch 1X Technologies mit ihrer „900-Stunden-Brücke“ verfolgt, die sich auf Videos aus der Ich-Perspektive stützt.
Herausforderung: Fehlende Aktionslabels
Das Training mit passiven menschlichen Videos birgt eine große Herausforderung: Es fehlen oft klare Aktionslabels. Ein Video einer Person, die eine Tasse aufhebt, sagt einem Roboter nicht direkt, welche Gelenkdrehmomente dafür nötig waren. NVIDIA hat diese Lücke mit kontinuierlichen latenten Aktionen geschlossen.
Die Forscher trainierten einen Spatiotemporal Transformer mit 700 Millionen Parametern. Dieser extrahiert semantisch bedeutsame „Proxy-Aktionen“ direkt aus den visuellen Veränderungen zwischen den Frames. Dadurch kann das Modell jedes menschliche Video so behandeln, als wären Motorbefehle direkt angehängt. Dies ermöglicht eine verallgemeinerte Anwendung auf Objekte und Umgebungen, die der Roboter zuvor noch nie gesehen hat.
Hintergrund: Weltmodelle
Weltmodelle sind KI-Systeme, die versuchen, die Funktionsweise der Welt zu simulieren und zukünftige Zustände vorherzusagen. Sie sind entscheidend für die Entwicklung von Robotern, da sie es Maschinen ermöglichen, zu „denken“ und zu „imaginieren“, wie sie mit ihrer Umgebung interagieren können. NVIDIA reiht sich hier in eine Reihe von Unternehmen ein, die an solchen Modellen arbeiten, darunter 1X Technologies und Google DeepMind.
Echtzeitkontrolle und „In-Dream“-Planung
Die Nützlichkeit eines Weltmodells hängt stark von seiner Inferenzgeschwindigkeit ab. NVIDIA hat eine Destillationspipeline entwickelt, die DreamDojo auf eine Echtzeitgeschwindigkeit von 10,81 Bildern pro Sekunde (FPS) beschleunigt. Dies eröffnet mehrere wertvolle Anwendungen:
- Live-Teleoperation: Nutzer können VR-Controller, wie ein PICO-Headset, verwenden, um einen virtuellen Roboter in Echtzeit im „Traum“ zu steuern.
- Politik-Bewertung: Die Erfolgsraten in der DreamDojo-Simulation korrelieren nahezu perfekt (Pearson r=0.995) mit realen Ergebnissen. Entwickler können Roboter-Checkpoints bewerten, ohne sie physisch einsetzen zu müssen.
- Modellbasierte Planung: Durch die parallele Simulation mehrerer Aktionsvorschläge und die Auswahl der besten „Zukunft“ konnte NVIDIA eine Steigerung der Erfolgsraten um 17 % bei einer Obstverpackungsaufgabe feststellen.
„Die Freigabe von DreamDojo als Open-Source-Modell ist ein klares Signal an die Forschungsgemeinschaft. Wir wollen die Entwicklung von Robotern beschleunigen, die wirklich verstehen, wie die physische Welt funktioniert“, so ein NVIDIA-Sprecher.
Die Weltmodell-Rebellion in der Industrie
Die Einführung von DreamDojo erfolgt inmitten einer grundlegenden Debatte über das „Gehirn“ humanoider Roboter. Während viele Unternehmen sich auf Vision-Language-Action (VLA)-Modelle konzentrieren, argumentieren Kritiker wie Yann LeCun, dass diese Systeme zu stark „LLM-verhaftet“ seien und es ihnen an gesundem Menschenverstand fehle.
NVIDIAs Ansatz, der visuelle Vorstellungskraft und intuitive Physik über textbasiertes Denken stellt, stimmt mit LeCuns Position überein. DreamDojo basiert auf dem Open-Weight Cosmos-Predict2.5 latenten Video-Diffusionsmodell und ist NVIDIAs Versuch, eine grundlegende Plattform für die nächste Generation der „Physical AI“ bereitzustellen.
NVIDIA hat zwei Varianten des Modells veröffentlicht: ein 2B-Modell und ein 14B-Modell. Beide wurden auf 256 NVIDIA H100 GPUs vortrainiert. Durch die öffentliche Bereitstellung dieser Ressourcen will NVIDIA die Entwicklung von Mehrzweckrobotern vorantreiben, die „denken“ und „imaginieren“ können, um sich in der komplexen Realität der physischen Welt zurechtzufinden. Dies ist ein wichtiger Schritt hin zu allgemeineren und intelligenteren Robotersystemen.





