Ein neues Forschungsprojekt der National University of Singapore hat eine Methode entwickelt, um menschliche Videos in Robotervideos umzuwandeln. Diese Technologie, genannt X-Humanoid, könnte einen entscheidenden Durchbruch für das Training von humanoiden Robotern darstellen. Sie ermöglicht es, die riesige Menge an menschlichen Videoinhalten zu nutzen, um Robotern komplexe Bewegungen und Aufgaben beizubringen.
Wichtige Erkenntnisse
- X-Humanoid wandelt menschliche Videos in Robotervideos um.
- Die Technologie überwindet die Kluft zwischen menschlicher und robotischer Bewegung.
- Über 60 Stunden menschlicher Aktivität wurden in 3,6 Millionen Frames robotischer Videos umgewandelt.
- Die Methode könnte das Training von KI-gesteuerten Robotern erheblich beschleunigen.
Das Datenproblem in der Robotik
Die Entwicklung intelligenter Roboter steht vor einer großen Herausforderung: dem Mangel an Trainingsdaten. Während große Sprachmodelle (LLMs) auf das gesamte Internet zugreifen konnten, um zu lernen, benötigen humanoide Roboter physische Interaktionsdaten. Diese Daten sind jedoch schwierig, teuer und riskant zu sammeln, da sie den Betrieb realer Roboter erfordern.
Forscher des Show Lab an der National University of Singapore haben nun eine Lösung vorgestellt. Ihr Projekt X-Humanoid nutzt generative KI, um bestehende menschliche Videos in Robotervideos umzuschreiben. Dies könnte die Datenknappheit für Robotertraining beheben.
Faktencheck
Die Entwicklung von X-Humanoid wurde von Pei Yang, Hai Ci, Yiren Song und Mike Zheng Shou geleitet. Ihr Ziel war es, Videos von Menschen bei Aufgaben wie Fahrradreparaturen oder Kochen in realistische Videos von humanoiden Robotern umzuwandeln, die genau dieselben Aktionen ausführen.
Die Überwindung der Embodiment-Lücke
Das Training von Robotern mit menschlichen Daten ist kompliziert. Der Hauptgrund ist die sogenannte „Embodiment-Lücke“. Diese beschreibt die physikalischen Unterschiede in Form, Gelenkstruktur und Bewegung zwischen einem menschlichen Körper und einem mechanischen Androiden.
Frühere Ansätze versuchten, egocentrische Videos zu bearbeiten, indem sie gerenderte Roboterarme über menschliche Arme legten. Diese Methode funktionierte bei Manipulationen auf dem Tisch, scheiterte jedoch bei Videos aus der dritten Person, wo Ganzkörperdynamik, Balance und komplexe Verdeckungen eine Rolle spielen.
"Das Szenario aus der dritten Person ist wesentlich komplexer und beinhaltet Ganzkörperbewegungen, dynamische Hintergründe und starke Verdeckungen, die über die Fähigkeiten einfacher Inpaint- und Overlay-Techniken hinausgehen", erklären die Autoren in ihrer Studie.
X-Humanoid umgeht diese Einschränkungen, indem es ein modernes Videogenerierungsmodell, den Wan 2.2 Diffusion Transformer (DiT), anpasst, um eine Video-zu-Video-Übersetzung durchzuführen.
Hintergrundinformationen
Generative Videomodelle wie Sora oder Kling neigen dazu, Details zu halluzinieren oder die Bewegung nicht perfekt synchron zu halten. Dies ist ein entscheidender Fehler, wenn das Ziel darin besteht, präzise Roboterstrategien zu trainieren. Um die KI zu zwingen, die physikalischen Gesetze und die spezifische Kinematik eines Roboters zu respektieren, benötigte das Team gepaarte Trainingsdaten.
Die Erstellung eines "Rosetta-Steins" der Bewegung
Da es keinen großen Datensatz gab, der Menschen und Roboter bei identischen Aktionen unter identischen Lichtverhältnissen zeigt, erstellten die Forscher einen solchen. Sie nutzten die Unreal Engine, um über 17 Stunden gepaartes Filmmaterial zu synthetisieren. Dabei verwendeten sie digitale menschliche Avatare und digitale humanoide Assets, die speziell auf dem Formfaktor des Tesla Optimus basierten. Sie ordneten beiden Skeletten identische Animationen zu.
Dieser synthetische Datensatz, der verschiedene Kamerawinkel, Brennweiten (14-80 mm) und Lichtverhältnisse umfasste, diente als Grundwahrheit zur Feinabstimmung ihres Diffusionsmodells.
Laut Mike Shou, einem der korrespondierenden Autoren der Studie, war dieser gepaarte Datensatz der entscheidende Faktor. "Selbst leistungsstarke Videogenerierungsmodelle kämpfen mit der Übertragung von Mensch zu Humanoid", bemerkte Shou auf X. "Sie schaffen es nicht, die Körperform des Roboters beizubehalten UND die Bewegung perfekt synchron zu halten. Wir haben es gelöst."
Überlegenheit gegenüber kommerziellen Modellen
Um ihren Ansatz zu validieren, wandten die Forscher X-Humanoid auf den Ego-Exo4D-Datensatz an. Sie wandelten 60 Stunden realer menschlicher Aktivität in 3,6 Millionen Frames "robotisierter" Videos um. Das Team verglich seine Ergebnisse mit führenden kommerziellen Videobearbeitungsmodellen, darunter Kling, Runway Aleph und MoCha.
Die quantitativen und qualitativen Ergebnisse zeigten erhebliche Abweichungen bei den Basismodellen:
- Bewegungskonsistenz: In Benutzerstudien bewerteten 69% der Teilnehmer X-Humanoid als das Modell mit der besten Bewegungskonsistenz. Kling erreichte nur 17,2%, Runway Aleph 0%.
- Embodiment-Korrektheit: 62,1% der Benutzer bevorzugten die Fähigkeit von X-Humanoid, das korrekte Robotererscheinungsbild ohne Verformungen oder Halluzinationen neuer Gliedmaßen beizubehalten.
Visualisierungen in der Studie zeigen, dass Konkurrenzmodelle bei komplexen Interaktionen Schwierigkeiten hatten. Beispielsweise gelang es ihnen oft nicht, die Beine des Roboters unter einem Tisch korrekt darzustellen oder die Aktion des Werfens eines Objekts zu desynchronisieren.
Implikationen für die Roboterentwicklung
Die direkte Anwendung von X-Humanoid liegt im Training von Vision-Language-Action (VLA)-Modellen. Dies sind die "Gehirne", die einem Roboter basierend auf visuellen Eingaben mitteilen, wie er sich bewegen soll. Durch die Umwandlung von Millionen von YouTube-ähnlichen "How-to"-Videos in Daten, die wie von einer Roboterkamera stammen, könnten Forscher allgemeine Roboterfähigkeiten entwickeln, ohne Tausende von physischen Prototypen in der realen Welt einsetzen zu müssen.
Die Autoren erkennen jedoch auch Einschränkungen an. Das aktuelle Modell konzentriert sich auf Aktivitäten mit einer einzelnen Person und kann in Szenen mit mehreren Personen unvorhersehbar reagieren. Zudem erfordert das System derzeit eine Feinabstimmung einer Low-Rank Adaptation (LoRA) für jede spezifische Roboter-Embodiment. Dies bedeutet, dass es noch keine "Ein-Klick"-Lösung für jedes beliebige Roboterkonzept ist.
Trotz dieser Einschränkungen stellt X-Humanoid einen bedeutenden Schritt in Richtung des "Sim-to-Real"-Transfers dar. Es deutet darauf hin, dass der Weg zu intelligenten Robotern im Wesentlichen darin bestehen könnte, sie mithilfe der bereits vorhandenen Daten zu "halluzinieren" und so ihre Existenz zu ermöglichen.





