Ein neues KI-Framework namens LeWorldModel verspricht, die Entwicklung intelligenterer Roboter zu beschleunigen. Es wurde von einem Team um Turing-Preisträger Yann LeCun entwickelt und könnte eine stabilere und effizientere Methode bieten, Maschinen das Verstehen ihrer Umgebung beizubringen. Dies stellt einen wichtigen Schritt in Richtung autonomer und nützlicher Roboter dar.
Wichtige Erkenntnisse
- LeWorldModel (LeWM) ist ein neues KI-Framework für Robotik, das auf Yann LeCuns JEPA-Architektur basiert.
- Es löst das Problem des 'Repräsentationskollapses' mit nur zwei Verlusttermen, darunter einem neuen Regularisierer namens SIGReg.
- LeWM ist mit nur 15 Millionen Parametern extrem effizient und kann auf einer einzigen GPU trainiert werden.
- Das Modell erreicht eine hohe Erfolgsrate bei Robotik-Aufgaben und plant bis zu 48-mal schneller als vergleichbare Systeme.
- Es ist ein Schritt hin zu Robotern, die aus Videodaten lernen und ein grundlegendes Verständnis von Physik entwickeln.
Ein schlankerer Ansatz für Weltmodelle
Die Forschung im Bereich der künstlichen Intelligenz konzentriert sich zunehmend auf sogenannte „Weltmodelle“. Diese Modelle sollen Robotern helfen, ihre Umgebung zu verstehen und Vorhersagen über Interaktionen zu treffen. Bisherige Ansätze waren oft komplex und ressourcenintensiv. LeWorldModel, kurz LeWM, bietet hier einen neuen Weg.
Das Framework ist eine Weiterentwicklung der Joint Embedding Predictive Architecture (JEPA), einer Idee, die von Yann LeCun stark vorangetrieben wird. LeCun kritisiert seit Langem den Hype um große Sprachmodelle (LLMs) für die Entwicklung physischer Intelligenz. Er sieht in ihnen eine „Sackgasse“ für Roboter, die in der realen Welt agieren sollen.
Faktencheck: LeWM in Zahlen
- Parameter: 15 Millionen
- Trainingszeit: Wenige Stunden auf einer einzigen GPU
- Planungsgeschwindigkeit: Bis zu 48x schneller als Modelle auf Basis von Foundation Models
- Erfolgsrate (Push-T Benchmark): 96%
Das Problem des Repräsentationskollapses
Ein großes Hindernis bei der Entwicklung von JEPA-basierten Weltmodellen war der „Repräsentationskollaps“. Dies bedeutet, dass die Modelle dazu neigen, unterschiedliche Eingaben identischen internen Darstellungen zuzuordnen. Sie ignorieren dabei die Komplexität der Welt und „schummeln“ bei der Vorhersageaufgabe.
Frühere Lösungsversuche waren oft kompliziert. Modelle wie PLDM nutzten bis zu sieben verschiedene Verlustterme, um den Kollaps zu verhindern. Andere, wie DINO-WM, setzten auf riesige, vorab trainierte Encoder. Diese lagerten das „Sehen“ des Modells an ein großes Foundation Model aus, das auf Millionen von Internetbildern trainiert wurde.
LeWMs elegante Lösung: SIGReg
LeWM geht hier einen anderen Weg. Es ist das erste JEPA-Modell, das stabil und Ende-zu-Ende direkt von Rohpixeln trainiert werden kann. Dabei verwendet es nur zwei Verlustterme:
- Einen Standard-Verlustterm für die Vorhersage des nächsten Embeddings.
- Einen neuartigen Regularisierer namens SIGReg (Sketched-Isotropic-Gaussian Regularizer).
SIGReg verhindert den Kollaps, indem es sicherstellt, dass die latenten Embeddings einer Gaußschen Verteilung entsprechen. Dies fördert die Vielfalt der Merkmale, ohne auf „heuristische Tricks“ oder zusätzliche Überwachung angewiesen zu sein, die andere Modelle oft benötigen.
„JEPA sind endlich einfach Ende-zu-Ende ohne Tricks zu trainieren! Wir freuen uns, LeWorldModel vorzustellen: ein stabiles, Ende-zu-Ende JEPA, das Weltmodelle direkt aus Pixeln lernt, ohne Heuristiken. 15 Millionen Parameter, 1 GPU und vollständige Planung in weniger als 1 Sekunde.“
Effizienz und Leistung
Die Effizienz von LeWM ist bemerkenswert. Während die KI-Branche oft von Billionen-Parameter-Modellen spricht, kommt LeWM mit nur 15 Millionen Parametern aus. Das gesamte Modell kann innerhalb weniger Stunden auf einer einzigen GPU trainiert werden. Dies macht es zugänglicher für Forschung und Entwicklung.
Auf dem Push-T Robotik-Benchmark erzielte LeWM eine Erfolgsrate von 96%. Damit übertraf es sowohl PLDM als auch das rechenintensivere DINO-WM. Das Modell kann „Pixelrauschen“ wie flackerndes Licht oder die Textur eines Teppichs ignorieren. Stattdessen konzentriert es sich auf die zugrunde liegende physikalische Kausalität einer Aufgabe.
Hintergrund: Die Vision von Yann LeCun
Yann LeCun, einer der Pioniere des Deep Learning, argumentiert seit Jahren, dass Roboter nicht wie Menschen aus Text, sondern aus hochauflösenden Videodaten lernen müssen. Er kritisiert, dass viele aktuelle humanoide Roboterfirmen „keine Ahnung haben, wie man diese Roboter intelligent genug macht, um nützlich zu sein“. LeWM ist ein direkter Versuch, diese Philosophie in die Praxis umzusetzen, indem es ein stabiles, aufgabenunabhängiges „Gehirn“ bereitstellt, das direkt aus sensorischen Eingaben trainiert werden kann.
Ein Gefühl für physikalischen „gesunden Menschenverstand“
In Tests zur „Verletzung der Erwartung“ konnte LeWM physikalisch unplausible Ereignisse zuverlässig erkennen. Beispiele hierfür sind ein Objekt, das plötzlich teleportiert. Dies deutet darauf hin, dass das Modell ein rudimentäres Verständnis von physikalischem „gesundem Menschenverstand“ erworben hat. Es konzentriert sich auf die Ursache-Wirkungs-Prinzipien der Welt.
Der Weg zu nützlichen Robotern
LeWM scheint ein wichtiger Schritt auf dem Weg zu allgemein nützlichen Robotern zu sein. Indem es ein stabiles, aufgabenunabhängiges „Gehirn“ bereitstellt, das direkt aus sensorischen Eingaben trainiert werden kann, positionieren AMI Labs und ihre akademischen Partner JEPA als Grundlage für zukünftige Robotik.
Es gibt jedoch noch Herausforderungen. LeWM hat derzeit Schwierigkeiten in sehr einfachen Umgebungen mit geringer Datendiversität, wo die Gaußsche Regularisierung nicht optimal funktioniert. Zudem sind, wie bei allen aktuellen Weltmodellen, die Planungshorizonte noch relativ kurz.
Während AMI Labs mit Partnern wie Toyota und Nvidia von der Forschung zur industriellen Umsetzung übergeht, deutet der Erfolg von LeWM darauf hin, dass der nächste große Durchbruch für die allgemeine künstliche Intelligenz (AGI) nicht unbedingt von größeren Datensätzen, sondern von intelligenteren, stabileren Architekturen kommen könnte. Dies könnte die Entwicklung von Robotern maßgeblich beeinflussen, die in der realen Welt wirklich nützlich sind.





