Waymo, ein führendes Unternehmen im Bereich autonomes Fahren, hat ein neues generatives System namens Waymo World Model vorgestellt. Dieses Modell basiert auf Genie 3, dem fortschrittlichsten Allzweck-Weltmodell von Google DeepMind, und ermöglicht die Simulation extremer und seltener Ereignisse. Die Technologie soll die Sicherheit autonomer Systeme erheblich verbessern, indem sie Szenarien generiert, die in der realen Welt kaum zu erfassen sind.
Wichtige Erkenntnisse
- Waymo World Model nutzt Google DeepMind's Genie 3 für Simulationen.
- Es generiert hyperrealistische Szenarien, einschließlich extremer Wetterlagen und seltener Hindernisse.
- Die Simulationen umfassen multimodale Ausgaben wie Kamera- und Lidar-Daten.
- Die Technologie erlaubt Kontrolle über Fahraktionen, Szenenlayouts und Sprachbefehle.
- Dieser Ansatz ist entscheidend für die Entwicklung allgemeiner KI und Robotik.
Simulation des Unmöglichen: Datengenerierung für autonome Systeme
Die größte Herausforderung für autonome Agenten, sei es ein Roboter oder ein Fahrzeug, ist der sogenannte „Datenengpass“. Daten aus realen Interaktionen sind im Vergleich zu den riesigen Textmengen, die großen Sprachmodellen zur Verfügung stehen, selten. Waymo begegnet diesem Problem, indem es eigene Daten generiert. Dies geschieht durch die Simulation von „Long-Tail-Ereignissen“, also Situationen, die in der Realität kaum in großem Maßstab erfasst werden können.
Das Waymo World Model kann mithilfe von Genies Vortraining auf vielfältigen Video-Datensätzen Szenarien „träumen“, die weit über normale Fahrbedingungen hinausgehen. Dazu gehören extreme Wetterbedingungen wie Fahrten durch Tornados, stehendes Hochwasser oder lodernde Brände. Auch seltene Hindernisse wie Begegnungen mit Elefanten, Löwen oder sogar als T-Rex verkleideten Fußgängern werden simuliert. Kritische Sicherheitsereignisse, zum Beispiel rücksichtslose Fahrer, die von der Straße abkommen, oder Fahrzeuge mit prekär platzierten Möbeln, gehören ebenfalls zu den generierten Szenarien.
Wussten Sie schon?
Das Waymo World Model kann Szenarien generieren, die nahezu unmöglich in der realen Welt in großem Maßstab zu erfassen sind. Dies schließt Fahrten durch Tornados oder Begegnungen mit ungewöhnlichen Tieren ein.
Die Rolle von Lidar-Daten
Dieser Ansatz ähnelt der „Unendlichen Trainingsschleife“-Strategie von DeepMind, bei der ein Weltmodell als „Lehrer“ fungiert, um ein virtuelles Trainingslager für einen KI-„Schüler“ zu schaffen. Durch die Generierung multimodaler Ausgaben, die sowohl Kamera- als auch Lidar-Daten umfassen, kann Waymo seinen Fahrer trainieren, mit seltenen Objekten umzugehen. Lidar-Sensoren liefern entscheidende Tiefensignale. Das Waymo World Model erstellt realistische 4D-Punktwolken, um die räumliche Wahrnehmung in den generierten virtuellen Welten sicherzustellen.
Technologischer Fortschritt: Steuerbarkeit und Multimodaler Realismus
Das Waymo World Model unterscheidet sich von herkömmlichen Video-Generatoren durch seine hochpräzisen, multi-sensorischen Ausgaben. Es generiert nicht nur Kamerabilder, sondern auch 4D-Lidar-Punktwolken. Diese liefern präzise Tiefensignale, die für eine sichere Navigation unerlässlich sind. Waymo-Ingenieure können diese Simulationen über drei Hauptmechanismen manipulieren:
- Steuerung der Fahrhandlungen: Simulation von „Was-wäre-wenn“-Szenarien, um zu sehen, wie der Fahrer auf unterschiedliche Eingaben reagieren würde.
- Steuerung des Szenenlayouts: Veränderung von Straßenlayouts, Ampelzuständen und dem Verhalten anderer Verkehrsteilnehmer.
- Sprachsteuerung: Verwendung einfacher Textaufforderungen, um Tageszeit oder Wetter anzupassen oder vollständig synthetische Szenen zu generieren.
Im Gegensatz zu rein rekonstruktiven Methoden, wie 3D Gaussian Splats, behält dieses vollständig gelernte Weltmodell den Realismus bei, selbst wenn die simulierte Route erheblich von den ursprünglich aufgezeichneten Daten abweicht.
„Das Waymo World Model ist ein massiver Beweis für die Weltmodell-These. Wenn ein System, das auf 'Internet-Skala'-Videos trainiert wurde, einem Auto beibringen kann, eine überflutete Straße zu navigieren, die es noch nie gesehen hat, gilt dieselbe Logik für einen Humanoiden, der lernt, Geschirr zu spülen oder Wäsche zu falten.“
Branchenkonvergenz: Der Wandel hin zu Weltmodellen
Waymos Ankündigung deutet auf eine breitere Ausrichtung der Ansätze in der Branche hin. Führende Akteure setzen zunehmend auf generative Weltmodelle als primäre Architektur für physische Intelligenz. Diese Entwicklung markiert eine Abkehr vom „LLM-fixierten“ Konsens, der die früheren Jahre dominierte. Statt Roboteraktionen wie Text-Tokens zu behandeln, priorisieren diese Unternehmen die „intuitive Physik“ – die Fähigkeit einer KI, den nächsten physischen Zustand ihrer Umgebung basierend auf hochbandbreitigen visuellen Daten vorherzusagen.
Hintergrund: Die Evolution der KI in der Robotik
Die Forschung in der künstlichen Intelligenz hat in den letzten Jahren enorme Fortschritte gemacht. Während große Sprachmodelle (LLMs) die Textverarbeitung revolutioniert haben, konzentriert sich die nächste Generation der KI auf das Verständnis der physischen Welt. Weltmodelle sind dabei entscheidend, da sie es KI-Agenten ermöglichen, zukünftige Szenarien zu simulieren und zu planen, bevor sie physische Aktionen ausführen.
Beispiele aus der Industrie
- Teslas Unified Simulator: Tesla skaliert seinen „Neural World Simulator“, ein End-to-End-System, das auf Videodaten trainiert wird und die Grundlage sowohl für seine Fahrzeuge als auch für den Humanoiden Optimus bildet.
- 1X’s Video-to-Action: Der Humanoiden-Entwickler 1X Technologies hat sein 1X World Model (1XWM) als „kognitiven Kern“ integriert. Dies ermöglicht es dem NEO-Roboter, Aufgaben durch Video-Generierung zu „imaginieren“ und zu visualisieren, bevor er sie physisch ausführt.
- NVIDIAs DreamZero: Das NVIDIA GEAR Lab stellte kürzlich DreamZero vor, ein „World Action Model“, das den Fokus von textbasiertem Denken auf visuelle Vorstellungskraft verlagert. Forscher beschreiben dies als einen „GPT-2-Moment“ für die Robotik.
Bedeutung für die humanoide Robotik
Das Waymo World Model validiert die These der Weltmodelle auf eindrucksvolle Weise. Wenn ein System, das auf Videos im „Internet-Maßstab“ trainiert wurde, einem Auto beibringen kann, eine überflutete Straße zu navigieren, die es noch nie gesehen hat, dann gilt dieselbe Logik für einen Humanoiden, der lernt, Geschirr zu spülen oder Wäsche zu falten. Wie Carolina Parada von DeepMind betonte, ist es das Ziel, einen universellen Assistenten zu bauen, der die physische Welt versteht.
Durch die Perfektionierung dieser Simulationen im anspruchsvollen Umfeld des Stadtverkehrs legen Waymo und DeepMind das Fundament für Roboter, die in der Lage sind, in jeder Umgebung zu „denken“ und sich ihren Weg zu „vorzustellen“ – sei es eine belebte Kreuzung oder ein unaufgeräumtes Wohnzimmer. Diese Fortschritte sind entscheidend für die Entwicklung von künstlicher allgemeiner Intelligenz (AGI) und werden die Interaktion von Robotern mit unserer Welt grundlegend verändern.





