Tesla verfolgt eine klare Strategie: Eine einzige, übergreifende KI-Architektur soll die Zukunft autonomer Fahrzeuge und humanoider Roboter prägen. Ashok Elluswamy, Teslas Vizepräsident für KI-Software, stellte auf der ScaledML Konferenz 2026 detailliert vor, wie diese Vision durch einen 'neuronalen Weltsimulator' Realität werden soll. Dies markiert einen entscheidenden Schritt für das Unternehmen, das sich als führend im Bereich der 'Physischen KI' positioniert.
Wichtige Erkenntnisse
- Tesla setzt auf eine einheitliche neuronale Architektur für autonome Fahrzeuge und Optimus-Roboter.
- Das Unternehmen verfolgt einen End-to-End-Ansatz, der modulare Systeme ablehnt.
- Ein 'neuronaler Weltsimulator' ermöglicht das Training und die Bewertung der KI in virtuellen Umgebungen.
- Die Robotaxi-Dienste in Austin sind ein wichtiger Schritt vor der Einführung des Cybercab und der Massenproduktion von Optimus.
Einheitliche KI-Vision: Vom Auto zum Humanoiden
Ashok Elluswamy, der seit dem letzten Jahr das Optimus-Programm leitet, betonte, dass Tesla nicht mehr nur ein Autohersteller ist, sondern ein Unternehmen, das auf 'Physische KI' setzt. Die Kernphilosophie dahinter ist die sogenannte 'Bitter Lesson': Die Skalierung von allgemeinen Lernalgorithmen übertrifft letztendlich handgefertigte, regelbasierte menschliche Logik.
Diese Überzeugung bildet die Grundlage für Teslas Ansatz, eine einzige neuronale Architektur zu entwickeln, die sowohl die Full Self-Driving (FSD)-Funktionen in Autos als auch die Bewegungen des humanoiden Roboters Optimus steuert. Das Ziel ist eine 'erstaunliche Fülle' durch Automatisierung in verschiedenen Bereichen.
Das Ende der Modularität
Elluswamy erklärte, dass Tesla bewusst auf einen End-to-End-Ansatz setzt. Im Gegensatz zu vielen Wettbewerbern, die Wahrnehmung, Planung und Vorhersage in separate Codebasen aufteilen, nutzt Tesla ein einziges neuronales Netz. Dieses Netz verarbeitet Rohvideodaten von acht Kameras, Navigationsanweisungen und kinematische Daten, um direkt Steuerbefehle auszugeben.
"Das Kodifizieren alles in regelbasierten Systemen schafft undichte Abstraktionen", sagte Elluswamy. "Robotik in der realen Welt erfordert einen dichten Informationsfluss."
Er illustrierte dies mit Beispielen wie einem Fahrzeug, das entscheiden muss, ob es eine tiefe Wasserpfütze durchfährt oder kurz auf die Gegenfahrbahn wechselt. Die KI lernt durch das Training mit menschlichen Daten, solche Abwägungen ganzheitlich zu treffen, anstatt starren 'Wenn-Dann'-Regeln zu folgen.
Faktencheck: Teslas End-to-End-Ansatz
- Eingabe: Rohvideo von 8 Kameras, Navigationsdaten, Kinematik.
- Verarbeitung: Ein einziges neuronales Netzwerk.
- Ausgabe: Direkte Steuerbefehle für das Fahrzeug oder den Roboter.
- Vorteil: Ganzheitliche Entscheidungsfindung und Umgang mit komplexen, unvorhersehbaren Situationen.
Generatives 3D-Verständnis und der Weltsimulator
Kritiker von End-to-End-Systemen bezeichnen diese oft als 'Black Boxes'. Elluswamy präsentierte jedoch interne 'Sonden', die Tesla zur Fehlerbehebung und Interpretierbarkeit einsetzt. Eine dieser Sonden ist eine proprietäre Form des Generativen Gaussian Splatting. Dieses neuronale System kann die 3D-Geometrie einer Umgebung in Millisekunden rekonstruieren, im Gegensatz zu traditionellen Methoden, die bis zu 30 Minuten benötigen.
Diese 3D-Wahrnehmung ist tief in dasselbe Netzwerk integriert, das das Auto steuert. Dadurch versteht das Modell die physikalischen Formen und zukünftigen Flugbahnen der umgebenden Objekte, selbst wenn das Fahrzeug von seinem ursprünglichen Weg abweicht.
Der geschlossene Kreislauf: Simulation der Realität
Ein entscheidendes Element für die Entwicklung und Bewertung der KI ist Teslas 'Weltsimulator' – ein generatives neuronales Netzwerk, das den nächsten Videobildrahmen basierend auf den Aktionen des Roboters vorhersagt. Dies schafft eine geschlossene virtuelle Umgebung, in der die KI sicher trainiert werden kann.
Hintergrund: Der Weltsimulator
Der Weltsimulator ist ein generatives KI-System, das eine realistische virtuelle Umgebung simuliert. Es ermöglicht das Testen neuer KI-Modelle ohne physisches Risiko und beschleunigt den Entwicklungsprozess erheblich. Die Fähigkeit, hypothetische Szenarien zu erstellen, ist für die Sicherheit und Robustheit autonomer Systeme entscheidend.
Im Weltsimulator werden historische Fehler wiederholt, um zu prüfen, ob neue Modelle nun 'korrekt abweichen' und Gefahren vermeiden. Ingenieure können auch adversarielle Szenen injizieren, indem sie reale Clips modifizieren und beispielsweise Fußgänger oder gefährliche Fahrmanöver hinzufügen, die in der Realität nie stattfanden. Diese Modelle laufen mit 36 Hz, was interaktive Fahrten in synthetischen Umgebungen ermöglicht, die kaum von der Realität zu unterscheiden sind.
"Dasselbe Videogenerierungsnetzwerk verallgemeinert sich auf Innenräume, damit Optimus herumlaufen kann", betonte Elluswamy und unterstrich damit, dass der einheitliche 'Weltsimulator' die Grundlage für die gesamte Tesla-Robotik bildet.
Von Austin zur 'Terafab': Die Zukunft der Robotik
Der Zeitpunkt von Elluswamys Präsentation ist bedeutsam. Anfang des Monats startete Tesla offiziell seinen Robotaxi-Dienst in Austin, Texas. Dort fahren die Fahrzeuge nun ohne Sicherheitsfahrer und können von der Öffentlichkeit gerufen werden. Diese Validierung in der realen Welt ist ein Vorläufer für das 'Cybercab', ein Fahrzeug ohne Lenkrad und Pedale, das Ende 2026 erwartet wird.
Das ultimative Ziel bleibt jedoch die 1-Millionen-Einheiten-Produktionslinie für Optimus, die derzeit im Werk Fremont vorbereitet wird. Durch die Ausmusterung der Modelle S und X schafft Tesla den physischen und digitalen Raum für das, was Elon Musk als den 'unendlichen Geld-Glitch' bezeichnet.
Konvergenz in der Industrie
Die Entwicklung hin zur generativen Simulation ist nicht auf Tesla beschränkt. Waymo hat kürzlich ebenfalls das Waymo World Model vorgestellt, das auf Genie 3 basiert – Googles DeepMinds fortschrittlichstem allgemeinem Weltmodell. Diese Entwicklung positioniert Waymo als starken technischen Konkurrenten zu Teslas Vision und nutzt fotorealistische, interaktive 3D-Umgebungen, um das 'Datenengpass'-Problem zu lösen.
Während sich Tesla auf die formelle Vorstellung des Gen 3-Prototyps im ersten Quartal 2026 vorbereitet, dient Elluswamys Präsentation als technisches Manifest. Aus Teslas Sicht mag sich die Hardware ändern – von einer 1.800 Kilogramm schweren Limousine zu einem 57 Kilogramm schweren Humanoiden – doch das 'Gehirn' bleibt ein einziger, visionszentrierter Vorhersagemotor.
Ausblick: Die Rolle der KI in Teslas Ökosystem
Die Vereinheitlichung der KI über verschiedene Produkte hinweg zeigt Teslas langfristige Strategie. Die Daten, die von den Millionen von Fahrzeugen gesammelt werden, fließen in die Verbesserung des neuronalen Netzes ein. Dieses verbesserte Netz kommt dann sowohl den autonomen Fahrzeugen als auch den Optimus-Robotern zugute.
- Effizienz: Eine einzige Architektur reduziert Entwicklungsaufwand und Komplexität.
- Skalierbarkeit: Verbesserungen in einem Bereich wirken sich auf alle anderen aus.
- Datenintegration: Reale Fahrdaten und simulierte Daten verschmelzen für robustes Training.
Die Fähigkeit, 'weiche Absichten' zu erkennen, wie das Abwarten eines Huhns auf der Straße, ist ein Beispiel für die fortgeschrittene Interaktion, die Tesla anstrebt. Solche Fähigkeiten sind nur möglich, wenn Pixel direkt zu Steuerbefehlen führen, ohne den Umweg über starre Detektoren.
Die Zukunft, die Tesla mit dieser einheitlichen KI-Strategie anstrebt, ist eine Welt, in der intelligente Maschinen nahtlos mit ihrer Umgebung interagieren und komplexe Aufgaben selbstständig lösen können – eine Welt, die durch die 'Physische KI' von Tesla geprägt wird.





