Ein Durchbruch in der Robotik ermöglicht es Maschinen, komplexe Feinmotorik-Aufgaben in nur 15 Minuten zu meistern. Das Unternehmen Physical Intelligence hat eine neue Methode namens RL Tokens (RLT) vorgestellt, die Robotern beibringt, präzise Manipulationen mit einer Geschwindigkeit auszuführen, die der menschlichen Teleoperation überlegen ist.
Wichtige Erkenntnisse
- RL Tokens ermöglichen Robotern, hochpräzise Aufgaben in 15 Minuten zu lernen.
- Die neue Methode ist schneller und effizienter als frühere Ansätze.
- RLT übertrifft die Geschwindigkeit menschlicher Teleoperation bei bestimmten Aufgaben.
- Sie stellt eine gezielte Verfeinerung bestehender VLA-Modelle dar.
Der Sprung über die 'letzte Millimeter'-Hürde
Moderne Robotermodelle können Werkzeuge problemlos aufnehmen. Doch die präzise Anwendung, vergleichbar mit einem erfahrenen Techniker, stellte bislang eine große Herausforderung dar. Diese Hürde, oft als der 'letzte Millimeter' bezeichnet, erfordert submillimetergenaue Anpassungen.
Physical Intelligence (Pi) hat am 19. März 2026 eine vielversprechende Lösung präsentiert: RL Tokens (RLT). Diese Methode des Reinforcement Learning ermöglicht es Robotern, Aufgaben wie das Eindrehen einer winzigen M3-Schraube oder das Einfädeln eines Kabelbinders in Minuten statt in Tagen zu lernen.
Dies ist eine wichtige Entwicklung, nur wenige Wochen nach der Einführung des Multi-Scale Embodied Memory des Unternehmens und dem erfolgreichen Einsatz des π0.6-Grundlagenmodells in Industrie und Haushalten.
Faktencheck
- Lernzeit: Roboter können schwierige Aufgaben in nur 15 Minuten realer Übungszeit verfeinern.
- Geschwindigkeit: Bei Tests zum Einführen von Ethernet-Kabeln übertraf die RLT-gesteuerte Richtlinie die mittlere Geschwindigkeit menschlicher Teleoperation.
- Effizienz: Das System kann Hunderte von Updates pro Sekunde während des Trainings durchführen.
Wie RL Tokens die Lücke schließen
Vision-Language-Action (VLA)-Modelle sind gut für allgemeine Kompetenzen, wie das Zubereiten eines gegrillten Käsesandwiches. Sie haben jedoch Schwierigkeiten mit den feinen Anpassungen, die bei kontaktintensiven Aufgaben nötig sind.
Das genaue Ausrichten eines Schraubendrehers mit einer winzigen M3-Schraube oder das Einfädeln eines Kabelbinders erfordert eine Genauigkeit im Submillimeterbereich. Diese Präzision wird durch breites Vortraining selten erreicht.
Die RLT-Methode von Pi löst dieses Problem, indem sie dem π0.6-Modell einen spezialisierten 'RL Token'-Ausgang hinzufügt. Dieser Token fungiert als komprimierter Informationsengpass. Er fasst die umfangreiche interne Weltrepräsentation des VLA-Modells in einem prägnanten Feature-Vektor zusammen.
Dieser Vektor wird dann in ein leichtgewichtiges 'Actor-Critic'-Netzwerk eingespeist. Dieses Netzwerk kann in Echtzeit auf dem Gerät trainiert werden. Die Ergebnisse sind bemerkenswert und zeigen eine schnelle Anpassungsfähigkeit der Roboter.
„Real-World Reinforcement Learning ist das Endspiel für den Sektor. Sichere Hardware ist der Schlüssel, um dies in großem Maßstab zu ermöglichen. Menschen tun dies mühelos, wir erkunden, scheitern, passen uns an, Millionen von Malen, ohne katastrophale Kosten.“
Ein chirurgischer Ansatz für präzises Lernen
Diese neue Methode stellt eine gezielte Verfeinerung der bisherigen Arbeit von Pi dar. Während der Recap-Algorithmus des Unternehmens sich auf breite Verbesserungen und autonome Fehlerbehebung bei langfristigen Aufgaben konzentrierte, ist RLT für das 'On-the-Job'-Lernen spezifischer, delikater Fähigkeiten konzipiert.
Anstatt das gesamte Modell mit mehreren Milliarden Parametern neu zu trainieren – ein rechnerisch unerschwinglicher Prozess – ermöglicht RLT dem Roboter, seine vorhergesagten Aktionen zu 'bearbeiten'. Das System bleibt in seinem vorherigen VLA-Training verankert, weicht aber ab, wenn der Echtzeit-Kritiker einen effizienteren Weg zum Erfolg identifiziert.
Hintergrundinformationen
Physical Intelligence (Pi) erhielt kürzlich eine Finanzierungsrunde von 600 Millionen US-Dollar. Das Unternehmen setzt auf einen Software-First-Ansatz, um Präzisionsprobleme auf verschiedenen Hardware-Plattformen zu lösen.
Indem Pi den 'RL Token' als modulare Schnittstelle nutzt, positioniert sich das Unternehmen als primäre 'Intelligenzschicht' für alle Roboterchassis, die über einfache Pick-and-Place-Manöver hinausgehen müssen.
Die Zukunft der realen Roboter-Anwendungen
Das Forschungspapier des Unternehmens demonstriert die RLT-Methode an vier Schlüsselaufgaben: Schrauben, Kabelbinden, Ethernet-Einführen und Netzkabelstecken. Aktuell handelt es sich um isolierte Fähigkeiten.
Die Roadmap sieht jedoch vor, diese feinkörnige Verfeinerung in längere autonome Arbeitsabläufe zu integrieren. Beispiele hierfür sind die vollständige Elektronikmontage oder komplexe Küchenwartung.
Wenn Roboter aus dem Labor in 'fabrikreife' Rollen übergehen, wird die Fähigkeit, direkt aus Erfahrung ohne menschliches Eingreifen zu lernen, den Unterschied zwischen einer Neuheit und einem nützlichen Werkzeug ausmachen.
Mit RLT deutet Pi an, dass die 'dunkle Materie' der Roboterintuition – Kräfte, Reibung und Feinabstimmung – durch ein Software-Update endlich in Reichweite sein könnte. Dies verspricht eine neue Ära der Robotik, in der Maschinen selbstständig immer komplexere Aufgaben lösen können.
Konkrete Anwendungsbereiche
- Montage: Präzises Einsetzen von Kleinteilen in der Elektronik- oder Automobilfertigung.
- Wartung: Selbstständige Reparaturen und Instandhaltung von Maschinen und Geräten.
- Haushalt: Komplexe Aufgaben wie das Aufräumen oder die Zubereitung von Speisen mit feiner Motorik.
- Medizin: Unterstützung bei chirurgischen Eingriffen, die höchste Genauigkeit erfordern.





