Roboter lernen Präzision in Minuten mit RL Tokens

Ein Durchbruch in der Robotik ermöglicht es Maschinen, komplexe Feinmotorik-Aufgaben in nur 15 Minuten zu meistern. Das Unternehmen Physical Intelligence hat eine neue Methode namens RL Tokens (RLT) vorgestellt, die Robotern beibringt, präzise Manipulationen mit einer Geschwindigkeit auszuführen, die der menschlichen Teleoperation überlegen ist.

Wichtige Erkenntnisse

RL Tokens ermöglichen Robotern, hochpräzise Aufgaben in 15 Minuten zu lernen.
Die neue Methode ist schneller und effizienter als frühere Ansätze.
RLT übertrifft die Geschwindigkeit menschlicher Teleoperation bei bestimmten Aufgaben.
Sie stellt eine gezielte Verfeinerung bestehender VLA-Modelle dar.

Der Sprung über die 'letzte Millimeter'-Hürde

Moderne Robotermodelle können Werkzeuge problemlos aufnehmen. Doch die präzise Anwendung, vergleichbar mit einem erfahrenen Techniker, stellte bislang eine große Herausforderung dar. Diese Hürde, oft als der 'letzte Millimeter' bezeichnet, erfordert submillimetergenaue Anpassungen.

Physical Intelligence (Pi) hat am 19. März 2026 eine vielversprechende Lösung präsentiert: RL Tokens (RLT). Diese Methode des Reinforcement Learning ermöglicht es Robotern, Aufgaben wie das Eindrehen einer winzigen M3-Schraube oder das Einfädeln eines Kabelbinders in Minuten statt in Tagen zu lernen.

Dies ist eine wichtige Entwicklung, nur wenige Wochen nach der Einführung des Multi-Scale Embodied Memory des Unternehmens und dem erfolgreichen Einsatz des π0.6-Grundlagenmodells in Industrie und Haushalten.

Faktencheck

Lernzeit: Roboter können schwierige Aufgaben in nur 15 Minuten realer Übungszeit verfeinern.
Geschwindigkeit: Bei Tests zum Einführen von Ethernet-Kabeln übertraf die RLT-gesteuerte Richtlinie die mittlere Geschwindigkeit menschlicher Teleoperation.
Effizienz: Das System kann Hunderte von Updates pro Sekunde während des Trainings durchführen.

Wie RL Tokens die Lücke schließen

Vision-Language-Action (VLA)-Modelle sind gut für allgemeine Kompetenzen, wie das Zubereiten eines gegrillten Käsesandwiches. Sie haben jedoch Schwierigkeiten mit den feinen Anpassungen, die bei kontaktintensiven Aufgaben nötig sind.

Das genaue Ausrichten eines Schraubendrehers mit einer winzigen M3-Schraube oder das Einfädeln eines Kabelbinders erfordert eine Genauigkeit im Submillimeterbereich. Diese Präzision wird durch breites Vortraining selten erreicht.

Die RLT-Methode von Pi löst dieses Problem, indem sie dem π0.6-Modell einen spezialisierten 'RL Token'-Ausgang hinzufügt. Dieser Token fungiert als komprimierter Informationsengpass. Er fasst die umfangreiche interne Weltrepräsentation des VLA-Modells in einem prägnanten Feature-Vektor zusammen.

Dieser Vektor wird dann in ein leichtgewichtiges 'Actor-Critic'-Netzwerk eingespeist. Dieses Netzwerk kann in Echtzeit auf dem Gerät trainiert werden. Die Ergebnisse sind bemerkenswert und zeigen eine schnelle Anpassungsfähigkeit der Roboter.

„Real-World Reinforcement Learning ist das Endspiel für den Sektor. Sichere Hardware ist der Schlüssel, um dies in großem Maßstab zu ermöglichen. Menschen tun dies mühelos, wir erkunden, scheitern, passen uns an, Millionen von Malen, ohne katastrophale Kosten.“

Bernt Børnich, CEO von 1X Technologies

Ein chirurgischer Ansatz für präzises Lernen

Diese neue Methode stellt eine gezielte Verfeinerung der bisherigen Arbeit von Pi dar. Während der Recap-Algorithmus des Unternehmens sich auf breite Verbesserungen und autonome Fehlerbehebung bei langfristigen Aufgaben konzentrierte, ist RLT für das 'On-the-Job'-Lernen spezifischer, delikater Fähigkeiten konzipiert.

Anstatt das gesamte Modell mit mehreren Milliarden Parametern neu zu trainieren – ein rechnerisch unerschwinglicher Prozess – ermöglicht RLT dem Roboter, seine vorhergesagten Aktionen zu 'bearbeiten'. Das System bleibt in seinem vorherigen VLA-Training verankert, weicht aber ab, wenn der Echtzeit-Kritiker einen effizienteren Weg zum Erfolg identifiziert.

Hintergrundinformationen

Physical Intelligence (Pi) erhielt kürzlich eine Finanzierungsrunde von 600 Millionen US-Dollar. Das Unternehmen setzt auf einen Software-First-Ansatz, um Präzisionsprobleme auf verschiedenen Hardware-Plattformen zu lösen.

Indem Pi den 'RL Token' als modulare Schnittstelle nutzt, positioniert sich das Unternehmen als primäre 'Intelligenzschicht' für alle Roboterchassis, die über einfache Pick-and-Place-Manöver hinausgehen müssen.

Die Zukunft der realen Roboter-Anwendungen

Das Forschungspapier des Unternehmens demonstriert die RLT-Methode an vier Schlüsselaufgaben: Schrauben, Kabelbinden, Ethernet-Einführen und Netzkabelstecken. Aktuell handelt es sich um isolierte Fähigkeiten.

Die Roadmap sieht jedoch vor, diese feinkörnige Verfeinerung in längere autonome Arbeitsabläufe zu integrieren. Beispiele hierfür sind die vollständige Elektronikmontage oder komplexe Küchenwartung.

Wenn Roboter aus dem Labor in 'fabrikreife' Rollen übergehen, wird die Fähigkeit, direkt aus Erfahrung ohne menschliches Eingreifen zu lernen, den Unterschied zwischen einer Neuheit und einem nützlichen Werkzeug ausmachen.

Mit RLT deutet Pi an, dass die 'dunkle Materie' der Roboterintuition – Kräfte, Reibung und Feinabstimmung – durch ein Software-Update endlich in Reichweite sein könnte. Dies verspricht eine neue Ära der Robotik, in der Maschinen selbstständig immer komplexere Aufgaben lösen können.

Konkrete Anwendungsbereiche

Montage: Präzises Einsetzen von Kleinteilen in der Elektronik- oder Automobilfertigung.
Wartung: Selbstständige Reparaturen und Instandhaltung von Maschinen und Geräten.
Haushalt: Komplexe Aufgaben wie das Aufräumen oder die Zubereitung von Speisen mit feiner Motorik.
Medizin: Unterstützung bei chirurgischen Eingriffen, die höchste Genauigkeit erfordern.

Wichtige Erkenntnisse

RL Tokens ermöglichen Robotern, hochpräzise Aufgaben in 15 Minuten zu lernen.
Die neue Methode ist schneller und effizienter als frühere Ansätze.
RLT übertrifft die Geschwindigkeit menschlicher Teleoperation bei bestimmten Aufgaben.
Sie stellt eine gezielte Verfeinerung bestehender VLA-Modelle dar.

Der Sprung über die 'letzte Millimeter'-Hürde

Faktencheck

Lernzeit: Roboter können schwierige Aufgaben in nur 15 Minuten realer Übungszeit verfeinern.
Geschwindigkeit: Bei Tests zum Einführen von Ethernet-Kabeln übertraf die RLT-gesteuerte Richtlinie die mittlere Geschwindigkeit menschlicher Teleoperation.
Effizienz: Das System kann Hunderte von Updates pro Sekunde während des Trainings durchführen.

Wie RL Tokens die Lücke schließen

„Real-World Reinforcement Learning ist das Endspiel für den Sektor. Sichere Hardware ist der Schlüssel, um dies in großem Maßstab zu ermöglichen. Menschen tun dies mühelos, wir erkunden, scheitern, passen uns an, Millionen von Malen, ohne katastrophale Kosten.“

Bernt Børnich, CEO von 1X Technologies

Ein chirurgischer Ansatz für präzises Lernen

Hintergrundinformationen

Die Zukunft der realen Roboter-Anwendungen

Konkrete Anwendungsbereiche

Montage: Präzises Einsetzen von Kleinteilen in der Elektronik- oder Automobilfertigung.
Wartung: Selbstständige Reparaturen und Instandhaltung von Maschinen und Geräten.
Haushalt: Komplexe Aufgaben wie das Aufräumen oder die Zubereitung von Speisen mit feiner Motorik.
Medizin: Unterstützung bei chirurgischen Eingriffen, die höchste Genauigkeit erfordern.

Wichtige Erkenntnisse

Der Sprung über die 'letzte Millimeter'-Hürde

Faktencheck

Wie RL Tokens die Lücke schließen

Ein chirurgischer Ansatz für präzises Lernen

Hintergrundinformationen

Die Zukunft der realen Roboter-Anwendungen

Konkrete Anwendungsbereiche

Ähnliche Artikel

Erste Quantenbatterie-Prototyp erfolgreich getestet

Unitree prognostiziert Rekordgeschwindigkeiten für Humanoiden

KAIST Humanoid v0.7 zeigt neue Agilität

Form Energy plant 100-Stunden-Batterie in Irland

Wichtige Erkenntnisse

Der Sprung über die 'letzte Millimeter'-Hürde

Faktencheck

Wie RL Tokens die Lücke schließen

Ein chirurgischer Ansatz für präzises Lernen

Hintergrundinformationen

Die Zukunft der realen Roboter-Anwendungen

Konkrete Anwendungsbereiche

Ähnliche Artikel

Erste Quantenbatterie-Prototyp erfolgreich getestet

Unitree prognostiziert Rekordgeschwindigkeiten für Humanoiden

KAIST Humanoid v0.7 zeigt neue Agilität

Form Energy plant 100-Stunden-Batterie in Irland