Ein neues Modell künstlicher Intelligenz namens π*0.6, entwickelt von Physical Intelligence (Pi), markiert einen bedeutenden Schritt in der Robotik. Es ermöglicht Robotern, aus ihren eigenen Fehlern zu lernen und komplexe Aufgaben über lange Zeiträume hinweg ohne menschliches Eingreifen auszuführen. Das System, das die Firma als Recap-Methode bezeichnet, trainiert Roboter nicht nur durch Nachahmung menschlicher Handlungen, sondern auch durch autonome Praxis und Selbstkorrektur. Dies könnte die Zuverlässigkeit von Robotern in der realen Welt erheblich steigern.
Wichtige Erkenntnisse
- Physical Intelligence (Pi) stellt das neue KI-Modell π*0.6 vor.
- Das Modell lernt durch die Recap-Methode: Nachahmung, menschliches Coaching und autonome Praxis.
- Roboter können nun bis zu 13 Stunden unterbrechungsfrei Espresso zubereiten, Wäsche falten und Kartons montieren.
- Pi setzt auf selbstlernende Systeme statt ausschließlich auf riesige Datensätze menschlicher Demonstrationen.
- Die Methode verspricht eine Verdopplung des Durchsatzes bei komplexen Aufgaben.
Ein Durchbruch im Robotertraining: Die Recap-Methode
Die meisten führenden Robotikunternehmen setzen auf Imitationslernen, bei dem Roboter anhand großer Mengen menschlicher Daten trainiert werden. Physical Intelligence schlägt einen anderen Weg vor: den Roboter selbst üben zu lassen. Das neue Modell π*0.6, ein Vision-Language-Action (VLA)-Modell, wurde mit der sogenannten Recap-Methode trainiert. Im Gegensatz zu Standardmodellen, die nur menschliches Verhalten kopieren, lernt π*0.6 aus seinen eigenen Erfolgen und Misserfolgen.
Diese Fähigkeit, sich selbst zu korrigieren, ermöglicht es Robotern, komplexe Aufgaben stundenlang ohne Unterbrechung auszuführen. Karol Hausman, Mitbegründer von Physical Intelligence, erklärte dazu auf X (ehemals Twitter):
"RL ist zurück. Wir haben ein allgemeines Rezept entwickelt, das VLAs ermöglicht, aus Erfahrung zu lernen."
Hausman demonstrierte dies mit einem Zeitraffervideo, das zwei Roboterarme bei der Zubereitung von Espresso zeigte – 13 Stunden lang, vom Mahlen der Bohnen über das Brühen bis zur Reinigung.
Fakten auf einen Blick
- Modellname: π*0.6 (pi-star-zero-point-six)
- Entwickler: Physical Intelligence (Pi)
- Kernmethode: Recap (RL with Experience & Corrections via Advantage-conditioned Policies)
- Aufgaben: Espressozubereitung, Wäsche falten, Kartonmontage
- Leistungssteigerung: Mehr als eine Verdopplung des Durchsatzes bei einigen der schwierigsten Aufgaben
Jenseits der Imitation: Wie Recap funktioniert
Das Herzstück von Pis Ankündigung ist eine Kritik am aktuellen Industriestandard: dem Verhaltensklonen. Während Imitationslernen, also das Trainieren eines Roboters anhand von Experten-Demonstrationen, ein System "die Hälfte der Zeit" zum Laufen bringen kann, so das Unternehmen, liefert es nicht die für den realen Einsatz erforderliche Zuverlässigkeit. Das Problem liegt laut dem Blogbeitrag des Unternehmens in sich verstärkenden Fehlern. Macht ein Roboter, der nur an perfekten menschlichen Demonstrationen trainiert wurde, einen kleinen Fehler (z.B. das Greifen eines Griffs leicht außermittig), gerät er in einen Zustand, den er noch nie zuvor gesehen hat. Verwirrt macht er oft einen größeren Fehler, der zum Scheitern führt.
Pis Lösung, Recap, versucht nachzuahmen, wie Menschen körperliche Fähigkeiten meistern:
- Anweisung: Der Roboter beobachtet menschliche Demonstrationen (Imitation).
- Coaching: Ein menschlicher Teleoperator beobachtet den Roboter und greift in Echtzeit ein, um Fehler zu korrigieren, und zeigt dem Roboter, wie er sich von Fehlern erholt.
- Praxis: Der Roboter versucht die Aufgabe autonom tausende Male, wobei er Reinforcement Learning (RL) nutzt, um seine eigenen Aktionen zu "bewerten", das Beizubehalten, was funktioniert, und das Auszusortieren, was nicht funktioniert.
Diese "Praxisphase" ermöglicht es dem Modell, seine Technik weit über das hinaus zu verfeinern, was allein mit menschlichen Daten möglich ist. Durch das Training einer "Wertfunktion" – im Wesentlichen ein Software-Kritiker, der die Erfolgswahrscheinlichkeit vorhersagt – kann das System schlechte Verhaltensweisen herausfiltern und hochwertige Aktionen priorisieren.
Praxistests: Kaffee, Wäsche und Logistik
Um die Methode zu validieren, testete Pi das π*0.6-Modell an drei verschiedenen Aufgaben: Espressozubereitung, Falten vielfältiger Wäschestücke und Montieren von Kartons. Die Ergebnisse zeigen einen deutlichen Sprung in der Zuverlässigkeit. Das Unternehmen behauptet, dass das Hinzufügen der autonomen Praxisphase "den Durchsatz bei einigen der schwierigsten Aufgaben mehr als verdoppelt" im Vergleich zu ihren früheren Modellen, die nur unter Aufsicht trainiert wurden.
Erfolgreiche Anwendungen von π*0.6:
- Espresso: Das Modell lief von 5:30 Uhr morgens bis 23:30 Uhr abends und bewältigte die komplexe Aufgabe des Mahlens, Tampens, Extrahierens und Reinigens.
- Wäsche: Der Roboter faltete 50 verschiedene, neuartige Kleidungsstücke in einer neuen Umgebung und passte sich an die spezifischen Eigenschaften verschiedener Stoffe an.
- Logistik: In einer Fabrikumgebung montierte und etikettierte der Roboter 59 Verpackungskartons für Pralinen und bewältigte Materialunregelmäßigkeiten, wie zum Beispiel zusammenklebende Kartons.
Hintergrund: Fehlerbehebung durch autonome Erkennung
Ein Beispiel für die autonome Fehlerbehebung ist die Erkennung, dass der Roboter versehentlich zwei zusammengeklebte Kartons gegriffen hat – ein häufiger Grenzfall. Das Modell trennt diese dann selbstständig, um die Montage ohne menschliches Eingreifen fortzusetzen. Diese Fähigkeit zur Selbstkorrektur in unvorhergesehenen Situationen ist entscheidend für den Einsatz in realen Umgebungen.
Strategische Landschaft: RL versus Big Data
Diese Entwicklung verschärft die philosophische Kluft, die den Humanoiden-Robotiksektor derzeit spaltet. Auf der einen Seite stehen Unternehmen wie Figure AI und Tesla. Figure setzt auf "Project Go-Big" und strebt Autonomie durch Training an massiven Datensätzen menschlicher Videos an. Tesla verlässt sich auf seinen "World Simulator" und hofft, physikalisches Verständnis von virtuellen Umgebungen auf die reale Welt zu übertragen.
Auf der anderen Seite stehen Befürworter des aktiven, verkörperten Lernens. 1X Technologies verwendet eine "Human-in-the-Loop"-Strategie, bei der Teleoperation der Motor ist, der die Autonomie antreibt und es Robotern ermöglicht, in der realen Welt zu "leben und zu lernen".
Physical Intelligence, unterstützt von akademischen Schwergewichten wie Sergey Levine und Chelsea Finn, scheint eine Hybridnische zu besetzen. Ihr Ansatz kombiniert die "Human-in-the-Loop"-Korrekturen, die von 1X verwendet werden, mit dem rigorosen, autonomen Reinforcement Learning, das frühe Forschungsdurchbrüche in Laboren wie Google DeepMind definierte. Dieser Fokus auf "verkörperte Intelligenz" stimmt mit Pis jüngsten strategischen Schritten überein, einschließlich einer Partnerschaft mit dem chinesischen Robotikunternehmen AgiBot, um ihre "Gehirne" in fähige Humanoiden-Körper zu integrieren. Diese Zusammenarbeit zielte speziell auf "komplexe, langwierige Aufgaben" ab, ein Ziel, das die neue Recap-Methode direkt zu lösen scheint.
Während Wettbewerber darum wetteifern, das Internet zu verarbeiten oder Millionen menschlicher Stunden aufzuzeichnen, setzt Pi darauf, dass die letzte Meile der Roboterintelligenz nicht durch das Ansehen weiterer Videos erreicht wird, sondern durch die tatsächliche Ausführung der Arbeit.





