Das Technologieunternehmen Physical Intelligence (Pi) hat sein neues Modell π0.7 vorgestellt. Es ermöglicht Robotern, komplexe Aufgaben zu lösen, die sie nie zuvor gelernt haben. Diese Entwicklung könnte einen Wendepunkt in der Robotik markieren und die Einsatzmöglichkeiten von Robotern erheblich erweitern.
Wichtige Erkenntnisse
- π0.7 demonstriert kompositionelle Generalisierung, indem es bekannte Fähigkeiten neu kombiniert.
- Das Modell kann Aufgaben auf bisher unbekannter Hardware ausführen, wie das Falten von Wäsche mit einem UR5e-System.
- Ein multimodales Prompting-Framework mit Sprachcoaching und visuellen Unterzielen steuert das Roboterverhalten.
- π0.7 erreicht die Leistung spezialisierter Vorgängermodelle in verschiedenen Aufgaben.
- Pi verfolgt eine Cloud-basierte Strategie, um die Kosten für Robotik-Startups zu senken.
Ein "GPT-3 Moment" für die Robotik
Wenige Wochen nach Berichten über eine mögliche Bewertung von 11 Milliarden US-Dollar hat Physical Intelligence sein Modell π0.7 veröffentlicht. Experten sprechen bereits von einem möglichen "GPT-3 Moment" für die robotische Geschicklichkeit. Das neue Modell geht über die bloße Nachahmung hinaus.
Es zeigt kompositionelle Generalisierung. Das bedeutet, es kann gelernte Konzepte "vermischen und anpassen", um Probleme zu lösen, die es noch nie zuvor gesehen hat. Dies ist ein großer Schritt für die Robotik, da Roboter so flexibler und anpassungsfähiger werden.
Wichtige Fakten
- Veröffentlichung: 16. April 2026
- Fähigkeit: Kompositionelle Generalisierung
- Anwendungsbeispiel: Zubereitung von Speisen, Wäschefalten
- Innovation: Roboter können neue Werkzeuge und Geräte nutzen, ohne spezifisches Training.
Null-Shot-Geschicklichkeit und neue Werkzeuge
Der zentrale Durchbruch von π0.7 liegt in seiner Fähigkeit, Roboterfähigkeiten wie Wörter in einem Satz zu behandeln. Ähnlich wie ein großes Sprachmodell (LLM) die Konzepte "JSON-Formatierung" und "französische Übersetzung" kombinieren kann, ohne explizit auf diese Kombination trainiert worden zu sein, kann π0.7 motorische Fähigkeiten kombinieren, um neue Werkzeuge zu verwenden.
Das Unternehmen demonstrierte dies, indem das Modell eine Heißluftfritteuse zum Kochen einer Süßkartoffel verwendete. Für diese Aufgabe gab es fast keine direkten Trainingsdaten. Das Modell nutzte stattdessen einige wenige Episoden des Schließens von Schubladen und Daten aus dem Open-Source-DROID-Datensatz, um sich durch die Schnittstelle des neuen Geräts zu "arbeiten".
"Vision-Sprache-Aktionsmodelle haben bisher noch nicht gezeigt, dass sie Fähigkeiten auf neue Weisen kombinieren können, wie die Verwendung eines neuen Werkzeugs oder Küchengeräts", erklärte das Unternehmen in seiner technischen Veröffentlichung.
Übertragung auf unbekannte Hardware
Ein besonders überraschendes Ergebnis für Branchenbeobachter ist die Leistung von π0.7 auf Hardware, für die es nie trainiert wurde. Pi beauftragte das Modell erfolgreich mit der Steuerung eines bimanualen UR5e-Industriesystems zum Falten von Wäsche.
Obwohl das Unternehmen bereits mit π0.6 fortgeschrittenes Wäschefalten gezeigt hatte, wurden diese Daten mit viel kleineren, präziseren Roboterarmen gesammelt. Die UR5e-Arme sind jedoch schwerer, haben mehr Trägheit und verwenden andere Greifer. Trotzdem erreichte π0.7 auf dem UR5e eine Erfolgsquote, die der von menschlichen Teleoperatoren entsprach, die die Aufgabe zum ersten Mal auf derselben Hardware versuchten.
Hintergrundinformationen
Das UR5e-System ist ein industrieller Roboterarm, der für präzise und wiederholende Aufgaben in der Fertigung eingesetzt wird. Seine Anpassung an völlig neue Aufgaben ohne spezifisches Training zeigt die Flexibilität des π0.7-Modells.
"Jeder Hersteller von Roboterhardware wird in der Lage sein, Physical Intelligence zu kaufen, einige Daten auf seiner Plattform zu sammeln und zu sehen, wie sich unsere vielen Fähigkeiten übertragen", bemerkte Pi-Forscher Kyle Vedder. Dies unterstreicht Pis Strategie, die universelle "Intelligenzschicht" für jedes Roboterchassis zu werden.
Steuerbare Intelligenz durch multimodale Prompts
Pi führt diesen Schrittwechsel in der Generalisierung auf eine neue Art der "Kommunikation" mit dem Roboter zurück. Anstelle einfacher Textbefehle verwendet π0.7 ein multimodales Prompting-Framework, das verschiedene Elemente umfasst:
- Sprachcoaching: Schritt-für-Schritt-Anweisungen, die den Roboter in Echtzeit durch "Fehlstarts" führen.
- Visuelle Unterziele: Bilder, die von einem leichtgewichtigen Weltmodell generiert werden und dem Roboter zeigen, wie die nächste Phase einer Aufgabe (z.B. ein offener Heißluftfritteusenkorb) aussehen sollte.
- Strategie-Metadaten: Tags, die dem Modell mitteilen, ob es Geschwindigkeit, Qualität oder eine bestimmte Steuerungsmodalität priorisieren soll.
Durch die Annotation vielfältiger Daten – einschließlich "suboptimaler" autonomer Fehler – mit Metadaten hat Pi einen Weg gefunden, große Datenmengen aufzunehmen, ohne das Modell mit schlechten Gewohnheiten zu "vergiften".
Konsolidierung der Spezialmodelle
Bisher erforderten die höchsten Leistungsniveaus in der Robotik "Spezialmodelle", die auf eine einzige Aufgabe abgestimmt waren. Ende 2025 nutzte Pis π*0.6-Modell beispielsweise Reinforcement Learning, um die Espressozubereitung über 13-Stunden-Schichten zu meistern. Mit π0.7 behauptet Pi, die Leistung dieser Spezialisten in einem einzigen, universellen Modell zusammengeführt zu haben.
Benchmarks zeigen, dass π0.7 den gleichen oder einen höheren Durchsatz wie die RL-trainierten Spezialisten bei der Espressozubereitung, dem Falten von Kartons und dem Wäschewaschen erreicht. Dies deutet darauf hin, dass die Branche sich von der Notwendigkeit einer maßgeschneiderten Feinabstimmung für jede neue Aufgabe entfernt.
Während Wettbewerber wie Generalist AI weiterhin versuchen, von Grund auf zu skalieren, signalisiert Pis Erfolg mit π0.7, dass die Kombination aus vielfältigen Daten und "steuerbaren" multimodalen Prompts der schnellste Weg zu einem wirklich universellen Roboter sein könnte.
Die "Cloud-Brain"-Strategie und die "Kambrische Explosion"
In einer parallelen Diskussion mit Y Combinator erläuterte Pi-Mitbegründer Quan Vuong eine strategische Verschiebung in der Bereitstellung dieser Modelle. Um die hohen Materialkosten (BOM), die die Branche plagen, zu bekämpfen, hostet Pi seine Modelle in der Cloud statt direkt auf den Geräten.
Pipelining für Echtzeitsteuerung
Um die Latenzprobleme zu lösen, die mit Cloud-basierter Robotik einhergehen, verwendet Pi eine Methode namens Echtzeit-Aktions-Chunking:
- Der Roboter fragt einen API-Endpunkt nach einem "Chunk" sequenzieller Aktionen (z.B. 100 Millisekunden Bewegung).
- Während der Ausführung des aktuellen Chunks berechnet und ruft der Roboter die nächste Sequenz vorab ab.
Algorithmisches Glätten sorgt dafür, dass der Übergang zwischen den Chunks konsistent bleibt. So kann "dumme" Hardware von massiver, Rechenzentrums-skalierter Intelligenz angetrieben werden.
Zahlen und Fakten zur Cloud-Strategie
- Kostenreduktion: Kampf gegen hohe "Bill of Materials" (BOM) Kosten.
- Echtzeitsteuerung: Real-time action chunking für geringe Latenz.
- Vorteil: "Dumme" Hardware kann von leistungsstarker Cloud-Intelligenz profitieren.
Ein Playbook für vertikale Robotik
Vuong schlug vor, dass die Branche eine "kambrische Explosion" erlebt, bei der die Eintrittsbarriere für Robotik-Startups zusammengebrochen ist. Durch die Entkopplung des "Gehirns" (Software) vom "Körper" (Hardware) können sich Gründer nun auf spezifische industrielle Arbeitsabläufe konzentrieren – wie die E-Commerce-Verpackungsaufgaben, die von Ultra erledigt werden – ohne einen proprietären Autonomie-Stack von Grund auf neu aufbauen zu müssen.
"Die Anschaffungskosten sind nicht mehr so hoch", bemerkte Vuong. "Es erfordert jemanden, der wirklich geschickt ist... der die Systemintegration durchführen und verstehen kann, was Kunden wollen."
Was kommt als Nächstes: Autonome Forschung
Während Pi weiter skaliert, erforscht das Team die Schaffung eines automatisierten robotischen Forschungsagenten. Dieser Agent würde multimodale Bewertungsdaten aufnehmen, identifizieren, warum ein Roboter versagt hat (z.B. "lag es an den Daten oder dem Greifer?"), und Hypothesen zur Verbesserung des Modells vorschlagen.
Obwohl die Branche Moravecs Paradoxon gegenüber weiterhin vorsichtig ist, deutet das Aufkommen kompositioneller Fähigkeiten in π0.7 darauf hin, dass die "dunkle Materie" der robotischen Intuition endlich in eine steuerbare, skalierbare Grundlage kodifiziert wird.





