Sharpa Robotics hat einen bedeutenden Fortschritt in der Robotik erzielt. Das Unternehmen demonstrierte einen autonomen Roboter, der in der Lage ist, einen Apfel mit zwei Händen zu schälen. Diese Leistung markiert einen Meilenstein für die bimanuelle Koordination und taktile Wahrnehmung bei Robotern. Es zeigt, wie weit die Entwicklung von Vision-Language-Action (VLA)-Modellen gekommen ist.
Wichtige Erkenntnisse
- Sharpa Robotics hat einen Roboter entwickelt, der einen Apfel autonom mit zwei Händen schälen kann.
- Die neue KI-Architektur MoDE-VLA ermöglicht bimanuelle Koordination und präzise taktile Rückmeldung.
- Ein „IMCopilot“-System wurde zur Datenerfassung eingesetzt, das menschliche und KI-Steuerung kombiniert.
- Die Erfolgsrate beim Apfelschälen erreichte in Tests 30%, die Schäl-Abschlussquote 73%.
- Dieser Durchbruch ebnet den Weg für den Einsatz von Humanoiden in häuslichen Umgebungen.
Der "Endgegner" Apfelschälen für Roboter
Für Menschen ist das Schälen eines Apfels eine einfache Aufgabe. Für einen Roboter stellt es jedoch eine enorme Herausforderung dar. Es erfordert, dass eine Hand den Apfel stabil hält und dreht, während die andere Hand eine Klinge mit präziser Kraft führt. Gleichzeitig muss der Roboter ständig taktiles Feedback verarbeiten, um zu verhindern, dass der Apfel rutscht oder die Klinge zu tief eindringt. Sharpa Robotics hat nun Forschungsergebnisse veröffentlicht, die zeigen, wie sie diese Lücke geschlossen haben.
Das Unternehmen kombiniert eine neue KI-Architektur namens MoDE-VLA mit einem „Copilot“-System für geteilte Autonomie. Dies ermöglichte die erste autonome, dual-dexteröse Apfelschälsequenz. Dieser Fortschritt ist besonders wichtig für VLA-Modelle, die bisher auf einfache Aufgaben mit weniger komplexen Greifern beschränkt waren.
Faktencheck
Der SharpaNorth Roboter besitzt 63 Freiheitsgrade. Dies ist eine außergewöhnlich hohe Anzahl, die menschliche Handbewegungen nachahmt. Zwei SharpaWave-Hände sind dabei im Einsatz.
Datenengpass gelöst mit "IMCopilot"
Die größte Hürde beim Training von Robotern für menschenähnliche Manipulation ist die Datenerfassung. Während Menschen eine einfache Roboterhand leicht fernsteuern können, ist die Kontrolle der 63 Freiheitsgrade des SharpaNorth-Roboters selbst für Experten kognitiv überwältigend. Um dieses Problem zu lösen, entwickelte Sharpa das IMCopilot-System (In-hand Manipulation Copilot).
Während der Datenerfassung arbeitet das System im Modus der geteilten Autonomie. Ein menschlicher Bediener steuert die groben Armbewegungen des Roboters über ein Exoskelett. Die feine Rotation innerhalb der Hand delegiert er über ein Fußpedal an die KI. Dieser hybride Ansatz ermöglichte es Sharpa, hochwertige Demonstrationen zu sammeln, die mit traditioneller Fernsteuerung unmöglich wären.
"Das IMCopilot-System ist entscheidend, um die Lücke zwischen menschlicher Intuition und robotergesteuerter Präzision zu schließen. Es ermöglicht uns, Daten zu sammeln, die für komplexe Aufgaben unerlässlich sind."
Von Hardware zu Software-Intelligenz
Diese Entwicklung markiert eine wichtige Veränderung. Sharpa begann letztes Jahr mit dem Versand der Hardware. Nun verschiebt sich der Fokus von den reinen mechanischen Spezifikationen hin zur Software-Intelligenz, die diese Systeme antreibt. Die Fähigkeit, solche komplexen Daten zu verarbeiten und zu nutzen, ist ein entscheidender Schritt nach vorn.
Hintergrundinformationen
VLA-Modelle (Vision-Language-Action) sind KI-Modelle, die visuelle Informationen, Sprachbefehle und physische Aktionen miteinander verbinden. Sie ermöglichen Robotern, ihre Umgebung zu verstehen und Aufgaben auf Basis von Anweisungen auszuführen. Bisher waren sie oft auf weniger anspruchsvolle Aufgaben beschränkt.
MoDE-VLA: Eine Mischung aus Spezialisten
Nach der Datenerfassung steuert das MoDE-VLA-System (Mixture-of-Dexterous-Experts VLA) den Roboter. Herkömmliche VLA-Modelle haben oft Schwierigkeiten, wenn Kraft- und taktile Daten einfach an visuelle Eingaben angehängt werden. Diese Modalitäten haben unterschiedliche Zeitskalen und physikalische Bedeutungen. Sharpa löste dies mit einem speziellen „Pfad“ für Berührungsdaten.
Die Architektur nutzt Sparse MoE Routing. Dies ist ein Team von „Spezialisten“-Neuronalen Netzen, die je nach Aufgabenphase aktiviert werden. Zum Beispiel gibt es einen „Kontakt-Anfangs“-Experten für den Moment, in dem das Messer die Haut berührt. Zudem kommt Residual Injection zum Einsatz. Hierbei werden kontaktbewusste Korrekturen in die Bewegungen des Roboters injiziert, ohne das allgemeine Wissen zu überschreiben, das das Modell während des Vortrainings erworben hat. Dies ermöglicht es dem Roboter, die „Fühlen durch Sehen“-Fähigkeiten der SharpaWave-Hand zu nutzen. Diese Hand verwendet interne Kameras, um kleinste Verformungen der Fingerspitzen zu erkennen.
Leistungssteigerung bei komplexen Aufgaben
In Tests über vier kontaktintensive Aufgaben – Apfelschälen, Schlauch-Neuordnung, Zahnradmontage und Ladegerät-Anschluss – zeigte MoDE-VLA eine durchschnittliche Erfolgsrate von 34%. Dies verdoppelte die Leistung des Basismodells deutlich.
- Apfelschälen: Baseline 0%, MoDE-VLA 30%
- Zahnradmontage: Baseline 40%, MoDE-VLA 60%
- Schlauch-Neuordnung: Baseline 15%, MoDE-VLA 30%
- Ladegerät-Anschluss: Baseline 5%, MoDE-VLA 15%
Obwohl eine Erfolgsrate von 30% beim Apfelschälen noch Raum für Verbesserungen lässt, erreichte die „Schäl-Abschlussquote“ 73%. Dies deutet darauf hin, dass der Roboter zu anhaltenden, komplexen Sequenzen fähig ist, auch wenn er nicht jedes Mal das Ziel erreicht. Die Präzision der in-Hand-Manipulation ist beeindruckend: MoDE-VLA ermöglicht es dem Roboter, die taktil geführte Apfelrotation mit der linken Hand zu koordinieren, während die rechte Hand einen visionsgeführten Schälvorgang ausführt.
Der Weg nach vorn für humanoide Robotik
Die Forschung von Sharpa deutet darauf hin, dass die Zukunft der humanoiden Robotik in einer Hierarchie liegt. Hochrangige „Planung“ wird von großen Vision-Language-Modellen übernommen. Niedrigrangige „Reflexe“ werden von reaktiven, RL-trainierten Experten gesteuert. Diese Kombination könnte die Entwicklung von Robotern, die in komplexen Umgebungen agieren können, erheblich beschleunigen.
Die Fähigkeit, empfindliche, rutschige und unregelmäßige Objekte wie Obst zu handhaben, bleibt ein entscheidender Maßstab. Besonders wichtig ist dies, da die Industrie immer näher an den Einsatz von Humanoiden in häuslichen Umgebungen heranrückt. Sharpa wird das SharpaNorth-System auf der NVIDIA GTC am Stand #1838 in Halle 3 vorstellen. Dies bietet Interessenten die Möglichkeit, die Hardware persönlich zu erleben.





