Das Zürcher Startup Mimic Robotics hat die Architektur seines proprietären Video-Action-Modells (VAM) namens "mimic-video" quelloffen gemacht. Dieser Schritt soll die Entwicklung der sogenannten "Physikalischen KI" beschleunigen und die Robotik von traditionellen Vision-Language-Action (VLA)-Modellen wegbewegen, die laut Mimic durch ihre Abhängigkeit von statischen Internetdaten limitiert sind.
Wichtige Erkenntnisse
- Mimic Robotics veröffentlicht "mimic-video" als Open Source.
- Ziel ist die Beschleunigung der "Physikalischen KI"-Entwicklung.
- VAMs sollen 10-mal effizienter sein als traditionelle VLA-Modelle.
- Die Technologie ermöglicht Robotern das Erlernen komplexer Aufgaben mit weniger Daten.
- Zusammenarbeit mit Microsoft, ETH Zürich und UC Berkeley.
Ein Paradigmenwechsel in der Robotik
Mimic Robotics, eine Ausgründung der ETH Zürich, ist in den letzten Monaten durch eine strategische Partnerschaft mit Audi im Bereich der Montage und eine erfolgreiche Seed-Finanzierungsrunde von 16 Millionen US-Dollar aufgefallen. Mit der Veröffentlichung des technischen Rahmens für sein "Pixel-to-Action"-System setzt das Unternehmen auf geteilte Grundlagen, um die Fortschritte in der Robotik voranzutreiben.
Die zentrale These von Mimic ist, dass herkömmliche VLA-Modelle, die auf unzusammenhängenden Bild-Text-Paaren vortrainiert werden, "blind für physikalische Kausalität" sind. Im Gegensatz dazu nutzen VAMs vortrainierte Videobackbones, die bereits verstehen, wie sich Objekte bewegen, verformen und auf Kräfte reagieren.
Hintergrund: VLA vs. VAM
Traditionelle Vision-Language-Action (VLA)-Modelle lernen aus großen Mengen statischer Bilder und Textbeschreibungen. Dies macht es schwierig, dynamische Interaktionen und physikalische Gesetze zu erfassen. Video-Action-Modelle (VAMs) hingegen nutzen die reiche Informationsdichte von Videodaten, um Bewegungen, Deformationen und kausale Zusammenhänge direkt zu lernen.
Technische Grundlage und Effizienz
Das von Mimic veröffentlichte Framework integriert mehrere hochmoderne Komponenten in einer einheitlichen Pipeline. Ein generatives Backbone, das auf Cosmos-Predict2 von NVIDIA basiert, einem Open-Source-Latent-Diffusion-Transformer mit 2 Milliarden Parametern, ermöglicht es dem System, zukünftige visuelle Trajektorien zu "imaginieren".
Ein leichtgewichtiger Aktionsdecoder extrahiert Zwischenrepräsentationen aus dem Videomodell, um niedrigstufige Motorbefehle zu erzeugen, anstatt bei jedem Schritt ein vollständiges Video zu generieren. Sowohl die Video- als auch die Aktionskomponenten verwenden Conditional Flow Matching (CFM), ein Framework, das laut Mimic eine effizientere Modellierung komplexer Aktionsverteilungen ermöglicht.
"Unsere Architektur ermöglicht es Robotern, komplexe industrielle und geschickte Aufgaben mit einer zehnfach höheren Sample-Effizienz zu erlernen, indem sie vortrainierte Videobackbones nutzt."
Deutlich weniger Trainingsdaten
Einer der bemerkenswertesten Aspekte der Veröffentlichung ist die behauptete zehnfache Verbesserung der Sample-Effizienz im Vergleich zu traditionellen VLA-Modellen. Mimic's Benchmarks zeigen, dass der mimic-video Aktionsdecoder Spitzen-Erfolgsraten erreicht, während er nur 10% der Trainingsdaten benötigt, die von VLM-konditionierten Pendants verwendet werden.
Faktencheck: Datenbedarf
- Mimic-video: Etwa zwei Stunden aufgabenspezifischer Daten für komplexe, beidhändige Aufgaben.
- Traditionelle VLM-Modelle: Oft über 500.000 Stunden physischer Interaktion für ähnliche Aufgaben.
Diese Effizienz wurde in realen Versuchen demonstriert, bei denen das System geschickte, beidhändige Aufgaben – wie das Sortieren von Paketen und das Verstauen von Klebeband – mit nur etwa zwei Stunden aufgabenspezifischer Daten meisterte. Dies steht im krassen Gegensatz zu den massiven Datensätzen, die typischerweise von Firmen wie Generalist AI benötigt werden, die über 500.000 Stunden physischer Interaktion nutzen.
"System 1" für geschickte Manipulation
Die Open-Source-Veröffentlichung von Mimic positioniert die Technologie als eine schnelle, reaktive "System 1"-Schicht. Durch das frühe Beenden des Video-Denoising-Prozesses – eine Strategie namens partielles Denoising – kann das Modell semantische Merkmale aus "verrauschten" visuellen Plänen extrahieren, ohne die hohen Rechenkosten einer vollständigen Pixelrekonstruktion.
Dieser Ansatz ermöglicht Berichten zufolge eine Echtzeit-Inferenz, da ein einziger Durchlauf des Videobackbones ausreicht, um eine Reihe von Aktionen zu generieren. Dieser Fokus auf Hochfrequenzsteuerung spiegelt die jüngsten Bemühungen von Physical Intelligence wider, die "letzte Millimeter"-Präzision zu erreichen, obwohl Mimic's Framework stärker auf generative Videoprioren als auf submillimetergenaues Reinforcement Learning setzt.
Zusammenarbeit und Zukunftsperspektiven
Mimic Robotics hat bei der Entwicklung von 'mimic-video' eng mit Forschern von Microsoft, der ETH Zürich und der UC Berkeley zusammengearbeitet. Diese Kooperation unterstreicht den gemeinschaftlichen Ansatz, den das Unternehmen verfolgt, um die Herausforderungen der Physikalischen KI zu meistern.
Die Entscheidung, 'mimic-video' quelloffen zu machen, ist ein klares Bekenntnis dazu, dass die Systeme, die die nächste Ära der Robotik definieren werden, wahrscheinlich auf gemeinsamen Grundlagen aufbauen werden. Während sich die Industrie der zweiten Phase des industriellen Einsatzes nähert, wird der Erfolg dieser videozentrierten Modelle an ihrer Fähigkeit gemessen werden, die "Reaktivitätslücke" zu schließen und die von globalen Produktionslinien geforderten 99,9% Betriebszeit aufrechtzuerhalten.
Die Bedeutung von Open Source
Die Bereitstellung von Software als Open Source kann die Innovation in einem Bereich erheblich beschleunigen. Indem Mimic seine Kernarchitektur teilt, ermöglicht es anderen Forschern und Entwicklern, darauf aufzubauen, neue Anwendungen zu erforschen und die Technologie schneller zu verbessern. Dies fördert eine kollaborative Umgebung, die für komplexe Felder wie die Robotik entscheidend ist.
Die Vision von Mimic Robotics ist es, Roboter zu schaffen, die die physikalische Welt intuitiv verstehen und mit ihr interagieren können, ähnlich wie Menschen. Mit der Open-Source-Veröffentlichung von 'mimic-video' ist ein wichtiger Schritt in diese Richtung getan worden.





