Mimic Robotics: Open Source für Video-Action-Modelle

Das Zürcher Startup Mimic Robotics hat die Architektur seines proprietären Video-Action-Modells (VAM) namens "mimic-video" quelloffen gemacht. Dieser Schritt soll die Entwicklung der sogenannten "Physikalischen KI" beschleunigen und die Robotik von traditionellen Vision-Language-Action (VLA)-Modellen wegbewegen, die laut Mimic durch ihre Abhängigkeit von statischen Internetdaten limitiert sind.

Wichtige Erkenntnisse

Mimic Robotics veröffentlicht "mimic-video" als Open Source.
Ziel ist die Beschleunigung der "Physikalischen KI"-Entwicklung.
VAMs sollen 10-mal effizienter sein als traditionelle VLA-Modelle.
Die Technologie ermöglicht Robotern das Erlernen komplexer Aufgaben mit weniger Daten.
Zusammenarbeit mit Microsoft, ETH Zürich und UC Berkeley.

Ein Paradigmenwechsel in der Robotik

Mimic Robotics, eine Ausgründung der ETH Zürich, ist in den letzten Monaten durch eine strategische Partnerschaft mit Audi im Bereich der Montage und eine erfolgreiche Seed-Finanzierungsrunde von 16 Millionen US-Dollar aufgefallen. Mit der Veröffentlichung des technischen Rahmens für sein "Pixel-to-Action"-System setzt das Unternehmen auf geteilte Grundlagen, um die Fortschritte in der Robotik voranzutreiben.

Die zentrale These von Mimic ist, dass herkömmliche VLA-Modelle, die auf unzusammenhängenden Bild-Text-Paaren vortrainiert werden, "blind für physikalische Kausalität" sind. Im Gegensatz dazu nutzen VAMs vortrainierte Videobackbones, die bereits verstehen, wie sich Objekte bewegen, verformen und auf Kräfte reagieren.

Hintergrund: VLA vs. VAM

Traditionelle Vision-Language-Action (VLA)-Modelle lernen aus großen Mengen statischer Bilder und Textbeschreibungen. Dies macht es schwierig, dynamische Interaktionen und physikalische Gesetze zu erfassen. Video-Action-Modelle (VAMs) hingegen nutzen die reiche Informationsdichte von Videodaten, um Bewegungen, Deformationen und kausale Zusammenhänge direkt zu lernen.

Technische Grundlage und Effizienz

Das von Mimic veröffentlichte Framework integriert mehrere hochmoderne Komponenten in einer einheitlichen Pipeline. Ein generatives Backbone, das auf Cosmos-Predict2 von NVIDIA basiert, einem Open-Source-Latent-Diffusion-Transformer mit 2 Milliarden Parametern, ermöglicht es dem System, zukünftige visuelle Trajektorien zu "imaginieren".

Ein leichtgewichtiger Aktionsdecoder extrahiert Zwischenrepräsentationen aus dem Videomodell, um niedrigstufige Motorbefehle zu erzeugen, anstatt bei jedem Schritt ein vollständiges Video zu generieren. Sowohl die Video- als auch die Aktionskomponenten verwenden Conditional Flow Matching (CFM), ein Framework, das laut Mimic eine effizientere Modellierung komplexer Aktionsverteilungen ermöglicht.

"Unsere Architektur ermöglicht es Robotern, komplexe industrielle und geschickte Aufgaben mit einer zehnfach höheren Sample-Effizienz zu erlernen, indem sie vortrainierte Videobackbones nutzt."

Deutlich weniger Trainingsdaten

Einer der bemerkenswertesten Aspekte der Veröffentlichung ist die behauptete zehnfache Verbesserung der Sample-Effizienz im Vergleich zu traditionellen VLA-Modellen. Mimic's Benchmarks zeigen, dass der mimic-video Aktionsdecoder Spitzen-Erfolgsraten erreicht, während er nur 10% der Trainingsdaten benötigt, die von VLM-konditionierten Pendants verwendet werden.

Faktencheck: Datenbedarf

Mimic-video: Etwa zwei Stunden aufgabenspezifischer Daten für komplexe, beidhändige Aufgaben.
Traditionelle VLM-Modelle: Oft über 500.000 Stunden physischer Interaktion für ähnliche Aufgaben.

Diese Effizienz wurde in realen Versuchen demonstriert, bei denen das System geschickte, beidhändige Aufgaben – wie das Sortieren von Paketen und das Verstauen von Klebeband – mit nur etwa zwei Stunden aufgabenspezifischer Daten meisterte. Dies steht im krassen Gegensatz zu den massiven Datensätzen, die typischerweise von Firmen wie Generalist AI benötigt werden, die über 500.000 Stunden physischer Interaktion nutzen.

"System 1" für geschickte Manipulation

Die Open-Source-Veröffentlichung von Mimic positioniert die Technologie als eine schnelle, reaktive "System 1"-Schicht. Durch das frühe Beenden des Video-Denoising-Prozesses – eine Strategie namens partielles Denoising – kann das Modell semantische Merkmale aus "verrauschten" visuellen Plänen extrahieren, ohne die hohen Rechenkosten einer vollständigen Pixelrekonstruktion.

Dieser Ansatz ermöglicht Berichten zufolge eine Echtzeit-Inferenz, da ein einziger Durchlauf des Videobackbones ausreicht, um eine Reihe von Aktionen zu generieren. Dieser Fokus auf Hochfrequenzsteuerung spiegelt die jüngsten Bemühungen von Physical Intelligence wider, die "letzte Millimeter"-Präzision zu erreichen, obwohl Mimic's Framework stärker auf generative Videoprioren als auf submillimetergenaues Reinforcement Learning setzt.

Zusammenarbeit und Zukunftsperspektiven

Mimic Robotics hat bei der Entwicklung von 'mimic-video' eng mit Forschern von Microsoft, der ETH Zürich und der UC Berkeley zusammengearbeitet. Diese Kooperation unterstreicht den gemeinschaftlichen Ansatz, den das Unternehmen verfolgt, um die Herausforderungen der Physikalischen KI zu meistern.

Die Entscheidung, 'mimic-video' quelloffen zu machen, ist ein klares Bekenntnis dazu, dass die Systeme, die die nächste Ära der Robotik definieren werden, wahrscheinlich auf gemeinsamen Grundlagen aufbauen werden. Während sich die Industrie der zweiten Phase des industriellen Einsatzes nähert, wird der Erfolg dieser videozentrierten Modelle an ihrer Fähigkeit gemessen werden, die "Reaktivitätslücke" zu schließen und die von globalen Produktionslinien geforderten 99,9% Betriebszeit aufrechtzuerhalten.

Die Bedeutung von Open Source

Die Bereitstellung von Software als Open Source kann die Innovation in einem Bereich erheblich beschleunigen. Indem Mimic seine Kernarchitektur teilt, ermöglicht es anderen Forschern und Entwicklern, darauf aufzubauen, neue Anwendungen zu erforschen und die Technologie schneller zu verbessern. Dies fördert eine kollaborative Umgebung, die für komplexe Felder wie die Robotik entscheidend ist.

Die Vision von Mimic Robotics ist es, Roboter zu schaffen, die die physikalische Welt intuitiv verstehen und mit ihr interagieren können, ähnlich wie Menschen. Mit der Open-Source-Veröffentlichung von 'mimic-video' ist ein wichtiger Schritt in diese Richtung getan worden.

Wichtige Erkenntnisse

Mimic Robotics veröffentlicht "mimic-video" als Open Source.
Ziel ist die Beschleunigung der "Physikalischen KI"-Entwicklung.
VAMs sollen 10-mal effizienter sein als traditionelle VLA-Modelle.
Die Technologie ermöglicht Robotern das Erlernen komplexer Aufgaben mit weniger Daten.
Zusammenarbeit mit Microsoft, ETH Zürich und UC Berkeley.

Ein Paradigmenwechsel in der Robotik

Hintergrund: VLA vs. VAM

Technische Grundlage und Effizienz

"Unsere Architektur ermöglicht es Robotern, komplexe industrielle und geschickte Aufgaben mit einer zehnfach höheren Sample-Effizienz zu erlernen, indem sie vortrainierte Videobackbones nutzt."

Deutlich weniger Trainingsdaten

Faktencheck: Datenbedarf

Mimic-video: Etwa zwei Stunden aufgabenspezifischer Daten für komplexe, beidhändige Aufgaben.
Traditionelle VLM-Modelle: Oft über 500.000 Stunden physischer Interaktion für ähnliche Aufgaben.

Wichtige Erkenntnisse

Ein Paradigmenwechsel in der Robotik

Hintergrund: VLA vs. VAM

Technische Grundlage und Effizienz

Deutlich weniger Trainingsdaten

Faktencheck: Datenbedarf

"System 1" für geschickte Manipulation

Zusammenarbeit und Zukunftsperspektiven

Die Bedeutung von Open Source

Ähnliche Artikel

Wuji Tech präsentiert Wuji Hand 2 mit Präzisions-Upgrade

Lumos Robotics startet Project EDGE mit 100 kostenlosen Humanoiden

Neuer humanoider Roboter für KI-Forschung vorgestellt

OpenAI startet eigene Robotik-Hardware-Entwicklung

Wichtige Erkenntnisse

Ein Paradigmenwechsel in der Robotik

Hintergrund: VLA vs. VAM

Technische Grundlage und Effizienz

Deutlich weniger Trainingsdaten

Faktencheck: Datenbedarf

"System 1" für geschickte Manipulation

Zusammenarbeit und Zukunftsperspektiven

Die Bedeutung von Open Source

Ähnliche Artikel

Wuji Tech präsentiert Wuji Hand 2 mit Präzisions-Upgrade

Lumos Robotics startet Project EDGE mit 100 kostenlosen Humanoiden

Neuer humanoider Roboter für KI-Forschung vorgestellt

OpenAI startet eigene Robotik-Hardware-Entwicklung