Generalist AI hat neue technische Details zur Entwicklung ihrer Robotik-KI-Modelle veröffentlicht. Die Firma betont, dass nicht nur die Menge der Trainingsdaten zählt, sondern vor allem deren Qualität und Vielfalt. Diese Erkenntnisse könnten die Zukunft der Robotik maßgeblich beeinflussen und die Diskussion in der Branche neu ausrichten.
Wichtige Erkenntnisse
- Datenqualität und -vielfalt sind wichtiger als reine Datenmenge.
- Generalist AI nutzt spezielle Metriken wie Reverse KL-Divergenz zur Bewertung von Daten.
- Die Wahl der Datenmischung beeinflusst die Effektivität von Nachbearbeitungsmethoden wie Supervised Fine-Tuning (SFT) oder Reinforcement Learning (RL).
- Die Infrastruktur von Generalist AI kann täglich immense Mengen an realen Manipulationsdaten verarbeiten.
- Modelle ab 7 Milliarden Parametern zeigen eine kontinuierliche Verbesserung mit mehr Daten.
Jenseits der reinen Datenmenge: Qualität zählt
Als Generalist AI Anfang November das Modell GEN-0 vorstellte, standen 270.000 Stunden realer physikalischer Interaktionsdaten im Vordergrund. Dies schien ein klarer Beweis dafür zu sein, dass schiere Datenmengen das Hauptproblem in der Robotik lösen könnten. Doch eine neue technische Veröffentlichung von Generalist AI zeigt nun ein differenzierteres Bild.
Die Firma gibt Einblicke in ihre „Wissenschaft des Vortrainings“. Sie betont, dass die spezifische Mischung der Daten – gesammelt von verschiedenen Partnern und in unterschiedlichen Umgebungen – der entscheidende Faktor für die Intelligenz der Modelle ist. Dies stellt die einfache Annahme „mehr ist besser“ infrage.
Faktencheck
- Generalist AI hat durch umfangreiche Ablationsstudien herausgefunden, dass „Datenqualität und -vielfalt wichtiger sind als reine Datenmenge“.
- Das Unternehmen verarbeitet täglich 6,85 Jahre an realer Manipulationserfahrung.
Das „Universum der Manipulation“ kartieren
Um die Vielfalt der Daten zu verwalten, hat Generalist AI ein internes Suchwerkzeug entwickelt. Dieses Tool organisiert Millionen von Roboteraktionen in einer durchsuchbaren t-SNE-Karte. Ingenieure können das Dataset mit natürlicher Sprache abfragen, zum Beispiel nach „Kartoffeln schälen“, um semantisch ähnliche physikalische Verhaltensweisen zu finden.
Dieses Vorgehen stellt sicher, dass Roboter nicht nur eine Aufgabe millionenfach lernen, sondern die gesamte Bandbreite menschlicher Aktivitäten abdecken. Es geht darum, ein breites Verständnis von Manipulation zu entwickeln, anstatt sich auf wenige, eng definierte Aufgaben zu beschränken.
Metriken für Bewegung: MSE und Reverse KL
Ein zentraler technischer Aspekt der Veröffentlichung ist die Einführung spezifischer Metriken zur Bewertung von Datenmischungen: der mittlere quadratische Fehler (MSE) und die Reverse Kullback-Leibler (KL)-Divergenz. Der MSE ist eine Standardmessgröße für Vorhersagefehler, die zeigt, wie genau die geplante Roboteraktion der Expertenaktion entspricht.
Generalist AI argumentiert, dass MSE allein nicht ausreicht. Sie nutzen die Reverse KL-Divergenz, um das sogenannte „Mode-Seeking-Verhalten“ zu messen. Dies beschreibt, wie gut ein Modell die verschiedenen „Modi“ oder Stile zur Lösung einer Aufgabe erfasst, ohne sie zu einem unscharfen, ineffektiven Mittelwert zu vermischen.
„Modelle mit niedrigem Vorhersagefehler und niedriger Reverse KL-Divergenz sind hochpräzise und ahmen die Trainingsdaten genau nach. Diese eignen sich am besten für Supervised Fine-Tuning (SFT).“
Überraschende Erkenntnisse für Reinforcement Learning
Interessanterweise zeigen Modelle mit hohem Vorhersagefehler, aber niedriger Reverse KL-Divergenz ein „verteilungsmultimodales“ Verhalten. Diese Modelle scheitern zwar daran, die exakte nächste Aktion vorherzusagen, bewahren aber eine größere Vielfalt potenzieller Strategien. Laut Generalist AI sind sie daher besser für das Nach-Training mittels Reinforcement Learning (RL) geeignet.
Diese Erkenntnis ist entscheidend für die Debatte zwischen reinem Imitationslernen und Reinforcement Learning in der Branche. Die Daten von Generalist AI legen nahe, dass die Datenmischung im Vortraining bestimmt, welche Nach-Trainingsmethode am effektivsten sein wird.
Hintergrund: Moravec's Paradox
Moravec's Paradox besagt, dass Aufgaben, die für Menschen leicht sind (wie Gehen oder Sehen), für Computer extrem schwierig sind, während Aufgaben, die für Menschen schwierig sind (wie Schachspielen), für Computer relativ einfach sein können. Generalist AI's Forschung deutet darauf hin, dass physischer gesunder Menschenverstand eine minimale Komplexitätsschwelle erfordert, was Moravec's Paradox in der Robotik bestätigt.
Infrastruktur im „Internet-Maßstab“
Die Verarbeitung dieser riesigen Datenmengen erfordert eine leistungsstarke Infrastruktur. Generalist AI hat offengelegt, dass ihre Trainingspipeline benutzerdefinierte Hardware und Datenlader verwendet. Diese sind in der Lage, Daten auf der Ebene von 10.000 Rechenkernen zu verarbeiten.
Das System kann Berichten zufolge täglich 6,85 Jahre an realer Manipulationserfahrung aufnehmen. Um diese Mengen zu bewältigen, hat das Unternehmen Multi-Cloud-Verträge ausgehandelt und dedizierte Internetleitungen gelegt. Diese unterstützen die Upload-Bandbreite von Tausenden von Datenerfassungsstandorten weltweit.
Skalierungsgesetze und „Ossifikation“
Die neuen Informationen bestätigen frühere Behauptungen von Generalist AI bezüglich Skalierungsgesetzen und der „Intelligenzschwelle“. Visualisierungen zeigen das Phänomen der „Ossifikation“, bei dem Modellgewichte aufhören, neue Informationen aufzunehmen, und die Leistung unter Datenüberlastung stagniert oder sich verschlechtert.
- 1-Milliarde-Parameter-Modelle: Zeigen eine klare „Ossifikation“. Die Leistung stagniert oder verschlechtert sich bei zu vielen Daten.
- 7-Milliarden-Parameter-Modelle und größer: Erleben einen „Phasenübergang“. Sie verbessern sich weiterhin vorhersehbar, wenn mehr Rechenleistung und Daten hinzugefügt werden.
Diese Daten stützen die Hypothese von Generalist AI, dass physischer gesunder Menschenverstand eine minimale Komplexitätsschwelle erfordert. Die Vorteile des groß angelegten robotischen Vortrainings beginnen sich erst jetzt zu zeigen.
Mit dieser Veröffentlichung verschiebt Generalist AI die Debatte von der Frage, wie viele Daten benötigt werden, hin zu der Frage, welche Art von Daten wichtig ist. Während Konkurrenten wie Figure und Tesla ihre eigenen Datensätze aufbauen, setzt Generalist AI mit dieser detaillierten Aufschlüsselung der „Datenmischungen“ einen neuen technischen Standard für Transparenz im Bereich der verkörperten KI.





