Generalist AI hat mit der Vorstellung seines neuen Modells GEN-0 einen wichtigen Schritt in der Entwicklung von Robotern gemacht. Das Unternehmen behauptet, ein grundlegendes Problem in der Robotik gelöst zu haben: die Notwendigkeit riesiger Mengen an realen Daten. GEN-0 wurde auf über 270.000 Stunden realer Interaktionen trainiert.
Wichtige Erkenntnisse
- Generalist AI hat das Roboter-Modell GEN-0 vorgestellt.
- Das Modell wurde mit über 270.000 Stunden realer Daten trainiert.
- Das Unternehmen spricht von Skalierungsgesetzen für Robotik.
- Ein 'Intelligenzschwellenwert' bei 7 Milliarden Parametern wurde entdeckt.
- Die 'Harmonic Reasoning'-Architektur ermöglicht flüssige Aktionen.
Ein Durchbruch in der Robotik?
Generalist AI tritt mit GEN-0 in den Wettbewerb um ein „Grundlagenmodell für die physische Welt“ ein. Das Unternehmen behauptet, den größten Engpass der Branche – die Datenerfassung – durch schiere Größe gelöst zu haben. GEN-0 ist ein „verkörpertes Grundlagenmodell“, das nicht in Simulationen oder mit menschlichen Videos trainiert wurde. Stattdessen basiert es direkt auf „hochpräziser physischer Interaktion“ von Robotern.
Faktencheck
- 270.000 Stunden: Die Trainingsdaten von GEN-0 umfassen über 270.000 Stunden realer Manipulationen.
- 10.000 Stunden/Woche: Die Datenmenge wächst wöchentlich um weitere 10.000 Stunden.
- 7 Milliarden Parameter: Bei dieser Modellgröße wurde ein „Intelligenzschwellenwert“ festgestellt.
Die Menge der gesammelten Daten ist bemerkenswert. Mit mehr als 270.000 Stunden realer Manipulationsdaten stellt dies eine der größten Datensammlungen in der Robotik dar. Generalist AI setzt auf eine massive, „internetgroße“ Sammlung von Daten, die von Robotern bei der Interaktion mit der physischen Welt gesammelt wurden. Dies steht im Gegensatz zu anderen Strategien, wie dem Training mit menschlichen Videos oder großen Weltsimulatoren.
Skalierungsgesetze und Intelligenzschwellen
Laut Generalist AI hat diese hohe Datenmenge zwei wichtige Erkenntnisse ermöglicht. Diese Erkenntnisse waren der Branche bisher verborgen geblieben. Erstens behauptet das Unternehmen, vorhersagbare „Skalierungsgesetze“ für die Robotik etabliert zu haben. Diese ähneln denen, die bei großen Sprachmodellen (LLMs) beobachtet wurden.
Hintergrund: Skalierungsgesetze
Skalierungsgesetze bedeuten, dass die Leistung eines Modells konsistent und vorhersehbar besser wird, je mehr Trainingsdaten und Rechenleistung hinzugefügt werden. Dies bietet einen klaren Weg zur Weiterentwicklung von KI-Modellen und rechtfertigt den Aufwand für größere Modelle.
Zweitens berichtet Generalist AI von der Entdeckung eines „Intelligenzschwellenwerts“ oder „Phasenübergangs“ bei 7 Milliarden Parametern für seine Modelle. In ihren Experimenten hatten Modelle mit 1 Milliarde Parametern Schwierigkeiten, komplexe Daten aufzunehmen. Sie hörten auf, neue Informationen zu lernen. Modelle mit über 7 Milliarden Parametern konnten die Daten jedoch verinnerlichen und sich weiter verbessern. Sie passten sich neuen Aufgaben mit immer weniger Nachtraining an.
„Wir haben einen Intelligenzschwellenwert bei 7 Milliarden Parametern entdeckt, der es unseren Modellen ermöglicht, Daten zu verinnerlichen und sich kontinuierlich zu verbessern.“
Diese Erkenntnis spiegelt Moravec’ Paradox wider. Dieses Paradox besagt, dass physische Fähigkeiten, die Menschen mühelos finden, wie Geschicklichkeit, weit mehr Rechenkomplexität erfordern als abstraktes Denken.
'Harmonic Reasoning' für Echtzeit-Aktionen
Um solch große Modelle in der realen Welt einsetzen zu können, wo „die Physik nicht aufhört“, hat Generalist AI eine neue Architektur namens „Harmonic Reasoning“ entwickelt. Dieser Ansatz soll ein „harmonisches“ Zusammenspiel zwischen den kontinuierlichen Strömen des Sehens (Sensing) und des Handelns (Moving) schaffen.
Das Unternehmen behauptet, dass dies die Skalierung auf sehr große Modellgrößen ermöglicht. Dabei muss es sich nicht auf „System 1-System 2“-Architekturen verlassen. Diese trennen oft eine schnell agierende Richtlinie von einem langsameren, überlegteren „Denkmodell“. Die GEN-0-Architektur ist zudem „Cross-Embodiment“ konzipiert. Sie wurde bereits an Robotern mit 6, 7 und über 16 Freiheitsgraden getestet.
Roboter in der Praxis
- Kamera-Montage: Ein GEN-0-Modell demonstrierte die Montage eines Kamerasets. Es führte die gesamte Sequenz aus – vom Falten des Tabletts über das Auspacken der Kamera bis zum Verschließen des Kartons.
- Flüssige Bewegungen: Die Aufgabe wurde in einem einzigen, kontinuierlichen Strom von Aktionen ausgeführt.
- Vielseitigkeit: Die Architektur ist für verschiedene Robotertypen geeignet.
Die Ankündigung von Generalist AI ist eine Wette auf eine bestimmte Seite der Daten-Debatte in der Branche. Sie besagt, dass ein massiver, vielfältiger Datensatz realer Interaktionen der einzige Weg zu Mehrzweckrobotern ist. Durch die Behauptung, diese Daten in beispiellosem Umfang gesammelt und die Skalierungsgesetze gefunden zu haben, positioniert sich GEN-0 als erster Beweis dafür, dass der „physische KI“-Engpass gelöst werden kann.
Ausblick auf die Zukunft der Robotik
Die Entwicklung von GEN-0 könnte weitreichende Folgen für die Robotik haben. Wenn sich die Skalierungsgesetze bestätigen, bedeutet dies einen klaren Weg zu immer leistungsfähigeren Robotern. Die Fähigkeit, komplexe Aufgaben in der realen Welt zu meistern, ist entscheidend für den Einsatz von Robotern in Industrie, Logistik und sogar im Haushalt. Die kontinuierliche Sammlung von Daten und das Training immer größerer Modelle könnten Roboter hervorbringen, die sich an neue Umgebungen und Aufgaben schnell anpassen können.
Andere Unternehmen verfolgen zwar unterschiedliche Ansätze, doch die Strategie von Generalist AI, auf massive reale Daten zu setzen, könnte sich als entscheidender Vorteil erweisen. Die Fähigkeit von GEN-0, mit „Harmonic Reasoning“ in Echtzeit zu agieren, ist dabei ein Schlüsselelement. Dies könnte die Entwicklung von Robotern beschleunigen, die wirklich universell einsetzbar sind und nicht nur für spezifische, vorprogrammierte Aufgaben optimiert sind.





