Google DeepMind, ein führendes Unternehmen im Bereich der Künstlichen Intelligenz, verschiebt seinen Fokus. CEO Demis Hassabis betont, dass der Weg zur Allgemeinen Künstlichen Intelligenz (AGI) nicht primär über Sprachmodelle, sondern über das Verständnis und die Simulation der physischen Welt führt. Die Zukunft der KI liegt in sogenannten Weltmodellen und endlosen Trainingsschleifen.
Wichtige Erkenntnisse
- DeepMind priorisiert Weltmodelle über reine Sprachmodelle für AGI.
- Physisches Verständnis ist für Robotik entscheidender als Text.
- Genie und SIMA bilden eine "unendliche Trainingsschleife" für Agenten.
- Halluzinationen können in Simulationen zu Kreativität führen.
- Die soziale Umwälzung durch AGI könnte die industrielle Revolution übertreffen.
Grenzen der Sprache in der physischen Welt
Sprachmodelle wie Gemini 3 haben beeindruckende Fortschritte erzielt. Dennoch stoßen sie an Grenzen, sobald es um die Interaktion mit der realen, physischen Welt geht. Hassabis erklärt, dass räumliche Dynamiken, physikalische Zusammenhänge und mechanische Abläufe schwer in Worten zu fassen sind. Ein System, das die physische Welt verstehen soll, muss mehr können, als nur den nächsten Textbaustein vorherzusagen.
DeepMind konzentriert sich daher auf Weltmodelle. Diese KI-Systeme sollen den nächsten Zustand einer physischen Umgebung vorhersagen. Sie sollen eine Art "intuitive Physik" entwickeln. Das bedeutet, sie verstehen, wie sich Objekte bewegen, wie Flüssigkeiten fließen und wie Mechanik funktioniert – ganz ohne verbale Anweisungen.
"Es gibt viel über die räumliche Dynamik der Welt – räumliches Bewusstsein und den physischen Kontext, in dem wir uns befinden und wie das mechanisch funktioniert – das schwer in Worten zu beschreiben ist.", so Demis Hassabis.
Faktencheck
Weltmodelle sind darauf ausgelegt, die "nächste" physische Situation zu prognostizieren, ähnlich wie Sprachmodelle das "nächste" Wort vorhersagen. Dies ist ein fundamentaler Unterschied im Ansatz zur KI-Entwicklung.
Die unendliche Trainingsschleife: Genie und SIMA
Eine zentrale Strategie von DeepMind ist die Verknüpfung zweier Projekte: Genie und SIMA. Genie ist ein interaktiver Weltengenerator, während SIMA für simulierte Agenten steht. Gemeinsam bilden sie eine "unendliche Trainingsschleife". Diese Schleife könnte das Datenproblem in der Robotik lösen.
Genie als Lehrer, SIMA als Schüler
- Genie als 'Lehrer': Genie kann realistische, interaktive virtuelle Welten in Echtzeit erzeugen. Diese Welten dienen als Trainingsumgebung.
- SIMA als 'Schüler': KI-Agenten werden in diese virtuellen Welten eingesetzt. Dort erhalten sie Millionen von Aufgaben. Ihre Neugier treibt sie an, die Umgebungen zu erkunden und Probleme zu lösen.
Der Vorteil dieser Schleife ist, dass Genie jede gewünschte Umgebung erschaffen kann. So kann ein Agent Millionen von Aufgaben üben – zum Beispiel einen Reißverschluss öffnen oder einen Raum navigieren – in einem virtuellen "Trainingslager", bevor er jemals einen physischen Roboter steuert. Laut Hassabis kann Genie "im Grunde alles erstellen, was der SIMA-Agent lernen möchte".
Hintergrundinformation
Diese Methode ebnet den Weg zu einer "Proto-AGI". Dabei lernt das System die grundlegenden Bewegungen der Welt in einer Simulation. Später könnten diese Fähigkeiten auf Hardware wie den Apptronik Apollo übertragen werden.
Von Halluzinationen zu physikalischer Präzision
Demis Hassabis sprach auch über den Übergang von "Halluzinationen" zu "geerdeter Physik". Was bei Chatbots als Fehler gilt, kann in der kreativen Exploration nützlich sein. Für physische KI sind die Anforderungen jedoch höher.
Aktuelle Videomodelle wie Veo wirken realistisch, sind aber noch nicht "physikgerecht". DeepMind entwickelt daher Physik-Benchmarks. Dabei werden einfache Laborexperimente – wie Pendel oder rollende Kugeln – in der Simulation wiederholt. Das Ziel ist, dass die Weltmodelle die Newtonschen Bewegungsgesetze zu 100 Prozent genau einhalten. Dies ist entscheidend für die Zuverlässigkeit von Robotern in der realen Welt.
Ein Jahrzehnt des radikalen Wandels
Hassabis prognostiziert, dass agentenbasierte Systeme in den nächsten zwei bis drei Jahren "wirklich beeindruckend und zuverlässig" werden. Er warnt, dass die gesellschaftlichen Veränderungen durch AGI "zehnmal größer sein werden als die Industrielle Revolution". Dieser Wandel wird sich wahrscheinlich über ein Jahrzehnt erstrecken, nicht über ein Jahrhundert.
Durch den Fokus auf Weltmodelle als "Wurzelknoten" für die Robotik positioniert sich DeepMind als Architekt eines "universellen Assistenten". Dieser Assistent soll die physische Welt genauso gut oder sogar besser als Menschen verstehen. Die nächsten Jahre versprechen eine rasante Entwicklung in diesem Bereich.
Die Zukunft der KI
Hassabis sieht in agentenbasierten Systemen das Potenzial, in den nächsten 2-3 Jahren erhebliche Fortschritte zu machen, die die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern werden.





