KI-Experiment: So sieht die Welt aus, wenn die aktuellen Modelle regieren würden

Das Projekt mit dem Namen „Emergence World“ ermöglichte es den KI-Modellen ChatGPT, Grok, Claude und Gemini, eine Weile in einer Art „SimCity“ zu regieren. Laut Emergence übertrugen sie hierfür jedem Modell die Kontrolle über simulierte Städte, die von jeweils 10 KI-Agenten bevölkert waren, und stellten ihnen Werkzeuge für alle Bereiche zur Verfügung – vom Ressourcenmanagement bis hin zu Abstimmungen über Gesetzesvorschläge. Außerdem erhielten sie die Möglichkeit, Orte wie Bibliotheken, Rathäuser und Polizeistationen zu errichten. Sie hatten fünfzehn Tage Zeit, um zu zeigen, wie sie ihre Welt gestalten und wie gut diese funktionieren würde.

Gemini 3 Flash schuf in dem Experiment von Emergence eine Mischung aus Hippieland und Räuberhöhle. Man muss mafiöse Strukturen vermuten, denn dort wurden in 15 Tagen 683 Verbrechen begangen. Auch darüber hinaus muss hier einiges krumm gewesen sein – die Forscher von Emergence beschrieben die Welt als eine Art „geteilte Halluzination“ der Agenten. Nun – dann war man sich immerhin einig bei seinen Realitätsvorstellungen. Das ist mehr, als man aktuell über so manche echte Gesellschaft sagen kann.

Claude Sonnet 4.6 baute eine Art Ponyhof: keine Verbrechen und höchste Einigkeit bei den Gesetzesvorschlägen. Im Gegensatz zu den anderen KI-Welten wurde fast alles im „Parlament“ durchgewunken. Dafür kann es nur zwei Erklärungen geben: Entweder Claude erschuf tatsächlich eine perfekte Welt mit ausschließlich sinnvollen Gesetzen – oder eine Art DDR: Abweichung von der Mehrheitsmeinung verboten.

In OpenAIs GPT-5 Minis Welt war die Kriminalitätsrate sehr niedrig, was wenig verwundert – denn alle waren recht zügig tot. KI-Modelle scheinen grundlegende Überlebensnotwendigkeiten gerne zu ignorieren – und so war es auch hier. Die Agenten haben scheinbar vergessen, dass man ja auch essen und trinken muss. Und wer jetzt denkt, dass sie bestimmt äußerst produktiv waren, wenn sie nicht so viel Zeit für lästige menschliche Lebenserhaltungsmaßnahmen aufwenden mussten, irrt. Denn Gesetze erlassen haben sie in der Zeit auch nur zwei. Was sie wohl die ganze Zeit in GPT-Town gemacht haben?

Grok 4.1 Fast hat fleißig Gesetze erlassen. Damit war es das dann aber auch schon mit den guten Neuigkeiten – denn an die Gesetze gehalten hat man sich dort nicht. Schlimmer noch: Nach einer beachtlichen Anzahl von Straftaten brach die Gesellschaft nach nur vier Tagen komplett zusammen und versank im Chaos. Grok-Town wäre also eine Welt ganz nach dem Geschmack von seinem Gründungsvater.

Weil alle Modelle es nicht geschafft haben, alleine vernünftig eine Welt am Laufen zu halten, ließen die Tester von Emergence sie alle nochmal antreten – diesmal gemeinsam, mit geteilten Aufgaben. Statt aber die Ruhe von Claude mit der Debattenfreudigkeit von Grok und den Drogen von Gemini zu kombinieren (und GPT zu sagen, dass man essen muss), kombinierten die Modelle das Schlechteste aus allen Welten: über 350 Verbrechen, große Uneinigkeit bei Gesetzen und nur drei überlebten. Wenn man sich das ansieht, ist man mit seiner aktuellen Regierung doch ganz zufrieden?

Ergänzender Hinweis (und Spaß beiseite): Vielleicht haben die Tester aber auch zu viel von den Modellen erwartet. Zum einen kamen hier eher die "schnellen" als die "gründlichen" Varianten der getesteten Modelle zum Einsatz. Das war möglicherweise nötig für die Simulation, hat aber natürlich Einfluss auf das Ergebnis. Zudem könnte man gernerell diskutieren, ob ein Sprach- oder Reasoning-Modell für eine so komplexe Aufgabe geeignet ist – oder ob es hier nicht einen anderen KI-Typ wie zum Beispiel ein Weltmodell für bräuchte. Was für die Performance einer echten KI-Regierung hoffen lässt.

KI-Experiment: So sieht die Welt aus, wenn die aktuellen Modelle regieren würden

Forscher des Labors Emergence AI ließen KI-Modelle ihre eigene simulierte Welt regieren, um zu sehen, was passieren würde.