KI-Modell soll menschliches Verhalten vorhersagen
internationales Forschungsteam mit deutscher Beteiligung entwickelt KI-Modell Centaur, das menschliches Verhalten in psychologischen Experimenten vorhersagen soll
laut Studie ist Centaur in den meisten Vorhersagen besser als domänenspezifische Modelle
an der Studie nicht beteiligte Experten sehen Modell als Möglichkeit, menschliche Entscheidungen in spezifischen Experimenten vorherzusagen, aber nicht in realen Entscheidungssituationen
Sprachmodelle scheinen menschliches Verhalten immer besser abbilden zu können. Dadurch könnten sie in der Lage sein, Entscheidungen von Menschen vorherzusagen. Ein internationales Forschungsteam um das Institut für Human-Centered AI am Helmholtz Zentrum München hat nun mit einem großen Datensatz aus Entscheidungsexperimenten das Sprachmodell Centaur entwickelt und getestet. Die zugehörige Studie ist in der Fachzeitschrift Nature erschienen (siehe Primärquelle).
Leiter der Abteilung Arbeits- und Organisationspsychologie, Institut für Psychologie, Albert-Ludwigs-Universität Freiburg
Einordnung in Forschungsstand
„Große Sprachmodelle bieten uns mutmaßlich die bisher besten bekannten Modelle menschlichen Verhaltens, das in Sprache ausgedrückt werden kann. Dass Sprachmodelle im Vergleich zu anderen Modellen menschlichen Verhaltens besser abschneiden können, zeigt auch diese Studie. Ob die Akkuratheit in der Vorhersage menschlichen Verhaltens – die teilweise bei 64 Prozent liegt – nun wirklich als ,gut‘ bewertet werden kann, ist eine andere Frage.“
Beurteilung des Modells
„Ein Datensatz verschiedener psychologischer Experimente ist sicher eine gute Idee für eine Studie, die versucht, menschliches Verhalten vorherzusagen. Gleichzeitig sind die psychologischen Experimentalstudien, die hier scheinbar in den Datensatz eingeflossen sind, nur ein winziger Ausschnitt menschlichen Verhaltens innerhalb sehr umgrenzter Versuchssituationen. Über die Vorhersage ,natürlichen‘ oder ,alltäglichen‘ menschlichen Verhaltens sagt das erstmal nicht viel aus – aber das behauptet der Artikel auch nicht. Ansonsten sollten solche Studien natürlich noch einmal mit neuen Versionen des Grund-Sprachmodells durchgeführt werden, denn mit jedem Update solcher Modelle verändert sich potenziell auch deren Verhalten und deren Vorhersagekraft für menschliches Verhalten.“
Nutzen und Anwendungsbereiche des Modells
„Ein solches Modell ist vor allem spannend für die Forschung. Mögliche Anwendungen wären die Simulation des Verhaltens von Versuchspersonen oder der Versuch, Erklärmodelle für dieses Verhalten zu finden. Mit weiteren Implikationen für die Vorhersage menschlichen Verhaltens darüber hinaus würde ich vorsichtig sein. Es ist nun mal ,nur‘ menschliches Verhalten in psychologischen Experimenten, was mit dem Modell zu einem gewissen – nicht unbedingt sehr hohen – Grad an Akkuratheit vorhergesagt werden kann.“
Ethische Bedenken und Missbrauchspotenziale
„Hinsichtlich ethischer Bedenken bei dieser Studie denke ich gar nicht mal so sehr an die Risiken des Modells an sich. Ein Hauptrisiko bei dieser und ähnlicher Forschung ist, dass die Ergebnisse überinterpretiert werden. ‚Wow, jetzt kann man menschliches Verhalten endlich präzise vorhersagen‘ – Nein, denn es geht hier nicht um natürliches menschliches Verhalten und die Vorhersage funktioniert auch nur verhältnismäßig besser als mit schlechteren Modellen menschlichen Verhaltens. Überinterpretiert man die Ergebnisse, dann denkt man solche Simulationsmodelle vielleicht so weit, dass man sie für die Simulation von politischen Meinungsumfragen vorschlagen wollen könnte. Ein simulierter Deutschlandtrend sozusagen. Zu denken, dass diese Simulation von Menschen die Stimmung in einem Land adäquat abbilden kann, halte ich für eine Interpretation, die im Rahmen solcher Studien nicht aufkommen sollte.“
Associate Professor für Verhaltenswissenschaften, Direktor des Instituts für Verhaltenswissenschaften und Technologie, Universität St. Gallen, Schweiz
Einordnung in Forschungsstand
„Das Modell repräsentiert einen neuen Ansatz, menschliches Verhalten zu modellieren. Die Art und Weise, wie wir in den Verhaltens- und Sozialwissenschaften Menschen und ihr Verhalten studieren, ist nach wie vor stark auf Erklärung ausgerichtet. Erklärungen sind das ultimative Ziel – können aber nicht immer geliefert werden, da Menschen zu komplex, zu situationsabhängig und zu individuell handeln.“
„Eine zunehmend größer werdende Gruppe von WissenschaftlerInnen – der auch ich angehöre – ist der Meinung, dass wir uns viel stärker auf Vorhersagen statt auf vorschnelle Erklärungen konzentrieren sollten. Diese Überlegung gründet sich auf die Beobachtung, dass bestehende Theorien oft zu stark vereinfachen und die daraus resultierenden einfachen Modelle dem Realitätstest nicht standhalten. Anstatt Verhalten zu erklären, sollten wir häufiger versuchen, mit unseren Modellen Vorhersagen zu treffen. Funktionieren diese, bilden sie höchstwahrscheinlich Prozesse ab, die es wert sind, erklärt zu werden.“
„Das Centaur-Modell zeigt eindrucksvoll, wie sich generative KI-Modelle anpassen lassen, um eine Vielzahl von Prozessen – einschließlich menschlichen Entscheidungsverhaltens – zu modellieren. Ich bin der Meinung, dass wir in den Verhaltenswissenschaften die nächste computationale Revolution erleben werden.“
Beurteilung des Modells
„Das Modell ist State of the Art, und die Methodik ist äußerst solide. Die AutorInnen sind methodisch sehr sorgfältig vorgegangen und haben zahlreiche Vorkehrungen getroffen, um die Robustheit der Ergebnisse sicherzustellen und deren Generalisierbarkeit auf neue Daten abzuschätzen.“
„Der Datensatz repräsentiert ein breit gefächertes Spektrum an Aufgaben, wie sie in der Psychologie und den Kognitionswissenschaften verwendet werden, um menschliches Entscheidungsverhalten zu erfassen. Meiner Meinung nach ist der Datensatz mindestens ebenso bedeutsam wie das Modell selbst.“
„Eines der zentralen Hindernisse, das derzeit größere Fortschritte in den Sozial- und Verhaltenswissenschaften verhindert, ist der Mangel an großen, kuratierten Datensätzen zu menschlichem Verhalten – Psych‑101 stellt hierfür ein Musterbeispiel dar.“
Nutzen und Anwendungsbereiche des Modells
„Die KollegInnen haben gezeigt, dass mit dem Centaur-Modell relativ akkurate Vorhersagen in gängigen Aufgaben psychologischer Laborexperimente möglich sind. Die Vorhersagegenauigkeit des Modells ist in den meisten Fällen deutlich höher als bei klassischen kognitiven Modellen. Auf den ersten Blick mag das nicht überraschen, da etablierte Modelle – zum Beispiel aus der Prospect Theory (Theorie zur Vorhersage von Entscheidungen unter Unsicherheit, bei der subjektive Biases berücksichtigt werden; Anm. d. Red.) – primär erklärenden Zwecken dienen und nicht für präzise Vorhersagen entwickelt wurden. Allerdings werden diese Modelle in der Praxis häufig dennoch als Prädiktionsmodelle dargestellt.“
„Das Centaur-Modell scheint deutlich bessere Vorhersagen zu ermöglichen und lässt sich – im Gegensatz zu vielen herkömmlichen Modellen – auch anwenden. Foundation-Modelle wie Centaur sind grundsätzlich für eine Vielzahl an Aufgaben geeignet beziehungsweise können entsprechend angepasst werden. Am besten wird es für die Aufgaben funktionieren, auf die es angepasst wurde – die Entscheidungsexperimente im Datensatz. Inwieweit das Centaur-Modell in den Verhaltenswissenschaften Anwendung finden wird, bleibt abzuwarten – grundsätzlich kann ich mir zahlreiche Einsatzbereiche vorstellen.“
„Für die Anwendung in der Forschung liefern die Autoren Beispiele wie Prototyping beziehungsweise Vortesten von Experimenten. Aber auch in der Praxis könnte das Modell Anwendung finden – zum Beispiel überall da, wo menschliches Verhalten analysiert und vorhergesagt werden soll, etwa beim Einkaufen, in der Bildung oder im Militär. Die praktische Anwendung ist offensichtlich, weil die Art Modelle ja in der Industrie entwickelt wurden und da schon eingesetzt werden (siehe ChatGPT). Die zugrundeliegende Transformer-Architektur kommt von Google, das vortrainierte Foundation-Modell (Llama 3.170B) von Meta. Das neue an Centaur ist, dass es auf ‚Verhaltensdaten‘ anwendbar ist. Das ist dadurch geschehen, dass die Ergebnisse aus klassischen Entscheidungsexperimenten (Psych-101 Datensatz) in Sprache übersetzt wurden.“
Ethische Bedenken und Missbrauchspotenziale
„Wir können davon ausgehen, dass große Technologieunternehmen bereits heute ähnliche Modelle einsetzen, um unser Entscheidungsverhalten und unsere Präferenzen – etwa beim Online-Shopping oder in sozialen Medien – vorherzusagen. Diese Modelle sind inzwischen sehr gut – denken Sie hier zum Beispiel an ChatGPT oder wie gut Tiktok Videos vorschlägt, um Nutzer möglichst lange in der App zu halten. Wie gut sie genau sind, wissen wir nicht, weil diese Modelle inzwischen die am best-behütetsten Geschäftsgeheimnisse sind.“
„Durch unseren alltäglichen Medienkonsum und die Nutzung digitaler Technologien produzieren wir Tag für Tag neue Verhaltensdaten, die zur weiteren Verbesserung solcher Modelle beitragen. Modelle dieser Art können potenziell dazu beitragen, komplexe gesellschaftliche Herausforderungen – etwa im Sozial- oder Gesundheitsbereich – zu lösen. Gleichzeitig besteht jedoch die Gefahr, dass sie uns immer vorhersagbarer machen und in eine Form digitaler Abhängigkeit oder gar ,digitaler Sklaverei‘ führen.“
„Wie wir mit dieser Technologie umgehen, ist eine Frage, die unsere Gesellschaft als Ganzes beantworten muss. Dabei wird die Wissenschaft – aber insbesondere auch JuristInnen und politische Entscheidungsträger – in Zukunft stärker gefordert sein. Das hier vorgestellte Modell und die berichteten Ergebnisse sind in diesem Zusammenhang vor allem als Beitrag zur Grundlagenforschung zu verstehen.“
Leiter der Abteilung Sozialpsychologie, Social Cognition Center Cologne, Universität zu Köln
Einordnung in Forschungsstand
„Die in dem Artikel dargestellten Forschungsarbeiten stellen einen wichtigen Beitrag zum Erkenntnisfortschritt in der Psychologie dar. Einerseits besteht ein Beitrag darin, eine Vielzahl vorhandener Daten aus vorangegangenen Studien systematisch zusammenzutragen. Darüber hinaus weisen die Autoren nach, dass mit Centaur ein auf neuronalen Netzen basierendes Modell trainiert werden kann, welches menschliches Verhalten in verschiedenen Domänen sehr gut vorhersagt.“
„Prinzipiell können ausreichend große neuronale Netze, auf denen auch Centaur basiert, systematische Zusammenhänge zwischen Inputs – hier beispielsweise Instruktionen – und Outputs – hier beispielsweise Verhalten – perfekt abbilden.“
„Entsprechend wurden spezifische neuronale Netze bereits in vorangegangenen Arbeiten genutzt, um Verhalten in bestimmten Aufgaben vorherzusagen – unter anderem von einigen der Autoren und auch in unserem Labor. Der Mehrwert von Centaur besteht insbesondere darin, dass das Modell ‚lesen gelernt hat‘ und unter Nutzung eines Sprachmodells über verschiedene Aufgaben hinweg Verhalten sehr gut vorhersagen kann.“
Beurteilung des Modells
„Das Model wurde, soweit ersichtlich, unter Anwendung angemessener Methoden trainiert, evaluiert und auch mit alternativen Modellen verglichen. Ein Vergleich der Leistung von Centaur zu vorher entwickelten, spezifischen neuronalen Netzen, die zur Vorhersage einzelner Aufgabenbereiche trainiert wurden, wäre noch besonders aussagekräftig gewesen.“
„So bleibt die Frage offen, ob Centaur in den einzelnen Aufgabenbereichen bereits den systematischen Zusammenhang zwischen Inputs und Outputs – so gut es eben möglich ist – erfasst. Auch bleibt unklar, was wir zusätzlich von einem allgemeinen Modell wie Centaur im Vergleich zu den spezifischen neuronalen Netzen lernen können.“
„Der Abschnitt, der demonstrieren soll, wie Centaur zur Weiterentwicklung kognitiver Theorien für Entscheidungen auf Basis mehrerer Attribute beitragen kann, hat mich beispielsweise nicht vollständig überzeugt. Vorangegangene Arbeiten einiger der Autoren mit spezifischen neuronalen Netzen haben hier mehr Erkenntnisfortschritt gebracht. Die meiner Einschätzung nach stärkste Arbeit kommt teilweise von denselben Autoren und wurde in Science veröffentlicht – unter Nutzung eines Teils derselben Daten, einem Datensatz zu Entscheidungen unter Unsicherheit oder Risiko [1]. Der dabei verwendete methodische Ansatz wird hier eingeführt: Die Nutzung von neuronalen Netzen, um die maximal vorhersagbare oder systematische Varianz zu bestimmen [2].“
„In einer unserer Arbeiten wenden wir ein spezifisches neuronales Netz für probabilistische Inferenzen an [3]. Im aktuell vorliegenden Artikel werden diese multi-attributive Entscheidungen genannt, was aber nicht im Einklang mit der üblichen Nutzung des Begriffs steht. Es handelt sich um strukturell exakt die Aufgaben, die beispielsweise in dem Fahrradbeispiel und zur Motivation der Theorieentwicklung in Abbildung 5 herangezogen werden. Es zeigt sich in unseren Arbeiten, dass ein generisches neuronales Netz für diesen Bereich – also im Vergleich zu Centaur ein spezifischer trainiertes Netz –, die Daten sehr gut vorhersagt. Dass aber auch ein inhaltlich entwickeltes neuronales Netzwerk-Modell mit nur einem freien Parameter pro Person – genannt PCS-DM – fast dieselbe Performance erreicht. Neuronale Netze benötigen hingegen Tausende bis Millionen von Parametern. Die Heuristiken, die auch in dem aktuellen Artikel herangezogen werden, sind hingegen weit abgeschlagen – deshalb können sie kaum als relevante Vergleiche herangezogen werden.“
„Auch wurden speziell für die diskutierten Aufgaben bereits bessere inhaltliche Theorien entwickelt, die im Vergleich nicht berücksichtigt wurden. Der potenzielle Beitrag von Centaur zur Weiterentwicklung inhaltlicher Theorien bedarf entsprechend weiterer kritischer Prüfung.“
Nutzen und Anwendungsbereiche des Modells
„Das Centaur-Modell kann die Forschung in verschiedenen Bereichen auch praktisch unterstützen. Der Nutzen des Modells für die kommerzielle Anwendung ist hingegen aktuell noch schwer abschätzbar. Bisher wurde das Modell dazu verwendet, um Verhalten im Labor vorherzusagen. Wenn das Modell auch in der Lage ist, Verhalten in realen Situationen gut vorherzusagen, wird es natürlich auch für kommerzielle Anwendungen wie beispielsweise in der Werbe- und Konsumentenpsychologie interessant.“
„Keine Interessenkonflikte von meiner Seite.“
„Ich habe keine Interessenkonflikte.“
„Es besteht keine direkte Befangenheit. Einen der Autoren, Dirk Wulff, kenne ich persönlich und wir arbeiten aktuell in getrennten Projekten, die aber zu einem DFG-Schwerpunktprogramm gehören, zusammen.“
Primärquelle
Binz M et al. (2025): A foundation model to predict and capture human cognition. Nature. DOI: 10.1038/s41586-025-09215-4.
Weiterführende Recherchequellen
Zuboff S (2019): The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. PublicAffairs. DOI: 10.1007/s00146-020-01100-0.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Peterson JC et al. (2021): Using large-scale experiments and machine learning to discover theories of human decision-making. Science. DOI: 10.1126/science.abe2629.
[2] Agrawal M et al. (2020): Scaling up psychology via Scientific Regret Minimization. Proceedings of the National Academy of Sciences. DOI: 10.1073/pnas.1915841117.
[3] Glöckner A et al. (2024): Using machine learning to evaluate and enhance models of probabilistic inference. Decision. American Psychological Association. DOI: 10.1037/dec0000233.
Prof. Dr. Markus Langer
Leiter der Abteilung Arbeits- und Organisationspsychologie, Institut für Psychologie, Albert-Ludwigs-Universität Freiburg
Angaben zu möglichen Interessenkonflikten
„Keine Interessenkonflikte von meiner Seite.“
Prof. Clemens Stachl Ph.D.
Associate Professor für Verhaltenswissenschaften, Direktor des Instituts für Verhaltenswissenschaften und Technologie, Universität St. Gallen, Schweiz
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Andreas Glöckner
Leiter der Abteilung Sozialpsychologie, Social Cognition Center Cologne, Universität zu Köln
Angaben zu möglichen Interessenkonflikten
„Es besteht keine direkte Befangenheit. Einen der Autoren, Dirk Wulff, kenne ich persönlich und wir arbeiten aktuell in getrennten Projekten, die aber zu einem DFG-Schwerpunktprogramm gehören, zusammen.“