Kluger-Hans-Effekt als Fehlerquelle bei KI
Studie untersucht Fehler durch Kluger-Hans-Effekt bei KI-Modellen: Mögliche Fehler fallen in der Testphase nicht auf, können aber in der späteren Anwendung auftreten
betrachtete Modelle werden laut Autoren in der medizinischen Diagnose und zum Finden von Produktionsfehlern in der Industrie eingesetzt
unabhängige Forscher sehen Kluger-Hans-Effekt als relevantes Problem, praktisch würden zur Korrektur aber oft keine vollautomatischen Methoden, sondern Mensch-zentrierte Ansätze verwendet
Künstliche Intelligenz (KI) hat in den vergangenen Jahren Einzug in den Arbeitsalltag vieler Menschen erhalten. Einige Anwendungen sind zum Beispiel für routinemäßige Tests und Untersuchungen in der Medizin zugelassen. Andere führen in Industrieunternehmen Qualitätskontrollen durch und erkennen Produktionsfehler in Bauteilen. Allerdings müssen sich die Nutzenden bewusst sein, dass KI nicht perfekt ist: Die Modelle machen Fehler. Deswegen werden viele KI-Modelle vor dem Einsatz getestet, um mögliche Fehlerquellen zu identifizieren. Ein Forschungsteam der Technischen Universität Berlin untersucht eine mögliche Fehlerquelle von KI-Modellen: den sogenannten Kluger-Hans-Effekt. Hierbei scheinen die Modelle zwar zuverlässig zu richtigen Ergebnissen zu kommen, sie tun dies aber aufgrund falscher Annahmen. Das kann im Test unentdeckt bleiben, in der späteren Anwendung aber zu Fehlern führen. Die Studie ist in der Fachzeitschrift „Nature Machine Intelligence“ erschienen (siehe Primärquelle).
Vizerektor für künstliche Intelligenz und Leiter der Forschungsgruppe maschinelles Lernen, Luleå University of Technology
„Die vorliegende Studie analysiert, ob der Kluge-Hans-Effekt beim unüberwachten Lernen vorkommt und wie man ihn umgehen kann. Unter Kluger-Hans-Effekt versteht man in Bezug auf KI das Phänomen, dass Methoden zwar gute Ergebnisse erzielen, jedoch basierend auf irrelevanten oder falschen Gründen. Im Bereich überwachtes Lernen wurde zum Beispiel schon vor circa zehn Jahren festgestellt, dass ein System das deutsche und amerikanische Kampfpanzer erkennt, nicht auf die Panzer, sondern auf den Hintergrund – Wald oder Wüste – geschaut hat. Die vorliegende Studie betrachtet nun auf eine sehr interessante Art und Weise am Beispiel von Covid-19-Infektionen oder industriellen Daten, wie man diesen Effekt bei unüberwachtem Lernen untersuchen kann.“
Einordnung der Ergebnisse und der Methodik
„Ganz wichtig ist zu betonen, dass – wie generell beim maschinellen Lernen – keine Methode zur Fehlerbehebung zu 100 Prozent funktioniert. Die Ergebnisse dieser Studie zeigen mit dem verwendeten Ansatz zur Korrektur des Kluger-Hans-Effekts auch nur inkrementelle Verbesserungen. Ich möchte für Journalisten in Erinnerung rufen, dass die Resultate nur ein bis drei Prozent besser werden und dann je nach Experiment bei 83 beziehungsweise 92 Prozent landen. Wie immer ist die vorliegende Studie ein wichtiger Schritt, das Problem ist jedoch nicht zu 100 Prozent gelöst.“
„Die generelle Methodik ist passend und wird an zwei Beispielen sehr gut demonstriert. Die spezielle Anwendung auf die beiden Beispielprobleme ist adäquat und zeigt, dass die trainierten Modelle besser sind als die bisherigen Modelle. Ich finde diese Studie sehr interessant, da sie aufzeigt, wie man mit Explainable AI solche Effekte mitigieren kann und bin schon gespannt, ob das tatsächlich in vielen Gebieten eingesetzt werden wird. Mit anderen Worten: ob die Methode skalierbar ist. In vielen Studien macht man Meta-Analysen auf hunderten von unterschiedlichen Problemen. Ich bin gespannt auf solche Ergebnisse in der Zukunft.“
„Die Ansätze der vorliegenden Studie, um ungewünschte Effekte zu reduzieren, sind sinnvoll und erweitern bisher existierende Verfahren wie Häufigkeitsanalyse, zufälliges Rauschen oder Filter auf Bildern. Der Fokus dieser Arbeit und der Vergleichsarbeiten ist jedoch auf vollautomatischen Ansätzen. In der Praxis ist die wichtigste Methode jedoch ‚Human-centered‘ oder ‚Human-in-the-loop‘; was heißt, dass der Mensch im Zentrum ist und bei der Auswertung und Analyse einbezogen wird. In der Praxis verwendet man also viele Explainable-AI-Methoden und schaut sich alles mit Expertenwissen genauer an. Man sieht dann zum Beispiel schnell, dass die Erkennungsmethode nur auf den Hintergrund, das Geschlecht, die Hautfarbe oder ähnliche Faktoren schaut.“
Relevanz des Kluger-Hans-Effekts
„Wie an dem Panzer-Beispiel verdeutlicht, ist der Kluge-Hans-Effekt sehr relevant. Eine wichtige, oft besprochene Kategorie ist der ‚Training-set-Bias‘, also dass Dinge, die häufig in den Trainingsdaten vorkommen, vom Modell reflektiert werden. Ein Beispiel ist, dass ChatGPT oft ‚Doktor‘ und ‚Software-Entwickler‘ mit männlichen Personen gleichsetzt und ‚Gehilfe‘ mit weiblichen – oder dass Kriminelle in bestimmten US-Städten oft als dunkelhäutige Personen dargestellt werden. In vielen Anwendungen merkt man es nicht gleich, zum Beispiel wenn man nur schaut, wie oft das System richtig entscheidet. Erst wenn man genauer hinschaut, merkt man, dass das System auf das Geschlecht oder die Hautfarbe schaut. Es gibt schon viele Methoden, um das zu umgehen. Die vorliegende Studie weitet jedoch dieses Phänomen auf unüberwachtes Lernen aus und fügt noch weitere Analyse-Verfahren hinzu. Tabelle 2 zeigt zum Beispiel ‚PatchCore‘, ein existierendes Verfahren, das nicht ausgereicht hätte. Das Hinzufügen der Explainable-AI-Dimension ist also hilfreich.“
Probleme und Hürden bei der Implementierung von KI in kritische Bereiche
„Kurz formuliert gibt es viele Probleme und Hürden. Generell ist es mit automatischen Verfahren oft so: Sobald man einen automatischen Test erstellt, findet man sehr schnell eine KI, die sehr gute Ergebnisse erzielt, jedoch generell nicht ‚schlauer‘ geworden ist. Oft dachte man, dass ein IQ-Test von KI noch schwer zu meistern ist, inzwischen sind jedoch viele kommerzielle Systeme schon deutlich besser in IQ-Tests (130+) als Doktoren, können aber immer noch nicht korrekt Buchstaben zählen oder logisch schlussfolgern. Das ‚Wolf, Schaf und Kohlkopf‘-Problem kann zum Beispiel nicht gelöst werden, insbesondere, wenn man das Schaf mit einer Ziege ersetzt oder wenn man noch zwei weitere Objekte hinzufügt.“
„In anderen Bereichen jedoch ist die KI schon viel zuverlässiger als durchschnittliche Menschen. Wir haben das beim Rechnen schon ‚verstanden‘ und verwenden Taschenrechner. In der Medizin vertraue ich schon lieber einem KI-Assistenzsystem, das Zugriff auf tausende von Krankheiten und hunderte von Varianten und Verläufen hat, als einem Allgemeinarzt, bei dem oft nur limitiertes Spezialwissen vorhanden ist. Am besten ist oft immer noch eine Kombination aus beidem, KI und Mensch: ein auf Menschen fokussierter Ansatz (human-centered).“
„In vielen Bereichen wird geforscht, wie man Vertrauen vergrößern, gesetzliche Regulierungen verbessern und verantwortungsvolle Systeme erstellen kann. Es wird noch einige Jahrzehnte dauern, aber KI-Systeme werden besser und besser – und helfen uns mehr und mehr im Alltag.“
Leiter der Computer Vision & Learning Group, Ludwig-Maximilians-Universität München (LMU)
„Die Autoren untersuchen in ihrer Studie Herausforderungen bei der Generalisierungsfähigkeit von KI-Modellen. Insbesondere analysieren sie Fälle, in denen Modelle auf Merkmale zurückgreifen, die in bestimmten Situationen zwar Vorhersagekraft besitzen – beispielsweise aufgrund von Scheinkorrelationen –, deren Aussagekraft jedoch in neuen Kontexten verloren geht, wodurch die Leistung deutlich abnimmt. Der Schwerpunkt der Studie liegt auf unüberwachten Lernverfahren. Anhand mehrerer etablierter Methoden werden Scheinkorrelationen identifiziert, einzelnen Merkmalen zugeordnet und anschließend visuell dargestellt. Solche Ansätze können dazu beitragen, potenziell instabile Merkmale in KI-Modellen frühzeitig zu erkennen und somit die Zuverlässigkeit der Modelle in der Praxis zu verbessern.“
Probleme und Hürden bei der Implementierung von KI in kritische Bereiche
„Bei der Implementierung von KI in kritischen Bereichen wie Medizin, Bildung und Sicherheit treten drei Herausforderungen besonders hervor: Erstens können Verzerrungen (‚Bias‘) in den zugrundeliegenden Daten zu verzerrten Entscheidungen durch die KI führen. Lösungsansätze liegen hier insbesondere in der sorgfältigen Kuratierung der Trainingsdaten oder in der gezielten Gewichtung von Entscheidungen, um Ungleichheiten entgegenzuwirken. Zweitens bringt die Nutzung sensibler personenbezogener Daten schnell Datenschutzprobleme mit sich, denen durch Privacy-by-Design-Methoden (Methoden zum Datenschutz und dem Schutz der Privatsphäre, die bereits bei der Planung und Entwicklung berücksichtigt und eingebaut wurden; Anm. d. Red.) wie Differential Privacy oder föderiertes Lernen begegnet werden kann. Drittens ist mangelnde Nachvollziehbarkeit von KI-Entscheidungen, speziell bei Black-Box-Modellen, ein wesentliches Problem in sensiblen Anwendungsfeldern. Hier bieten erklärbare KI-Modelle, nachgeschaltete Erklärungsmethoden oder hybride Ansätze, die KI mit regelbasierten Systemen kombinieren, mögliche Lösungen.“
„Ich habe keine Interessenkonflikte.“
„Ich habe hier keine Interessenkonflikte.“
Primärquelle
Kauffmann J et al. (2025): Explainable AI reveals Clever Hans effects in unsupervised learning models. Nature Machine Intelligence. DOI: 10.1038/s42256-025-01000-2.
Prof. Dr. Marcus Liwicki
Vizerektor für künstliche Intelligenz und Leiter der Forschungsgruppe maschinelles Lernen, Luleå University of Technology
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Björn Ommer
Leiter der Computer Vision & Learning Group, Ludwig-Maximilians-Universität München (LMU)
Angaben zu möglichen Interessenkonflikten
„Ich habe hier keine Interessenkonflikte.“