Künstliche Intelligenz sagt Erkrankungsrisiken vorher
KI-Modell soll Risiken und Prognosen für über 1000 Erkrankungen vorhersagen können
bisherige Modelle können das nur für einzelne Erkrankungen
Experten ordnen das Potenzial des Modells ein und betonen, dass der Einsatz noch Zukunftsmusik ist und ethische Bedenken berücksichtigt werden müssen
Mithilfe eines KI-Modells soll vorhergesagt werden können, wie hoch das Risiko für über 1000 Erkrankungen bei einzelnen Personen sowie in Populationen ist. Das Modell mit dem Namen Delphi-2M soll außerdem Prognosen für den gesundheitlichen Zustand für in bis zu 20 Jahren geben. Die Studie zur Entwicklung dieses Modells – angeleitet von Forschenden des Europäischen Laboratoriums für Molekularbiologie (EBML) aus Deutschland – ist in dem Fachjournal „Nature“ publiziert worden (siehe Primärquelle).
In etlichen Publikationen wurde bereits dargestellt, wie Künstliche Intelligenz im medizinischen Alltag zum Einsatz kommen kann. Ob zur Unterstützung bei der Diagnostik oder beim Schreiben vom Arztbriefen – einige Fachleute sprechen ihr ein hohes Potenzial zu [I]. Was die Vorhersage von Erkrankungsrisiken angeht, gab es bisher vor allem Modelle, die die Auftretenswahrscheinlichkeit für einzelne Krankheiten adressieren. An der gemeinsamen Kalkulation vieler verschiedener Erkrankungen scheiterten die Modelle bisher. Doch nun soll das KI-Modell Delphi-2M diese Forschungslücke schließen.
Juniorprofessor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam
Ethische Bedenken
„Das Modell verdeutlicht eindrucksvoll die Potenziale von generativer KI in der Gesundheitsforschung und vielleicht zukünftig auch in der Versorgung. Hier zeigt sich einmal mehr die Vielseitigen von GPT-Modellen. Sie prognostizieren nicht nur Sprache, sondern auch Krankheitsverläufe. Das macht sie für die Forschung enorm interessant – birgt aber auch Sprengkraft. Denn wofür sie letztlich eingesetzt werden, ist offen und die Folgen ihres Einsatzes werden erst in der Praxis sichtbar.“
„Bias und auch mögliche Diskriminierungen bleiben eine zentrale Herausforderung für jedes KI-Modell in der Medizin. Verzerrungen können dazu führen, dass bestimmte Bevölkerungsgruppen systematisch über- oder unterschätzt werden – etwa nach Geschlecht, Herkunft oder sozialem Status. Ein Modell, das gleich Hunderte Krankheiten vorhersagt, bündelt Chancen, verstärkt aber auch das Risiko von Verzerrungen.“
Kommunikation der Modell-Ergebnisse an Patientinnen und Patienten
„Zunächst einmal: Wir reden hier noch von Zukunftsmusik. Der Weg in die konkrete medizinische Anwendung ist meist länger, als man denkt. Bei allen Potenzialen dürfen wir uns nicht in eine KI-gestützte Glaskugelschau verrennen – auch die besten Modelle erkennen Muster, aber sie sagen keine Zukunft voraus. Für Patienten muss klar sein: solche Prognosen sind keine Schicksalsurteile. Sie können aber Anhaltspunkte für Präventions- oder Therapieentscheidungen geben.“
„Wichtig ist dabei, dass der Einsatz solcher Modelle den Entscheidungsspielraum der Patienten nicht einengt. Ihre Autonomie im Jetzt darf nicht einem Behandlungsregime untergeordnet werden, das allein auf zukünftige Gesundheit ausgerichtet ist. Selbst wo dies nicht geschieht, bliebe doch eine gewisse Nötigung, sich zu prognostizierten Zukünften zu verhalten. Entscheidend bleibt deshalb auch ein Recht auf Nichtwissen.“
Mögliche Zielgruppen und Missbrauchspotenziale
„Wie ein Modell wie Delphi-2M zu bewerten ist, hängt wesentlich vom Einsatzzweck ab. Es kann im Sinne einer gerechten Verhältnisprävention genutzt werden, um für benachteiligten Gruppen Versorgungslücken zu erkennen. Es könnte aber auch die Idee einer individuellen Pflicht zur Verhaltensprävention Vorschub leisten, die den Einzelnen stärker in Verantwortung für seine künftige Gesundheit nimmt.“
„Gleichzeitig ist zu befürchten, dass solche KI-Modelle falsche Begehrlichkeiten wecken – etwa bei Versicherungen oder Arbeitgebern, besonders über Deutschland hinaus. Dann geht es weniger darum, ob die Vorhersagen tatsächlich belastbar sind, sondern um die Illusion einer exakten Berechenbarkeit. Diese kann dazu führen, dass Menschen ungerechtfertigt benachteiligt werden. Deshalb müssen wir sehr genau überlegen, wo wir solche Modelle im Gesundheitssystem einsetzen wollen.“
Rechtliche Hürden
„Ethik und Recht orientieren sich bisher oft an binären Kategorien von gesund oder krank. In der digitalen und präventiven Medizin sind aber die Graustufen entscheidend. KI-Modelle können aus großen Datensätzen Muster erkennen, die für Vorhersage und Prävention genutzt werden – und das wirft heikle Fragen auf: Was bedeutet es für gesunde Menschen, die in ein Muster ,bald Kranker‘ passen? Wie schützen wir Gesundheitsinformationen, wenn plötzlich eine Vielzahl persönlicher Daten für KI-Prognosen relevant wird? Wir stehen hier erst am Anfang, die rechtlichen und ethischen Tragweiten dieser Entwicklung wirklich zu verstehen.“
Direktor des Institute of AI for Health, Helmholtz Zentrum München – Deutsches Forschungszentrum für Gesundheit und Umwelt, München, und Professor für KI in der Zelltherapie und Hämatologie, Medizinische Fakultät und Klinik der Ludwig-Maximilians-Universität München
Einordnung des Modells
„Die Studie hat zwei bemerkenswerte Komponenten: Zum einen haben die Autoren die Daten aus zwei großen Kohorten genutzt. Das eine ist die sehr umfangreiche UK Biobank, mit der das Modell erstellt wurde, und das andere eine dänische Kohorte, an der das Modell validiert wurde. Dass Kohorten aus verschiedenen Ländern verwendet und verglichen wurden, ist ein wichtiger Beitrag. Zum anderen ist bemerkenswert, dass mit diesen Daten ein Sprachmodell trainiert wurde. Man kann die Architektur dieser Modelle, die man für Sprache nutzt, auch für Gesundheitsdaten von Menschen nutzen. Das Sprachmodell wird dann so trainiert, dass nicht die nächste Silbe, sondern das nächste Event – also gesundheitliche Ereignis – vorhergesagt wird.“
Mehrwert eines großen Modells
„Die Autoren vergleichen ihr Modell mit spezifischen Modellen. Je nach Fragestellung ist ein spezifisches oder ein allgemeines Modell sinnvoller. Für diese Art von Daten, die auf Patienteneigenschaften, wie Alter und Geschlecht, sowie auf Krankheitscodes basieren, die beispielsweise die Diagnose von Diabetes beschreiben, bietet es sich an, ein großes Modell zu trainieren. Dadurch kann man dann zum Beispiel das gemeinsame Auftreten von den Krankheiten analysieren.“
Vorhersagekraft des Modells
„Die Nützlichkeit eines Modells hängt stark von der Art der Nutzung ab. Erstmal: Alles, was besser als Zufall ist, zeigt, dass das Modell in der Lage ist, etwas vorherzusagen – das Modell hat etwas gelernt. Wie sinnvoll und gut das am Ende ist, hängt davon ab, wofür das Modell verwendet werden soll. Wir müssen uns fragen: Was möchte ich mit einer mit Unsicherheit behafteten Vorhersage anfangen? Die konkrete Vorhersage einer Erkrankung ist vielleicht gar nicht das, was wir wollen. Als Gedankenspiel: Nehmen wir eine Krankenakte und geben diese Informationen dem Modell, dann würde das Modell uns das Risiko für unterschiedliche Erkrankungen vorhersagen. Dass ein starker Raucher weiß, dass er für bestimmte Krankheiten ein erhöhtes Risiko hat, ist aber ja auch ohne Modell klar.“
„Das eigentlich Spannende, was man mit diesem Modell anstellen kann, ist meiner Einschätzung nach folgendes: Wo gibt es Korrelationen zwischen Krankheiten, die wir vorher nicht gesehen haben? Wo gibt es Auffälligkeiten zwischen bestimmten Events, die später zu einer Krankheit führen? Es gibt eine Studie, in der nachgewiesen wurde, dass eine Epstein-Barr-Virus-Infektion zu einem 30-fach erhöhten Risiko für Multiple Sklerose führt [1]. Das sind die Sachen, die wir suchen.“
„Eine weitere Hoffnung ist, dass man mit dem Modell künstliche Daten generieren kann, die sich für die Forschung leichter teilen lassen, weil ihnen keine echten Patienten zu Grunde liegen. Bei geringen Patientenzahlen von seltenen Erkrankungen könnten darüber hinaus Krankenakten simuliert werden und dann das Auftreten solcher seltenen Erkrankungen besser untersucht und vorhergesagt werden können.“
Übertragbarkeit auf Deutschland
„In UK, Dänemark und Deutschland sind sich die Menschen, sowohl was die Gene als auch der Lebensstil angeht, sehr ähnlich. Das Modell sollte also für Daten aus Deutschland gut funktionieren. Weichen Patientenpopulation stark ab muss das Modell nachtrainiert werden.“
Mögliche Anwendungsgebiete
„Zum einen könnte man das Modell nutzen, um Zusammenhänge von Faktoren, die in Einzelstudien herauskamen, zu überprüfen. Inwieweit hängen bestimmte Lifestyle-Faktoren mit bestimmten Erkrankungen zusammen. Dafür ist das Modell eine tolle Grundlage. Auch hier muss man schauen, wie sehr man der Vorhersage vertraut. Aber an sich ist das Modell eine gute ‚Baseline‘, um solche Zusammenhänge zu untersuchen. Wenn man hier Hinweise auf Zusammenhänge findet, könnten diese in spezifischen kontrollierten Einzeluntersuchungen geprüft werden.“
„Nehmen wir an, die elektronische Patientenakte hat meine Daten für die vergangenen Jahre gespeichert. Diese könnte ich dann in das Modell laden. Wenn wir das Modell um Daten von Wearables erweitern würden, könnten Benutzer dann über Gesundheitsapps prüfen, wie stark sich durch Sport das Risiko für beispielsweise Demenz verringert hat. Die Frage ist auch hier, wie gut das Modell Vorhersagen machen kann und wie ich mit diesen ungenauen Wahrscheinlichkeiten umgehe.“
Missbrauchspotenzial
„Am Ende hängt es davon ab, welche Daten wir preisgeben wollen. Das Modell ist erstmal nur ein Werkzeug. Wie wir ein solches Werkzeug für unsere individuellen Gesundheitsdaten nutzen wollen und wie wir das Potenzial mit möglichen Gefahren abwägen wollen, müssen wir als Gesellschaft diskutieren. Aus meiner Sicht ist ein gut reguliertes Feld wie das europäische Gesundheitswesen ideal für die Anwendung von KI.“
Direktor des Instituts für Medical Data Science, Otto-von-Guericke-Universität Magdeburg
Einordnung des Modells
„Das Modell ist insofern besonders, als dass es auf einer sehr großen Patientenkohorte mit rund 400.000 Individuen aus der UK Biobank trainiert wurde, die ein breites Spektrum versorgungsrelevanter Erkrankungen abdeckt. Zusätzlich wurde das Modell ohne weitere Feinjustierung in einer externen dänischen Kohorte getestet und zeigte dabei relativ gute Ergebnisse – sowohl bei der Vorhersage der nächsten Diagnosen als auch bei der Simulation von Inzidenzkurven in bestimmten Patientengruppen. Für den klinischen Einsatz am individuellen Patienten sind jedoch die berichteten Ergebnisse noch zu ungenau. Dieser Einsatzzweck wurde von den Autoren fairerweise auch nicht angestrebt.“
„Das Modell stellt aber einen robusten Ansatz dar, um auf Populationsebene Krankheitslasten vorherzusagen, Szenarien unter Variation verschiedener Risikofaktoren zu simulieren und Versorgungsplanung oder Präventionsstrategien datenbasiert zu unterstützen.“
„Das Modell schneidet nicht bei allen Erkrankungen gleich gut ab. So schneidet das Modell bei Diabetes schlechter ab als ein einfacher Laborwert wie der HbA1c (Hämoglobin A1c: zeigt durchschnittlichen Blutzuckerspiegel der letzten zwei bis drei Monate; Anm. d. Red.) es tun würde. Auch bei einer Sepsis zeigt sich ein Problem, welches die Autoren selbst als Limitation beschreiben: Da diese fast ausschließlich im Krankenhaus dokumentiert wird, hat das Modell gelernt, das Risiko stark zu überschätzen, sobald andere Krankenhausdiagnosen vorliegen – ein Artefakt der Kodierpraxis und nicht zwingend ein echter medizinischer Zusammenhang. Darüber hinaus sind die Vorhersagen für seltene Erkrankungen wegen der geringen Fallzahlen wenig belastbar. Schließlich sind auch Aussagen für sehr alte Patientinnen – über 80 Jahre alt – und für Krankheiten mit hoher Mortalität, wie etwa bestimmte aggressive Krebsarten, unsicher, weil diese Gruppen im Trainingsdatensatz der UK Biobank kaum oder nur verzerrt vertreten sind.“
Übertragbarkeit auf Deutschland
„Da die populationsgenetischen Hintergründe sowie Krankheitsmuster in Deutschland, England und Dänemark durchaus vergleichbar sind, sowie auch die verwendeten Krankheitsklassifikationen (basierend auf ICD-Codes), ist die Übertragbarkeit grundsätzlich hoch. Für einen echten Einsatz bräuchte es aber ein sauberes Mapping der deutschen ICD-Codes, sowie der Risikovariablen – insbesondere Alkoholkonsum und Raucherstatus, da sie nicht notwendigerweise einheitlich bestimmt werden – sowie eine Feinabstimmung des Modells an repräsentativen deutschen Kohorten.“
Mögliche Anwendungsgebiete
„Für die individuelle Einschätzung am einzelnen Patienten sind die gezeigten Auswertungsergebnisse nicht besonders genau – die durchschnittliche AUC (area under the curve) liegt bei 0.76. Zudem gibt es keine Auswertung über die exakte Vorhersagegenauigkeit in kurzfristigen Zeitfenster, beispielsweise ob ein Patient in einem oder fünf Jahren Lungenkrebs erleiden wird. Darüber hinaus müsste für einen patientenindividuellen Einsatz eine echte klinische Prüfung oder Versorgungsstudie erfolgen und ein konkreter Mehrwert nachgewiesen werden. Solch ein Einsatzzweck ist von den Autoren fairerweise auch nicht angestrebt und würde sehr wahrscheinlich weitere Patienteninformationen wie beispielsweise Labordaten, Bild- beziehungsweise Biosignaldaten und genetische Informationen für die Modellentwicklung und -auswertung benötigen, die in dieser Studie nicht herangezogen wurden.“
Leiter des Bereichs KI-Ethik am Institut für Medizin- und Datenethik, Universität Heidelberg
„Der Einsatz von generativer Künstlicher Intelligenz (KI) zur Vorhersage von Krankheitswahrscheinlichkeiten und -verläufen ist nicht nur ein naheliegendes Einsatzgebiet dieser Technologie, sondern auch ein notwendiges. Der potenzielle Nutzen für Patientinnen und Patienten wie auch für das Gesundheitssystem ist enorm. Wie bei jedem technologischem Fortschritt stellen sich dabei nicht nur technische, sondern auch ethische Fragen.“
Einsatzmöglichkeiten der KI
„Bei der Frage, wer und wie die Technologie zum Einsatz kommen sollte, ist zwischen zwei Fällen zu unterscheiden: Dem Einsatz, um Entwicklungen im gesamten Gesundheitssystem abzuschätzen, und der Einsatz, um Aussagen über Individuen zu treffen.“
Einsatz bei Personengruppen
„Ersteres ist, wie die Entwickler hervorheben, vergleichsweise unproblematisch. Sollte das Modell dazu genutzt werden, Gesundheitsrisiken für bestimmte Personengruppen zu berechnen – beispielsweise für verschiedene Ethnien – wäre die Verwendung der Ergebnisse ethisch signifikant. Es sollte dabei für das Individuum auf keinen Fall zu Nachteilen kommen, nur weil sie einer Personengruppe angehören: Sei es in Bezug auf zur Verfügung gestellten Behandlungen, auf ihren Zugang zu Versicherungsleistungen oder der Berechnung ihrer Kreditwürdigkeit.“
Einsatz bei einzelnen Patientinnen und Patienten
„Letzteres gilt ganz besonders auch, wenn das Modell dafür verwendet wird, Vorhersagen über das Individuum selbst zu treffen. Hier gibt es jedoch noch sehr wichtige zusätzliche Punkte zu beachten: Bei klinischen Entscheidungen darf dies – wie auch von den Entwicklern erwähnt – nur ein ergänzender Baustein sein und muss auf jeden Fall durch das ärztliche Urteil flankiert werden. Ebenso ist in einem solchen Fall die Patientin oder der Patient über den Einsatz der Technologie und ihre Aussagekraft aufzuklären. Vor allem aber müssen innerhalb der ärztlichen Vertrauensbeziehung die Ergebnisse mit den Patientinnen und Patienten ausführlich besprochen und in Kontext gesetzt werden. Die Kommunikation von Risiken – vor allem anhand von mathematischen Wahrscheinlichkeiten – ist extrem schwierig und schnell kann es passieren, dass Patientinnen oder Patienten diese nicht richtig einordnen können. Besonders ist in einem solchen Gespräch hervorzuheben, dass bei der Risikoberechnung wichtige Faktoren der Lebensführung – beispielsweise sportliche Aktivität, viele Aspekte der Ernährung – oder der Genetik nicht erfasst wurden, wobei das Modell natürlich entsprechend erweitert werden kann.“
„Ganz allgemein darf das Individuum nicht mit den Ergebnissen der Berechnung ihrer persönlichen Risikobewertung konfrontiert werden, ohne dass sie dem zuvor zustimmt. Ethisch wie auch juristisch hat der Mensch ein Recht auf Nicht-Wissen – ein Recht darauf, sein Leben nicht in Sorge oder gar Angst vor drohender Krankheit zu führen.“
Hürden bis zum praktischen Einsatz
„Leider ist zu befürchten, dass Delphi-2M – nach entsprechender Weiterentwicklung und rigoroser Validierung – gar nicht zum klinischen Einsatz kommt, sondern sich in die lange Reihe von vielversprechenden KI-Modellen einreiht, deren Entwicklung letztlich nur in prestigeträchtigen Publikationen mündet. Für den klinischen Einsatz bräuchte es nämlich die extrem kosten- und zeitintensive Zertifizierung nach dem Medizinproduktegesetz. Dafür fehlt meist die finanzielle Ausstattung. Zudem haben Wissenschaftlerinnen und Wissenschaftler – verständlicherweise – auch selten einen Anreiz oder die Kompetenzen, um ihre Entwicklung durch die notwendigen juristischen und betriebswirtschaftlichen Prozesse an den Markt zu bringen. Hier wären dringend die wissenschaftlichen Institutionen der öffentlichen Hand gefragt, entsprechende Strukturen aufzubauen, damit wissenschaftliche Errungenschaften wie Delphi-2M auch einen direkten Nutzen für Patientinnen und Patienten erzielen – und nicht die Verantwortung dafür bei den Forschenden abzuladen.“
Dateninfrastruktur
„Zuletzt sei noch angemerkt, dass es wenig überrascht, aber dennoch betrüblich ist, dass die Testung von Delphi-2M anhand von Daten des dänischen Gesundheitssystems erfolgte. Dänemark hat es im Gegensatz zu Deutschland geschafft, eine vorbildliche Forschungsdateninfrastruktur aufzubauen. Es ist auch aus ethischer Sicht beklagenswert, dass eine Forschung wie die zu Delphi-2M mit der Dateninfrastruktur hierzulande nicht möglich ist.“
„Kein Interessenkonflikt.“
„Ich habe keine Interessenkonflikte im Zusammenhang mit der Studie.“
„Ich arbeite an der gleichen Universität wie einige der Autoren, die gemeinsame Affiliation wirkt sich aber nicht auf meine Einschätzung zu der Studie aus.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Shmatko A et al. (2025): Learning the natural history of human disease with generative transformers. Nature. DOI: 10.1038/s41586-025-09529-3.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Bjornevik K et al. (2022): Longitudinal analysis reveals high prevalence of Epstein-Barr virus associated with multiple sclerosis. Science. DOI: 10.1126/science.abj8222.
Literaturstellen, die vom SMC zitiert wurden
[I] Science Media Center (2025): Künstliche Intelligenz in der Medizin: Qualität, Implementierung und Vertrauen. Statements. Stand: 22.07.2025.
Prof. Dr. Robert Ranisch
Juniorprofessor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam
Angaben zu möglichen Interessenkonflikten
„Kein Interessenkonflikt.“
Dr. Carsten Marr
Direktor des Institute of AI for Health, Helmholtz Zentrum München – Deutsches Forschungszentrum für Gesundheit und Umwelt, München, und Professor für KI in der Zelltherapie und Hämatologie, Medizinische Fakultät und Klinik der Ludwig-Maximilians-Universität München
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte im Zusammenhang mit der Studie.“
Prof. Dr. Julian Varghese
Direktor des Instituts für Medical Data Science, Otto-von-Guericke-Universität Magdeburg
PD Dr. Markus Herrmann
Leiter des Bereichs KI-Ethik am Institut für Medizin- und Datenethik, Universität Heidelberg
Angaben zu möglichen Interessenkonflikten
„Ich arbeite an der gleichen Universität wie einige der Autoren, die gemeinsame Affiliation wirkt sich aber nicht auf meine Einschätzung zu der Studie aus.“