KI-Modell analysiert und generiert DNA-Strukturen
großes Sprachmodell wurde mit Erbgut von Bakterien und Viren trainiert und kann Strukturen von Erbgut vorhersagen und entwerfen
Sprachmodelle haben das Potenzial, die Genomforschung einen großen Schritt voranzubringen
unabhängige Forschende finden das Tool spannend, weisen aber auch auf die Limitationen von Sprachmodellen hin, und dass potenzieller Missbrauch nicht verhindert werden könne
Das große Sprachmodell Evo soll Strukturen von Erbgut vorhersagen und generieren können. Forschende aus den USA stellen die KI-Anwendung in einer Studie vor, die im Fachjournal „Science“ veröffentlicht wurde (siehe Primärquelle). Beginnend bei einzelnen Nukleotiden (Grundbausteine der DNA) soll das Modell in der Lage sein, den DNA-Aufbau bis hin zum vollständigen Erbgut eines Organismus, dem Genom, zu berechnen.
Forschungsgruppenleiterin am Biotechnologischen Zentrum (BIOTEC), Technische Universität Dresden
Einordnung in die Forschungslandschaft
„Evo ist ein spannendes neues Tool, das an multiplen mikrobiologischen Genomen die Informationsstruktur von DNA lernt. Dabei lernt das Tool auch weitere Lagen biologischer Information, wie zum Beispiel die Struktur von Proteinen, und auch welche Informationen zum Überleben des Bakteriums essenziell sind und welche nicht.
Dabei reiht sich Evo in eine Reihe anderer DNA-Sprachmodelle ein. Es zeichnet sich dadurch aus, dass es an mikrobiologischen Genomen lernt und auch erfolgreich Aufgaben über die DNA hinaus übernehmen kann.“
Funktionsweise
„Evo nutzt 2,7 Millionen Genome von Bakterien und Viren. Es lernt die Informationsstruktur der Genome und damit deren Biologie, dabei wird es an einer Aufgabe trainiert, die eigentlich ganz banal ist: Das Vorhersagen von Sequenz. Das Besondere daran ist, dass das Modell Sequenz nur richtig vorhersagen kann, wenn es die Sequenzen drumherum versteht – und so lernt das Modell dann die Zusammenhänge im Umfeld.“
„Das Neue an der Architektur von Evo ist, dass es ein sehr großes Umfeld mit in Betracht zieht. Es benutzt dazu Techniken, die benachbarte As, Cs, Gs und Ts der DNA (kurz für die Nukleotide Adenin, Cytosin, Guanin und Thymin – die Basen der DNA; Anm. d. Red.) miteinander verrechnen. Damit kann das Modell direkt an den ‚Buchstaben‘ lernen und muss diese nicht in ‚Worte‘ gruppieren. Letzteres ist die Strategie, die andere Modelle verwenden. Das funktioniert auch gut, führt aber zu kürzeren Reichweiten.“
Auf die Frage, ob „Sprach”-Modelle wie Evo für die Computational Biology geeignet sind:
„Sprachmodelle werden die Genomforschung stark umkrempeln. Da diese Modelle sehr komplexe Zusammenhänge lernen können, ist in den nächsten Jahren mit sehr großen Sprüngen in vielen Forschungsbereichen zu rechnen. Wichtig ist es zu ergründen, was die Modelle eigentlich lernen. Damit allein werden wir Genomdaten deutlich tiefer verstehen als bisher. Aber diese Modelle können auch für viele Aufgaben angepasst werden und damit eine ganze Reihe von Forschungsfeldern beschleunigen, von Evolutionsbiologie zum Verstehen von Erbkrankheiten, Krebsentstehung und personalisierter Behandlung.“
Neue Möglichkeiten für die Forschung
„Im Tool steckt, was es eigentlich gelernt hat, um die Vorhersagen machen zu können. Wenn es uns gelingt diese Information zu extrahieren, werden wir viel darüber lernen wie Viren und Bakterien funktionieren. Dazu kann das Modell für viele weitere Fragen angepasst werden. Hier sind der Fantasie kaum Grenzen gesetzt: Jede Frage über einen Prozess, der von der DNA oder Proteinsequenz abhängt, kann im Prinzip mit so einem Modell adressiert werden.“
Mehrwert für Genom-Analysen aller Organismen
„Evo wurde an mikrobiologischen Genomdaten trainiert, aber das Prinzip ist auf jegliche Genomdaten übertragbar. Es ist damit zu rechnen, dass bald ein Modell mit weiteren Genomdaten folgen wird. Vermutlich wird es kein Modell geben, dass für alle Aufgaben am besten geeignet ist. Es wird wahrscheinlich unterschiedliche Modelle für mikrobiologische oder humanmedizinische Fragen geben, Modelle, die sehr große DNA-Sequenzlängen verwenden, und solche, die sehr gut, aber dafür nur an kürzeren Sequenzen lernen.“
Potenzial für Missbrauch
„Die Autoren schließen Viren aus, die eukaryotische Zellen befallen können. Ob dies wirklich Risiken mitigiert, ist fraglich. Im Prinzip sind sowohl die Daten als auch die Tools verfügbar, um solche Vorsichtsmaßnahmen zu umgehen.“
„Wir sollten uns bemühen, schnell tief zu verstehen, wie diese Modelle lernen und welche Informationen sie zum Lernen nutzen. Missbrauch setzt eine schlechte Intention voraus, aber gefährlicher ist vermutlich das Verwenden von Tools mit Unkenntnis. Missbrauch ist schwer zu stoppen, aber Problemen durch unsachgemäßen Umgang kann mit Forschungsförderung vorgebeugt werden.“
Leiterin der Forschungsgruppe Computational Systems Genetics am Institut für Humangenetik, Universitätsmedizin Mainz
Einordnung in die Forschungslandschaft
„Evo ist in der Lage komplexe Zusammenhänge in DNA-Sequenzen zu erfassen und deren Auswirkungen auf DNA-, RNA- und Proteinebene vorherzusagen. Dazu gehören unter anderem die Effekte von Mutationen auf die Überlebensfähigkeit eines Organismus und der Einfluss regulatorischer DNA-Sequenzen auf die Genexpression. Zwar gibt es bereits Tools für jede dieser Aufgaben, doch vereint Evo diese verschiedenen Ansätze in einem einzigen Tool. Man kann sich Evo also wie ein Schweizer Taschenmesser für DNA-Analysen vorstellen, während bisherige Tools eher einzelnen, spezialisierten Werkzeugen gleichen.“
Funktionsweise
„Evo funktioniert ähnlich wie moderne KI-Systeme für menschliche Sprache, wurde aber für den genetischen Code optimiert. So wie Sprach-KI durch das Lesen von Millionen von Büchern lernt, hat Evo durch das Verarbeiten einer Vielzahl bakterieller und viraler Genome gelernt. Es verwendet dabei eine moderne Deep-Learning Architektur, die es ermöglicht, sowohl kleinste Details (einzelne DNA-Buchstaben) als auch große Zusammenhänge (wie Gene zusammenarbeiten) zu verstehen. Man kann es sich vorstellen wie einen Schüler, der gleichzeitig einzelne Wörter und ganze Geschichten verstehen lernt.“
Auf die Frage, ob „Sprach”-Modelle wie Evo für die Computational Biology geeignet sind:
„Ja, aber mit wichtigen Einschränkungen. Diese Modelle sind erstaunlich gut darin, die ‚Sprache‘ des Lebens – DNA, RNA und Proteine – zu verstehen. Dabei müssen sie allerdings viel komplexere Strukturen verarbeiten als bei menschlicher Sprache: Während ein Text linear gelesen wird, muss bei biologischen Sequenzen die dreidimensionale Faltung und Wechselwirkung über große Distanzen berücksichtigt werden.“
„Wie bei KI-Textgeneratoren, die zwar vernünftig klingende Sätze produzieren können, die aber in einem bestimmten Kontext keinen Sinn ergeben, können auch biologische KI-Modelle Sequenzen erzeugen, die korrekt aussehen, aber biologisch nicht funktionieren. Daher ist es unerlässlich Vorhersagen auch experimentell zu überprüfen, oder zumindest mit großer Vorsicht zu betrachten.“
Neue Möglichkeiten für die Forschung
„Evo kann Wissenschaftlern helfen, neue biologische Werkzeuge zu entwickeln, zum Beispiel verbesserte Versionen von CRISPR-Genscheren. Es ist wie ein KI-Assistent, der beim Design komplexer biologischer Maschinen hilft. Das Tool könnte man sich auch als Werkzeug vorstellen, das hilft vorherzusagen, wie sich Mutationen auf die Überlebensfähigkeit eines Organismus auswirken könnten. Dies könnte eventuell zu einem besseren Verständnis für manche unterforschten Krankheiten führen. Wichtig ist jedoch: Es handelt sich um ein Werkzeug für die Grundlagenforschung – für medizinische Anwendungen ist es noch nicht bereit.“
Mehrwert für Genom-Analysen aller Organismen
„Obwohl Evo nur mit bakteriellen und viralen DNA-Sequenzen trainiert wurde, können seine Methoden uns helfen, die Funktionsweise auch höherer Genome besser zu verstehen. Es ist wie das Erlernen grundlegender Grammatikregeln, die sich auf viele Sprachen anwenden lassen. Die Erkenntnisse aus der Analyse bakterieller DNA könnten in Zukunft vielleicht auch zur Entwicklung besserer Werkzeuge für die Erforschung menschlicher Gene beitragen. Allerdings wäre für die direkte Anwendung auf menschliche Gene noch sehr viel Entwicklungsarbeit nötig.“
Potenzial für Missbrauch
„Der Ausschluss gefährlicher Viren vom Training ist zwar ein wichtiger Schritt, aber womöglich nur ein Tropfen auf den heißen Stein. Die grundsätzlichen Risiken bestehen unabhängig von Evo: Virengenome sind öffentlich verfügbar, und mit ausreichend Rechenleistung und Fachwissen könnte die Technologie auch für schädliche Zwecke genutzt werden. Was wir wirklich brauchen, ist ein umfassendes internationales Regelwerk für den verantwortungsvollen Umgang mit KI in der Biotechnologie. Die wissenschaftliche Gemeinschaft muss kontinuierlich an der Entwicklung von Sicherheitsmaßnahmen arbeiten, während diese Technologie sich weiterentwickelt.“
Direktor des Instituts für Mikrobiologie, Universität Stuttgart
„Vor 40 Jahren leitete die erste DNA-Klonierung durch Paul Berg und Stanley Cohen das Zeitalter der Molekularen Biologie ein. Erstmals konnten natürliche DNA-Stränge in Wirtszellen eingeschleust werden, um Organismen gezielt mit nützlichen Eigenschaften auszustatten. Heute findet durch die Anwendung der Künstlichen Intelligenz in der Biologie ein weiterer Quantensprung statt: Computer-Algorithmen lernen das Neuschreiben von DNA-Sequenzen und ermöglichen es, den Bauplan von Organismen von Grund auf neu zu gestalten. Damit tritt die Biologie in das neue Zeitalter der Digitalen Biologie ein.“
„In Kalifornien hat nun eine Gruppe von Forscher:innen eine Künstliche Intelligenz mit DNA-Datensätzen von Millionen Bakterien trainiert. Das neue KI-Modell namens Evo lernte dabei die Sprache und Grammatik der DNA und ermöglicht, nützliche biologische Funktionen direkt in künstliche DNA-Sequenzen umzusetzen. Die Arbeit wurde im renommierten Wissenschaftsjournal ‚Science‘ veröffentlicht.“
Einordnung in die Forschungslandschaft
„Evo markiert einen Paradigmenwechsel in der Biotechnologie. Bislang wurden Produktionsstämme aufwändig über klassische DNA-Klonierungsmethoden hergestellt, was viel Fachwissen und manuelle Arbeitsschritte im Labor erforderte. Dabei wurden natürliche DNA-Stränge kombiniert und zusammengeführt.“
„Die KI übersetzt nun direkt nützliche biologische Funktionen in die Sprache der DNA. Im digitalen Raum entstehen neue DNA-Sequenzen, die anschließend durch chemische DNA-Synthese physisch hergestellt und in Zellen eingeschleust werden können. Dieser Ansatz der Digitalen Biologie beschleunigt die Entwicklung biotechnologischer Produktionsstämme oder therapeutischer Proteine für medizinische Anwendungen enorm.“
Neue Möglichkeiten für die Forschung
„Die Forschungsgruppe um Evo konnte erstmals auf diesem Weg neue funktionale Proteine entwerfen. Zwar sind die KI-Vorhersagen noch nicht immer präzise, aber durch die Weiterentwicklung der KI-Modelle wird der Designprozess in den kommenden Jahren weiter optimiert werden. So könnten neben neuen Proteinen zunehmend komplexe biologische Systeme, bis hin zu nützlichen Organismen, von Grund auf neu konstruiert werden. Durch die Verbindung von KI und Biologie entsteht nun eine Schlüsseltechnologie mit breiter Anwendung.“
„Diese rasanten Fortschritte der Digitalen Biologie bringen jedoch auch Verantwortung mit sich. Die neuen Möglichkeiten der KI-basierten Biologie sollten sorgsam und ethisch eingesetzt werden, um sicherzustellen, dass die daraus entstehenden Technologien der gesamten Gesellschaft zugutekommen und zum Wohl aller eingesetzt werden.“
Leiter der Abteilung Angewandte Bioinformatik, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg
Einordnung in die Forschungslandschaft
„Es handelt sich nicht um das erste Tool, was es in dieser Art gibt, aber es ist das erste, das rein mit Genomsequenzen trainiert wurde und auch Aussagen zu Aminosäuren treffen kann. Vorherige Tools wurden nur auf einzelne Fragestellungen hin trainiert. Es gibt also viele Modelle für viele Fragestellungen. Evo gehört zur Klasse der Foundation-Models, die viele Sachen gleichzeitig können. Diese sind aufwändig zu trainieren, aber man kann sie dann auf mehrere Anwendungen weiter spezialisieren. Das ist wichtig und geht darüber hinaus, was wir bereits haben.“
Funktionsweise
„Evo gehört zur Klasse großer Sprachmodelle. Diese trainieren anhand vieler Wortfolgen, welches Wort voraussichtlich als nächstes kommt. Evo wurde auf die Abfolge von Nukleotiden trainiert und kann dann absehen, welche Nukleotide darauf folgen.“
„Im Gegensatz zu anderen Modellen, konzentriert sich Evo nicht nur auf die Codon-Struktur der DNA – also die Abfolge von drei Nukleotiden, die für eine Aminosäure codieren – sondern auch auf größere Bereiche, so dass es Strukturen finden kann, die man bisher noch nicht kennt. Es gibt im Genom Elemente, die ein Gen beeinflussen, die sehr weit, bis zu einer Million Basenpaare, entfernt liegen können. Es ist bisher schwer vorherzusagen, inwiefern entfernte Bereiche Einfluss auf gewisse Gene haben können. Das Modell könnte beispielsweise auch dabei helfen, zu verstehen, woran man Introns (nicht codierenden Abschnitte der DNA innerhalb eines Gens, Anm. d. Red.) erkennen kann, wenn man es weiter mit eukaryotischen Daten trainieren würde.“
Neue Möglichkeiten für die Forschung
„Durch Evo eröffnen sich etliche neue Anwendungsmöglichkeiten. Zum Beispiel kann man damit untersuchen, welchen Einfluss Mutationen auf die Funktionalität von Proteinen haben oder welche Mutationen beispielsweise für Antibiotikaresistenzen verantwortlich sind. Es kann vielseitig im Bereich der synthetischen Biologie eingesetzt werden, zum Beispiel um guide RNAs für CRISPR-Cas-Ansätze zu finden oder um Vorhersagen zu treffen, was passiert, wenn ich nicht-codierenden RNAs verändere. Im menschlichen Genom gibt es sehr viele nicht-codierende RNAs und bisher weiß man bei den meisten nicht, was sie tun. Das Tool könnte hier helfen.“
Potenzial für Missbrauch
„Alle Techniken, die es gibt, können missbraucht werden. Allerdings kann man das Modell, wie es jetzt vorliegt, nicht einfach nehmen und zum Beispiel für krankheitserregende Viren missbräuchlich verwenden. Das Modell ist sehr groß und man könnte es zwar auch auf weitere Viren trainieren, die beispielsweise Menschen infizieren können. Allerdings bräuchte man dafür substanzielle Expertise und sehr umfangreiche Ressourcen.“
„Es ist sehr zu begrüßen, dass die Autoren sich Gedanken zu möglichem Missbrauch gemacht haben und sie ethische Aspekte umfassend in den Zusatzinformationen der Publikation diskutieren.“
Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz
Einordnung in die Forschungslandschaft
„Sprachmodelle bilden häufig die Grundlage (‚Foundation Models‘), auf der spezifische Tools für praktische Anwendungen entwickelt werden. Evo war eines der ersten Sprachmodelle, das direkt auf Genomdaten trainiert wurde, und stellt somit einen wichtigen Meilenstein in dieser Entwicklung dar. In der Zwischenzeit wurde dieses Konzept von verschiedenen Gruppen erfolgreich weiterentwickelt; die resultierenden Sprachmodelle zeigen dabei in den konkreten Anwendungen teilweise bessere Performance als Evo.“
Funktionsweise
„Evo nutzt moderne Softwarearchitekturen, wie sie auch in großen Sprachmodellen wie ChatGPT Anwendung finden, um aus den Genomen von Bakterien und Viren Informationen über die Rolle der verschiedenen Abschnitte auf der DNA zu ‚erlernen‘. Das Training der Modelle erfolgt dabei mithilfe der Nukleotidsequenzen von Millionen von Genomen. Dazu ‚lernt‘ das Modell vorherzusagen, welches Nukleotid im Kontext einer DNA-Sequenz an einer Position am wahrscheinlichsten ist. Um bei der Analogie zu den großen Sprachmodellen zu bleiben – Evo versucht aus einzelnen ‚Buchstaben‘ zu lernen, ohne den Zwischenschritt über Worte und Sätze.“
Sprachmodelle in der Computational Biology
„Sprachmodelle basierend auf Proteinsequenzen finden heute bereits zahlreiche Anwendungen in der Bioinformatik, zum Beispiel in der Vorhersage von dreidimensionalen Proteinstrukturen, Protein Engineering, der Charakterisierung von Proteinsequenzen oder der Abschätzung der Folgen von Mutationen. Genombasierte Sprachmodelle wie Evo versprechen eine Erweiterung möglicher Anwendungsbereiche, indem sie implizit mehrere Informationsebenen einbeziehen können, wie zum Beispiel den genomischen Kontext, Codon Usage, oder Wechselwirkungen zwischen Proteinen und RNA/DNA. Evo wurde basierend auf Genomdaten von Bakterien und Viren trainiert. Das Gebiet entwickelt sich aktuell sehr schnell, und es gibt bereits genomische Sprachmodelle, die auf eukaryotischen Genomen und mit komplexeren Paradigmen trainiert wurden.“
Neue Möglichkeiten für die Forschung
„Genomische Sprachmodelle wie Evo könnten in Zukunft eine Grundlage für die Abbildung komplexer biologischer Systeme bilden. Sprachmodelle bieten daher eine vielversprechende Basis zur Entwicklung von Werkzeugen in Forschungsbereichen, die mit vereinfachenden Ansätzen heute nur unvollständig abgebildet werden können. Mögliche Anwendungsfelder sind vielfältig, zum Beispiel in der Entwicklung von neuen Wirkmechanismen gegen antibiotikaresistente Erreger oder in der Optimierung von Prozessen in der Biotechnologie.“
Mehrwert für Genom-Analysen aller Organismen
„Viele grundlegende biochemische Prozesse lassen sich in bakteriellen Systemen gut beschreiben und auf eukaryotische Organismen übertragen, zum Beispiel dreidimensionale Strukturen von Enzymen oder Faltungsmuster von RNA-Molekülen. Hingegen ist nicht zu erwarten, dass mikrobielle Modelle komplexere Zusammenhänge erfassen, die im Laufe der Evolution erst in eukaryotischen und mehrzelligen Organismen entstanden sind. Moderne genomische Sprachmodelle, die nach Evo entwickelt worden, trainieren daher auch an eukaryotischen Genomen und können so auch diese Informationsebenen abbilden.“
Professor für computergestützte Molekularmedizin, Technische Universität München (TUM)
Einordnung in die Forschungslandschaft
„Im Allgemeinen gibt es zwei Wege das Genom zu verstehen: Erstens, auf experimentelle Art, indem man misst, wie die Gensequenzen mit verschiedenen molekularen Funktionen zusammenhängen um herauszufinden wie verschiedene Sequenzen die Genexpression oder die Fitness des Organismus steuern; Zweitens, indem man sich die natürliche Selektion zunutze macht, das heißt, indem man die Genome verschiedener Arten vergleicht und analysiert, welche Gensequenzen über einen längeren Zeitraum durch die Evolution erhalten geblieben sind. Die Logik hinter diesem Ansatz ist, dass Genomabschnitte, die über lange Zeiträume konserviert sind, in der Regel eine wichtige funktionelle Rolle spielen, da sie sonst durch zufällige Mutationen verändert worden wären. Bisher wurden die konservierten Regionen durch den Abgleich der Genome verschiedener Arten bestimmt.“
„Evo ist ein DNA-Sprachmodell. DNA-Sprachmodelle wurden erstmals im Jahr 2021 vorgestellt. Diese erfassen wiederkehrende konservierte Muster auf eine flexiblere Weise, indem sie lernen, Nukleotide mithilfe der Sequenzumgebung über viele Arten hinweg vorherzusagen. DNA-Sprachmodelle stellen einen modernen Weg dar, die natürliche Selektion zu nutzen, um die Funktion verschiedener Genomregionen zu verstehen. Unter den DNA-Sprachmodellen ist Evo eine spezielle Art von Sprachmodell: Es ist ein generatives Modell, das heißt, es kann zur Erzeugung neuer Sequenzen verwendet werden und berücksichtigt dabei einen sehr großen Kontext von Hunderttausenden von Nukleotiden. Evo scheint früheren Ansätzen, überlegen zu sein, die auf konservierten Regionen nach natürlicher Selektion basieren, aber das Paper liefert keine Beweise, ob es auch Ansätze übertrifft, die auf der ersten Methode basieren, die experimentelle Daten über die Funktion verwendet“.
Funktionsweise
„Evo wurde darauf trainiert, das nächste Nukleotid in einer genomischen Sequenz vorherzusagen, ähnlich wie Modelle wie ChatGPT das nächste Wort in einem Absatz vorhersagen. Im Gegensatz zu früheren ähnlichen Ansätzen verwendet es eine Modellarchitektur, die auch gut funktioniert, wenn lange Sequenzen eingegeben werden. Die Arbeit liefert jedoch nur begrenzt Belege dafür, dass das Modell tatsächlich von dieser großen Skalierbarkeit profitiert.“
„Evo wird mit einem großen Datensatz verschiedener prokaryotischer Sequenzen trainiert, so dass es sowohl evolutionäre Ähnlichkeiten als auch Unterschiede zwischen diesen Arten erkennen kann.“
Auf die Frage, ob „Sprach”-Modelle wie Evo für die Computational Biology geeignet sind:
„Auf jeden Fall. Wir glauben, dass Sprachmodelle eine vielversprechende Technik sind. Sie ermöglichen es uns, funktionelle Elemente allein aus der Genomsequenz zu identifizieren und zu generieren, und überwinden damit die Einschränkungen die mit experimentellen Daten einhergehen. Darüber hinaus bieten sie eine reichhaltigere Möglichkeit, molekulare Funktionen aus der Sequenz zu modellieren, und zwar anhand der Muster, die sie über Genome hinweg lernen. Diese Art der Forschung steht jedoch noch am Anfang. Es sind noch weitere Arbeiten zur Modellinterpretation und zum Nachweis des Mehrwerts im Vergleich zu Modellen auf der Grundlage experimenteller Daten erforderlich.“
Neue Möglichkeiten für die Forschung
“Wie auch andere Sprachmodelle, die auf Genomsequenzen trainiert werden, bietet dieses Werkzeug die Möglichkeit, unsere Vorhersage molekularer Funktionen und das Verständnis funktioneller Elemente und ihrer Beziehungen zu verbessern. Da die meisten unserer experimentellen Daten von einer begrenzten Anzahl von Modellspezies stammen, zum Beispiel von Prokaryoten wie E. coli, könnten diese Werkzeuge unser Verständnis des derzeit nur unzureichend erforschten enorm vielfältigen genetischen Codes von anderen Prokaryoten, wirklich voranbringen. Wir gehen davon aus, dass diese Modelle derzeit den größten Mehrwert haben, wenn es um die Untersuchung von Arten, die noch nicht intensiv erforscht sind, und wenn es um die Evolution von genetischen Anweisungen, geht.“
Mehrwert für Genom-Analysen aller Organismen
„Derzeit ist das Problem der Übertragbarkeit dieser Modelle auf Eukaryonten und insbesondere Säugetiere noch nicht gelöst. Die Genome von Säugetieren sind viel größer als die von Prokaryonten, es gibt viel weniger Säugetierarten und sie ähneln sich in der Regel auch stärker. Dies schränkt die Lernfähigkeit solcher Modelle ein. Deshalb wird ein einfaches Training von Evo mit Säugetieren wahrscheinlich kein nützliches Modell für die Vorhersage der Auswirkungen menschlicher Genome hervorbringen. Es wird jedoch wahrscheinlich Bereiche geben, in denen DNA-Sprachmodelle einen Mehrwert bieten können, insbesondere wenn sie mit überwachten Lernansätzen der KI-Modelle kombiniert werden. Außerdem schreitet das Feld sehr schnell voran.“
Potenzial für Missbrauch
„Obwohl Evo im Prinzip ein neues ‚Bakteriengenom‘ erzeugen könnte, lassen die von den Autoren genannten Einschränkungen vermuten, dass dieses ‚Bakterium‘ höchstwahrscheinlich kein funktionsfähiger Organismus sein wird, geschweige denn einer, der Wirte infizieren kann. Daher stellen die derzeitigen Datenbanken mit existierenden prokaryotischen und viralen Sequenzen wahrscheinlich eine größere Gefahr dar als alles, was dieses Modell erzeugen kann. Dies könnte aber in Zukunft zu einem Problem werden. Andererseits gibt es ein großes Potenzial für generative KI-Modelle wie dieses, um bei der Entwicklung neuer Gene oder RNAs für therapeutische Zwecke zu helfen.“
„Es besteht kein Interessenkonflikt.“
„Bei mir besteht kein Interessenkonflikt.“
„Ich bin Mitgründer des BioTech Startup Gigabases Switzerland AG (www.gigabases.com), welches Technologien für Protein- und DNA-Design entwickelt.“
„Ich habe keine Interessenkonflikte.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Nguyen E et al. (2024): Sequence modeling and design from molecular to genome scale with Evo. Science. DOI: 10.1126/science.ado9336.
Dr. Anna Poetsch
Forschungsgruppenleiterin am Biotechnologischen Zentrum (BIOTEC), Technische Universität Dresden
Prof. Dr. Susanne Gerber
Leiterin der Forschungsgruppe Computational Systems Genetics am Institut für Humangenetik, Universitätsmedizin Mainz
Prof. Dr. Beat Christen
Direktor des Instituts für Mikrobiologie, Universität Stuttgart
Prof. Dr. Benedikt Brors
Leiter der Abteilung Angewandte Bioinformatik, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg
Prof. Dr. Torsten Schwede
Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz
Prof. Dr. Julien Gagneur
Professor für computergestützte Molekularmedizin, Technische Universität München (TUM)