Skalierung und Reasoning: Wie geht es mit Sprachmodellen weiter?
Debatte, wie große Sprachmodelle weiter verbessert werden können, spitzt sich zu
neues Sprachmodell der chinesischen Firma DeepSeek soll mit weniger Trainingsinfrastruktur trotzdem konkurrenzfähig sein
Forschende sehen Reasoning als Ansatz für KI, um komplexere Aufgaben lösen zu können, reine Skalierung sei ressourcenintensiv, aber weiterhin möglich
Das neue Sprachmodell der chinesischen Firma DeepSeek bekommt aktuell viel Aufmerksamkeit. Mit angeblich weniger Chips und Rechenleistung will das Unternehmen ein Produkt entwickelt haben, das mit Modellen von großen Konzernen wie OpenAI oder Meta mithalten kann. Diese Entwicklung spielt in die aktuelle Debatte darüber hinein, wie Sprachmodelle in Zukunft weiter verbessert werden können. Bis jetzt war der gängige Ansatz, dass mehr Trainingsdaten zu besseren Modellen führen.
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Die neuen o1 und o3 Modelle von OpenAI markieren den Beginn einer neuen Phase in der Entwicklung von KI. In den letzten Jahren wurden LLMs vor allem besser, weil sie größer und auf mehr Daten trainiert, also ‚skaliert‘, wurden. Modelle wie o1 ermöglichen nun eine neue Art von Skalierung, indem sie auch Antwortzeit in bessere Antworten auf komplexe Fragen umwandeln. Wenn man diesen Modellen die Zeit dafür gibt, sind sie in der Lage, verschiedene Lösungsansätze zu formulieren und diese nach Reflektion auch wieder zu verwerfen, um somit die optimale Lösung zu finden. Aufgrund dieses ‚Denkprozesses‘ werden Modelle wie o1 auch als ‚Reasoning Models‘ bezeichnet.“
„Die technische Innovation, die Reasoning Models ermöglicht, ist die stärkere Einbindung von ‚Reinforcement Learning‘ (RL) in den Trainingsprozess. Im RL belohnt man gute Antworten und bestraft schlechte Antworten des Modells, überlässt die Art der Antwortfindung aber dem Modell selbst. Diese Idee ist zwar nicht neu, aber erst jetzt hat man es (mit einigen Kniffen) geschafft, ein starkes Basismodell dazu zu bringen, durch RL einen eigenen effektiven Denkprozess zu entwickeln, der mit mehr Antwortzeit zu besseren Antworten führt.“
„Die Vorteile von Modellen wie o1 gegenüber früheren Modellen wie GPT-4 werden in vielen alltäglichen Anwendungen nicht unmittelbar sichtbar sein. ‚Reasoning Models‘ zeigen ihre Stärke vor allem bei der Lösung komplexer Probleme in der Programmierung, Mathematik, und den Naturwissenschaften, über die auch Menschen in der Regel länger nachdenken müssten. In diesen Bereichen ist daher der meiste Fortschritt zu erwarten.“
Weiterentwicklung des KI-Forschungsfeldes
„Es ist wahrscheinlich, dass große, ressourcenreiche Unternehmen wie OpenAI weiterhin den technologischen Fortschritt in KI bestimmen werden. Dennoch gibt es bereits heute leistungsstarke Open-Source-Alternativen zu den besten Modellen (zum Beispiel R1 von DeepSeek [1]). Dies macht Hoffnung, dass die offene Wissenschaft auch in den nächsten Jahren nicht abgehängt werden wird.“
Skalierung und weitere Ansätze zur Verbesserung aktueller Modelle
„Durch die Skalierung von Trainingsdaten sind weiterhin positive Effekte zu erwarten. Dies gilt auch für die Skalierung von Modellparametern, also der Modellgröße. Allerdings ist Skalierung nicht linear. Das heißt, dass zehn Prozent mehr Daten oder Parameter nicht zu zehn Prozent besseren Modellen führen. Stattdessen würde man eher erwarten, dass für denselben positiven Effekt immer wieder eine Vervielfachung der Daten oder Parameter nötig ist. Und da wir schon große Mengen an Trainingsdaten und sehr große Modelle verwenden, wird eine weitere Vervielfachung immer schwieriger.“
„Menschliche Daten sind endlich. Selbst das Internet ist nicht unendlich groß. Deshalb können synthetische Daten helfen, die Trainingsdaten von Modellen weiter zu skalieren. Skalierung über ‚Denkzeit‘ in den neuen Reasoning Models ist im Vergleich allerdings noch viel weniger ausgeschöpft und wird deswegen kurzfristig mehr Fortschritt ermöglichen.“
„Neuro-symbolic AI ist nicht mein Fachgebiet. Ich weiß, dass einige fachkundige Wissenschaftler*innen argumentieren, dass wir nur so zu ‚echter‘ KI gelangen können. Außerdem ist es sicherlich wünschenswert, wenn parallel zur Verbesserung von LLMs auch grundlegend andere Ansätze erforscht werden. Allerdings haben LLMs in den letzten Jahren immer wieder die Erwartungen selbst der größten Skeptiker übertroffen.“
Einordnung zu DeepSeek
„DeepSeek R1 ist das erste offene (‚open weight‘) Reasoning Model, das mit OpenAI’s o1 mithalten kann. OpenAI hat zwar nicht im Detail erklärt, wie sie o1 trainiert haben, aber man kann davon ausgehen, dass R1 die wichtigsten Schritte zumindest von der Idee her reproduziert.“
„Ich persönlich halte die fast panische Reaktion mancher Kommentator*innen zu R1 für etwas übertrieben. Es war sehr wahrscheinlich, dass eine offene Reproduktion von o1 kommen würde. R1 kam nur schneller als erwartet und war im Training günstiger als erwartet. Dass R1 aus China kommt, ist auch kein Schock. Chinesische Labs veröffentlichen schon lange starke offene Sprachmodelle wie zum Beispiel Qwen. Außerdem ist DeepSeek eine große Organisation mit viel Hardware und an R1 haben weit über 100 Leute gearbeitet.“
„Insgesamt bedeutet R1 für mich erstens eine Reduktion des Wissensvorsprungs der Privatwirtschaft und zweitens eine weitere Beschleunigung des Fortschritts in der KI. Denn wenn man selbst mit relativ wenig Geld gute Reasoning Models trainieren kann, dann kann man mit viel Geld noch viel bessere Reasoning Models trainieren.“
Leiter der Forschungsgruppe für safety- & efficiency- aligned learning, Max-Planck-Institut für Intelligente Systeme und ELLIS Institut Tübingen
Skalierung und weitere Ansätze zur Verbesserung aktueller Modelle
„Große Sprachmodelle sind seit ein paar Jahren so erfolgreich, weil sie verlässlich skalieren. Mit mehr Rechenleistung wird die Fähigkeit dieser Modelle, Sprache zu modellieren, weiter verbessert. Diese Scaling Laws (Potenzgesetze), die in Forschungsarbeiten gemessen wurden, sind sehr verlässlich [2] [3].“
„Allerdings sind es Power Laws, das heißt die Verbesserung ist nicht proportional zur Rechenleistung. Je besser das Modell schon ist, umso mehr Rechenleistung muss aufgewendet werden, um das Modell weiter zu verbessern. Das war vor ein paar Jahren noch einfach, aber jetzt haben die amerikanischen Firmen ihre Modelle in die Nähe der aktuell erreichbaren Rechenleistung skaliert. Weitere spürbare Verbesserungen werden wegen der Potenzskalierung nicht mit Verdoppelung, sondern eher mit Verhundertfachung der Rechenleistung einhergehen. Skalierung ist somit weiter vorhanden, also auf keinen Fall ‚abgeflacht‘ oder ‚zu Ende‘, aber voraussehbar aufwendig.“
„Neuro-symbolic AI ist kein erstzunehmender Ansatz, um aktuelle Modelle zu verbessern. Synthetische Daten sind jetzt schon ein integraler Teil der aktuellen Rezepte für die besten Modelle.“
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Etablierte LLMs haben bis vor einigen Monaten fast alle Anfragen ‚aus dem Stegreif‘ beantwortet. Diese Strategie funktioniert gut bei einfachen Fragen, zum Beispiel im Chat. Sie hat zu Modellen geführt die gute ‚intuitive‘ Antworten geben konnten, aber bei Fragen, die ein wenig Nachdenken erforderten, relativ abenteuerliche Antworten gegeben haben. Sehr gut kann man dieses Problem oft mit einfacheren Matheaufgaben testen. Spannenderweise ist das zumindest teilweise ein Datenproblem. Die Modelle haben mit nur wenigen Beispielen von ‚inneren Monologen‘ trainiert, also von Texten, bei denen ein Sprecher laut über die Antwort nachdenkt, bevor sie ausgesprochen wird.“
„Neuere Ansätze wie o1 und o3 von openAI, und R1 von DeepSeek umgehen dieses Problem, indem sie – ausgehend von ihren stärksten verfügbaren normalen Modellen – solche internen Monologe synthetisch generieren, um dann damit diese Modelle über viele Runden iterativ zu verbessern. Diese Modelle generieren dann bei Fragen erst ihren eigenen internen Monolog, bevor sie die Frage beantworten.“
„Die resultierenden Modelle haben zu überraschenden Durchbrüchen bei Problemen geführt, bei denen die normalen Modelle noch schwach waren, zum Beispiel Beweisführung in der Mathematik oder das Lösen von komplexen Programmieraufgaben. Diese Lösung von ‚Reasoning‘ durch interne Monologe ist zwar relativ teuer (da die Modelle weitaus mehr Text generieren, als sie als Antwort ausgeben), aber ein Durchbruch für die weitere Verbesserung dieser Modelle bei Problemen, in denen sie sich bis jetzt nur langsam verbessert haben.“
Einordnung zu DeepSeek
„R1 von DeepSeek ist tatsächlich ein guter Open-Source-Bericht, der einen Ansatz beschreibt, der wahrscheinlich mit OpenAI vergleichbar ist. Die DeepSeek-Modelle sind spannend. Die chinesische Firma ist seit etwa ein bis zwei Jahren für gute, kleinere Open-Source-Modelle bekannt, mit besonderem Fokus auf die Lösung von komplexen Problemen. Die Firma hat aber erst Ende vergangenen Jahres mit DeepSeek-v3 ein wirklich großes Modell vorgestellt, das sich mit anderen Open-Source-Modellen, zum Beispiel von Meta, vergleichen konnte.“
„Jetzt hat sie Anfang Januar mit DeepSeek-R1 eine Verbesserung ihres v3 Modells herausgebracht, die die erste erfolgreiche Open-Source-Variante eines Modells mit einem internen Monolog ist – ein Modelltyp, der im letzten Jahr von OpenAI als o1/o3 vorgestellt wurde. DeepSeek selber ist relativ neu in der LLM-Branche und war lange etwas unscheinbar im Vergleich zu anderen chinesischen KI-Giganten wie zum Beispiel Alibaba, die auch mehr mit der Regierung vernetzt sind. Sie sind aber schon im vergangenen Jahr mit innovativen Forschungsergebnissen aufgefallen, die sie – im Vergleich zu amerikanischen Firmen wie OpenAI und Anthropic – öffentlich verfügbar gemacht haben.“
„Mit ihrer R1-Verbesserung haben sie aber ihr Modell jetzt plötzlich an die Spitze der weltweiten Benchmarks katapultiert, und – im Gegensatz zu anderen Firmen – haben sie das Modell frei zum Download verfügbar gemacht.“
„Wichtig ist vielleicht, dass DeepSeek ihr Modell zwar etwas effizienter trainiert hat als andere Firmen – der öffentlich verfügbare Bericht über das Modell enthält spannende Details über die effiziente Implementierung von Low-Precision-Datentypen und Kommunikation auf H800 Chips, Chips die auf Bestreben der US Regierung in China von NVIDIA mit eingeschränkter Funktionalität verkauft werden. Aber das Basismodell (DeepSeek-v3) ist auf keinen Fall klein, mit 685B Parametern (‚Neuronen‘) trainiert auf 15 Trillionen Datenpunkten. Der R1-Bericht zeigt, dass ein so großes Modell tatsächlich notwendig war, um einen Startpunkt zu haben, mit dem interne Monologe generiert werden konnten, die über viele Runden weiter verbessert werden konnten.“
„Berichte, dass R1 zeigt, dass KI-Modelle plötzlich ‚umsonst‘ trainiert werden können, sind übertrieben. Eher ist das Modell ein Beweis, dass nicht nur die Amerikaner in der Lage sind, die besten KI-Modelle zu trainieren und zu verbessern.“
„Spannend ist auch, dass – ausgehend vom Besitz eines starken, teuren Basismodells (v3) – die eigentliche Verbesserung des Modells durch interne Monologe (R1), die die Fähigkeiten des Modells auf komplexen Problemen signifikant verbessert, gar nicht so teuer ist und durch clevere Lernalgorithmen gelöst werden konnte. Dieser Verdacht stand bei o1 auch schon im Raum, aber ohne einen vergleichbaren Open-Source-Ansatz war das noch unklar.“
Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt
Skalierung und weitere Ansätze zur Verbesserung aktueller Modelle
„Die Skalierungshypothese bei großen Sprachmodellen (LLMs) besagt, dass LLMs durch eine Vergrößerung der Parameteranzahl, der Trainingsdatensätze und der eingesetzten Rechenressourcen immer leistungsfähiger werden. Je größer der Datensatz und das Modell, desto größer sind die Chancen, qualitativ hochwertige Ergebnisse zu erzielen. Es ist wie beim Kuchenbacken: Je mehr Zutaten man zur Auswahl hat, desto wahrscheinlicher ist es, dass man die Zutaten für einen köstlichen Kuchen findet. Allerdings scheint diese Verbesserung nicht grenzenlos zu sein. Mit zunehmender Größe der Modelle und Datenmengen flachen die Leistungsgewinne ab. Stellen Sie sich vor, Sie trainieren für einen Marathon – in den ersten Wochen werden Sie mit jeder Trainingseinheit deutlich fitter, aber nach Monaten harter Arbeit sind Fortschritte langsamer, weil Sie schon fast Ihre Leistungsgrenze erreicht haben. Für LLMs gilt: Es gibt nicht unendlich viele qualitativ hochwertige Texte, und irgendwann werden weitere Daten immer weniger wertvoll, wenn sie nicht gezielt neue Informationen oder Perspektiven einbringen. Der Fokus verschiebt sich daher zunehmend von der bloßen Datenmenge auf synthetische Daten, die Qualität und Vielfalt der Daten sowie auf andere Modalitäten wie das Reasoning.“
„Neben der Skalierung und Optimierung großer Sprachmodelle gibt es eine Reihe vielversprechender Ansätze, um ihre Leistungsfähigkeit und Anwendbarkeit weiter zu verbessern.“
„Ein zentraler Ansatz ist die neurosymbolische KI, die neuronale Netze mit symbolischen Systemen kombiniert. Hierbei werden die Stärken beider Paradigmen genutzt: Neuronale Netze bringen die Fähigkeit zur Mustererkennung und Generalisierung in datenintensiven Szenarien ein, während symbolische Systeme beispielsweise erklärbare, regelbasierte und logische Schlussfolgerungen ermöglichen. Ein weiterer Trend ist die Nutzung synthetischer Daten. Synthetische Daten werden künstlich mit Hilfe von anderen KI-Modellen generiert, um die Datenbasis für das Training von LLMs zu erweitern und Datenlücken zu schließen, Verzerrungen zu reduzieren und Modelle auf spezifische Domänen oder seltene Szenarien zu trainieren, ohne auf sensible oder schwer zugängliche reale Daten zurückzugreifen. Anstatt immer größere Modelle zu entwickeln, sind auch spezialisiertere Modelle eine große Chance. Beispiele hierfür sind Mixture-of-Experts-Architekturen, die nur Teile eines Modells bei Bedarf aktivieren, oder Adapter-Methoden, die kleinere, anpassbare Module in bestehende Modelle integrieren. Auch rückt die Multimodalität stärker in den Fokus: Modelle, die nicht nur Text, sondern auch Bild, Video, Audio oder strukturierte Daten – zum Beispiel Tabellen – verarbeiten können. Unterschiedliche Modalitäten ergänzen sich also und sind notwendig, um das enorme Potenzial von KI in Bereichen wie der Robotik, der Medizin oder der Mensch-Maschine-Interaktion zu heben.“
„Zusammengefasst: Die Zukunft der LLMs liegt nicht allein in ihrer Skalierung, sondern in der Kombination unterschiedlicher Ansätze, um die Modelle flexibler, robuster und ressourcenschonender zu machen. Der Schlüssel dürfte in der Kombination von Ideen wie neurosymbolischer KI, synthetischen Daten und multimodalen Systemen liegen.“
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Bei der menschlichen Intelligenz ergänzen und beeinflussen sich Lernen und Schlussfolgern gegenseitig. Lernen hilft uns Menschen, Wissen, Erfahrungen und Fähigkeiten aufzunehmen und zu speichern. Schlussfolgern nutzt das erlernte Wissen, um Probleme zu lösen, Entscheidungen zu treffen und neue Erkenntnisse abzuleiten. Das Zusammenspiel dieser beiden Prozesse sollte es auch möglich machen, dass LLMs nicht nur aus Daten lernen, sondern auch auf Basis des Gelernten rationale und vielleicht kreative Schlüsse ziehen und diese zum Teil erklären können.“
„Heutige KI-Systeme sind darin begrenzt. Sie können beeindruckend wirken, weil sie aus riesigen Datenmengen gelernt haben, Muster zu erkennen, aber ihr ‚Denken‘ ist oft oberflächlich. Zum Beispiel kann ein Sprachmodell auf eine Frage antworten, weil es ähnliche Fragen in den Trainingsdaten gesehen hat, aber es versteht oft nicht wirklich, was es sagt. Reasoning ist essenziell für die Weiterentwicklung der KI, weil es sie befähigt, flexibler und verlässlicher zu arbeiten – sei es in der Wissenschaft, im Recht oder in der Medizin. Es geht nicht nur darum, Fakten wiederzugeben, sondern Zusammenhänge zu verstehen und neues Wissen zu generieren.“
„Neue Ansätze wie neuro-symbolische Modelle oder das Post-Training machen genau das: Sie kombinieren die datengetriebene Lernfähigkeit neuronaler Netze mit der logischen Struktur und erklärbaren Schlussfolgerung symbolischer Ansätze, um die Stärken beider Paradigmen zu vereinen und so robuste, skalierbare und interpretierbare KI-Systeme zu schaffen. Aktuell viel Aufmerksamkeit erhält die KI-Modellfamilie o3 von OpenAI aus den USA sowie R1 von DeepSeek aus China. Beide sind erst der Anfang, zeigen aber deutlich, dass Sprachmodelle durch selbstgesteuertes Lernen und schrittweises Verfeinern signifikante Fortschritte bei komplexen Aufgaben wie Mathematik, Programmierung und wissenschaftlichem Denken erreichen können.“
„Ein anschauliches Beispiel aus dem Alltag: Stellen Sie sich vor, Sie lernen ein Spiel wie Schach. Zunächst besuchen Sie einen Kurs, um die Grundregeln zu verstehen. Später aber verbessern Sie Ihr Können durch regelmäßiges Spielen, Nachdenken über Ihre Züge und Lernen aus Ihren Fehlern. Genau das sollen Sprachmodelle auch können – sie lernen nicht nur aus den Regeln, die sie anfangs eingepaukt bekommen, sondern werden auch während des ‚Spiels‘ besser, indem sie ihre eigenen Strategien überdenken, weiterentwickeln und anwenden.“
„Der hybride Ansatz aus Schlussfolgern und Lernen hilft, Grenzen zu überwinden, die durch reale Daten gesetzt werden und bringt uns einer ‚vernünftigen‘ KI ein Stück näher, dem erklärten Ziel der Exzellenzinitiative ‚Reasonable AI‘ unter Federführung der TU Darmstadt.“
Einordnung zu OpenAI o3
„Es ist schwer zu sagen, was o3 genau macht, weil es ein geschlossenes System ist. Eine Schlüsselinnovation, die bei o3 eine zentrale Rolle spielen könnte, ist der Einsatz von Post-Training oder allgemeiner Test-Time Compute, um die Verarbeitung von Eingaben dynamischer und intelligenter zu gestalten. Bisher arbeiten viele Modelle mit einer ‚statischen‘ Inferenzstrategie: Sie verwenden für jede Anfrage dieselbe Menge an Rechenleistung, unabhängig davon, ob die Frage trivial (‚Was ist die Hauptstadt von England?‘) oder hochkomplex (‚Welche wirtschaftlichen Auswirkungen hat der Klimawandel?‘) ist. Dieses Vorgehen ist vergleichsweise ineffizient und limitiert die Fähigkeit des Modells, tiefere oder iterative Denkprozesse anzuwenden, wenn es nötig wäre.“
„Test-Time Compute erlaubt es dem Modell hingegen, je nach Komplexität der Anfrage, unterschiedlich viel Rechenleistung und Zeit einzusetzen – ähnlich wie ein Mensch, der bei schwierigen Aufgaben länger nachdenkt und mehr Energie investiert. Dazu nutzt es eine Komplexitätsbewertung, um während der Inferenz die Schwierigkeit einer Eingabe zu analysieren; etwa die Mehrdeutigkeit der Frage oder die Notwendigkeit zur Verknüpfung mehrerer Fakten. Das bestimmt, ob eine einfache, direkte Antwort ausreicht oder ob ein tiefergehender Denkprozess erforderlich ist. Bei komplexen Aufgaben veranlasst man das Modell zu einer iterativen Verarbeitung: Antworten werden in mehreren Durchläufen überarbeitet und verfeinert. Das ist ähnlich wie bei einer Skizze, die schrittweise verbessert wird. Zwischenergebnisse werden dabei temporär gespeichert, was ein stufenweises ‚Nachdenken‘ ermöglicht. Dabei muss dann auch nicht jeder Teil eines Modells gleichzeitig genutzt werden: Für einfache Fragen werden grundlegende Netzwerkschichten aktiviert, während für komplexere Aufgaben spezialisierte Komponenten oder tiefere Schichten eingesetzt werden. Diese selektive Nutzung optimiert den Ressourceneinsatz und spart Energie, so die Hoffnung.“
„Test-Time Compute kann ein Schritt in Richtung von Systemen sein, die wie Menschen ‚denken‘ – adaptiv, situationsabhängig und ressourceneffizient. Stellen Sie sich vor, Sie sind ein Schüler. Für einfache Fragen wie ‚Was ist 2+2?‘ müssen Sie nicht lange nachdenken – Sie antworten direkt, ohne großen Aufwand. Das entspricht einer niedrigen Rechenleistung, die das Modell nutzt, um eine einfache Aufgabe zu bewältigen.“
„Jetzt stellen Sie sich vor, Sie werden gefragt: ‚Wie beeinflusst der Klimawandel die Weltwirtschaft?‘ Hier reicht es nicht, nur eine einfache Antwort aus dem Gedächtnis zu ziehen. Stattdessen müssen Sie innehalten, Fakten sammeln, verschiedene Aspekte wie Handel, Umweltkatastrophen und Politik miteinander verbinden und schrittweise eine fundierte Antwort formulieren. Dieser Denkprozess benötigt mehr Zeit und Energie – genau wie ein KI-Modell mit Test-Time Compute, das bei komplexen Aufgaben zusätzliche Rechenressourcen mobilisiert.“
„Ein Schüler kann – genauso wie ein Modell mit Test-Time Compute oder ein neuro-symbolischen Modell allgemein – flexibel zwischen ‚schnellem Antworten‘ und ‚tiefem Nachdenken‘ wechseln, je nachdem, wie anspruchsvoll die Aufgabe ist. Ohne diese Fähigkeit würde er immer gleich viel Zeit für jede Frage aufwenden, was ineffizient wäre, oder bei schwierigen Fragen scheitern kann, weil er nicht ‚genug nachdenken‘ kann.“
Einordnung zu DeepSeek
„DeepSeek folgt dem Test-Time-Compute-Paradigma. Zusätzlich unterscheidet es sich von etablierten Anbietern großer Sprachmodelle durch seine innovative Mixture-of-Experts (MoE)-Architektur. Während traditionelle Modelle wie GPT-4o oder Claude-3.5 alle Parameter bei jeder Anfrage aktivieren, nutzt DeepSeek-V3 eine MoE-Struktur mit insgesamt 671 Milliarden Parametern, von denen jedoch pro Token nur 37 Milliarden aktiv sind. Diese selektive Aktivierung ermöglicht eine effizientere Nutzung von Rechenressourcen und reduziert den Energieverbrauch erheblich. Zudem setzt DeepSeek auf Multi-Head Latent Attention (MLA) und eine auxiliary-loss-freie Strategie für das Lastenausgleichsmanagement, was zu einer verbesserten Effizienz und Leistung führt.“
„Man kann sich MoE als ein großes Kaufhaus mit verschiedenen Abteilungen – Elektronik, Kleidung, Bücher, Lebensmittel – vorstellen. Statt dass ein Verkäufer alles wissen muss, gibt es in jeder Abteilung spezialisierte Experten: Eine Technikerin berät zu Laptops, ein Modeberater hilft bei der Kleiderwahl, und ein Buchhändler empfiehlt spannende Romane. Statt dass ein einzelnes Modell alle Anfragen beantwortet, entscheidet es je nach Aufgabe, welche spezialisierten ‚Experten‘ (Teilnetze) aktiviert werden. Das kann beim Lernen und beim Antworten Rechenleistung sparen.“
„Die Bedeutung von DeepSeek für die Weiterentwicklung großer Sprachmodelle liegt in der Demonstration, dass leistungsstarke Modelle nicht zwangsläufig immense Rechenressourcen erfordern. Durch die Kombination verschiedener KI-Techniken (Lernen und Schlussfolgern) und der MoE-Architektur sowie anderer Optimierungstechniken konnte DeepSeek-V3 mit vergleichsweise geringeren Kosten und weniger fortschrittlicher Hardware trainiert werden. So zumindest die Hoffnung. Berichten zufolge beliefen sich die Trainingskosten auf nur 5,6 Millionen US-Dollar, während ähnliche Modelle oft zwischen 100 Millionen und einer Milliarde US-Dollar kosten. Aber vieles davon muss erst noch empirisch nachgeprüft werden.“
„Die Behauptung der Entwickler, dass das DeepSeek-Modell mit vergleichsweise wenigen Ressourcen trainiert wurde, erscheint also plausibel, muss aber noch unabhängig geprüft werden. Die Verwendung der Test-Time-Compute-Idee, der MoE-Architektur und weiterer effizienter Trainingsmethoden ermöglicht es, die benötigte Rechenleistung signifikant zu reduzieren, ohne die Modellleistung zu beeinträchtigen. Berichte deuten darauf hin, dass DeepSeek mit einem Bruchteil der Kosten und weniger leistungsstarker Hardware trainiert wurde, was die Effizienz des Ansatzes unterstreicht.“
„Die Replizierbarkeit des DeepSeek-Ansatzes durch andere Akteure ist grundsätzlich gegeben, erfordert jedoch spezifisches Fachwissen in der Implementierung von MoE-Architekturen und verwandten Techniken. Die Veröffentlichung des DeepSeek-V3-Modells als Open Source auf Plattformen wie GitHub erleichtert jedoch die Nachvollziehbarkeit und Anpassung durch die Community, was die Verbreitung solcher Ansätze fördern könnte.“
Professor für Data Science und Sprecher des CAIDAS (Center for Artificial Intelligence and Data Science), Julius-Maximilians-Universität Würzburg
Skalierung und weitere Ansätze zur Verbesserung aktueller Modelle
„Es hat sich gezeigt, dass LLMs auf jeden Fall eine gewisse Größe haben müssen, damit sie bestimmte Eigenschaften ausprägen und eine angemessene Interaktion möglich ist. Das hat auch unsere eigene Forschung an dem rein deutschen Sprachmodell LLäMmlein [4] gezeigt. Bei gleicher Menge an Daten ist ein 120M Modell deutlich schlechter als ein 1B und das wiederum schlechter als die 7-10B Modelle (es geht um die Anzahl der Parameter der LLMs, im Beispiel zwischen 120 Millionen und 7-10 Milliarden; Anm. d. Red.). Auf der anderen Seite profitieren LLMs weiterhin von der Skalierung sowohl der Modellgröße als auch der Trainingsdaten. Es zeigt sich jedoch, dass der Zugewinn an Leistung mit zunehmender Größe abnimmt, besonders, wenn Modelle bereits stark optimiert sind. Die Kurve flacht vor allem bei Aufgaben ab, die keine weiteren neuen Informationen aus den Trainingsdaten benötigen. Auch ist man in der Lage, viel Wissen in kleine Modelle zu destillieren. Dies deutet darauf hin, dass reine Skalierung kein Allheilmittel ist, sondern gezielte Datenqualität und spezialisierte Trainingsstrategien zunehmend wichtiger werden.“
„Ansätze, wie synthetische Daten zu generieren, haben großes Potenzial – insbesondere zur Verbesserung von Modellen in unterrepräsentierten oder spezialisierten Domänen. Synthetische Daten können dabei helfen, die Generalisierungsfähigkeit und Robustheit zu stärken. Neuro-symbolic AI ist zwar theoretisch interessant, hat jedoch in der Praxis bisher wenig konkrete Fortschritte gezeigt und erscheint aktuell weniger relevant. Die schon laufende Integration weiterer Modalitäten wird sicherlich weiterverfolgt und zeigt vielversprechende Ergebnisse.“
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Reasoning bezeichnet die Fähigkeit von KI, logische Schlussfolgerungen zu ziehen und komplexe Problemlösungen anzugehen. Im Grunde ist es die konsequente Fortsetzung der schon lange benutzen Idee, im Prompt nicht nur nach der Antwort, sondern auch nach den Schritten, die zu der Antwort geführt haben, zu fragen. Die Ergebnisse kann man wieder vom Modell prüfen lassen und häufig finden die LLMs die eigenen Fehler, weil sie anders auf das Problem schauen. Aktuell zeigen Modelle wie DeepSeek-R1 bemerkenswerte Fortschritte in diesem Bereich. Dennoch stellt sich die Frage, ob Reasoning allein ausreichend ist. ‚Grounded Generation‘ – also die Verknüpfung von Textgenerierung mit externen Wissensquellen, wie zum Beispiel Knowledge Graphs – könnte eine stabilere und praktischere Lösung für viele Anwendungsfälle bieten, bedarf aber spezieller Fähigkeiten bei den LLMs.“
„Basierend auf bisherigen Entwicklungen ist zu erwarten, dass OpenAI o3 Reasoning weiter ausbauen wird. Da OpenAI als Firma sehr wenige bis gar keine Details zu ihren Modellen verrät, wäre eine Abschätzung von weiteren neuen Produkteigenschaften reine Spekulation.“
Einordnung zu DeepSeek
„DeepSeek ist ein Open-Weights-Modell und hat eine vergleichbare Qualität zu aktuellen kommerziellen Modellen. Des Weiteren enthält es explizit eine Reasoning-Komponente. Auf Anfragen wird nicht einfach die wahrscheinlichste Antwort generiert, sondern nach der ersten Antwort stellt sich das Modell selbst Nachfragen und bewertet diese, um so die Antwort und mögliche weitere Alternativen zu prüfen und die plausibelste Antwort zu generieren.“
„Durch die Veröffentlichung von DeepSeek-R1 wird klar, dass die Dominanz der US-amerikanischen Modelle doch nicht so groß ist, wie alle gedacht haben. Auch Europa hätte die Rechenkapazitäten – zum Beispiel in Jülich mit den 24.000 GPUs, die bald verfügbar sind [5] –, um auf Basis des veröffentlichten Konzeptes und der sowieso verfügbaren Daten ein eigenes Modell zu trainieren und damit unabhängig die weitere Entwicklung von LLMs zu bestimmen. In den letzten Jahren sind durch bundesweite, aber auch bayrische KI-Programme sehr viele talentierte KI-Wissenschaftlerinnen und -Wissenschaftler nach Deutschland geholt worden. Man wäre also heute in Europa beziehungsweise sogar in Deutschland grundsätzlich in der Lage, ein eigenes LLM zu trainieren und sich von den bestehenden Abhängigkeiten zu lösen. Die Politik ist aufgerufen, alle Kräfte aus Wirtschaft und Wissenschaft zu vereinen und so den Rahmen zu schaffen, um ein vertrauenswürdiges LLM nach europäischen Maßstäben zu entwickeln.“
Auf die Frage, wie plausibel ist es, dass das neue DeepSeek-Modell wirklich so „sparsam“ trainiert wurde, wie es die Entwickler behaupten:
„Wir sind noch dabei, das Paper genauer zu prüfen. Denkbar wäre es schon. Es gibt einige technische Kniffe, die ganz sicher zur Reduktion der Rechenzeit führen. Allerdings wurden die angegebenen Gelder ja nur für einen Durchlauf eingesetzt. Nötige und umfangreiche Testläufe, um zum Beispiel die Parameter des LLMs zu optimieren, kommen sicherlich noch dazu und sind nicht zu vernachlässigen.“
Auf die Frage, ob die Ergebnisse von DeepSeek von anderen Akteuren repliziert werden, können:
„Wir sind dabei, den Code beziehungsweise vergleichbaren Code auf unser Modell LLäMmlein [4] anzuwenden, um zu prüfen, ob sich der Ansatz transferieren lässt. Allerdings fehlen uns zurzeit GPUs für Tests. Eine weitere Herausforderung sind Daten für diese Art des Trainings.“
Associate Professor of Data Science, Universität Hamburg
Skalierung und weitere Ansätze zur Verbesserung aktueller Modelle
Auf die Frage, ob LLMs mit weiteren Trainingsdaten immer noch besser werden:
„Jein! Es gibt meines Wissens grundsätzlich keine öffentlich zugänglichen wissenschaftlichen Arbeiten, die verlässlich zeigen, dass das reine Hochskalieren des Trainings (größere Modelle und mehr Trainingsdaten) nicht weiterhin zu besseren Ergebnissen der Large Language Models führen kann. Dennoch ist diese Strategie nicht nachhaltig, da der dabei entstehende Ressourcenverbrauch enorm hoch ist und die benötigten Ressourcen endlich sind. Dass die zu erwartenden Gewinne durch ‚einfaches‘ Hochskalieren in Zukunft gleich groß bleiben (oder gar wachsen), halte ich zudem für unwahrscheinlich – es kommt auch darauf an, wie man evaluiert: Oft geht es auch um Fähigkeiten der Modelle in speziellen Bereichen, wo einfaches Hochskalieren des Trainings zu negativen Interferenzen zwischen den benötigten und nicht benötigten Wissensarten führen kann – zum Beispiel Wissen über bestimmte Sprachen oder Wissen über wissenschaftliche Teilbereiche.“
„Mögliche Verbesserungen beginnen bereits bei der Auswahl der Trainingsdaten. Es gibt Arbeiten, die zeigen, dass weniger Daten hoher Qualität zu den gleichen Ergebnissen führen können wie mehr, aber dafür weniger vorsichtig ausgewählte Daten. Synthetische Daten können – bis zu einem gewissen Grad – auch helfen. Oft geht es letztlich um den richtigen ‚Daten-Mix‘. Zudem gibt es andere Ansätze: Man kann nicht nur das Training hochskalieren, sondern auch den Aufwand für die Berechnungen zur Inferenzzeit (‚Test-Time Compute‘). Beispielsweise kann man durch ein LLM viele Antworten zur gleichen Frage erzeugen lassen und dann hinterher automatisch entscheiden, welche Antwort die beste ist. Wir sollten auch weiterhin die grundlegenden Lernstrategien in Frage stellen – zum Beispiel wo, wann und wie wird Reinforcement Learning (RL) eingesetzt? Anfangs hat man sich beispielsweise darauf fokussiert, die Modelle in der allerletzten Trainingsphase mittels RL in Richtung menschlicher Präferenzen ‚zu schieben‘, während es heute möglicherweise sinnvoller scheint, bereits in frühen Trainingsphasen RL einzusetzen und sich im Training mehr auf den ‚Schlussfolgerungsprozess‘ (also die schrittweise Lösung) der Modelle hin zu einer finalen Antwort zu fokussieren. Weitere Ansätze, die wir im Blick behalten müssen, sind neuro-symbolischer Natur – nicht (nur) wegen möglicher Performanz-Gewinne, sondern aufgrund ihres erhöhten Potenzials zur Interpretierbarkeit der Modellausgaben.“
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Unter ‚Reasoning‘ von KI verstehen wir aktuell das Gegenstück zum assoziativen Denken (‚System 1 versus System 2‘) (assoziatives Denken: Konzentration auf Wissen, das für das betrachtete Problem relevant ist, insbesondere in Form von Verknüpfung zusammengehöriger Elemente; Anm. d. Red.). Es geht beim Reasoning um das logische, schrittweise Herleiten einer Lösung zu komplexen Problemen. LLMs können dies tendenziell eher nicht so gut, da die ihnen zugrunde liegende Trainingsaufgabe – zum Beispiel das Vorhersagen des nächsten Wortes – grundsätzlich assoziativer Natur ist. Aber auch auf Reasoning-orientierten Aufgaben werden sie besser, was unter anderem daran liegt, dass die Trainingspipelines (Daten, Methoden oder Reihenfolgen) sowie die Inferenzpipelines gezielt mehr und mehr darauf hin optimiert werden.“
„Das neue Modell von OpenAI wird sicherlich besser sein als die älteren Modelle von OpenAI. Das zeigen auch erste Ergebnisse auf den bekannten Benchmarks. Bisher gibt es allerdings keine offizielle wissenschaftliche Publikation, in der die Trainingsdetails bekannt gegeben werden. Es ist allerdings zu vermuten, dass beispielsweise der Rechenaufwand in der Inferenzphase gesteigert wurde.“
Einordnung zu DeepSeek
„Für DeepSeek-R1-Zero (das ist nur eines der veröffentlichten Modelle) wurde auf ein Supervised Fine-tuning (SFT) vor dem Reinforcement Learning verzichtet. Außerdem wird kein komplexes neuronales Netzwerk als Feedback-Mechanismus verwendet, sondern die Antworten werden regelbasiert bewertet – nur hinsichtlich ihrer Korrektheit und hinsichtlich des Einhaltens eines bestimmten Formates (welches explizit einen Teil für Schlussfolgerungen vorsieht). Es ist interessant, dass das Modell daher scheinbar ‚freier‘ Reasoning-Fähigkeiten entwickeln kann und dazu keine spezifischen Trainingsdaten für das SFT benötigt werden. Das beste Modell benutzt jedoch weiterhin SFT, da es beim ‚RL-only‘-Ansatz zu unerwünschten Artefakten kommen kann. Insgesamt scheint der Trainingsaufwand deutlich reduziert und die Modellgewichte wurden veröffentlicht, was beides zu begrüßen ist.“
„Es ist grundsätzlich positiv, dass DeepSeek die Gewichte der Modelle öffentlich zur Verfügung stellt und auch, dass in einem technischen Report viele Aspekte des Trainings beschrieben und auch die erzielten Ergebnisse diskutiert wurden – auch wenn bisher weder Trainingscode noch Trainingsdaten veröffentlicht wurden. Dies ist ein weiterer Schritt in Richtung mehr Pluralität in der Landschaft der großen (hoch-performanten) Sprachmodelle.“
„Forschung hin zu ressourceneffizienteren Sprachmodellen ist wichtig. Auf lange Sicht kann dies zum einen zu mehr Inklusion und Partizipation im Feld der großen Sprachmodelle führen. Zum anderen ist es natürlich auch nachhaltiger im Sinne von ‚GreenAI‘. Aktuell ist davon auszugehen, dass der Trainingsansatz von DeepSeek tatsächlich ressourceneffizienter ist als vorherige. Es gibt jedoch auch kritische Diskussionen, die die tatsächlich erreichten Einsparungen betreffen, da einige Trainingsdetails fehlen beziehungsweise unklar sind. Es wird sich zeigen.“
„Ich bin gespannt, was sich aus dem Open-R1-Projekt [6] ergibt. Während die Evaluationsergebnisse mit den veröffentlichten Gewichten leichter zu reproduzieren sind (die Ergebnisse sind bisher positiv), liegen Schwierigkeiten beim Replizieren der gesamten Pipeline darin, dass einige Details fehlen, beziehungsweise unklar sind und der originale Code und die Trainingsdaten bisher nicht veröffentlicht wurden. Zudem handelt es sich immer noch um einen großen rechnerischen Aufwand. Ich vermute aktuell, dass man zumindest ähnliche Trends finden wird, allerdings wird sich das noch zeigen. Es ist jedenfalls zu hoffen, dass sich die Erkenntnisse des Open-R1-Projekts positiv auf die Forschungsgemeinde auswirken und interessante neue Fragen aufwerfen.“
Alexander von Humboldt Professor für Künstliche Intelligenz, Rheinisch-Westfälische Technische Hochschule Aachen (RWTH), und Vorstandsvorsitzender von CAIRNE (Confederation of Laboratories for AI Research in Europe)
Einordnung zu DeepSeek
„DeepSeek-R1 ist eine beeindruckende Entwicklung, die deutlich zeigt, dass China im globalen Wettbewerb in der generativen KI durchaus ganz vorne mitspielen kann. Weiterhin deutet der Erfolg von DeepSeek-R1 auch darauf hin, dass wir hier in Europa durchaus eine realistische Chance haben, in diesem Bereich aufzuholen. Aber es wird einer gewaltigen und gut koordinierten Anstrengung bedürfen, dies auch umzusetzen. Die gerade angekündigte Initiative der EU im Bereich Open-Source-AI ist ein Schritt in die richtige Richtung, greift aber meines Erachtens zu kurz, da es kaum eine Chance gibt, damit das zu erreichen, was auch die USA und China derzeit nicht können: nämlich generative KI tatsächlich zuverlässig und sicher zu machen. Das wäre ein tatsächlicher Moonshot, für den wir eine weitaus ambitioniertere Initiative bräuchten, etwa ein CERN für KI (wie in dem offenen Brief ‚Now is the time to create CERN for AI‘ von der Confederation of Laboratories for Artificial Intelligence Research in Europe (CAIRNE) gefordert [7]).“
Auf die Frage, wie plausibel ist es, dass das neue DeepSeek-Modell wirklich so „sparsam“ trainiert wurde, wie es die Entwickler behaupten:
„Es ist denkbar, aber für zuverlässig halte ich die Informationen zum Trainingsaufwand so lange nicht, wie dieses Ergebnis nicht von anderen reproduziert werden konnte. In jedem Falle zeigt DeepSeek-R1, dass man mit methodischen Fortschritten deutliche Effizienzgewinne erzielen kann – etwas, das viele KI-Experten schon lange vermuten.“
Auf die Frage, ob die Ergebnisse von DeepSeek von anderen Akteuren repliziert werden können:
„Das bleibt zu sehen, insbesondere auch im Rahmen der neuen Open-Source-Initiative der EU. Es wird spannend sein, klar zu sehen, welche Trainingsdaten hierzu benötigt werden. Aber nochmals: Auch DeepSeek-R1 hat mittlerweile gut bekannte Schwächen, die den Einsatz eines solchen oder ähnlichen Modells in vielen Bereichen unserer Industrie und Gesellschaft höchst problematisch erscheinen lassen. Was wir wirklich brauchen, ist sichere, zuverlässige und nachhaltige KI. Keines der bislang vorgestellten Modelle leistet das, und hier genau liegt die Chance für Europa. Um diese aber zu nutzen, brauchen wir weitaus mehr als nur ein weiteres Netzwerkprojekt mit 50 bis 100 Millionen Euro Fördersumme: Hier braucht es einen tatsächlichen Moonshot in der Größenordnung von 50 bis 100 Milliarden Euro.“
Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin
Stellenwert von „Reasoning“-Kapazitäten der Sprachmodelle
„Der Begriff Reasoning ist in der KI nicht scharf definiert. Grob meint man damit Prozesse, die viele mögliche Entscheidungen oder Teilschritte einer Lösung in Betracht ziehen, evaluieren, und so schlussendlich zu einer Entscheidung kommen (Klassische Algorithmen dafür sind: Baumsuche, logische und probabilistische Inferenz, Optimierung, Planungsalgorithmen). Im Gegensatz nennt man Prozesse, die ohne iterativen Prozess und Erwägung von Alternativen nur eine Entscheidung ausgeben – wie eben gängige neuronale Netze – nicht-reasoning.“
„Die klassischen, nicht-neuronalen KI-Algorithmen waren schon immer (seit Jahrzehnten) sehr gut im Reasoning – wenn denn volle und präzise Information über das Problem gegeben ist! Aber sie waren oft unbrauchbar, wenn die Information nur sprachlich oder in Form von Bildern gegeben ist.“
„Die neuen ‚Chain-of-Thought‘-Methoden sind wirklich ein Durchbruch, indem sie die Stärke von LLMs mit klassischem Reasoning kombinieren, nämlich der Suche über beste oder zielführende Entscheidungssequenzen.“
„Dabei mussten die LLMs selbst nicht weiterentwickelt, sondern nur ein neuer Prozess des Auslesens entdeckt werden (Die Arbeiten [8] und [9] erklären diese Grundlagen, auf denen auch die Modelle der Tech-Riesen basieren.).
Auf die Frage, ob die Verbesserungskurve, wenn LLMs mit mehr Daten trainiert werden, langsam abflacht oder stagniert:
„Ja, der konventionelle Weg, immer mehr Daten für bessere LLMs zu nutzen, wird immer schwieriger und teurer, etwa weil ein Großteil der massenhaft verfügbaren Daten (des Internets) bereits genutzt wird; oder weil mehr Daten aus ähnlichen Quellen wenig mehr abdecken.“
„Das Thema Reasoning könnte aber auch die Daten-Situation grundlegend ändern: Denn, wenn aus den vorhandenen Daten nicht nur faktische Information gelernt wird, sondern auch die Art des Reasoning, dann können aus den gleichen Daten viel bessere Modelle trainiert werden. Außerdem gibt es die Perspektive, dass in Zukunft Reasoning-Methoden (klassische und neuronale) genutzt werden, um künstliche Daten für andere Modelle zu erzeugen. Die Idee, dass KI-Systeme sich ihre eigenen Daten erzeugen, ist übrigens nicht neu, sondern war von Beginn an die Idee autonomer Systeme. Vielleicht wird jetzt, wenn die Kurve abflacht, die Idee wieder aktuell.“
„Ich habe bei dem Thema keine Interessenkonflikte.“
„Keine.“
„Ich bin Investor bei Aleph Alpha und Co-Sprecher einer Exzellenzinitiative, in deren Kontext es auch um Reasoning und Learning geht.“
„Wir haben ein eigenes LLM entwickelt [4]. Darüber hinaus habe ich keine Interessenkonflikte.”
„Ich habe zu diesem Thema keine Interessenkonflikte.“
Alle anderen: Keine Angaben erhalten.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Guo D et al. (2025): DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Arxiv. DOI: 10.48550/arXiv.2501.12948.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[2] Kaplan J et al. (2020): Scaling Laws for Neural Language Models. Arxiv. DOI: 10.48550/arXiv.2001.08361.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[3] Hoffmann J et al. (2022): Training Compute-Optimal Large Language Models. Arxiv. DOI: 10.48550/arXiv.2203.15556.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[4] Data Science Chair der Universität Würzburg (letzte Änderung 21.11.2024): LLäMmlein 1B & 120M. Webseite. Julius-Maximilians-Universität Würzburg.
[5] Forschungszentrum Jülich (18.11.2024): Neues JUPITER-Modul unterstreicht führende Rolle des kommenden europäischen Exascale-Superrechners. Pressemitteilung. Forschungszentrum Jülich.
[7] Confederation of Laboratories for Artificial Intelligence Research in Europe (29.01.2025): CERN for AI. Offener Brief.
[8] Wang X et al. (2023): Self-Consistency Improves Chain of Thought Reasoning in Language Models. Konferenzpapier. ICLR 2023 Conference.
[9] Yao S et al. (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models. Konferenzpapier. NeurIPS 2023.
Dr. Paul Röttger
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien
Angaben zu möglichen Interessenkonflikten
„Ich habe bei dem Thema keine Interessenkonflikte.“
Dr. Jonas Geiping
Leiter der Forschungsgruppe für safety- & efficiency- aligned learning, Max-Planck-Institut für Intelligente Systeme und ELLIS Institut Tübingen
Angaben zu möglichen Interessenkonflikten
„Keine.“
Prof. Dr. Kristian Kersting
Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Ich bin Investor bei Aleph Alpha und Co-Sprecher einer Exzellenzinitiative, in deren Kontext es auch um Reasoning und Learning geht.“
Prof. Dr. Andreas Hotho
Professor für Data Science und Sprecher des CAIDAS (Center for Artificial Intelligence and Data Science), Julius-Maximilians-Universität Würzburg
Angaben zu möglichen Interessenkonflikten
„Wir haben ein eigenes LLM entwickelt [4]. Darüber hinaus habe ich keine Interessenkonflikte.”
Prof. Dr. Anne Lauscher
Associate Professor of Data Science, Universität Hamburg
Angaben zu möglichen Interessenkonflikten
„Ich habe zu diesem Thema keine Interessenkonflikte.“
Prof. Dr. Holger Hoos
Alexander von Humboldt Professor für Künstliche Intelligenz, Rheinisch-Westfälische Technische Hochschule Aachen (RWTH), und Vorstandsvorsitzender von CAIRNE (Confederation of Laboratories for AI Research in Europe)
Prof. Dr. Marc Toussaint
Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin