Benchmarks: Wie kann man die Leistung von KI-Modellen beurteilen?
bei neu veröffentlichten Sprachmodellen geben Unternehmen oft Ergebnisse aus Benchmarks zur Leistungsbewertung an
auf den ersten Blick beeindruckend, bleibt die reale Aussagekraft aber oft unklar
Forschende: Etablierte Benchmarks können Sprachmodellfähigkeiten in bestimmten Bereichen vergleichbar machen, liefern aber höchstens Indiz für Leistung außerhalb der Testszenarien
Sie gewinnen Gold in Matheolympiaden, coden eigene Programme und sollen menschliches Verhalten vorhersagen können. Große Sprachmodelle scheinen in den verschiedensten Bereichen immer besser zu werden – zumindest, wenn es nach den Aussagen der entwickelnden Firmen geht. Die versuchen oft, ihre künstliche Intelligenz (KI) gegenüber der Konkurrenz abzuheben. Dafür nutzen sie unter anderem sogenannte Benchmarks. Das sind Datensätze, die verschiedene Aufgaben und die dazugehörigen Lösungen enthalten. Das Modell löst als Leistungstest diese ihm unbekannten Aufgaben. Anhand der Ergebnisse wird dann nach einem vorher definierten Bewertungssystem bestimmt, wie gut die KI in der jeweiligen Benchmark abgeschnitten hat. Meist wird die Leistung als Prozentzahl angegeben – beispielsweise dem Anteil der korrekt gelösten Aufgaben. Es gibt Benchmarks, die auf Themenfelder wie Mathematik oder Sprachverständnis spezialisiert sind und solche, die allgemeine Fähigkeiten testen. Die Leistung verschiedener Modelle soll objektiv und quantitativ miteinander verglichen werden können.
Allerdings: Viele Benchmarks sind mittlerweile öffentlich zugänglich, die Aufgaben und Lösungen also frei verfügbar. KI-Anbietende könnten ihre Modelle also von Anfang an mit den ganzen Daten trainieren – und die KI könnte dadurch die Lösungen im Voraus kennen. Das würde das Benchmark-System ad absurdum führen. Gleichzeitig entwickeln Forschende und Unternehmen ständig neue Benchmarks. Es gibt also viele verschiedene Datensätze und Bewertungssysteme, auf die sich KI-Firmen beziehen können, um die Leistung ihrer Modelle zu demonstrieren. Wie aussagekräftig die jeweiligen Ergebnisse sind, ist nicht sofort ersichtlich.
„Ich sehe keine Interessenkonflikte.“
„Ich habe bei diesem Thema keine Interessenkonflikte.“
„Es bestehen keine Interessenkonflikte.“
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Sohl-Dickstein J et al. (2023): Beyond the Imitation Game Benchmark (BIG-bench). Kollaborative Benchmark.
GitHub Repository von BIG-bench.
[2] Suzgun M et al. (2022): Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them. Benchmark.
GitHub Repository von BIG-Bench Hard (BBH).
[3] Jimenez CE et al. (2024): SWE-bench: Can Language Models Resolve Real-world Github Issues? Benchmark.
GitHub Repository von SWE-bench.
[4] Ye Y et al. (2025): AIME-Preview: A Rigorous and Immediate Evaluation Framework for Advanced Mathematical Reasoning. Benchmark.
GitHub Repository von AIME-Preview.
[5] Rein D et al. (2024): GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Benchmark.
GitHub Repository von GPQA.
[6] Ruan Y et al. (2024): Observational Scaling Laws and the Predictability of Language Model Performance. Arxiv. DOI: 10.48550/arXiv.2405.10938.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[7] Singh S et al. (2025): The Leaderboard Illusion. Arxiv. DOI: 10.48550/arXiv.2504.20879.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[8] Glazer E et al. (2024): FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. Arxiv. DOI: 10.48550/arXiv.2411.04872.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
Literaturstellen, die vom SMC zitiert wurden
[I] Chiang W et al. (2024): LMArena Battle. Evaluierungstool. SKY Computing UC Berkeley Electrical Engineering and Computer Science Department (EECS).
Von der UC Berkeley entwickelte Anwendung, die Leistung großer Sprachmodelle anhand von Nutzerbewertungen misst.
Prof. Dr. Chris Biemann
Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg
Angaben zu möglichen Interessenkonflikten
„Ich sehe keine Interessenkonflikte.“
Dr. Paul Röttger
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien
Angaben zu möglichen Interessenkonflikten
„Ich habe bei diesem Thema keine Interessenkonflikte.“
Prof. Dr. Iryna Gurevych
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Es bestehen keine Interessenkonflikte.“