Digitales & Technologie

Statements

31. Juli 2025

Benchmarks: Wie kann man die Leistung von KI-Modellen beurteilen?

bei neu veröffentlichten Sprachmodellen geben Unternehmen oft Ergebnisse aus Benchmarks zur Leistungsbewertung an
auf den ersten Blick beeindruckend, bleibt die reale Aussagekraft aber oft unklar
Forschende: Etablierte Benchmarks können Sprachmodellfähigkeiten in bestimmten Bereichen vergleichbar machen, liefern aber höchstens Indiz für Leistung außerhalb der Testszenarien

Anlass

Sie gewinnen Gold in Matheolympiaden, coden eigene Programme und sollen menschliches Verhalten vorhersagen können. Große Sprachmodelle scheinen in den verschiedensten Bereichen immer besser zu werden – zumindest, wenn es nach den Aussagen der entwickelnden Firmen geht. Die versuchen oft, ihre künstliche Intelligenz (KI) gegenüber der Konkurrenz abzuheben. Dafür nutzen sie unter anderem sogenannte Benchmarks. Das sind Datensätze, die verschiedene Aufgaben und die dazugehörigen Lösungen enthalten. Das Modell löst als Leistungstest diese ihm unbekannten Aufgaben. Anhand der Ergebnisse wird dann nach einem vorher definierten Bewertungssystem bestimmt, wie gut die KI in der jeweiligen Benchmark abgeschnitten hat. Meist wird die Leistung als Prozentzahl angegeben – beispielsweise dem Anteil der korrekt gelösten Aufgaben. Es gibt Benchmarks, die auf Themenfelder wie Mathematik oder Sprachverständnis spezialisiert sind und solche, die allgemeine Fähigkeiten testen. Die Leistung verschiedener Modelle soll objektiv und quantitativ miteinander verglichen werden können.

Allerdings: Viele Benchmarks sind mittlerweile öffentlich zugänglich, die Aufgaben und Lösungen also frei verfügbar. KI-Anbietende könnten ihre Modelle also von Anfang an mit den ganzen Daten trainieren – und die KI könnte dadurch die Lösungen im Voraus kennen. Das würde das Benchmark-System ad absurdum führen. Gleichzeitig entwickeln Forschende und Unternehmen ständig neue Benchmarks. Es gibt also viele verschiedene Datensätze und Bewertungssysteme, auf die sich KI-Firmen beziehen können, um die Leistung ihrer Modelle zu demonstrieren. Wie aussagekräftig die jeweiligen Ergebnisse sind, ist nicht sofort ersichtlich.

Neben den Benchmarks gibt es auch Ansätze wie die LM Arena, die auf die Weisheit der Masse baut [I]. Hier treten jeweils zwei Modelle gegeneinander an: User formulieren einen Prompt und bewerten, welche der beiden Ausgaben sie besser finden.

Bei den verschiedenen Benchmarks und Bewertungsmethoden den Überblick zu behalten, ist schwierig. Deswegen hat das SMC Expertinnen und Experten zu dem Thema befragt.

Statements

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Chris Biemann

„Ich sehe keine Interessenkonflikte.“

Dr. Paul Röttger

„Ich habe bei diesem Thema keine Interessenkonflikte.“

Prof. Dr. Iryna Gurevych

„Es bestehen keine Interessenkonflikte.“

Quellen

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Sohl-Dickstein J et al. (2023): Beyond the Imitation Game Benchmark (BIG-bench). Kollaborative Benchmark.
GitHub Repository von BIG-bench.

[2] Suzgun M et al. (2022): Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them. Benchmark.
GitHub Repository von BIG-Bench Hard (BBH).

[3] Jimenez CE et al. (2024): SWE-bench: Can Language Models Resolve Real-world Github Issues? Benchmark.
GitHub Repository von SWE-bench.

[4] Ye Y et al. (2025): AIME-Preview: A Rigorous and Immediate Evaluation Framework for Advanced Mathematical Reasoning. Benchmark.
GitHub Repository von AIME-Preview.

[5] Rein D et al. (2024): GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Benchmark.
GitHub Repository von GPQA.

[6] Ruan Y et al. (2024): Observational Scaling Laws and the Predictability of Language Model Performance. Arxiv. DOI: 10.48550/arXiv.2405.10938.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

[7] Singh S et al. (2025): The Leaderboard Illusion. Arxiv. DOI: 10.48550/arXiv.2504.20879.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

[8] Glazer E et al. (2024): FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. Arxiv. DOI: 10.48550/arXiv.2411.04872.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

Literaturstellen, die vom SMC zitiert wurden

[I] Chiang W et al. (2024): LMArena Battle. Evaluierungstool. SKY Computing UC Berkeley Electrical Engineering and Computer Science Department (EECS).
Von der UC Berkeley entwickelte Anwendung, die Leistung großer Sprachmodelle anhand von Nutzerbewertungen misst.

Prof. Dr. Chris Biemann

Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich sehe keine Interessenkonflikte.“

Dr. Paul Röttger

Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe bei diesem Thema keine Interessenkonflikte.“

Prof. Dr. Iryna Gurevych

Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Es bestehen keine Interessenkonflikte.“

Expert:innen

Literatur

Benchmarks: Wie kann man die Leistung von KI-Modellen beurteilen?

Anlass

Statements

1. Wie aussagekräftig sind Benchmarks zur Bewertung der Qualität von KI-Modellen und insbesondere großen Sprachmodellen? Bedeutet gutes Abschneiden bei Benchmarks auch immer, dass das Modell in dem Bereich gut ist? Wie kann man beurteilen, welches Abschneiden bei welchen Benchmarks was bedeutet?

2. Oft wird die Leistung von unterschiedlichen Sprachmodellen bei unterschiedlichen Benchmarks angegeben. Wie kann man die Modelle dann untereinander vergleichen? Welche Rolle spielen „gefühlsbasierte“ Bewertungen wie LM Arena?

4. Was sollte bei der Berichterstattung über Benchmarks und die Qualität von KI-Modellen unbedingt berücksichtigt werden?

Angaben zu möglichen Interessenkonflikten

Quellen