GPT-5 veröffentlicht: Wie gut messen Benchmarks Leistung von KI-Modellen?

OpenAI hat lange angekündigtes, neues Sprachmodell GPT-5 veröffentlicht und demonstriert verbesserte Leistung auf diversen Benchmarks
auf den ersten Blick beeindruckend, bleibt die reale Aussagekraft solcher Angaben zur Leistung bei Benchmarks aber oft unklar
Forschende: Etablierte Benchmarks können Sprachmodellfähigkeiten in bestimmten Bereichen vergleichbar machen, liefern aber höchstens Indiz für Leistung außerhalb der Testszenarien

Anlass

Am 07.08.2025 hat OpenAI die neue Version ihres Sprachmodells veröffentlicht. Es heißt GPT-5 und soll laut dem Unternehmen in vielen Anwendungen besser sein als Vorgängermodelle und die Konkurrenz. Zeigen will OpenAI die Verbesserungen anhand verschiedener Benchmarks – also Fähigkeitstests für künstliche Intelligenz (KI). Auch andere KI-Unternehmen versuchen, durch gutes Abschneiden in Benchmarks ihre Modelle gegenüber der Konkurrenz abzuheben. Benchmarks sind Datensätze, die verschiedene Aufgaben und die dazugehörigen Lösungen enthalten. Das Modell löst als Leistungstest diese ihm unbekannten Aufgaben. Anhand der Ergebnisse wird dann nach einem vorher definierten Bewertungssystem bestimmt, wie gut die KI in der jeweiligen Benchmark abgeschnitten hat. Meist wird die Leistung als Prozentzahl angegeben – beispielsweise dem Anteil der korrekt gelösten Aufgaben. Es gibt Benchmarks, die auf Themenfelder wie Mathematik oder Sprachverständnis spezialisiert sind und solche, die allgemeine Fähigkeiten testen. Die Leistung verschiedener Modelle soll objektiv und quantitativ miteinander verglichen werden können.

Allerdings: Viele Benchmarks sind mittlerweile öffentlich zugänglich, die Aufgaben und Lösungen also frei verfügbar. KI-Anbietende könnten ihre Modelle also von Anfang an mit den ganzen Daten trainieren – und die KI könnte dadurch die Lösungen im Voraus kennen. Das würde das Benchmark-System ad absurdum führen. Gleichzeitig entwickeln Forschende und Unternehmen ständig neue Benchmarks. Es gibt also viele verschiedene Datensätze und Bewertungssysteme, auf die sich KI-Firmen beziehen können, um die Leistung ihrer Modelle zu demonstrieren. Wie aussagekräftig die jeweiligen Ergebnisse sind, ist nicht sofort ersichtlich.

Neben den Benchmarks gibt es auch Ansätze wie die LM Arena, die auf die Weisheit der Masse baut [I]. Hier treten jeweils zwei Modelle gegeneinander an: User formulieren einen Prompt und bewerten, welche der beiden Ausgaben sie besser finden.

Bei den verschiedenen Benchmarks und Bewertungsmethoden den Überblick zu behalten, ist schwierig. Deswegen hat das SMC Expertinnen und Experten zu dem Thema befragt.

mehr Infos ausklappen

Statements

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Chris Biemann

„Ich sehe keine Interessenkonflikte.“

Dr. Paul Röttger

„Ich habe bei diesem Thema keine Interessenkonflikte.“

Prof. Dr. Iryna Gurevych

„Es bestehen keine Interessenkonflikte.“

Quellen

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Sohl-Dickstein J et al. (2023): Beyond the Imitation Game Benchmark (BIG-bench). Kollaborative Benchmark.
GitHub Repository von BIG-bench.

[2] Suzgun M et al. (2022): Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them. Benchmark.
GitHub Repository von BIG-Bench Hard (BBH).

[3] Jimenez CE et al. (2024): SWE-bench: Can Language Models Resolve Real-world Github Issues? Benchmark.
GitHub Repository von SWE-bench.

[4] Ye Y et al. (2025): AIME-Preview: A Rigorous and Immediate Evaluation Framework for Advanced Mathematical Reasoning. Benchmark.
GitHub Repository von AIME-Preview.

[5] Rein D et al. (2024): GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Benchmark.
GitHub Repository von GPQA.

[6] Ruan Y et al. (2024): Observational Scaling Laws and the Predictability of Language Model Performance. Arxiv. DOI: 10.48550/arXiv.2405.10938.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

[7] Singh S et al. (2025): The Leaderboard Illusion. Arxiv. DOI: 10.48550/arXiv.2504.20879.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

[8] Glazer E et al. (2024): FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. Arxiv. DOI: 10.48550/arXiv.2411.04872.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

Literaturstellen, die vom SMC zitiert wurden

[I] Chiang W et al. (2024): LMArena Battle. Evaluierungstool. SKY Computing UC Berkeley Electrical Engineering and Computer Science Department (EECS).
Von der UC Berkeley entwickelte Anwendung, die Leistung großer Sprachmodelle anhand von Nutzerbewertungen misst.

Prof. Dr. Chris Biemann

Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich sehe keine Interessenkonflikte.“

Dr. Paul Röttger

Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe bei diesem Thema keine Interessenkonflikte.“

Prof. Dr. Iryna Gurevych

Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Es bestehen keine Interessenkonflikte.“

Expert:innen

Literatur

GPT-5 veröffentlicht: Wie gut messen Benchmarks Leistung von KI-Modellen?

Anlass

Statements

1. Wie aussagekräftig sind Benchmarks zur Bewertung der Qualität von KI-Modellen und insbesondere großen Sprachmodellen? Bedeutet gutes Abschneiden bei Benchmarks auch immer, dass das Modell in dem Bereich gut ist? Wie kann man beurteilen, welches Abschneiden bei welchen Benchmarks was bedeutet?

2. Oft wird die Leistung von unterschiedlichen Sprachmodellen bei unterschiedlichen Benchmarks angegeben. Wie kann man die Modelle dann untereinander vergleichen? Welche Rolle spielen „gefühlsbasierte“ Bewertungen wie LM Arena?

4. Was sollte bei der Berichterstattung über Benchmarks und die Qualität von KI-Modellen unbedingt berücksichtigt werden?

Angaben zu möglichen Interessenkonflikten

Quellen