GPT-5 veröffentlicht: Wie gut messen Benchmarks Leistung von KI-Modellen?
OpenAI hat lange angekündigtes, neues Sprachmodell GPT-5 veröffentlicht und demonstriert verbesserte Leistung auf diversen Benchmarks
auf den ersten Blick beeindruckend, bleibt die reale Aussagekraft solcher Angaben zur Leistung bei Benchmarks aber oft unklar
Forschende: Etablierte Benchmarks können Sprachmodellfähigkeiten in bestimmten Bereichen vergleichbar machen, liefern aber höchstens Indiz für Leistung außerhalb der Testszenarien
Am 07.08.2025 hat OpenAI die neue Version ihres Sprachmodells veröffentlicht. Es heißt GPT-5 und soll laut dem Unternehmen in vielen Anwendungen besser sein als Vorgängermodelle und die Konkurrenz. Zeigen will OpenAI die Verbesserungen anhand verschiedener Benchmarks – also Fähigkeitstests für künstliche Intelligenz (KI). Auch andere KI-Unternehmen versuchen, durch gutes Abschneiden in Benchmarks ihre Modelle gegenüber der Konkurrenz abzuheben. Benchmarks sind Datensätze, die verschiedene Aufgaben und die dazugehörigen Lösungen enthalten. Das Modell löst als Leistungstest diese ihm unbekannten Aufgaben. Anhand der Ergebnisse wird dann nach einem vorher definierten Bewertungssystem bestimmt, wie gut die KI in der jeweiligen Benchmark abgeschnitten hat. Meist wird die Leistung als Prozentzahl angegeben – beispielsweise dem Anteil der korrekt gelösten Aufgaben. Es gibt Benchmarks, die auf Themenfelder wie Mathematik oder Sprachverständnis spezialisiert sind und solche, die allgemeine Fähigkeiten testen. Die Leistung verschiedener Modelle soll objektiv und quantitativ miteinander verglichen werden können.
Allerdings: Viele Benchmarks sind mittlerweile öffentlich zugänglich, die Aufgaben und Lösungen also frei verfügbar. KI-Anbietende könnten ihre Modelle also von Anfang an mit den ganzen Daten trainieren – und die KI könnte dadurch die Lösungen im Voraus kennen. Das würde das Benchmark-System ad absurdum führen. Gleichzeitig entwickeln Forschende und Unternehmen ständig neue Benchmarks. Es gibt also viele verschiedene Datensätze und Bewertungssysteme, auf die sich KI-Firmen beziehen können, um die Leistung ihrer Modelle zu demonstrieren. Wie aussagekräftig die jeweiligen Ergebnisse sind, ist nicht sofort ersichtlich.
„Ich sehe keine Interessenkonflikte.“
„Ich habe bei diesem Thema keine Interessenkonflikte.“
„Es bestehen keine Interessenkonflikte.“
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Sohl-Dickstein J et al. (2023): Beyond the Imitation Game Benchmark (BIG-bench). Kollaborative Benchmark.
GitHub Repository von BIG-bench.
[2] Suzgun M et al. (2022): Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them. Benchmark.
GitHub Repository von BIG-Bench Hard (BBH).
[3] Jimenez CE et al. (2024): SWE-bench: Can Language Models Resolve Real-world Github Issues? Benchmark.
GitHub Repository von SWE-bench.
[4] Ye Y et al. (2025): AIME-Preview: A Rigorous and Immediate Evaluation Framework for Advanced Mathematical Reasoning. Benchmark.
GitHub Repository von AIME-Preview.
[5] Rein D et al. (2024): GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Benchmark.
GitHub Repository von GPQA.
[6] Ruan Y et al. (2024): Observational Scaling Laws and the Predictability of Language Model Performance. Arxiv. DOI: 10.48550/arXiv.2405.10938.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[7] Singh S et al. (2025): The Leaderboard Illusion. Arxiv. DOI: 10.48550/arXiv.2504.20879.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[8] Glazer E et al. (2024): FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. Arxiv. DOI: 10.48550/arXiv.2411.04872.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
Literaturstellen, die vom SMC zitiert wurden
[I] Chiang W et al. (2024): LMArena Battle. Evaluierungstool. SKY Computing UC Berkeley Electrical Engineering and Computer Science Department (EECS).
Von der UC Berkeley entwickelte Anwendung, die Leistung großer Sprachmodelle anhand von Nutzerbewertungen misst.
Prof. Dr. Chris Biemann
Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg
Angaben zu möglichen Interessenkonflikten
„Ich sehe keine Interessenkonflikte.“
Dr. Paul Röttger
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Mailand, Italien
Angaben zu möglichen Interessenkonflikten
„Ich habe bei diesem Thema keine Interessenkonflikte.“
Prof. Dr. Iryna Gurevych
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Es bestehen keine Interessenkonflikte.“