Digitales & Technologie

Statements

31. Juli 2025

Benchmarks: Wie kann man die Leistung von KI-Modellen beurteilen?

  • bei neu veröffentlichten Sprachmodellen geben Unternehmen oft Ergebnisse aus Benchmarks zur Leistungsbewertung an

  • auf den ersten Blick beeindruckend, bleibt die reale Aussagekraft aber oft unklar

  • Forschende: Etablierte Benchmarks können Sprachmodellfähigkeiten in bestimmten Bereichen vergleichbar machen, liefern aber höchstens Indiz für Leistung außerhalb der Testszenarien