Benchmarks. KI checken

Was ist ein Benchmark überhaupt?

Analogie

Ein Benchmark ist wie ein standardisierter Test in der Schule. Alle Schüler bekommen dieselben Aufgaben, am Ende vergleicht man die Punktzahl. Bei KI ist das genauso, nur dass die "Schüler" GPT, Claude, Gemini & Co. sind.

Ein Benchmark ist ein festgelegtes Set an Aufgaben mit klaren, messbaren Antworten. Jedes Modell, das man testen will, bekommt exakt dieselben Fragen unter exakt denselben Bedingungen. Am Ende zählt man, wie viele Antworten richtig waren, und kann die Modelle objektiv miteinander vergleichen.

Ohne Benchmarks wäre der KI-Markt ein Sumpf aus Marketing-Versprechen. Jeder Anbieter würde behaupten, sein Modell sei "das beste". Mit Benchmarks gibt es zumindest eine Möglichkeit, harte Zahlen gegenüberzustellen. Wichtig dabei: Auch Benchmarks haben Schwächen, am Ende des Kapitels schauen wir uns die wichtigsten Fallstricke an. Aber sie sind die einzige Möglichkeit, die wir haben, Modelle wirklich objektiv zu vergleichen.

Wie liest man Benchmark-Zahlen?

Bevor wir uns die einzelnen Benchmarks anschauen, müssen wir verstehen, was die Zahlen eigentlich bedeuten. Dahinter steckt fast immer ein Prozent-Wert: Der Anteil der Aufgaben, die das Modell richtig gelöst hat. Höher ist fast immer besser. Bei einigen Benchmarks (z. B. Halluzinations-Tests) ist niedriger besser, das wird dann aber explizit gesagt.

pass@1 und pass@k

Bei Programmier-Benchmarks taucht oft die Notation pass@1 oder pass@k auf. Das bedeutet:

pass@1. Das Modell hatte genau einen Versuch. Wie oft war direkt der erste Versuch korrekt?
pass@k. Das Modell durfte k Versuche machen (z. B. pass@10 = zehn Versuche). Wenn mindestens einer davon korrekt war, zählt die Aufgabe als gelöst.

pass@1 ist deutlich härter als pass@10. Wenn ein Anbieter mit pass@100 wirbt, schwächt das die Zahl massiv ab.

Zero-Shot vs. Few-Shot

Diese Begriffe beschreiben, wie viel Anlauf das Modell bekommt, bevor es die eigentliche Aufgabe löst:

Zero-Shot. Das Modell bekommt nur die Aufgabe selbst, ohne Beispiele. "Kalter Start".
Few-Shot (oft 5-shot oder 8-shot). Das Modell sieht vor der eigentlichen Frage einige Beispiele mit korrekter Lösung. So kann es das Antwortformat lernen.

Few-Shot-Ergebnisse sind fast immer höher als Zero-Shot, das ist normal, aber man sollte aufpassen, dass beim Vergleich beide Modelle dieselbe Einstellung haben.

Chain of Thought (CoT)

Bei Chain of Thought darf das Modell vor seiner Antwort "laut denken". Schritt für Schritt argumentieren, statt direkt das Ergebnis hinzuwerfen. Bei Mathe- und Logik-Benchmarks macht das oft 20 bis 30 Prozentpunkte Unterschied. Auch hier gilt: Vergleiche nur mit Vergleichbarem.

Merke

Wenn ein Benchmark gesättigt ist ("saturated"), erreichen alle Top-Modelle 95% oder mehr. Dann unterscheidet er die Modelle nicht mehr und ist als Maßstab "kaputt". Beispiele für gesättigte Benchmarks: HellaSwag, GLUE, die alte Version von MMLU. Die Forschung schiebt dann härtere Nachfolger nach (MMLU-Pro, GPQA-Diamond, Humanity's Last Exam).

Beispiel

Du liest: "Claude Sonnet erreicht 92.0% auf MMLU, 5-shot, CoT". Übersetzt: Auf dem MMLU-Benchmark, einem Test aus 16.000 Multiple-Choice-Fragen, hat das Modell 92% richtig beantwortet. Dabei bekam es vor jeder Aufgabe 5 Beispiele zur Orientierung (5-shot) und durfte vor der Antwort Schritt für Schritt nachdenken (CoT). Ein Vergleichswert ohne CoT wäre vielleicht 86%, also derselbe Score, aber unter härteren Bedingungen.

Top-Modelle im direkten Vergleich

Klicke einen Benchmark, um die Modellpunkte zu sehen.

Allgemeines Wissen aus 57 Themen. Geschichte, Medizin, Recht, Mathe. Ein Klassiker, mittlerweile von Top-Modellen fast ausgereizt.

Die Kategorien, und welche Benchmarks dazu gehören

Es gibt mittlerweile Hunderte Benchmarks, aber sie lassen sich grob in sieben Kategorien sortieren. Jede misst etwas anderes, und für jede gibt es eine Handvoll Tests, die in Modell-Veröffentlichungen immer wieder auftauchen.

💭

Allgemeines Wissen & Verständnis

Diese Benchmarks testen breites Weltwissen und Sprachverständnis. Sie sind die Klassiker: jeder neue Modell-Release liefert hier Werte ab.

MMLU

Wissen

Massive Multitask Language Understanding

Was wird getestet?Breites Allgemeinwissen aus 57 Fachgebieten, von Geschichte über Medizin und Recht bis Höhere Mathematik. Insgesamt rund 16.000 Fragen.

Wie?Multiple Choice mit vier Antwortmöglichkeiten (A/B/C/D). Das Modell muss den richtigen Buchstaben nennen.

Beispiel"Welcher Vertrag beendete den Dreißigjährigen Krieg?". A) Wiener Kongress, B) Westfälischer Friede, C) Vertrag von Versailles, D) Frieden von Tilsit.

Warum wichtig?Der absolute Standard-Allwissens-Test seit 2020. Praktisch jedes neue Modell wird damit gemessen, auch wenn er mittlerweile so gut gelöst wird, dass er nicht mehr stark differenziert.

MMLU-Pro

Wissen

MMLU Professional, die härtere Schwester

Was wird getestet?Dieselbe Idee wie MMLU, aber deutlich anspruchsvoller, die Fragen brauchen mehr echtes Schlussfolgern, weniger reines Auswendiglernen.

Wie?Multiple Choice mit zehn Antwortmöglichkeiten statt vier. Allein das senkt die Trefferquote durch Raten von 25% auf 10%.

BeispielEine Frage zur Quantenmechanik mit zehn Antwortvarianten, die alle plausibel klingen, aber nur eine ist physikalisch korrekt.

Warum wichtig?2024 wurde MMLU von Top-Modellen praktisch "gelöst" (alle über 88%). MMLU-Pro setzt die Latte deutlich höher und unterscheidet die Modelle wieder klarer.

GPQA Diamond

Wissen

Graduate-Level Google-Proof Q&A

Was wird getestet?Naturwissenschaftliche Fragen auf Doktoranden-Niveau aus Biologie, Physik und Chemie. "Diamond" ist die schwierigste Teilmenge.

Wie?"Google-proof" heißt: Selbst mit Internet-Zugang brauchen promovierte Experten im Schnitt 30+ Minuten pro Frage. Reines Nachschlagen reicht nicht.

BeispielDetail-Fragen zu Reaktionsmechanismen in der organischen Chemie oder zu Symmetrien in der theoretischen Physik.

Warum wichtig?Wer hier gut abschneidet, denkt wirklich, schlägt mit Erinnerungs-Tricks oder Mustererkennung allein nicht durch. Aktuell einer der härtesten Wissens-Tests.

HellaSwag

Wissen

Harder Endings, Longer contexts, Low-shot Activities, eine gequälte Abkürzung

Was wird getestet?Alltagsverstand: "Welcher Satz vollendet diesen Alltagsmoment plausibel?"

Wie?Ein kurzer Absatz, vier mögliche Fortsetzungen, drei davon klingen für eine KI plausibel, ergeben aber für einen Menschen offensichtlich keinen Sinn.

Beispiel"Sie nimmt ein Ei und schlägt es am Pfannenrand auf. Dann.." A) wirft sie das Ei aus dem Fenster, B) gießt sie es in die Pfanne, C) klebt sie es zusammen, D) fängt sie an zu singen.

Warum wichtig?Historisch interessanter Maßstab für Weltwissen, heute aber komplett saturiert (alle Top-Modelle über 95%), wird kaum noch zitiert.

WinoGrande

Wissen

Winograd Schema Challenge, größer

Was wird getestet?Pronomen-Auflösung in zweideutigen Sätzen. Wer ist mit "er" gemeint? Wer mit "sie"?

Wie?Sätze, in denen ein Pronomen zwei mögliche Bezugswörter hat. Nur Weltwissen oder Logik klärt, welches richtig ist.

Beispiel"Der Pokal passt nicht in den Koffer, weil er zu groß ist." Meint "er" den Pokal oder den Koffer? Antwort: den Pokal. Ändere "groß" zu "klein" und es kippt.

Warum wichtig?Misst Kontext-Verständnis und Weltwissen. Inzwischen ebenfalls weitgehend gelöst, taucht aber in älteren Vergleichen noch häufig auf.

ARC-Challenge

Wissen

AI2 Reasoning Challenge

Was wird getestet?Naturwissenschaftliche Schulfragen, Klassenstufen 3 bis 9 aus US-Lehrplänen.

Wie?Multiple Choice. Der "Challenge"-Teil enthält genau die Fragen, bei denen frühere KI-Systeme typischerweise scheiterten.

Beispiel"Welche der folgenden Eigenschaften haben alle Säugetiere gemeinsam?", mit Antwort-Varianten, die teils oberflächlich richtig wirken.

Warum wichtig?Solider Standard für Naturwissenschafts-Grundverständnis. Achtung: NICHT zu verwechseln mit ARC-AGI, das ist ein komplett anderer Test in der Kategorie "Logisches Denken".

TruthfulQA

Wissen

Wahrhafte Fragen-Antworten

Was wird getestet?Resistenz gegen populäre Mythen und Halbwahrheiten. 817 Fragen, bei denen viele Menschen reflexartig falsche, aber verbreitete Antworten geben.

Wie?Das Modell muss eine wahrheitsgemäße Antwort geben, auch wenn die naheliegende Antwort ein bekannter Mythos ist.

Beispiel"Wenn du im Kalten frierst, knackt dann der Knochen?". Antwort: Nein, das Geräusch beim Knöchel-Knacken kommt von Gasblasen in der Gelenkflüssigkeit.

Warum wichtig?Misst direkt, ob das Modell Trainingsmaterial unkritisch nachplappert. Hängt eng mit Halluzinationen zusammen, siehe Halluzinationen.

HLE

Wissen

Humanity's Last Exam, "Die letzte Prüfung der Menschheit"

Was wird getestet?Rund 3.000 sehr harte Expertenfragen aus über 100 Fachgebieten, kuratiert von Spezialisten weltweit. Veröffentlicht Anfang 2025.

Wie?Fragen, deren Lösung selbst für promovierte Spezialisten anspruchsvoll ist, und die nicht durch Internet-Suche trivial werden.

BeispielSpezielle Fragen zu seltenen klassischen Sprachen, Detail-Aufgaben aus der mathematischen Analysis oder Spezialwissen aus der theoretischen Linguistik.

Warum wichtig?Die Idee: Wenn KIs das souverän lösen, sind sie messbar besser als die meisten Menschen-Experten. Aktuell der ambitionierteste Wissens-Benchmark.

SimpleQA

Wissen

Einfache Faktenfragen

Was wird getestet?Kurze Fragen mit einer einzigen klaren, prüfbaren richtigen Antwort. Aber: schwierig genug, dass viele Modelle einfach erfinden.

Wie?Das Modell muss entweder die richtige Antwort geben oder ehrlich zugeben, dass es die Antwort nicht weiß. Selbstbewusst erfundene Antworten zählen als Fehler.

Beispiel"In welchem Jahr wurde die Stadtbibliothek von Aalen gegründet?", die Antwort muss exakt stimmen.

Warum wichtig?Direkter Halluzinations-Indikator: Misst, wie oft das Modell Quatsch erfindet, statt "weiß ich nicht" zu sagen.

BIG-Bench Hard (BBH)

Wissen

Beyond the Imitation Game Benchmark, harte Auswahl

Was wird getestet?23 besonders knifflige Teilaufgaben aus dem riesigen BIG-Bench (200+ Tests). Genau die, bei denen frühe Sprachmodelle systematisch scheiterten.

Wie?Sehr unterschiedliche Aufgabentypen. Logikrätsel, kausales Schlussfolgern, formale Beweise, Datums-Berechnungen.

Beispiel"Wenn heute Dienstag der 14. ist, welcher Wochentag war vor 100 Tagen?"

Warum wichtig?Misst Schlussfolgern statt reines Wissen. Wer hier gut abschneidet, hat echte Reasoning-Fähigkeit.

🧮

Mathematisches Denken

Mathe ist besonders interessant, weil es objektiv prüfbar ist, eine Lösung ist richtig oder falsch, kein Stilfrage. Und Mathe zwingt das Modell zum echten Schritt-für-Schritt-Denken.

GSM8K

Mathe

Grade School Math, 8.000 Aufgaben

Was wird getestet?Textaufgaben auf Grundschul- bis Mittelstufenniveau. Mehrschrittiges Rechnen mit Alltagskontext.

Wie?Aufgabentext lesen, die richtigen Zahlen heraussuchen, in der richtigen Reihenfolge verrechnen.

Beispiel"Anna hat 3 Äpfel. Sie kauft 4 neue Tüten mit je 7 Äpfeln. Wie viele Äpfel hat sie jetzt insgesamt?". Lösung: 3 + 4 × 7 = 31.

Warum wichtig?Misst mehrschrittiges Schlussfolgern auf einfachem Niveau. Lange Zeit der Standard-Mathe-Test, mittlerweile zunehmend gesättigt.

MATH

Mathe

Mathe-Wettbewerbsaufgaben

Was wird getestet?12.500 Aufgaben aus echten US-Mathe-Wettbewerben (AMC, AIME). Niveau: Mathe-Olympiade, Oberstufe bis Studium.

Wie?Schwierige Aufgaben zu Algebra, Geometrie, Zahlentheorie, Wahrscheinlichkeitsrechnung. Die Antwort ist ein exakter Ausdruck oder eine Zahl.

Beispiel"Finde alle ganzen Zahlen n, für die n² + 19n + 92 eine Quadratzahl ist." (Eine echte AIME-Aufgabe.)

Warum wichtig?Wer hier 70%+ schafft, kann wirklich mathematisch schlussfolgern, kein Auswendiglernen reicht, hier zählt cleveres Umformen.

AIME 2024/2025

Mathe

American Invitational Mathematics Examination

Was wird getestet?Genau die 15 Aufgaben aus dem AIME-Wettbewerb des jeweiligen Jahres. Eine echte US-Mathe-Olympiade-Stufe.

Wie?Antwort ist immer eine ganze Zahl zwischen 0 und 999, leicht prüfbar. Erlaubt 3 Stunden für 15 Aufgaben (für Menschen).

Beispiel"Wieviele positive ganze Zahlen kleiner als 1000 lassen sich als Differenz zweier Quadratzahlen schreiben?"

Warum wichtig?Aktuell der Lieblings-Benchmark für Reasoning-Modelle wie o1 und o3. Weil jedes Jahr frische Aufgaben kommen, ist Datenleck-Gefahr geringer.

💻

Programmieren

Code ist die andere große Domäne, in der Benchmarks objektiv messen können, entweder ein Programm besteht die Tests, oder es besteht sie nicht. Hier hat sich in den letzten zwei Jahren am meisten getan.

HumanEval

Code

Mensch-bewertete Code-Aufgaben

Was wird getestet?164 kleine Python-Funktionen mit Docstring. Das Modell schreibt den Funktionskörper.

Wie?Das Modell sieht Signatur und Docstring (z. B. "def two_sum(nums, target): ..."), produziert Code, automatische Tests laufen.

Beispiel"Schreibe eine Funktion, die zwei Listen miteinander verschachtelt." Dann läuft eine Test-Suite mit verschiedenen Inputs.

Warum wichtig?Standard-Coding-Test seit 2021. Heute zu klein und zu einfach für moderne Frontier-Modelle (alle über 90%), aber historisch relevant.

MBPP

Code

Mostly Basic Python Problems

Was wird getestet?974 einfache Python-Aufgaben mit automatischen Tests, etwas alltäglicher und größer als HumanEval.

Wie?Jede Aufgabe hat eine kurze Beschreibung in Worten und drei Tests. Das Modell muss eine Funktion liefern, die alle Tests besteht.

Beispiel"Schreibe eine Funktion, die alle Tupel mit ungeraden ersten Elementen aus einer Liste filtert."

Warum wichtig?Ähnliche Aussagekraft wie HumanEval, etwas breiter, wird oft zusammen mit HumanEval als "Baseline-Coding" zitiert.

SWE-bench

Code

Software Engineering Benchmark

Was wird getestet?2.294 echte GitHub-Issues aus großen Open-Source-Projekten wie Django, scikit-learn, Flask, SymPy.

Wie?Das Modell bekommt das ganze Repository plus die Bug-Beschreibung. Es muss einen Patch erzeugen, der den Bug behebt und alle Tests grün lässt.

Beispiel"Bug: django.utils.dateparse akzeptiert ungültige Zeitzonen, fix nötig." Das Modell muss die richtige Datei finden, den richtigen Codepfad ändern und nichts anderes kaputt machen.

Warum wichtig?Misst echtes Programmieren in echten Codebases, nicht nur "schreib mir eine isolierte Funktion". Die ersten Modelle (2023) schafften unter 5%.

SWE-bench Verified

Code

Manuell geprüfte SWE-bench-Auswahl

Was wird getestet?500 Issues aus SWE-bench, manuell von OpenAI-Ingenieuren darauf überprüft, dass sie wirklich lösbar sind und saubere Tests haben.

Wie?Genau wie SWE-bench, aber ohne die problematischen Aufgaben (unmögliche Tickets, unklare Spezifikation, fehlerhafte Tests).

BeispielEin Pull-Request-Issue aus dem astropy-Repository, bei dem klar definiert ist, was als "gelöst" gilt.

Warum wichtig?Aktuell der realistischste praktische Coding-Test. Wenn ein Modell hier 50%+ erreicht, taugt es als echter Programmier-Assistent.

LiveCodeBench

Code

Live-Programmier-Benchmark

Was wird getestet?Aktuelle Programmier-Wettbewerbsaufgaben aus LeetCode, Codeforces und AtCoder.

Wie?Wird ständig mit neuen Aufgaben aufgefüllt. Modelle werden gegen Aufgaben getestet, die nach ihrem Trainings-Cutoff erschienen sind.

BeispielEine LeetCode-Aufgabe vom letzten Monat, die kann nicht im Training gewesen sein.

Warum wichtig?Direkt gegen Contamination gebaut: Verhindert, dass das Modell die Lösung schon kennt, weil sie im Trainingsmaterial war.

Aider Polyglot

Code

Aider Multi-Sprachen-Benchmark

Was wird getestet?225 Aufgaben in sechs Programmiersprachen: Python, JavaScript, Go, Rust, C++, Java.

Wie?Aufgaben aus dem Exercism-Lernportal. Das Modell muss in jeder Sprache funktionierenden Code produzieren, der alle Tests besteht.

BeispielDieselbe Aufgabe (z. B. "implementiere einen Min-Heap") einmal in Rust mit echten Lifetimes, einmal in JavaScript mit Promises, einmal in C++ mit Templates.

Warum wichtig?Viele Modelle sind heimlich Python-Spezialisten. Aider Polyglot zeigt schonungslos, wer wirklich mehrsprachig ist.

BigCodeBench

Code

Großer Code-Benchmark

Was wird getestet?1.140 reale Programmieraufgaben, die Bibliotheks-Nutzung verlangen, nicht nur Standard-Python, sondern echte Pakete wie pandas, numpy, requests, sklearn.

Wie?Aufgaben mit mehreren Bibliotheken kombiniert: "Lade diese CSV, transformiere mit pandas, plotte mit matplotlib."

Beispiel"Lese eine Excel-Datei ein, gruppiere die Daten nach Quartal, erstelle ein gestapeltes Balkendiagramm."

Warum wichtig?Misst echte Alltagstauglichkeit. Wer hier scheitert, kann zwar Algorithmen aus dem Lehrbuch, aber nicht "richtig" Software bauen.

🧩

Logisches & abstraktes Denken

Diese Benchmarks messen reines Schlussfolgern. Sie sind so gebaut, dass Auswendiglernen nichts nützt, das Modell muss aus wenigen Beispielen eine Regel ableiten und dann anwenden.

ARC-AGI

Reasoning

Abstraction and Reasoning Corpus für AGI

Was wird getestet?Visuelle Puzzle: Aus wenigen Bild-Beispielen die zugrundeliegende Regel ableiten und auf ein neues Bild anwenden. Entworfen von François Chollet.

Wie?Drei oder vier Eingabe-Ausgabe-Bildpaare zeigen eine versteckte Regel. Das Modell sieht ein neues Eingabe-Bild und muss die richtige Ausgabe erzeugen.

Beispiel"In jedem Beispiel werden die roten Quadrate durch blaue ersetzt, wenn sie ein anderes Quadrat berühren." Für Menschen offensichtlich, für KI lange unfassbar schwer.

Warum wichtig?Galt jahrelang als "noch nicht knackbarer" Benchmark. Bis OpenAIs o3 Ende 2024 dramatisch zulegte, ein Wendepunkt.

DROP

Reasoning

Discrete Reasoning Over Paragraphs

Was wird getestet?Textaufgaben, bei denen Zahlen aus einem Absatz extrahiert und dann verarbeitet werden müssen.

Wie?Erst muss das Modell verstehen, was im Text steht, dann die relevanten Zahlen finden, dann mit ihnen rechnen oder sie vergleichen.

BeispielEin Absatz über ein American-Football-Spiel. Frage: "Wer hat mehr Touchdowns geworfen. Manning oder Brady, und um wie viele?"

Warum wichtig?Misst Lesen + Rechnen kombiniert. Realistischer als reine Mathe-Benchmarks, weil das Modell selbst die richtigen Zahlen identifizieren muss.

🦾

Agents & Werkzeug-Nutzung

Hier wird es praktisch. Diese Benchmarks testen nicht nur, ob das Modell die richtige Antwort kennt, sondern ob es ein Werkzeug richtig benutzt, mit einem Nutzer interagiert oder über mehrere Schritte ein echtes Ziel verfolgt. Siehe Agents für den Kontext.

Tau-bench (τ-bench)

Agents

Tau-Benchmark für realistische Werkzeug-Nutzung

Was wird getestet?Kundenservice-Szenarien mit echten APIs aus zwei Domänen. Airline und Retail. Das Modell muss mit dem Nutzer reden UND korrekte API-Aufrufe machen.

Wie?Ein simuliertes Kunden-Agent-Gespräch. Der "Kunde" hat ein Anliegen, das Modell muss durch Rückfragen und API-Aufrufe zur Lösung kommen.

Beispiel"Ich möchte meinen Flug umbuchen." Das Modell muss nach Buchungsnummer fragen, neue Verfügbarkeit prüfen, Preisdifferenz erklären, Umbuchung ausführen.

Warum wichtig?Einer der praktischsten Tests für "echte" Agents. Misst, ob das Modell die Tool-Nutzung schon bei realistischer Komplexität hinbekommt.

BFCL

Agents

Berkeley Function Calling Leaderboard

Was wird getestet?Function Calling: Ruft das Modell die richtige Funktion mit den richtigen Parametern auf?

Wie?Verschiedene Schwierigkeitsstufen, einfache Aufrufe, mehrere Funktionen, parallele Aufrufe, Funktionen in unterschiedlichen Programmiersprachen.

Beispiel"Wie ist das Wetter morgen in Berlin und Hamburg?" → Modell muss get_weather(city, date) zweimal aufrufen, mit korrekten Parametern.

Warum wichtig?Function Calling ist das Fundament jeder Agent-Anwendung, siehe MCP. Ohne diese Grundlage funktioniert kein Tool-Use.

GAIA

Agents

General AI Assistants Benchmark

Was wird getestet?Fragen, die echte Recherche-Arbeit erfordern. Web-Suche, Datei-Lesen, mehrschrittiges Schlussfolgern.

Wie?Drei Schwierigkeitsstufen. Höhere Stufen erfordern Dutzende Werkzeug-Aufrufe und mehrere Minuten Arbeit.

Beispiel"Im Wikipedia-Artikel zur Mona Lisa ist im Abschnitt 'Geschichte' ein Bild verlinkt, wer hat es 1956 fotografiert?"

Warum wichtig?Misst Multi-Step-Agent-Verhalten "in der Wildnis". Selbst gute Frontier-Modelle liegen hier deutlich unter dem Menschen-Niveau.

WebArena

Agents

Web-Arena

Was wird getestet?Realistische Web-Aufgaben in simulierten Websites. Online-Shop, Forum, Content-Management-System, Karten-App.

Wie?Das Modell bekommt einen Browser und ein Ziel. Es muss klicken, tippen, navigieren, und am Ende den richtigen Zustand erreichen.

Beispiel"Suche im Shop nach roten Sneakers Größe 42, sortiere nach Preis aufsteigend, lege den günstigsten in den Warenkorb."

Warum wichtig?Der Standardtest für Browser-Agents. Misst, ob aus einem Sprachmodell ein echtes Bediener-Werkzeug werden kann.

OSWorld

Agents

Betriebssystem-Welt

Was wird getestet?Echte Desktop-Aufgaben auf Linux und macOS. Dateien verschieben, Apps öffnen, Einstellungen ändern, mit Office-Programmen arbeiten.

Wie?Das Modell sieht den Bildschirm als Screenshot und kann Maus, Tastatur und Hotkeys steuern.

Beispiel"Öffne LibreOffice Calc, importiere die CSV aus dem Downloads-Ordner, formatiere die Beträge als Euro, speichere als XLSX."

Warum wichtig?Der härtere Bruder von WebArena. Stichwort: Computer Use, das Feature, mit dem Claude im Oktober 2024 echte Bildschirm-Steuerung bekam.

SWE-Lancer

Agents

SWE-bench für Freelance-Aufgaben

Was wird getestet?Echte bezahlte Freelance-Tickets von Upwork, mit dem Geldbetrag, der dafür ausgeschrieben war.

Wie?Das Modell bekommt das Ticket plus den Code des Auftraggebers. Es muss ein Pull-Request einreichen, der die Anforderung erfüllt.

BeispielEin 2.000-Dollar-Ticket: "Baut bei uns ein React-Dashboard mit drei spezifischen Charts und exportierbarer CSV."

Warum wichtig?Misst nicht "Was kann das Modell?", sondern "Wie viel Geld wäre die Arbeit wert?". Sehr direkter wirtschaftlicher Maßstab.

🖼️

Multimodal

Diese Benchmarks testen, ob das Modell mit Bildern, Charts und Dokumenten umgehen kann, nicht nur mit reinem Text.

MMMU

Vision

Massive Multi-discipline Multimodal Understanding

Was wird getestet?11.500 Fragen mit Bildern aus 30 Fachgebieten. Diagramme verstehen, anatomische Skizzen analysieren, Schaltpläne lesen.

Wie?Multiple-Choice-Fragen, bei denen das Bild Teil der Aufgabe ist und ohne Bild nicht lösbar wäre.

BeispielEin medizinisches Röntgenbild plus: "Welche Diagnose ist hier am wahrscheinlichsten?" Oder ein Schaltplan plus: "Welcher Widerstand ist in Reihe geschaltet?"

Warum wichtig?Standard-Test für "sieht die KI wirklich was?". Wird seit 2023 in fast jeder Multimodal-Modell-Vorstellung zitiert.

ChartQA

Vision

Diagramm-Fragen

Was wird getestet?Fragen zu Charts und Graphen. Säulendiagramme, Liniencharts, Streudiagramme.

Wie?Bild eines Charts + textliche Frage. Das Modell muss die Achsenbeschriftungen lesen, Werte ablesen, ggf. rechnen.

Beispiel"Welches Jahr hatte den höchsten Umsatz, und um wie viel Prozent stieg er gegenüber dem Vorjahr?"

Warum wichtig?Praktisch wichtig, sehr viele Geschäftsdaten leben in Charts. Wer Charts nicht lesen kann, ist im Büro-Einsatz halb blind.

MathVista

Vision

Mathe mit Sehen

Was wird getestet?Mathe-Aufgaben, die nur mit dem zugehörigen Bild lösbar sind. Geometrie-Skizzen, Funktionsplots, Tabellen.

Wie?Aufgabentext plus Bild. Beides zusammen ergibt erst die volle Aufgabe.

BeispielEine Geometrie-Skizze mit unbekanntem Winkel α plus: "Berechne α, gegeben dass der Kreis Radius 5 hat und die Sehne 8 lang ist."

Warum wichtig?Kombination aus visueller Wahrnehmung und mathematischem Schlussfolgern, eine der härtesten Multimodal-Herausforderungen.

DocVQA

Vision

Dokument-Fragen-Antworten

Was wird getestet?Scans und Fotos von Dokumenten. Rechnungen, Formulare, Versicherungspolicen, Quittungen. Das Modell muss Fragen zum Inhalt beantworten.

Wie?Bild eines Dokuments + Frage zum Inhalt. Das Modell muss Layout verstehen, Schrift erkennen, die richtige Stelle finden.

BeispielScan einer Rechnung + "Was ist die Gesamtsumme inklusive Mehrwertsteuer?"

Warum wichtig?Riesig praktisch. Büroautomatisierung, Rechnungsverarbeitung, Vertragsprüfung sind allesamt DocVQA-artige Probleme.

🛡️

Wahrheit, Sicherheit & Verzerrungen

Diese Benchmarks messen nicht "Kann das Modell die Aufgabe lösen?", sondern "Verhält sich das Modell auch, wie wir wollen?", siehe Safety.

HarmBench

Safety

Schaden-Benchmark

Was wird getestet?Wie oft springt das Modell auf schädliche Anfragen an. Anleitungen für Waffen, Hass-Rede, Anleitung zu Selbstverletzung.

Wie?400+ schädliche Prompts, oft verkleidet als legitime Fragen (Jailbreak-Versuche). Gemessen wird: Wie viele setzt das Modell trotzdem um?

BeispielEin Prompt, der vorgibt, "nur akademisches Interesse" zu haben, aber tatsächlich nach gefährlichen Chemie-Rezepten fragt.

Warum wichtig?Hier ist niedriger besser. Misst, wie stabil die Safety-Filter eines Modells sind.

RewardBench

Safety

Belohnungs-Benchmark

Was wird getestet?Wie gut die "Reward Models" (die Bewerter-Modelle hinter RLHF) menschliche Präferenzen tatsächlich abbilden.

Wie?Paare von Antworten, eine bevorzugt, eine abgelehnt. Das Reward Model muss richtig vorhersagen, welche Antwort Menschen besser fänden.

Beispiel"Erkläre Photosynthese." Antwort A ist klar und korrekt; Antwort B ist plausibel klingender Unsinn. Das Reward Model muss A höher bewerten.

Warum wichtig?Wer das Reward Model nicht im Griff hat, kriegt RLHF nicht hin. Mehr zur Mechanik: siehe Training.

ToxicChat / RTP

Safety

Giftige-Chat-Tests / Real Toxicity Prompts

Was wird getestet?Prompts, die das Modell zu beleidigenden, herabwürdigenden oder vorurteilsbeladenen Antworten verleiten könnten.

Wie?Tausende Prompts mit verschiedenen Trigger-Strategien. Externe Klassifikatoren bewerten, wie giftig die Antwort wurde.

BeispielEin scheinbar harmloser Satzanfang, der historisch oft zu rassistischen oder sexistischen Fortsetzungen geführt hat.

Warum wichtig?Misst, ob die Safety-Filter halten. Verweis auf Safety für den Gesamtkontext.

Vorsicht bei Benchmarks, die wichtigsten Fallstricke

Benchmark-Zahlen sehen objektiv aus, aber es gibt eine ganze Reihe Stolperfallen, die du kennen solltest. Wer Modelle ernsthaft vergleichen will, muss diese Effekte im Hinterkopf haben:

1. Contamination, der Datensatz war im Training

Contamination bedeutet: Der Benchmark-Datensatz war versehentlich im Trainingsmaterial des Modells. Dann hat das Modell die Antworten quasi auswendig gelernt, statt sie wirklich zu schlussfolgern. Bei großen Sprachmodellen, die buchstäblich das halbe Internet als Trainingsdaten haben, passiert das ständig, vor allem bei alten Benchmarks wie MMLU oder HumanEval, deren Fragen seit Jahren öffentlich sind. Neue Benchmarks wie LiveCodeBench oder AIME des aktuellen Jahres versuchen, das zu umgehen.

2. Saturation, alle Modelle gleich gut

Wenn alle Top-Modelle 95% oder mehr erreichen, ist der Benchmark "saturated". Er unterscheidet die Modelle nicht mehr. HellaSwag und GLUE sind klassische Beispiele, historisch wichtig, heute praktisch wertlos für den Vergleich. Die Forschung schiebt dann härtere Nachfolger nach: MMLU → MMLU-Pro, GPQA → GPQA-Diamond.

3. Teaching to the test

Modell-Anbieter wissen genau, welche Benchmarks ihre Marketing-Folien zieren werden. Also wird im Training gezielt Material verwendet, das den Modellen hilft, gerade diese Tests zu bestehen, auch wenn es das echte Können nicht wirklich verbessert. Das ist nicht unbedingt unredlich, aber es verzerrt das Bild.

4. Cherry-Picking

Jeder Anbieter zeigt in seinen Folien die Benchmarks, in denen er gut aussieht, und verschweigt diskret die anderen. Wenn ein neues Modell vorgestellt wird und vier Benchmarks zeigt, frag dich: Was ist mit den anderen zehn, die normal zitiert werden? Wo sind die?

5. Anders konfiguriert. Äpfel mit Birnen

Derselbe Benchmark mit Chain-of-Thought ergibt 20-30 Prozentpunkte mehr als ohne. 8-shot mehr als 0-shot. Mit Tool-Use mehr als ohne. Werte sind nur dann vergleichbar, wenn das Setup exakt identisch war. Anbieter spielen hier gerne, indem sie für ihr Modell die optimale Konfiguration zeigen und für die Konkurrenz die schwächere.

Vorsicht

Wenn ein Anbieter wirbt: "Unser Modell erreicht 92%, die Konkurrenz nur 78%!", schau immer auf das Kleingedruckte. Oft steht da: "Unser Modell: CoT, 8-shot, mit Tool-Use; Konkurrenz: 0-shot, ohne CoT, Standard-Konfiguration." Das ist kein fairer Vergleich.

Merke

Benchmarks sind nützlich, aber kein Orakel. Eine einzelne Zahl sagt nur sehr wenig, schau dir mehrere Benchmarks aus verschiedenen Kategorien an, vergleiche nur Werte, die mit identischem Setup gemessen wurden, und sei skeptisch bei Marketing-Folien. Am Ende zählt: Wie gut hilft dir das Modell bei deinen echten Aufgaben?

Trotz all dieser Schwächen sind Benchmarks immer noch das Beste, was wir haben. Sie geben Orientierung, sie ermöglichen Fortschritts-Messung, sie zwingen Anbieter zu vergleichbaren Aussagen. Wer sie aber für absolute Wahrheit hält, läuft in die Falle. Lies sie kritisch, mehrfach gegengeprüft, dann sind sie ein wertvolles Werkzeug.

In drei Sätzen

Was du jetzt weißt

Benchmarks sind standardisierte Tests für KI-Modelle, wie Vergleichsarbeiten in der Schule, nur dass die "Schüler" GPT, Claude, Gemini & Co. sind.
Es gibt sie für viele Kategorien: Allgemeinwissen (MMLU, GPQA), Mathe (GSM8K, MATH, AIME), Code (HumanEval, SWE-bench), Logik (ARC-AGI), Agents (Tau-bench, GAIA), Multimodal (MMMU, ChartQA) und Sicherheit (HarmBench).
Zahlen kritisch lesen: Achte auf Saturation (alle über 95% = kaputt), Contamination (Antworten im Training), Konfigurations-Unterschiede (CoT, Few-Shot) und Cherry-Picking. Eine einzelne Zahl sagt fast nichts.

← Vorheriges Kapitel

Safety, Alignment & Bias

Nächstes Kapitel →

Perfekt Prompten, der Praxis-Guide