Leistung unserer Modelle bei realen Aufgaben messen
Wir stellen GDPval vor, eine neue Evaluierung, die die Modellleistung bei wirtschaftlich relevanten, praxisnahen Aufgaben in 44 Berufen misst.
Unsere Mission besteht darin, sicherzustellen, dass künstliche allgemeine Intelligenz der gesamten Menschheit zugute kommt. Im Rahmen unserer Mission wollen wir offen darlegen, wie KI-Modelle Menschen in der realen Welt helfen können. Deshalb führen wir GDPval ein, eine neue Evaluierung, mit der wir nachverfolgen können, wie gut unsere Modelle und andere bei wirtschaftlich relevanten, praxisnahen Aufgaben abschneiden. Wir nennen diese Evaluierung GDPval, weil sie auf dem Konzept des Bruttoinlandsprodukts (Englisch: GDP) basiert – einem zentralen Wirtschaftsindikator – und Aufgaben aus wichtigen Berufen umfasst, die am stärksten zum Bruttoinlandsprodukt beitragen.
Menschen spekulieren oft über die gesellschaftlichen Auswirkungen von KI. Der klarste Weg, ihr Potenzial zu verstehen, ist jedoch, sich anzusehen, wozu Modelle heute schon fähig sind. Die Geschichte zeigt, dass große Technologien – vom Internet bis zu Smartphones – oft mehr als ein Jahrzehnt brauchten, um von der Erfindung zur breiten Nutzung zu gelangen. Evaluierungen wie GDPval helfen, Gespräche über künftige KI-Fortschritte auf Fakten statt auf Vermutungen zu stützen und zeigen, wie sich Modelle im Lauf der Zeit weiterentwickeln.
Frühere KI-Evaluierungen – etwa anspruchsvolle akademische Tests und Programmierwettbewerbe – waren entscheidend, um die Grenzen des modellbasierten Reasoning zu erweitern. Oft erfassen sie jedoch nicht die Art von Aufgaben, mit denen viele Menschen in ihrem Arbeitsalltag zu tun haben.
Um diese Lücke zu schließen, entwickeln wir Evaluierungen, die zunehmend realistische und wirtschaftlich relevante Fähigkeiten messen. Diese Entwicklung hat sich von klassischen akademischen Benchmarks wie MMLU (prüfungsähnliche Fragen aus Dutzenden von Fachgebieten) hin zu praxisnäheren Evaluierungen verlagert – etwa: SWE-Bench (Fehlerbehebung in der Softwareentwicklung), MLE-Bench (maschinelles Lernen mit Aufgaben wie Modelltraining und -analyse), Paper-Bench (wissenschaftliches Reasoning und Begutachtung von Forschungsarbeiten)
und zuletzt marktorientierte Evaluierungen wie SWE-Lancer (freiberufliche Softwareentwicklungsprojekte auf Basis realer Vergütungen).
GDPval ist der nächste Schritt in dieser Entwicklung. Es misst die Modellleistung bei Aufgaben, die direkt aus dem Praxiswissen erfahrener Fachkräfte in einer Vielzahl von Berufen und Branchen stammen und vermittelt so ein klareres Bild davon, wie Modelle bei wirtschaftlich relevanten Aufgaben abschneiden. Die Bewertung von Modellen anhand realitätsnaher beruflicher Aufgaben hilft uns, nicht nur zu verstehen, wie gut sie im Labor funktionieren, sondern auch, wie sie Menschen in ihrer täglichen Arbeit unterstützen können.
Die erste Version von GDPval umfasst 44 Berufe aus den 9 Branchen, die am stärksten zum US-Bruttoinlandsprodukt (US-BIP) beitragen. Das vollständige GDPval-Set enthält 1.320 spezialisierte Aufgaben (davon 220 im frei zugänglichen „Gold“-Set), die jeweils sorgfältig von erfahrenen Fachkräften mit durchschnittlich über 14 Jahren Berufserfahrung erstellt und geprüft wurden. Jede Aufgabe basiert auf realen Arbeitsbeispielen, etwa einem juristischen Schriftsatz, einem technischen Bauplan, einem Kundendienstgespräch oder einem Pflegeplan.
GDPval zeichnet sich durch den Realismus und die Vielfalt der bewerteten Aufgaben aus. Im Gegensatz zu anderen wirtschaftlich orientierten Evaluierungen, die sich auf bestimmte Bereiche konzentrieren (z. B. SWE-Lancer), umfasst GDPval eine große Bandbreite an Aufgaben und Berufen. Und anders als Benchmarks, bei denen Aufgaben künstlich im Stil akademischer Prüfungen erstellt werden (z. B. Humanity’s Last Exam oder MMLU), konzentriert sich GDPval auf Aufgaben, die auf echten oder vergleichbar konstruierten Arbeitsergebnissen basieren.
Im Gegensatz zu herkömmlichen Benchmarks bestehen GDPval-Aufgaben nicht einfach aus Text-Prompts. Sie enthalten Referenzdateien und Kontext; die erwarteten Ergebnisse reichen von Dokumenten über Folien und Diagramme bis hin zu Tabellen und Multimedia-Inhalten. Dieser Realismus macht GDPval zu einem realistischeren Test dafür, wie Modelle Fachkräfte unterstützen könnten.
GDPval ist ein früher Schritt, der noch nicht die ganze Bandbreite wirtschaftlicher Aufgaben abbildet. Obwohl es 44 Berufe und Hunderte wissensbasierte Aufgaben umfasst, bleibt es auf Einzelbewertungen beschränkt. Es erfasst also keine Fälle, in denen ein Modell Kontext aufbauen oder sich über mehrere Entwürfe hinweg verbessern müsste. Künftige Versionen werden interaktivere Workflows und kontextreichere Aufgaben umfassen, um die Komplexität realer Wissensarbeit besser abzubilden (siehe Abschnitt „Limitations“ unten).
GDPval umfasst Aufgaben aus 9 Branchen und 44 Berufen, und künftige Versionen werden den Umfang weiter ausbauen. Die 9 Branchen wurden auf Grundlage derjenigen ausgewählt, die mehr als 5 % zum US-BIP beitragen. Die US-BIP-Daten stammen von der Federal Reserve Bank of St. Louis. Anschließend wählten wir innerhalb jeder Branche die fünf Berufe aus, die am stärksten zu den Gesamtlöhnen und -vergütungen beitragen und überwiegend Wissensarbeit darstellen. Grundlage waren Lohn- und Beschäftigungsdaten aus dem Occupational Employment Report des U.S. Bureau of Labor Statistics vom Mai 2024(wird in einem neuen Fenster geöffnet). Um festzustellen, ob es sich bei den Berufen überwiegend um Wissensarbeit handelt, nutzten wir Aufgabendaten aus O*NET(wird in einem neuen Fenster geöffnet), einer vom U.S. Department of Labor unterstützten Datenbank mit Berufsprofilen. Wir ordneten jede Aufgabe in O*NET einem Beruf zu und klassifizierten sie als Wissensarbeit oder körperliche Arbeit, also manuelle Tätigkeiten, die Handlungen in der physischen Welt erfordern. Ein Beruf galt insgesamt als „überwiegend Wissensarbeit“, wenn mindestens 60 % der zugehörigen Aufgaben nicht körperliche oder manuelle Arbeit betrafen. Diese 60-Prozent-Schwelle wählten wir als Ausgangspunkt für die erste Version von GDPval, wobei wir den Fokus auf Berufe legten, in denen KI das größte Potenzial zur Steigerung der realen Produktivität hat.
Dieses Verfahren ergab 44 Berufe für die Aufnahme.
Immobilien, Vermietung und Leasing
Concierge
Immobilien-, Grundstücks- und Gemeinschaftsverwaltungsmanagement
Immobilienmakler
Immobilienvermittler
Miet- und Empfangsangestellte
Regierung
Freizeitbetreuer
Compliance-Beauftragte
Vorgesetzte von Polizisten und Detektiven
Verwaltungsleiter
Sozialarbeiter in den Bereichen Familie, Schule und Kinderschutz
Fertigungsindustrie
Maschinenbauingenieure
Wirtschaftsingenieure
Einkäufer und Beschaffungsbeauftragte
Versand-, Wareneingangs- und Lagerangestellte
Vorgesetzte in der Produktion und im Betrieb
Beratende, wissenschaftliche und technische Dienstleistungen
Softwareentwickler
Anwälte
Buchhalter und Wirtschaftsprüfer
IT-Manager
Projektmanagement-Spezialisten
Gesundheits- und Sozialwesen
Pflegefachkräfte
Pflegepraktiker
Medizinische und gesundheitliche Fachkräfte
Vorgesetzte von Büro- und Verwaltungskräften
Medizinische Sekretärinnen und Verwaltungsassistenten
Finanz- und Versicherungswesen
Kundendienstmitarbeiter
Finanz- und Investmentanalysten
Finanzmanager
Finanzberater
Wertpapier-, Rohstoff- und Finanzdienstleistungsverkäufer
Einzelhandel
Apotheker
Vorgesetzte im Einzelhandelsverkauf
Betriebs- und Geschäftsleiter
Privatdetektive und Ermittler
Großhandel
Verkaufsleiter
Auftragsbearbeiter
Vorgesetzte im Außendienstverkauf (nicht Einzelhandel)
Vertriebsmitarbeiter im Großhandel und in der Produktion (ausgenommen technische und wissenschaftliche Produkte)
Vertriebsmitarbeiter im Großhandel und in der Produktion für technische und wissenschaftliche Produkte
Info
Audio- und Videotechniker
Produzenten und Regisseure
Nachrichtenanalysten, Reporter und Journalistinnen
Film- und Videoeditoren
Redakteure
Für jeden Beruf arbeiteten wir mit erfahrenen Fachkräften zusammen, um repräsentative Aufgaben zu entwickeln, die ihre tägliche Arbeit widerspiegeln. Diese Fachkräfte verfügten im Schnitt über 14 Jahre Berufserfahrung und eine nachweislich erfolgreiche Laufbahn. Um die Repräsentativität zu maximieren, rekrutierten wir bewusst ein breites Spektrum an Experten, wie z. B. Anwälte aus unterschiedlichen Fachgebieten und Kanzleien verschiedener Größe.
Jede Aufgabe durchlief einen mehrstufigen Prüfprozess, um sicherzustellen, dass sie reale Arbeitssituationen abbildet, für andere Fachkräfte umsetzbar und für die Bewertung klar nachvollziehbar ist. Im Durchschnitt durchlief jede Aufgabe fünf Runden fachlicher Überprüfung, darunter Prüfungen durch andere Aufgabenautoren, zusätzliche Berufsexperten und modellbasierte Validierung.
Der daraus resultierende Datensatz umfasst 30 vollständig geprüfte Aufgaben pro Beruf (im vollständigen Set) sowie 5 Aufgaben pro Beruf im frei zugänglichen „Gold“-Set und bildet eine solide Grundlage, um die Modellleistung bei realer Wissensarbeit zu bewerten.
Beispiele für GDPval-Aufgaben
Prompt und Aufgabenkontext
Ergebnis mit menschlicher Expertise

Um die Modellleistung bei GDPval-Aufgaben zu bewerten, stützen wir uns auf Experten, eine Gruppe erfahrener Fachkräfte aus denselben Berufen, die auch im Datensatz vertreten sind. Diese Experten vergleichen die von Modellen erstellten Ergebnisse blind mit denen der Aufgabenautoren (ohne zu wissen, welches KI- oder menschlich erzeugt ist) und geben Bewertungen sowie Rankings ab. Die Prüfer bewerten anschließend die von Menschen und KI erstellten Ergebnisse und ordnen jede KI-Ausgabe als „besser“, „gleich gut“ oder „schlechter“ ein.
Die Aufgabenautoren erstellten zudem detaillierte Bewertungskriterien für ihre jeweiligen Berufe, um Konsistenz und Transparenz im Bewertungsprozess sicherzustellen. Außerdem entwickelten wir einen „automatisierten Prüfer“ – ein KI-System, das darauf trainiert wurde, einzuschätzen, wie menschliche Experten eine bestimmte Ausgabe bewerten würden. Anders gesagt: Statt bei jeder Aufgabe eine vollständige Fachprüfung durchzuführen, kann der automatisierte Prüfer schnell vorhersagen, welches Ergebnis Menschen voraussichtlich bevorzugen. Wir stellen dieses Tool über evals.openai.com als experimentellen Forschungsdienst bereit. Es ist jedoch noch nicht so zuverlässig wie die Bewertungen durch Fachleute, weshalb wir es nicht als Ersatz verwenden.
Wir stellten fest, dass die besten aktuellen Modelle bereits eine Qualität erreichen, die der Arbeit von Branchenexperten nahekommt. Um dies zu testen, führten wir Blindbewertungen durch, bei denen Branchenexperten Ergebnisse mehrerer führender Modelle – GPT‑4o, o4-mini, OpenAI-o3, GPT‑5, Claude-Opus 4.1, Gemini 2.5 Pro und Grok 4 – mit von Menschen erstellter Arbeit verglichen. In 220 Aufgaben des GDPval-„Gold“-Sets hielten wir fest, wann Modellergebnisse besser („Wins“) oder gleichwertig („Ties“) bewertet wurden wie die Arbeit von Branchenfachleuten. Die Ergebnisse sind unten in der Grafik dargestellt. Claude-Opus 4.1 war das leistungsstärkste Modell im Set und überzeugte besonders bei der Ästhetik (z. B. Dokumentformatierung und Foliendesign). GPT‑5 zeigte seine Stärke vor allem bei der Genauigkeit, etwa beim Auffinden domänenspezifischen Wissens. Wir sehen zudem deutliche Fortschritte über die Zeit hinweg bei diesen Aufgaben. Die Leistung hat sich von GPT‑4o (veröffentlicht im Frühjahr 2024) bis GPT‑5 (veröffentlicht im Sommer 2025) mehr als verdoppelt und folgt einem klaren linearen Trend.
Zudem stellten wir fest, dass Spitzenmodelle GDPval-Aufgaben rund 100-mal schneller und 100-mal günstiger erledigen können als Branchenexperten. Diese Zahlen beziehen sich jedoch nur auf reine Modell-Inferenzzeiten und API-Kosten und berücksichtigen daher nicht die menschliche Aufsicht, Überarbeitung und Integration, die in realen Arbeitsumgebungen für den Einsatz unserer Modelle erforderlich sind. Besonders bei den Aufgaben, in denen Modelle stark sind, erwarten wir, dass es Zeit und Geld spart, eine Aufgabe zunächst einem Modell zu überlassen, bevor sie von einem Menschen bearbeitet wird.
Fachprüfer verglichen die Ergebnisse führender Modelle mit denen menschlicher Experten. Die modernsten Modelle erreichen bereits eine Qualität, die der Arbeit von Branchenfachleuten nahekommt. Claude-Opus 4.1 erzeugte Ergebnisse, die in knapp der Hälfte der Aufgaben als gleich gut oder besser als die menschlichen bewertet wurden.
Von GPT‑4o zu GPT‑5 hat sich die Leistung bei GDPval-Aufgaben innerhalb eines Jahres mehr als verdreifacht.
Schließlich trainierten wir schrittweise eine interne, experimentelle Version von GPT‑5, um zu prüfen, ob sich die Leistung bei GDPval weiter verbessern lässt. Dieser Prozess führte tatsächlich zu besseren Ergebnissen und ebnete den Weg für weiteres Verbesserungspotenzial. Weitere kontrollierte Experimente bestätigen dies: Größere Modelle, mehr Reasoning-Schritte und ein reichhaltigerer Aufgabenkontext führten jeweils zu messbaren Verbesserungen.
Die vollständigen Ergebnisse sind in unserer Publikation nachzulesen. Wir veröffentlichen außerdem ein „Gold“-Subset der GDPval-Aufgaben und einen öffentlichen Bewertungsdienst, damit andere Forschende auf dieser Arbeit aufbauen können.
Mit zunehmender Leistungsfähigkeit wird die KI voraussichtlich Veränderungen auf dem Arbeitsmarkt bewirken. Erste GDPval-Ergebnisse zeigen, dass Modelle bereits einige sich wiederholende, klar definierte Aufgaben schneller und kostengünstiger erledigen können als Fachleute. Die meisten Berufe bestehen jedoch aus weit mehr als nur einer Sammlung klar beschreibbarer Aufgaben. GDPval verdeutlicht, wo KI Routineaufgaben übernehmen kann, damit Menschen mehr Zeit für kreative und entscheidungsintensive Tätigkeiten haben. Wenn KI Menschen auf diese Weise ergänzt, kann das zu erheblichem wirtschaftlichem Wachstum führen. Unser Ziel ist es, allen den Zugang zu KI zu ermöglichen, sie bei Veränderungen zu unterstützen und Systeme zu schaffen, die breite Beiträge belohnen, damit alle vom Aufstieg der KI profitieren.
GDPval ist ein früher Schritt. Obwohl es 44 Berufe und Hunderte von Aufgaben abdeckt, arbeiten wir weiter daran, unseren Ansatz zu verfeinern, den Testumfang zu erweitern und die Ergebnisse noch aussagekräftiger zu machen. Die aktuelle Version der Evaluierung ist ebenfalls als Einzeldurchlauf angelegt und erfasst daher keine Fälle, in denen ein Modell Kontext aufbauen oder sich über mehrere Entwürfe hinweg verbessern müsste – etwa bei der Überarbeitung eines juristischen Schriftsatzes nach Feedback des Mandanten oder bei einer Datenanalyse nach dem Erkennen einer Anomalie. Zudem sind Aufgaben in der realen Welt nicht immer klar durch Prompts und Referenzdateien definiert. So muss ein Anwalt beispielsweise mit Unklarheiten umgehen und erst mit dem Mandanten sprechen, bevor er entscheidet, ob ein juristischer Schriftsatz der richtige Ansatz ist, um weiterzuhelfen. Wir planen, GDPval auf weitere Berufe, Branchen und Aufgabentypen auszuweiten, mit mehr Interaktivität und Aufgaben, die den Umgang mit Unklarheiten erfordern. Langfristig wollen wir so den Fortschritt bei verschiedenartigen Formen von Wissensarbeit besser messen.
- Wenn Sie Branchenexperte sind und Interesse haben, zu GDPval beizutragen, können Sie Ihr Interesse hier bekunden.
- Wenn Sie Kundin oder Kunde von OpenAI sind und an einer zukünftigen Runde von GDPval mitwirken möchten, können Sie Ihr Interesse hier bekunden.
Die Beteiligung der Community ist entscheidend. Wir freuen uns darauf, GDPval gemeinsam mit Forschenden, Fachleuten und Organisationen weiterzuentwickeln, die unser Ziel teilen, AGI im Arbeitsalltag nützlicher zu machen.


