Zum Hauptinhalt springen
OpenAI

25. September 2025

VeröffentlichungForschung

Leistung unserer Modelle bei realen Aufgaben messen

Wir stellen GDPval vor, eine neue Evaluierung, die die Modellleistung bei wirtschaftlich relevanten, praxisnahen Aufgaben in 44 Berufen misst.

Unsere Mission besteht darin, sicherzustellen, dass künstliche allgemeine Intelligenz der gesamten Menschheit zugute kommt. Im Rahmen unserer Mission wollen wir offen darlegen, wie KI-Modelle Menschen in der realen Welt helfen können. Deshalb führen wir GDPval ein, eine neue Evaluierung, mit der wir nachverfolgen können, wie gut unsere Modelle und andere bei wirtschaftlich relevanten, praxisnahen Aufgaben abschneiden. Wir nennen diese Evaluierung GDPval, weil sie auf dem Konzept des Bruttoinlandsprodukts (Englisch: GDP) basiert – einem zentralen Wirtschaftsindikator – und Aufgaben aus wichtigen Berufen umfasst, die am stärksten zum Bruttoinlandsprodukt beitragen.

Menschen spekulieren oft über die gesellschaftlichen Auswirkungen von KI. Der klarste Weg, ihr Potenzial zu verstehen, ist jedoch, sich anzusehen, wozu Modelle heute schon fähig sind. Die Geschichte zeigt, dass große Technologien – vom Internet bis zu Smartphones – oft mehr als ein Jahrzehnt brauchten, um von der Erfindung zur breiten Nutzung zu gelangen. Evaluierungen wie GDPval helfen, Gespräche über künftige KI-Fortschritte auf Fakten statt auf Vermutungen zu stützen und zeigen, wie sich Modelle im Lauf der Zeit weiterentwickeln.

Frühere KI-Evaluierungen – etwa anspruchsvolle akademische Tests und Programmierwettbewerbe – waren entscheidend, um die Grenzen des modellbasierten Reasoning zu erweitern. Oft erfassen sie jedoch nicht die Art von Aufgaben, mit denen viele Menschen in ihrem Arbeitsalltag zu tun haben.

Um diese Lücke zu schließen, entwickeln wir Evaluierungen, die zunehmend realistische und wirtschaftlich relevante Fähigkeiten messen. Diese Entwicklung hat sich von klassischen akademischen Benchmarks wie MMLU (prüfungsähnliche Fragen aus Dutzenden von Fachgebieten) hin zu praxisnäheren Evaluierungen verlagert – etwa: SWE-Bench (Fehlerbehebung in der Softwareentwicklung), MLE-Bench (maschinelles Lernen mit Aufgaben wie Modelltraining und -analyse), Paper-Bench (wissenschaftliches Reasoning und Begutachtung von Forschungsarbeiten)
und zuletzt marktorientierte Evaluierungen wie
SWE-Lancer (freiberufliche Softwareentwicklungsprojekte auf Basis realer Vergütungen).

GDPval ist der nächste Schritt in dieser Entwicklung. Es misst die Modellleistung bei Aufgaben, die direkt aus dem Praxiswissen erfahrener Fachkräfte in einer Vielzahl von Berufen und Branchen stammen und vermittelt so ein klareres Bild davon, wie Modelle bei wirtschaftlich relevanten Aufgaben abschneiden. Die Bewertung von Modellen anhand realitätsnaher beruflicher Aufgaben hilft uns, nicht nur zu verstehen, wie gut sie im Labor funktionieren, sondern auch, wie sie Menschen in ihrer täglichen Arbeit unterstützen können. 

Was GDPval misst

Die erste Version von GDPval umfasst 44 Berufe aus den 9 Branchen, die am stärksten zum US-Bruttoinlandsprodukt (US-BIP) beitragen. Das vollständige GDPval-Set enthält 1.320 spezialisierte Aufgaben (davon 220 im frei zugänglichen „Gold“-Set), die jeweils sorgfältig von erfahrenen Fachkräften mit durchschnittlich über 14 Jahren Berufserfahrung erstellt und geprüft wurden. Jede Aufgabe basiert auf realen Arbeitsbeispielen, etwa einem juristischen Schriftsatz, einem technischen Bauplan, einem Kundendienstgespräch oder einem Pflegeplan.

GDPval zeichnet sich durch den Realismus und die Vielfalt der bewerteten Aufgaben aus. Im Gegensatz zu anderen wirtschaftlich orientierten Evaluierungen, die sich auf bestimmte Bereiche konzentrieren (z. B. SWE-Lancer), umfasst GDPval eine große Bandbreite an Aufgaben und Berufen. Und anders als Benchmarks, bei denen Aufgaben künstlich im Stil akademischer Prüfungen erstellt werden (z. B. Humanity’s Last Exam oder MMLU), konzentriert sich GDPval auf Aufgaben, die auf echten oder vergleichbar konstruierten Arbeitsergebnissen basieren. 

Im Gegensatz zu herkömmlichen Benchmarks bestehen GDPval-Aufgaben nicht einfach aus Text-Prompts. Sie enthalten Referenzdateien und Kontext; die erwarteten Ergebnisse reichen von Dokumenten über Folien und Diagramme bis hin zu Tabellen und Multimedia-Inhalten. Dieser Realismus macht GDPval zu einem realistischeren Test dafür, wie Modelle Fachkräfte unterstützen könnten.

GDPval ist ein früher Schritt, der noch nicht die ganze Bandbreite wirtschaftlicher Aufgaben abbildet. Obwohl es 44 Berufe und Hunderte wissensbasierte Aufgaben umfasst, bleibt es auf Einzelbewertungen beschränkt. Es erfasst also keine Fälle, in denen ein Modell Kontext aufbauen oder sich über mehrere Entwürfe hinweg verbessern müsste. Künftige Versionen werden interaktivere Workflows und kontextreichere Aufgaben umfassen, um die Komplexität realer Wissensarbeit besser abzubilden (siehe Abschnitt „Limitations“ unten).

Wie wir die Berufe ausgewählt haben

GDPval umfasst Aufgaben aus 9 Branchen und 44 Berufen, und künftige Versionen werden den Umfang weiter ausbauen. Die 9 Branchen wurden auf Grundlage derjenigen ausgewählt, die mehr als 5 % zum US-BIP beitragen. Die US-BIP-Daten stammen von der Federal Reserve Bank of St. Louis. Anschließend wählten wir innerhalb jeder Branche die fünf Berufe aus, die am stärksten zu den Gesamtlöhnen und -vergütungen beitragen und überwiegend Wissensarbeit darstellen. Grundlage waren Lohn- und Beschäftigungsdaten aus dem Occupational Employment Report des U.S. Bureau of Labor Statistics vom Mai 2024(wird in einem neuen Fenster geöffnet). Um festzustellen, ob es sich bei den Berufen überwiegend um Wissensarbeit handelt, nutzten wir Aufgabendaten aus O*NET(wird in einem neuen Fenster geöffnet), einer vom U.S. Department of Labor unterstützten Datenbank mit Berufsprofilen. Wir ordneten jede Aufgabe in O*NET einem Beruf zu und klassifizierten sie als Wissensarbeit oder körperliche Arbeit, also manuelle Tätigkeiten, die Handlungen in der physischen Welt erfordern. Ein Beruf galt insgesamt als „überwiegend Wissensarbeit“, wenn mindestens 60 % der zugehörigen Aufgaben nicht körperliche oder manuelle Arbeit betrafen. Diese 60-Prozent-Schwelle wählten wir als Ausgangspunkt für die erste Version von GDPval, wobei wir den Fokus auf Berufe legten, in denen KI das größte Potenzial zur Steigerung der realen Produktivität hat. 

Dieses Verfahren ergab 44 Berufe für die Aufnahme.

Immobilien, Vermietung und Leasing

  • Concierge

  • Immobilien-, Grundstücks- und Gemeinschaftsverwaltungsmanagement

  • Immobilienmakler

  • Immobilienvermittler

  • Miet- und Empfangsangestellte

Regierung

  • Freizeitbetreuer

  • Compliance-Beauftragte

  • Vorgesetzte von Polizisten und Detektiven

  • Verwaltungsleiter

  • Sozialarbeiter in den Bereichen Familie, Schule und Kinderschutz

Fertigungsindustrie

  • Maschinenbauingenieure

  • Wirtschaftsingenieure

  • Einkäufer und Beschaffungsbeauftragte

  • Versand-, Wareneingangs- und Lagerangestellte

  • Vorgesetzte in der Produktion und im Betrieb

Beratende, wissenschaftliche und technische Dienstleistungen

  • Softwareentwickler

  • Anwälte

  • Buchhalter und Wirtschaftsprüfer

  • IT-Manager

  • Projektmanagement-Spezialisten

Gesundheits- und Sozialwesen

  • Pflegefachkräfte

  • Pflegepraktiker

  • Medizinische und gesundheitliche Fachkräfte

  • Vorgesetzte von Büro- und Verwaltungskräften

  • Medizinische Sekretärinnen und Verwaltungsassistenten

Finanz- und Versicherungswesen

  • Kundendienstmitarbeiter

  • Finanz- und Investmentanalysten

  • Finanzmanager

  • Finanzberater

  • Wertpapier-, Rohstoff- und Finanzdienstleistungsverkäufer

Einzelhandel

  • Apotheker

  • Vorgesetzte im Einzelhandelsverkauf

  • Betriebs- und Geschäftsleiter

  • Privatdetektive und Ermittler

Großhandel

  • Verkaufsleiter

  • Auftragsbearbeiter

  • Vorgesetzte im Außendienstverkauf (nicht Einzelhandel)

  • Vertriebsmitarbeiter im Großhandel und in der Produktion (ausgenommen technische und wissenschaftliche Produkte)

  • Vertriebsmitarbeiter im Großhandel und in der Produktion für technische und wissenschaftliche Produkte

Info

  • Audio- und Videotechniker

  • Produzenten und Regisseure

  • Nachrichtenanalysten, Reporter und Journalistinnen

  • Film- und Videoeditoren

  • Redakteure

GDPval umfasst 44 wissensbasierte Berufe aus 9 Branchen – von Softwareentwicklern und Anwälten bis hin zu Pflegefachkräften und Maschinenbauingenieuren. Diese Berufe wurden aufgrund ihrer wirtschaftlichen Bedeutung ausgewählt und repräsentieren Tätigkeiten, bei denen KI Fachkräfte sinnvoll unterstützen kann.

Wie wir den Datensatz erstellt haben

Für jeden Beruf arbeiteten wir mit erfahrenen Fachkräften zusammen, um repräsentative Aufgaben zu entwickeln, die ihre tägliche Arbeit widerspiegeln. Diese Fachkräfte verfügten im Schnitt über 14 Jahre Berufserfahrung und eine nachweislich erfolgreiche Laufbahn. Um die Repräsentativität zu maximieren, rekrutierten wir bewusst ein breites Spektrum an Experten, wie z. B. Anwälte aus unterschiedlichen Fachgebieten und Kanzleien verschiedener Größe.

Jede Aufgabe durchlief einen mehrstufigen Prüfprozess, um sicherzustellen, dass sie reale Arbeitssituationen abbildet, für andere Fachkräfte umsetzbar und für die Bewertung klar nachvollziehbar ist. Im Durchschnitt durchlief jede Aufgabe fünf Runden fachlicher Überprüfung, darunter Prüfungen durch andere Aufgabenautoren, zusätzliche Berufsexperten und modellbasierte Validierung. 

Der daraus resultierende Datensatz umfasst 30 vollständig geprüfte Aufgaben pro Beruf (im vollständigen Set) sowie 5 Aufgaben pro Beruf im frei zugänglichen „Gold“-Set und bildet eine solide Grundlage, um die Modellleistung bei realer Wissensarbeit zu bewerten.

Beispiele für GDPval-Aufgaben

Prompt und Aufgabenkontext

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Ergebnis mit menschlicher Expertise

Explosionszeichnung eines Kabeltrommel-Designs
Jede Aufgabe in GDPval wurde von einer erfahrenen Fachkraft entwickelt und spiegelt echte wissensbasierte Arbeit aus ihrem Berufsfeld wider. Die Aufgabe ist ein realistischer Arbeitsauftrag, erstellt von einem Fachexperten, und das „Gold“-Ergebnis ist die eigene Lösung dieser Person.

Wie wir die Modellleistung bewerten

Um die Modellleistung bei GDPval-Aufgaben zu bewerten, stützen wir uns auf Experten, eine Gruppe erfahrener Fachkräfte aus denselben Berufen, die auch im Datensatz vertreten sind. Diese Experten vergleichen die von Modellen erstellten Ergebnisse blind mit denen der Aufgabenautoren (ohne zu wissen, welches KI- oder menschlich erzeugt ist) und geben Bewertungen sowie Rankings ab. Die Prüfer bewerten anschließend die von Menschen und KI erstellten Ergebnisse und ordnen jede KI-Ausgabe als „besser“, „gleich gut“ oder „schlechter“ ein.

Die Aufgabenautoren erstellten zudem detaillierte Bewertungskriterien für ihre jeweiligen Berufe, um Konsistenz und Transparenz im Bewertungsprozess sicherzustellen. Außerdem entwickelten wir einen „automatisierten Prüfer“ – ein KI-System, das darauf trainiert wurde, einzuschätzen, wie menschliche Experten eine bestimmte Ausgabe bewerten würden. Anders gesagt: Statt bei jeder Aufgabe eine vollständige Fachprüfung durchzuführen, kann der automatisierte Prüfer schnell vorhersagen, welches Ergebnis Menschen voraussichtlich bevorzugen. Wir stellen dieses Tool über evals.openai.com als experimentellen Forschungsdienst bereit. Es ist jedoch noch nicht so zuverlässig wie die Bewertungen durch Fachleute, weshalb wir es nicht als Ersatz verwenden. 

Erste Ergebnisse

Wir stellten fest, dass die besten aktuellen Modelle bereits eine Qualität erreichen, die der Arbeit von Branchenexperten nahekommt. Um dies zu testen, führten wir Blindbewertungen durch, bei denen Branchenexperten Ergebnisse mehrerer führender Modelle – GPT‑4o, o4-mini, OpenAI-o3, GPT‑5, Claude-Opus 4.1, Gemini 2.5 Pro und Grok 4 – mit von Menschen erstellter Arbeit verglichen. In 220 Aufgaben des GDPval-„Gold“-Sets hielten wir fest, wann Modellergebnisse besser („Wins“) oder gleichwertig („Ties“) bewertet wurden wie die Arbeit von Branchenfachleuten. Die Ergebnisse sind unten in der Grafik dargestellt. Claude-Opus 4.1 war das leistungsstärkste Modell im Set und überzeugte besonders bei der Ästhetik (z. B. Dokumentformatierung und Foliendesign). GPT‑5 zeigte seine Stärke vor allem bei der Genauigkeit, etwa beim Auffinden domänenspezifischen Wissens. Wir sehen zudem deutliche Fortschritte über die Zeit hinweg bei diesen Aufgaben. Die Leistung hat sich von GPT‑4o (veröffentlicht im Frühjahr 2024) bis GPT‑5 (veröffentlicht im Sommer 2025) mehr als verdoppelt und folgt einem klaren linearen Trend.

Zudem stellten wir fest, dass Spitzenmodelle GDPval-Aufgaben rund 100-mal schneller und 100-mal günstiger erledigen können als Branchenexperten. Diese Zahlen beziehen sich jedoch nur auf reine Modell-Inferenzzeiten und API-Kosten und berücksichtigen daher nicht die menschliche Aufsicht, Überarbeitung und Integration, die in realen Arbeitsumgebungen für den Einsatz unserer Modelle erforderlich sind. Besonders bei den Aufgaben, in denen Modelle stark sind, erwarten wir, dass es Zeit und Geld spart, eine Aufgabe zunächst einem Modell zu überlassen, bevor sie von einem Menschen bearbeitet wird.

Fachprüfer verglichen die Ergebnisse führender Modelle mit denen menschlicher Experten. Die modernsten Modelle erreichen bereits eine Qualität, die der Arbeit von Branchenfachleuten nahekommt. Claude-Opus 4.1 erzeugte Ergebnisse, die in knapp der Hälfte der Aufgaben als gleich gut oder besser als die menschlichen bewertet wurden.

Von GPT‑4o zu GPT‑5 hat sich die Leistung bei GDPval-Aufgaben innerhalb eines Jahres mehr als verdreifacht. 

Schließlich trainierten wir schrittweise eine interne, experimentelle Version von GPT‑5, um zu prüfen, ob sich die Leistung bei GDPval weiter verbessern lässt. Dieser Prozess führte tatsächlich zu besseren Ergebnissen und ebnete den Weg für weiteres Verbesserungspotenzial. Weitere kontrollierte Experimente bestätigen dies: Größere Modelle, mehr Reasoning-Schritte und ein reichhaltigerer Aufgaben­kontext führten jeweils zu messbaren Verbesserungen.

Die vollständigen Ergebnisse sind in unserer Publikation nachzulesen. Wir veröffentlichen außerdem ein „Gold“-Subset der GDPval-Aufgaben und einen öffentlichen Bewertungsdienst, damit andere Forschende auf dieser Arbeit aufbauen können.

Die Zukunft von Arbeit und KI 

Mit zunehmender Leistungsfähigkeit wird die KI voraussichtlich Veränderungen auf dem Arbeitsmarkt bewirken. Erste GDPval-Ergebnisse zeigen, dass Modelle bereits einige sich wiederholende, klar definierte Aufgaben schneller und kostengünstiger erledigen können als Fachleute. Die meisten Berufe bestehen jedoch aus weit mehr als nur einer Sammlung klar beschreibbarer Aufgaben. GDPval verdeutlicht, wo KI Routineaufgaben übernehmen kann, damit Menschen mehr Zeit für kreative und entscheidungsintensive Tätigkeiten haben. Wenn KI Menschen auf diese Weise ergänzt, kann das zu erheblichem wirtschaftlichem Wachstum führen. Unser Ziel ist es, allen den Zugang zu KI zu ermöglichen, sie bei Veränderungen zu unterstützen und Systeme zu schaffen, die breite Beiträge belohnen, damit alle vom Aufstieg der KI profitieren. 

Grenzen und nächste Schritte

GDPval ist ein früher Schritt. Obwohl es 44 Berufe und Hunderte von Aufgaben abdeckt, arbeiten wir weiter daran, unseren Ansatz zu verfeinern, den Testumfang zu erweitern und die Ergebnisse noch aussagekräftiger zu machen. Die aktuelle Version der Evaluierung ist ebenfalls als Einzeldurchlauf angelegt und erfasst daher keine Fälle, in denen ein Modell Kontext aufbauen oder sich über mehrere Entwürfe hinweg verbessern müsste – etwa bei der Überarbeitung eines juristischen Schriftsatzes nach Feedback des Mandanten oder bei einer Datenanalyse nach dem Erkennen einer Anomalie. Zudem sind Aufgaben in der realen Welt nicht immer klar durch Prompts und Referenzdateien definiert. So muss ein Anwalt beispielsweise mit Unklarheiten umgehen und erst mit dem Mandanten sprechen, bevor er entscheidet, ob ein juristischer Schriftsatz der richtige Ansatz ist, um weiterzuhelfen. Wir planen, GDPval auf weitere Berufe, Branchen und Aufgabentypen auszuweiten, mit mehr Interaktivität und Aufgaben, die den Umgang mit Unklarheiten erfordern. Langfristig wollen wir so den Fortschritt bei verschiedenartigen Formen von Wissensarbeit besser messen.

Mitmachen

Die Beteiligung der Community ist entscheidend. Wir freuen uns darauf, GDPval gemeinsam mit Forschenden, Fachleuten und Organisationen weiterzuentwickeln, die unser Ziel teilen, AGI im Arbeitsalltag nützlicher zu machen.