Overslaan naar hoofdinhoud
OpenAI

25 september 2025

PublicatieOnderzoek

De prestaties van onze modellen meten bij taken in de praktijk

We introduceren GDPval, een nieuwe evaluatiemethode die de prestaties van modellen meet op basis van economisch waardevolle taken uit de praktijk in 44 beroepen.

Onze missie is ervoor te zorgen dat kunstmatige algemene intelligentie de gehele mensheid ten goede komt. Als onderdeel van onze missie willen we op transparante wijze communiceren over de vooruitgang die met AI-modellen mogelijk is om mensen in de echte wereld te helpen. Daarom introduceren we GDPval: een nieuwe evaluatiemethode die is ontworpen om bij te houden hoe goed onze modellen en die van anderen presteren bij economisch waardevolle taken in de praktijk. We noemen deze evaluatie GDPval omdat we zijn uitgegaan van het bruto binnenlands product (Gross Domestic Product, GDP) als belangrijke economische indicator. Daarvan hebben we taken afgeleid van de belangrijkste beroepen in de sectoren die het meest bijdragen aan het bruto binnenlands product.

Mensen speculeren vaak over de bredere impact van AI op de samenleving, maar de duidelijkste manier om het potentieel ervan te begrijpen, is door te kijken naar wat modellen nu al kunnen. De geschiedenis laat zien dat belangrijke technologieën, van internet tot smartphones, meer dan tien jaar nodig hadden om van uitvinding tot wijdverbreide toepassing te komen. Evaluaties zoals GDPval helpen om gesprekken over toekomstige verbeteringen op het gebied van AI te baseren op bewijs in plaats van op nattevingerwerk. Ook kunnen we met behulp van dergelijke evaluaties modelverbeteringen in de loop van de tijd bijhouden.

Eerdere AI-evaluaties, zoals uitdagende academische tests en competitieve programmeeruitdagingen, waren essentieel om de grenzen van de redeneringsvaardigheden van modellen te verleggen, maar ze schieten vaak tekort voor het soort taken dat veel mensen in hun dagelijkse werk uitvoeren.

Om deze kloof te overbruggen hebben we evaluaties ontwikkeld die steeds realistischere en economisch relevantere capaciteiten meten. Deze ontwikkeling is verschoven van klassieke academische benchmarks zoals MMLU (examenachtige vragen over tientallen onderwerpen) naar meer toegepaste evaluaties zoals SWE-Bench (bugfixing-taken op het gebied van software-engineering), MLE-Bench (machine learning-engineeringtaken zoals modeltraining en -analyse) en Paper-Bench (wetenschappelijk redeneren en kritiek op wetenschappelijke papers), en meer recent naar marktgebaseerde evaluaties zoals SWE-Lancer (freelance software-engineeringprojecten op basis van echte resultaten).

GDPval is de volgende stap in die ontwikkeling. Het meet de prestaties van modellen met betrekking tot taken die rechtstreeks zijn ontleend aan het echte kenniswerk van ervaren professionals in een groot aantal verschillende beroepen en sectoren. Dit geeft een duidelijker beeld van hoe modellen presteren met betrekking tot economisch waardevolle taken. Door modellen te evalueren op basis van realistische beroepstaken krijgen we niet alleen inzicht in hoe goed ze presteren in het laboratorium, maar ook hoe ze mensen kunnen ondersteunen bij dagelijkse werkzaamheden. 

Meting door GDPval

GDPval, de eerste versie van deze evaluatie, omvat 44 beroepen die zijn geselecteerd uit de 9 belangrijkste sectoren die bijdragen aan het Amerikaanse bruto binnenlands product. De volledige GDPval-set bevat 1320 gespecialiseerde taken (220 in de gouden open-source set), die stuk voor stuk zorgvuldig zijn samengesteld en gecontroleerd door ervaren professionals met gemiddeld meer dan 14 jaar ervaring op deze gebieden. Elke taak is gebaseerd op echte werkproducten, zoals een juridisch dossier, een technisch ontwerp, een klantenservicegesprek of een zorgplan.

GDPval onderscheidt zich zowel door het realisme als door de diversiteit van de taken die worden geëvalueerd. In tegenstelling tot andere evaluaties die zijn gekoppeld aan economische waarde en zich concentreren op specifieke domeinen (bijvoorbeeld SWE-Lancer), bestrijkt GDPval een groot aantal taken en beroepen. En in tegenstelling tot benchmarks waarbij taken synthetisch worden gecreëerd in de stijl van een academisch examen of een test (bijvoorbeeld 'Het laatste examen van de mensheid' of MMLU), richt GDPval zich op taken die zijn gebaseerd op deliverables die ofwel een daadwerkelijk stuk werk of product zijn dat vandaag de dag bestaat, ofwel een stuk werk of product dat op vergelijkbare wijze is geconstrueerd. 

In tegenstelling tot traditionele benchmarks zijn GDPval-taken geen eenvoudige tekstprompts. Ze worden geleverd met referentiebestanden en context, en de verwachte deliverables omvatten documenten, dia's, diagrammen, spreadsheets en multimedia. Dit realisme maakt GDPval een meer realistische test van de manier waarop modellen professionals kunnen ondersteunen.

GDPval is een eerste stap die niet alle nuances van veel economische taken weergeeft. Hoewel het 44 beroepen en honderden kenniswerkzaamheden omvat, is het beperkt tot eenmalige evaluaties. Het legt dus geen gevallen vast waarin een model context zou moeten opbouwen of door middel van meerdere concepten zou moeten worden verbeterd. Toekomstige versies zullen worden uitgebreid met meer interactieve workflows en contextrijke taken om de complexiteit van kenniswerk in de praktijk beter weer te geven (zie voor meer informatie onze sectie Beperkingen hieronder).

Keuze van beroepen

GDPval bestrijkt taken in 9 sectoren en 44 beroepen, en in toekomstige versies zal het bereik verder worden uitgebreid. De eerste 9 sectoren werden gekozen op basis van hun bijdrage van meer dan 5% aan het Amerikaanse bruto binnenlands product, zoals bepaald door gegevens van de Federal Reserve Bank of St. Louis. Vervolgens hebben we binnen elke sector de vijf beroepen geselecteerd die het meest bijdragen aan de totale lonen en vergoedingen en die voornamelijk kennisberoepen zijn, op basis van loon- en werkgelegenheidsgegevens uit het beroepswerkgelegenheidsrapport van het Amerikaanse Bureau of Labor Statistics (BLS) van mei 2024(opent in een nieuw venster). Om te bepalen of het bij de beroepen vooral ging om kenniswerk, hebben we taakgegevens gebruikt uit O*NET(opent in een nieuw venster), een database met informatie over beroepen in de VS, gesponsord door het Amerikaanse Department of Labor. We hebben voor elke taak binnen elk beroep in O*NET geclassificeerd of het ging om kenniswerk of om fysiek werk/handmatige arbeid (dus werk waarvoor fysiek actie moet worden ondernomen). Een beroep werd doorgaans gekwalificeerd als "voornamelijk kenniswerk" als ten minste 60% van de taken waaruit het bestond, werd geclassificeerd als geen fysiek werk of handmatige arbeid. We hebben deze drempel van 60% gekozen als uitgangspunt voor de eerste versie van GDPval, waarbij we ons hebben gericht op beroepen waarin AI de grootste impact zou kunnen hebben op de productiviteit in de praktijk. 

Dit proces leverde 44 beroepen op die in aanmerking kwamen.

Onroerend goed en verhuur en leasing

  • Conciërges

  • Beheerders van onroerend goed, vastgoed en verenigingen van eigenaren

  • Verkoopagenten in onroerend goed

  • Makelaars in onroerend goed

  • Balie- en verhuurmedewerkers

Overheid

  • Recreatiemedewerkers

  • Compliance officers

  • Eerstelijns leidinggevenden van politieagenten en rechercheurs

  • Managers administratieve diensten

  • Kinder-, gezins- en schoolmaatschappelijk werkers

Productie

  • Werktuigbouwkundig ingenieurs

  • Industrieel ingenieurs

  • Inkopers en inkoopagenten

  • Verzend-, ontvangst- en voorraadmedewerkers

  • Eerstelijns leidinggevenden van productie- en operationele medewerkers

Professionele, wetenschappelijke en technische diensten

  • Softwareontwikkelaars

  • Advocaten

  • Accountants en auditors

  • Beheerders van computer- en informatiesystemen

  • Projectmanagementspecialisten

Gezondheidszorg en sociale bijstand

  • Gediplomeerde verpleegkundigen

  • Verpleegkundigen

  • Managers in de medische en gezondheidszorg

  • Eerstelijns leidinggevenden van kantoor- en administratief ondersteunend personeel

  • Medische secretaresses en administratief medewerkers

Financiën en verzekeringen

  • Klantenservicemedewerkers

  • Financiële en beleggingsanalisten

  • Financieel managers

  • Persoonlijke financiële adviseurs

  • Verkoopagenten voor effecten, grondstoffen en financiële diensten

Detailhandel

  • Apothekers

  • Eerstelijns leidinggevenden van medewerkers in de detailhandel

  • Directeuren en operationeel managers

  • Privé-detectives en onderzoekers

Groothandel

  • Salesmanagers

  • Orderverwerkers

  • Eerstelijns leidinggevenden van medewerkers buiten de detailhandel

  • Salesmedewerkers, groothandel en productie, met uitzondering van technische en wetenschappelijke producten

  • Salesmedewerkers, groothandel en productie, technische en wetenschappelijke producten

Informatie

  • Audio- en videotechnici

  • Producenten en regisseurs

  • Nieuwsanalisten, verslaggevers en journalisten

  • Film- en video-editors

  • Editors

GDPval omvat 44 kennisberoepen in 9 sectoren, van softwareontwikkelaars en advocaten tot gediplomeerde verpleegkundigen en werktuigbouwkundig ingenieurs. Deze beroepen zijn geselecteerd vanwege hun economische betekenis en vertegenwoordigen de soorten dagelijkse werkzaamheden waarbij AI professionals op zinvolle wijze kan ondersteunen.

Opbouw van de dataset

Voor elk beroep hebben we samengewerkt met ervaren professionals om representatieve taken te creëren die hun dagelijkse werk weerspiegelen. Deze professionals hadden gemiddeld 14 jaar ervaring en een indrukwekkende staat van dienst. We hebben bewust een breed scala aan deskundigen aangetrokken, zoals advocaten uit verschillende praktijkgebieden en van kantoren van verschillende omvang, voor een zo optimaal mogelijke representativiteit.

Voor elke taak werd een beoordeling van meerdere stappen doorlopen om na te gaan of deze representatief was voor het echte werk, haalbaar was voor een andere professional om uit te voeren en duidelijk was voor evaluatie. Gemiddeld werd elke taak vijf keer door experts beoordeeld, waaronder controles door andere taakschrijvers, aanvullende beroepsbeoordelaars en modelgestuurde validatie. 

De resulterende dataset omvat 30 volledig beoordeelde taken per beroep (volledige set) met 5 taken per beroep in onze open-source gold set. Dit vormt een solide basis voor het evalueren van de prestaties van het model op het gebied van kenniswerk in de praktijk.

Voorbeelden van GDPval-taken

Prompt + taakcontext

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Door menselijke expertise geleverd resultaat

Explosietekening van een ontwerp voor een kabelhaspel
Elke taak in GDPval is ontworpen door een ervaren professional en weerspiegelt het echte kenniswerk uit diens beroep. De prompt is een realistische werkopdracht die is opgesteld door een domeinexpert, en de gewenste deliverable is de oplossing van de expert zelf.

Classificatie van de prestaties van het model

Voor evaluatie van de prestaties van het model op GDPval-taken vertrouwen we op deskundige ‘beoordelaars’: een groep ervaren professionals uit dezelfde beroepen die in de dataset zijn vertegenwoordigd. Deze beoordelaars voeren een blinde vergelijking uit van deliverables die door het model zijn gegenereerd, met deliverables die door taakschrijvers zijn gemaakt (zonder te weten wat door AI en wat door mensen is gemaakt) . Daarbij geven ze kritiek en kennen ze een score toe. Beoordelaars rangschikken vervolgens de deliverables van mensen en AI en classificeren elk AI-resultaat als ‘beter’, ‘even goed’ of ‘slechter’ dan het andere.

Taakschrijvers hebben ook gedetailleerde score-rubrieken voor hun beroepen opgesteld, wat zorgt voor meer consistentie en transparantie in het classificatieproces. We hebben ook een ‘automatische beoordelaar’ ontwikkeld, een AI-systeem dat is getraind om in te schatten hoe menselijke experts een bepaalde deliverable zouden beoordelen. Met andere woorden, in plaats van elke keer een volledige beoordeling door een expert uit te voeren, kan de geautomatiseerde beoordelaar snel voorspellen aan welke uitvoer mensen waarschijnlijk de voorkeur zullen geven. We brengen deze tool via evals.openai.com uit als een experimentele onderzoeksservice, met als kanttekening dat deze nog niet zo betrouwbaar is als deskundige beoordelaars. We gebruiken de tool dus niet om beoordelaars te vervangen. 

Vroege resultaten

We hebben vastgesteld dat de beste grensverleggende modellen van dit moment werk van al bijna dezelfde kwaliteit leveren als experts uit de sector. Om dit te testen, hebben we blinde evaluaties uitgevoerd waarbij experts uit de sector de deliverables van verschillende toonaangevende modellen, zoals GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro en Grok 4, vergeleken met door mensen geproduceerd werk. Voor 220 taken in de GDPval gold-set hebben we geregistreerd wanneer modeluitvoer werd beoordeeld als beter dan (“wint”) of gelijk aan (“gelijkspel”) de deliverables van experts uit de sector. Dit is te zien in het onderstaande staafdiagram. Claude Opus 4.1 was het best presterende model in de set en blonk vooral uit op het gebied van esthetiek (bijvoorbeeld documentopmaak, dia-indeling), terwijl GPT‑5 vooral uitblonk op het gebied van nauwkeurigheid (bijvoorbeeld het vinden van domeinspecifieke kennis). We zien ook duidelijke vooruitgang in de loop van de tijd bij deze taken. Van GPT‑4o (uitgebracht in het voorjaar van 2024) tot GPT‑5 (uitgebracht in de zomer van 2025) zijn de prestaties meer dan twee keer beter geworden, waarbij een duidelijke lineaire trend te zien is.

Bovendien hebben we vastgesteld dat grensverleggende modellen GDPval-taken ongeveer 100 keer sneller en 100 keer goedkoper kunnen uitvoeren dan experts uit de sector. Deze cijfers geven echter alleen de pure modelinterferentietijd en API-factureringstarieven weer en houden dus geen rekening met de menselijke controle, iteratie en integratiestappen die in een echte werkomgeving nodig zijn om onze modellen te gebruiken. Toch verwachten we, vooral bij de subset aan taken waarin modellen bijzonder sterk zijn, dat het toewijzen van een taak aan een model voordat deze door een mens wordt uitgevoerd, tijd en geld zou besparen.

Deskundige beoordelaars vergeleken de deliverables van toonaangevende modellen met die van menselijke experts. De grensverleggende modellen van dit moment leveren werk van al bijna dezelfde kwaliteit als van experts uit de sector. Claude Opus 4.1 produceerde bij iets minder dan de helft van de taken uitvoer die even goed of beter was dan die van mensen.

Van GPT‑4o tot GPT‑5 zijn de prestaties wat betreft GDPval-taken in een jaar tijd meer dan drie keer beter geworden. 

Ten slotte hebben we stapsgewijs een interne, experimentele versie van GPT‑5 getraind om na te gaan of we de prestaties op GDPval zouden kunnen verbeteren. We hebben vastgesteld dat dit proces de prestaties heeft verbeterd en een pad heeft vrijgemaakt voor verdere potentiële verbeteringen. Andere gecontroleerde experimenten bevestigen dit: het vergroten van de modelomvang, het stimuleren van meer redeneringsstappen en het bieden van een rijkere taakcontext leidden elk tot meetbare verbeteringen.

Je kunt de volledige resultaten lezen in onze paper. We brengen ook een gouden subset van GDPval-taken en een openbare classificatieservice uit, zodat andere onderzoekers op dit werk kunnen voortbouwen.

De toekomst van werk en AI 

Naarmate AI steeds capabeler wordt, leidt dit waarschijnlijk tot veranderingen op de arbeidsmarkt. Uit de eerste resultaten van GDPval blijkt dat modellen bepaalde repetitieve, duidelijk omschreven taken op dit moment al sneller en tegen lagere kosten kunnen uitvoeren dan experts. De meeste banen zijn echter meer dan alleen een verzameling taken die op papier kunnen worden gezet. GDPval laat zien waar AI routinetaken kan uitvoeren, zodat mensen meer tijd kunnen besteden aan de creatieve, beoordelingsintensieve aspecten van hun werk. Wanneer AI medewerkers op deze manier aanvult, kan dit leiden tot aanzienlijke economische groei. Ons doel is om iedereen te laten delen in het succes van AI door de toegang tot deze tools te democratiseren, medewerkers te ondersteunen bij veranderingen en systemen te bouwen die brede bijdragen belonen. 

Beperkingen en toekomstige ontwikkelingen

GDPval is een vroege stap. Hoewel het 44 beroepen en honderden taken omvat, blijven we onze aanpak optimaliseren om de reikwijdte van onze tests uit te breiden en de resultaten nog betekenisvoller te maken. De huidige versie van de evaluatie is ook eenmalig. Het pakt dus geen gevallen op waarin een model context moet opbouwen of door meerdere concepten moet verbeteren. Denk bijvoorbeeld aan het herzien van een juridisch dossier na feedback van een klant of het herhalen van een data-analyse na het ontdekken van een afwijking. Bovendien zijn taken in de praktijk niet altijd duidelijk omschreven met een prompt en referentiebestanden. Een advocaat kan bijvoorbeeld te maken krijgen met onduidelijkheden en moet eerst met zijn cliënt overleggen voordat hij kan beslissen of het opstellen van een juridisch dossier de juiste aanpak is om degene te helpen. We zijn van plan om GDPval uit te breiden met meer beroepen, sectoren en soorten taken, met meer interactiviteit en meer taken waarbij onduidelijkheid een rol speelt, met als langetermijndoel om de voortgang op het gebied van divers kenniswerk beter te kunnen meten.

Doe mee

Deelname van de community is essentieel. We kijken ernaar uit om GDPval te ontwikkelen in samenwerking met onderzoekers, praktijkmensen en organisaties, die net als wij als doel hebben om AGI beter bruikbaar te maken voor mensen op het werk.