Måling av ytelsen til modellene våre på oppgaver i den virkelige verden
Vi introduserer GDPval, en ny evaluering som måler modellers ytelse på økonomisk verdifulle oppgaver i den virkelige verden på tvers av 44 yrker.
Målet vårt er å sikre at kunstig generell intelligens er til nytte for hele menneskeheten. Som en del av oppdraget vårt ønsker vi å kommunisere åpent om fremdriften på hvordan AI-modeller kan hjelpe mennesker i den virkelige verden. Derfor introduserer vi GDPval: en ny evaluering som er utformet for å hjelpe oss med å spore hvor godt modellene våre og andre yter på økonomisk verdifulle oppgaver i den virkelige verden. Vi kaller denne evalueringen GDPval fordi vi startet med konseptet bruttonasjonalprodukt (BNP) som en økonomisk nøkkelindikator og hentet oppgaver fra de viktigste yrkene i bransjene som bidrar mest til BNP.
Folk spekulerer ofte på AIs bredere innvirkning på samfunnet, men den beste måten å forstå potensialet på, er å se på hva modeller allerede er i stand til å gjøre. Historien viser at det tok mer enn et tiår før store teknologier – fra internett til smarttelefoner – ble oppfunnet til de ble utbredt. Evalueringer som GDPval bidrar til å forankre samtaler om fremtidige forbedringer av AI i bevis i stedet for gjetting, og de kan hjelpe oss med å spore modellforbedringer over tid.
Tidligere AI-evalueringer, som utfordrende akademiske tester og konkurransepregede kodeutfordringer, har vært avgjørende for å flytte grensene for modellenes resonneringsevner, men de er ofte ikke like gode på den typen oppgaver mange har i sitt daglige arbeid.
Får å tette dette gapet har vi utviklet evalueringer som måler stadig mer realistiske og økonomisk relevante evner. Denne utviklingen har gått fra klassiske akademiske referansemålinger som MMLU (eksamensspørsmål på tvers av dusinvis av fag), til mer anvendte evalueringer som SWE-Bench (feilrettingsoppgaver innen programvareutvikling), MLE-Bench (maskinlæringsoppgaver som modelltopplæring og analyse) og Paper-Bench (vitenskapelig resonnering og kritikk av forskningsartikler), og i senere tid markedsbaserte evalueringer som SWE-Lancer (frilansprosjekter innen programvareutvikling basert på reelle utbetalinger).
GDPval er det neste steget i den utviklingen. Den måler modellers ytelse på oppgaver hentet direkte fra erfarne fagfolks praktiske kunnskap på tvers av et bredt spekter av yrker og sektorer, og gir et klarere bilde av hvordan modeller presterer på økonomisk verdifulle oppgaver. Å evaluere modeller på realistiske yrkesoppgaver hjelper oss ikke bare å forstå hvor godt de presterer i laboratoriet, men også hvordan de kan hjelpe folk i arbeidet de gjør hver dag.
GDPval, den første versjonen av denne evalueringen, omfatter 44 yrker valgt fra de 9 største bransjene som bidrar til USAs BNP. Det komplette GDPval-settet inkluderer 1320 spesialiserte oppgaver (220 i gullsettet med åpen kildekode), som alle er omhyggelig utformet og kontrollert av erfarne fagfolk med over 14 års erfaring i gjennomsnitt fra disse feltene. Hver oppgave er basert på reelle arbeidsprodukter, for eksempel et juridisk notat, en ingeniørplan, en kundestøttesamtale eller en pleieplan.
GDPval er særegent både i realisme og oppgavemangfoldet som evalueres. I motsetning til andre evalueringer knyttet til økonomisk verdi som konsentrerer seg om spesifikke domener (f.eks. SWE-Lancer), dekker GDPval mange oppgaver og yrker. Og i motsetning til referansemålinger som involverer å syntetisk lage oppgaver i stil med en akademisk eksamen eller test (f.eks. Humanity’s Last Exam eller MMLU), fokuserer GDPval på oppgaver basert på leveranser som enten er et faktisk stykke arbeid eller et produkt som eksisterer i dag, eller er et lignende konstruert arbeidsprodukt.
I motsetning til tradisjonelle referansemålinger, er ikke GDPval-oppgaver enkle tekstbaserte meldinger. De leveres med referansefiler og kontekst, og de forventede leveransene er dokumenter, lysbilder, diagrammer, regneark og multimedia. Denne realismen gjør GDPval til en mer realistisk test av hvordan modeller kan hjelpe fagfolk.
GDPval er et tidlig steg som ikke gjenspeiler alle nyansene i mange økonomiske oppgaver. Selv om den spenner over 44 yrker og hundrevis av kunnskapsoppgaver, er den begrenset til engangsevalueringer, så den fanger ikke opp tilfeller der en modell må bygge kontekst eller forbedres gjennom flere utkast. Fremtidige versjoner vil utvides til mer interaktive arbeidsflyter og kontekstrike oppgaver for å gjenspeile kompleksiteten i kunnskapsarbeid i den virkelige verden (se mer i Begrensninger-delen under).
GDPval dekker oppgaver på tvers av 9 bransjer og 44 yrker, og fremtidige versjoner vil utvide denne dekningen. De første ni bransjene ble valgt fra på de som bidro med over 5 % til USAs BNP, fastslått av data fra Federal Reserve Bank of St. Louis. Deretter valgte vi de fem yrkene innenfor hver bransje som bidrar mest til total lønn og kompensasjon, og som hovedsakelig er kunnskapsyrker, ved hjelp av lønns- og sysselsettingsdata fra US Bureau of Labor Statistics (BLS) sin rapport om yrkesmessig sysselsetting fra mai 2024(åpnes i et nytt vindu). For å avgjøre om yrkene hovedsakelig var kunnskapsarbeid, brukte vi oppgavedata fra O*NET(åpnes i et nytt vindu), en database med amerikansk yrkesinformasjon støttet av det amerikanske arbeidsdepartementet. Vi klassifiserte om hver oppgave for hvert yrke i O*NET var kunnskapsarbeid eller fysisk/manuelt arbeid (som krever handlinger som må utføres i den fysiske verden). Et yrke ble kvalifisert som «hovedsakelig kunnskapsarbeid» dersom minst 60 % av dets komponentoppgaver ble klassifisert som ikke å involvere fysisk eller manuelt arbeid. Vi valgte terskelen på 60 % som utgangspunkt for den første versjonen av GDPval, med fokus på yrker der AI kunne ha størst innvirkning på produktiviteten i den virkelige verden.
Denne prosessen ga til slutt 44 yrker som ble inkludert.
Eiendom, utleie og leasing
Portierer
Eiendoms- og sameieforvaltere
Eiendomsmeglerfullmektige
Eiendomsmeglere
Resepsjonister og utleiemedarbeidere
Offentlig administrasjon
Fritidsarbeidere
Samsvarsansvarlige
Ledere for politi og etterforskere
Ledere for administrative tjenester
Sosionomer for barn, familier og skoler
Produksjon
Mekaniske ingeniører
Industriingeniører
Innkjøpspersonale
Forsendelses-, mottaks- og lagermedarbeidere
Ledere for produksjons- og driftsarbeidere
Profesjonelle, vitenskapelige og tekniske tjenester
Programvareutviklere
Advokater
Regnskapsførere og revisorer
Data- og informasjonssystemledere
Spesialister på prosjektledelse
Helsetjenester og sosialhjelp
Autoriserte sykepleiere
Kliniske sykepleiere
Ledere innen medisinske tjenester og helsetjenester
Førstelinjeledere for kontor- og administrasjonsmedarbeidere
Medisinske sekretærer og administrative assistenter
Finans og forsikring
Kundeservicerepresentanter
Finans- og investeringsanalytikere
Finansansvarlige
Personlige økonomiske rådgivere
Salgsagenter for verdipapirer, råvarer og finansielle tjenester
Detaljhandel
Farmasøyter
Førstelinjeledere for detaljhandelsmedarbeidere
Daglig ledere og driftsledere
Privatdetektiver og etterforskere
Engroshandel
Salgssjefer
Ordremedarbeidere
Førstelinjeledere for ikke-detaljhandelsmedarbeidere
Salgsrepresentanter, engros og produksjon, unntatt tekniske og vitenskapelige produkter
Salgsrepresentanter, engros og produksjon, tekniske og vitenskapelige produkter
Informasjon
Lyd- og videoteknikere
Produsenter og regissører
Nyhetsanalytikere, reportere og journalister
Film- og videoredigerere
Redaktører
For hvert yrke samarbeidet vi med erfarne fagfolk for å lage representative oppgaver som gjenspeiler det daglige arbeidet deres. Fagfolkene hadde i gjennomsnitt 14 års erfaring, med sterke resultater. Vi rekrutterte bevisst et bredt spekter av eksperter – som advokater fra ulike praksisområder og firmaer av ulik størrelse – for å maksimere representativiteten.
Hver oppgave gikk gjennom en vurderingsprosess på flere trinn for å sikre at den var representativ for det virkelige arbeidet, gjennomførbar for en annen fagperson, og klar for evaluering. I gjennomsnitt hadde hver oppgave fem runder med ekspertvurderinger, inkludert kontroller fra andre oppgaveskrivere, ytterligere yrkesmessige vurderinger og modellbasert validering.
Det resulterende datasettet inkluderer 30 fullstendig gjennomgåtte oppgaver per yrke (fullt sett) med 5 oppgaver per yrke i vårt åpne gullsett, noe som gir et robust grunnlag for å evaluere modellytelse på kunnskapsarbeid i den virkelige verden.
Eksempler på GDPval-oppgaver
Melding + oppgavekontekst
Erfaren menneskelig leveranse

For å evaluere modellytelse på GDPval-oppgaver benytter vi oss av ekspertvurderinger fra en gruppe erfarne fagfolk fra de samme yrkene som er representert i datasettet. Disse ekspertene sammenligner blindt modellgenererte leveranser med leveranser produsert av oppgaveskrivere (uten å vite hvilke som er AI-genererte kontra menneskegenererte), og gir kritikk og rangeringer. Ekspertene rangerer deretter de menneskelige leveransene og AI-leveransene og klassifiserer hver AI-leveranse som «bedre enn», «like god som» eller «dårligere enn» hverandre.
Oppgaveskriverne laget også detaljerte vurderingsrubrikker for yrkene, noe som gir vurderingsprosessen konsistens og åpenhet. Vi bygget også en «automatisert vurderingsfunksjon», et AI-system som er opplært til å anslå hvordan menneskelige eksperter ville bedømt en gitt leveranse. Med andre ord, i stedet for å kjøre en full ekspertgjennomgang hver gang, kan den automatiserte vurderingsfunksjonen raskt forutsi hvilke resultater folk sannsynligvis vil foretrekke. Vi lanserer dette verktøyet via evals.openai.com som en eksperimentell forskningstjeneste, men det er ennå ikke like pålitelig som ekspertvurderinger, så det er ikke ment til å erstatte dem.
Vi har sett at dagens beste frontmodeller allerede nærmer seg kvaliteten på arbeidet som produseres av bransjeeksperter. For å teste dette utførte vi blindetester hvor bransjeeksperter sammenlignet leveranser fra flere ledende modeller – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro og Grok 4 – mot menneskeskapt arbeid. På 220 oppgaver i GDPval-gullsettet registrerte vi når modellutdata ble vurdert som bedre enn («seier») eller på nivå med («uavgjort») leveransene fra bransjeeksperter, som vist i søylediagrammet nedenfor. Claude Opus 4.1 var modellen med best ytelse, og utmerket seg spesielt på estetikk (f.eks. dokumentformatering, bildeoppsett), og GPT‑5 utmerket seg spesielt på nøyaktighet (f.eks. å finne domenespesifikk kunnskap). Vi ser også tydelig fremgang over tid på disse oppgavene. Ytelsen har mer enn doblet seg fra GPT‑4o (utgitt våren 2024) til GPT‑5 (utgitt sommeren 2025), og følger en klar lineær trend.
I tillegg fant vi ut at frontmodeller kan utføre GDPval-oppgaver rundt 100 ganger raskere og 100 ganger billigere enn bransjeeksperter. Disse tallene gjenspeiler imidlertid ren kjøretid for modellinferens og faktureringsrater for API, og fanger derfor ikke opp de menneskelige tilsyns-, iterasjons- og integrasjonstrinnene som kreves i reelle arbeidsmiljøer for å bruke modellene våre. Spesielt på delmengden av oppgavene hvor modeller er spesielt sterke, forventer vi likevel at det å gi en oppgave til en modell før man prøver den på et menneske, vil spare tid og penger.
Ekspertvurderinger sammenlignet leveranser fra ledende modeller med menneskelige eksperter. Dagens frontmodeller nærmer seg allerede kvaliteten på arbeidet som produseres av bransjeeksperter. Claude Opus 4.1 produserte resultater som var vurdert som like gode eller bedre enn mennesker i litt under halvparten av oppgavene.
Fra GPT‑4o til GPT‑5 ble ytelsen mer enn tredoblet på GDPval-oppgaver på et år.
Til slutt lærte vi trinnvis opp en intern, eksperimentell versjon av GPT‑5 for å vurdere om vi kunne forbedre ytelsen på GDPval. Vi fant ut at denne prosessen forbedret ytelsen, og skapte en metode for ytterligere potensiell forbedring. Andre kontrollerte eksperimenter støtter dette: både å øke modellstørrelsen, oppmuntre til flere resonneringstrinn og gi rikere oppgavekontekst førte til målbare forbedringer.
Du kan lese hele resultatet i artikkelen vår. Vi lanserer også et gull-delsett med GDPval-oppgaver og en offentlig vurderingstjeneste slik at andre forskere kan bygge videre på arbeidet.
Etter hvert som AI blir dyktigere, vil det sannsynligvis føre til endringer i arbeidsmarkedet. Tidlige GDPval-resultater viser at modeller allerede kan gjøre enkelte repeterende, tydelig spesifiserte oppgaver raskere og til lavere kostnader enn eksperter. De fleste jobber er imidlertid mer enn bare en samling oppgaver som kan skrives ned. GDPval fremhever hvor AI kan håndtere rutineoppgaver slik at folk kan bruke mer tid på de kreative, vurderingstunge delene av arbeidet. Når AI utfyller arbeidere på denne måten, kan det føre til betydelig økonomisk vekst. Målet vårt er å få alle med på oppturene ved AI ved å demokratisere tilgangen til verktøyene, støtte arbeidere gjennom endring og bygge systemer som belønner brede bidrag.
GDPval er et tidlig skritt. Selv om den dekker 44 yrker og hundrevis av oppgaver, fortsetter vi å forbedre tilnærmingen vår slik at testingen kan utvides og resultatene bli mer meningsfulle. Den nåværende versjonen av evalueringen er også et engangsmodell, så den fanger ikke opp tilfeller der en modell må bygge kontekst eller forbedres gjennom flere utkast – for eksempel å revidere et juridisk notat etter tilbakemeldinger fra klienter eller iterere en dataanalyse etter å ha funnet et avvik. I tillegg er ikke oppgaver i den virkelige verden alltid klart definert med en ledetekst og referansefiler. For eksempel kan en advokat måtte vurdere tvetydigheter og snakke med klienten før de bestemmer seg for at det å lage et juridisk notat er den riktige tilnærmingen for dem. Vi planlegger å utvide GDPval til å inkludere flere yrker, bransjer og oppgavetyper, med økt interaktivitet og flere oppgaver som involverer å håndtere tvetydighet, med langsiktig mål om forbedre måling av fremgang på kunnskapsarbeid.
- Om du er en bransjeekspertsom er interessert i å bidra til GDPval, kan du melde din interesse her.
- Hvis du er en kunde som samarbeider med OpenAI, og du ønsker å bidra i en kommende runde av GDPval, kan du melde din interesse her.
Samfunnsdeltakelse er viktig – vi gleder oss til å bygge GDPval sammen med forskere, fagfolk og organisasjoner som deler målet vårt om å gjøre AGI mer nyttig for folk som jobber.


