25. september 2025

Måling av ytelsen til modellene våre på oppgaver i den virkelige verden

Vi introduserer GDPval, en ny evaluering som måler modellers ytelse på økonomisk verdifulle oppgaver i den virkelige verden på tvers av 44 yrker.

Les artikkelen Gå til evals.openai.com

Målet vårt er å sikre at kunstig generell intelligens er til nytte for hele menneskeheten. Som en del av oppdraget vårt ønsker vi å kommunisere åpent om fremdriften på hvordan AI-modeller kan hjelpe mennesker i den virkelige verden. Derfor introduserer vi GDPval: en ny evaluering som er utformet for å hjelpe oss med å spore hvor godt modellene våre og andre yter på økonomisk verdifulle oppgaver i den virkelige verden. Vi kaller denne evalueringen GDPval fordi vi startet med konseptet bruttonasjonalprodukt (BNP) som en økonomisk nøkkelindikator og hentet oppgaver fra de viktigste yrkene i bransjene som bidrar mest til BNP.

Folk spekulerer ofte på AIs bredere innvirkning på samfunnet, men den beste måten å forstå potensialet på, er å se på hva modeller allerede er i stand til å gjøre. Historien viser at det tok mer enn et tiår før store teknologier – fra internett til smarttelefoner – ble oppfunnet til de ble utbredt. Evalueringer som GDPval bidrar til å forankre samtaler om fremtidige forbedringer av AI i bevis i stedet for gjetting, og de kan hjelpe oss med å spore modellforbedringer over tid.

Tidligere AI-evalueringer, som utfordrende akademiske tester og konkurransepregede kodeutfordringer, har vært avgjørende for å flytte grensene for modellenes resonneringsevner, men de er ofte ikke like gode på den typen oppgaver mange har i sitt daglige arbeid.

Får å tette dette gapet har vi utviklet evalueringer som måler stadig mer realistiske og økonomisk relevante evner. Denne utviklingen har gått fra klassiske akademiske referansemålinger som MMLU (eksamensspørsmål på tvers av dusinvis av fag), til mer anvendte evalueringer som SWE-Bench (feilrettingsoppgaver innen programvareutvikling), MLE-Bench (maskinlæringsoppgaver som modelltopplæring og analyse) og Paper-Bench (vitenskapelig resonnering og kritikk av forskningsartikler), og i senere tid markedsbaserte evalueringer som SWE-Lancer (frilansprosjekter innen programvareutvikling basert på reelle utbetalinger).

GDPval er det neste steget i den utviklingen. Den måler modellers ytelse på oppgaver hentet direkte fra erfarne fagfolks praktiske kunnskap på tvers av et bredt spekter av yrker og sektorer, og gir et klarere bilde av hvordan modeller presterer på økonomisk verdifulle oppgaver. Å evaluere modeller på realistiske yrkesoppgaver hjelper oss ikke bare å forstå hvor godt de presterer i laboratoriet, men også hvordan de kan hjelpe folk i arbeidet de gjør hver dag.

Dette måler GDPval

GDPval, den første versjonen av denne evalueringen, omfatter 44 yrker valgt fra de 9 største bransjene som bidrar til USAs BNP. Det komplette GDPval-settet inkluderer 1320 spesialiserte oppgaver (220 i gullsettet med åpen kildekode), som alle er omhyggelig utformet og kontrollert av erfarne fagfolk med over 14 års erfaring i gjennomsnitt fra disse feltene. Hver oppgave er basert på reelle arbeidsprodukter, for eksempel et juridisk notat, en ingeniørplan, en kundestøttesamtale eller en pleieplan.

GDPval er særegent både i realisme og oppgavemangfoldet som evalueres. I motsetning til andre evalueringer knyttet til økonomisk verdi som konsentrerer seg om spesifikke domener (f.eks. SWE-Lancer), dekker GDPval mange oppgaver og yrker. Og i motsetning til referansemålinger som involverer å syntetisk lage oppgaver i stil med en akademisk eksamen eller test (f.eks. Humanity’s Last Exam eller MMLU), fokuserer GDPval på oppgaver basert på leveranser som enten er et faktisk stykke arbeid eller et produkt som eksisterer i dag, eller er et lignende konstruert arbeidsprodukt.

I motsetning til tradisjonelle referansemålinger, er ikke GDPval-oppgaver enkle tekstbaserte meldinger. De leveres med referansefiler og kontekst, og de forventede leveransene er dokumenter, lysbilder, diagrammer, regneark og multimedia. Denne realismen gjør GDPval til en mer realistisk test av hvordan modeller kan hjelpe fagfolk.

GDPval er et tidlig steg som ikke gjenspeiler alle nyansene i mange økonomiske oppgaver. Selv om den spenner over 44 yrker og hundrevis av kunnskapsoppgaver, er den begrenset til engangsevalueringer, så den fanger ikke opp tilfeller der en modell må bygge kontekst eller forbedres gjennom flere utkast. Fremtidige versjoner vil utvides til mer interaktive arbeidsflyter og kontekstrike oppgaver for å gjenspeile kompleksiteten i kunnskapsarbeid i den virkelige verden (se mer i Begrensninger-delen under).

Slik valgte vi yrker

GDPval dekker oppgaver på tvers av 9 bransjer og 44 yrker, og fremtidige versjoner vil utvide denne dekningen. De første ni bransjene ble valgt fra på de som bidro med over 5 % til USAs BNP, fastslått av data fra Federal Reserve Bank of St. Louis. Deretter valgte vi de fem yrkene innenfor hver bransje som bidrar mest til total lønn og kompensasjon, og som hovedsakelig er kunnskapsyrker, ved hjelp av lønns- og sysselsettingsdata fra US Bureau of Labor Statistics (BLS) sin rapport om yrkesmessig sysselsetting fra mai 2024⁠(åpnes i et nytt vindu). For å avgjøre om yrkene hovedsakelig var kunnskapsarbeid, brukte vi oppgavedata fra O*NET⁠(åpnes i et nytt vindu), en database med amerikansk yrkesinformasjon støttet av det amerikanske arbeidsdepartementet. Vi klassifiserte om hver oppgave for hvert yrke i O*NET var kunnskapsarbeid eller fysisk/manuelt arbeid (som krever handlinger som må utføres i den fysiske verden). Et yrke ble kvalifisert som «hovedsakelig kunnskapsarbeid» dersom minst 60 % av dets komponentoppgaver ble klassifisert som ikke å involvere fysisk eller manuelt arbeid. Vi valgte terskelen på 60 % som utgangspunkt for den første versjonen av GDPval, med fokus på yrker der AI kunne ha størst innvirkning på produktiviteten i den virkelige verden.

Denne prosessen ga til slutt 44 yrker som ble inkludert.

Eiendom, utleie og leasing

Portierer
Eiendoms- og sameieforvaltere
Eiendomsmeglerfullmektige
Eiendomsmeglere
Resepsjonister og utleiemedarbeidere

Offentlig administrasjon

Fritidsarbeidere
Samsvarsansvarlige
Ledere for politi og etterforskere
Ledere for administrative tjenester
Sosionomer for barn, familier og skoler

Produksjon

Mekaniske ingeniører
Industriingeniører
Innkjøpspersonale
Forsendelses-, mottaks- og lagermedarbeidere
Ledere for produksjons- og driftsarbeidere

Profesjonelle, vitenskapelige og tekniske tjenester

Programvareutviklere
Advokater
Regnskapsførere og revisorer
Data- og informasjonssystemledere
Spesialister på prosjektledelse

Helsetjenester og sosialhjelp

Autoriserte sykepleiere
Kliniske sykepleiere
Ledere innen medisinske tjenester og helsetjenester
Førstelinjeledere for kontor- og administrasjonsmedarbeidere
Medisinske sekretærer og administrative assistenter

Finans og forsikring

Kundeservicerepresentanter
Finans- og investeringsanalytikere
Finansansvarlige
Personlige økonomiske rådgivere
Salgsagenter for verdipapirer, råvarer og finansielle tjenester

Detaljhandel

Farmasøyter
Førstelinjeledere for detaljhandelsmedarbeidere
Daglig ledere og driftsledere
Privatdetektiver og etterforskere

Engroshandel

Salgssjefer
Ordremedarbeidere
Førstelinjeledere for ikke-detaljhandelsmedarbeidere
Salgsrepresentanter, engros og produksjon, unntatt tekniske og vitenskapelige produkter
Salgsrepresentanter, engros og produksjon, tekniske og vitenskapelige produkter

Informasjon

Lyd- og videoteknikere
Produsenter og regissører
Nyhetsanalytikere, reportere og journalister
Film- og videoredigerere
Redaktører

GDPval spenner over 44 kunnskapsyrker på tvers av 9 bransjer, fra programvareutviklere og advokater, til registrerte sykepleiere og maskiningeniører. Yrkene ble valgt ut på bakgrunn av sin økonomiske betydning og representerer de typene daglige arbeid hvor AI kan bistå fagfolk på en meningsfull måte.

Slik bygget vi datasettet

For hvert yrke samarbeidet vi med erfarne fagfolk for å lage representative oppgaver som gjenspeiler det daglige arbeidet deres. Fagfolkene hadde i gjennomsnitt 14 års erfaring, med sterke resultater. Vi rekrutterte bevisst et bredt spekter av eksperter – som advokater fra ulike praksisområder og firmaer av ulik størrelse – for å maksimere representativiteten.

Hver oppgave gikk gjennom en vurderingsprosess på flere trinn for å sikre at den var representativ for det virkelige arbeidet, gjennomførbar for en annen fagperson, og klar for evaluering. I gjennomsnitt hadde hver oppgave fem runder med ekspertvurderinger, inkludert kontroller fra andre oppgaveskrivere, ytterligere yrkesmessige vurderinger og modellbasert validering.

Det resulterende datasettet inkluderer 30 fullstendig gjennomgåtte oppgaver per yrke (fullt sett) med 5 oppgaver per yrke i vårt åpne gullsett, noe som gir et robust grunnlag for å evaluere modellytelse på kunnskapsarbeid i den virkelige verden.

Eksempler på GDPval-oppgaver

Melding + oppgavekontekst

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Erfaren menneskelig leveranse

Eksplodert visning av kabeltrommeldesign

Hver oppgave i GDPval er utformet av en erfaren fagperson og gjenspeiler reell kunnskap om yrket deres. Meldingen er en realistisk arbeidsoppgave laget av en domeneekspert, og gull-leveransen er ekspertens egen løsning.

Slik vurderer vi modellytelse

For å evaluere modellytelse på GDPval-oppgaver benytter vi oss av ekspertvurderinger fra en gruppe erfarne fagfolk fra de samme yrkene som er representert i datasettet. Disse ekspertene sammenligner blindt modellgenererte leveranser med leveranser produsert av oppgaveskrivere (uten å vite hvilke som er AI-genererte kontra menneskegenererte), og gir kritikk og rangeringer. Ekspertene rangerer deretter de menneskelige leveransene og AI-leveransene og klassifiserer hver AI-leveranse som «bedre enn», «like god som» eller «dårligere enn» hverandre.

Oppgaveskriverne laget også detaljerte vurderingsrubrikker for yrkene, noe som gir vurderingsprosessen konsistens og åpenhet. Vi bygget også en «automatisert vurderingsfunksjon», et AI-system som er opplært til å anslå hvordan menneskelige eksperter ville bedømt en gitt leveranse. Med andre ord, i stedet for å kjøre en full ekspertgjennomgang hver gang, kan den automatiserte vurderingsfunksjonen raskt forutsi hvilke resultater folk sannsynligvis vil foretrekke. Vi lanserer dette verktøyet via evals.openai.com som en eksperimentell forskningstjeneste, men det er ennå ikke like pålitelig som ekspertvurderinger, så det er ikke ment til å erstatte dem.

Tidlige resultater

Vi har sett at dagens beste frontmodeller allerede nærmer seg kvaliteten på arbeidet som produseres av bransjeeksperter. For å teste dette utførte vi blindetester hvor bransjeeksperter sammenlignet leveranser fra flere ledende modeller – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro og Grok 4 – mot menneskeskapt arbeid. På 220 oppgaver i GDPval-gullsettet registrerte vi når modellutdata ble vurdert som bedre enn («seier») eller på nivå med («uavgjort») leveransene fra bransjeeksperter, som vist i søylediagrammet nedenfor. Claude Opus 4.1 var modellen med best ytelse, og utmerket seg spesielt på estetikk (f.eks. dokumentformatering, bildeoppsett), og GPT‑5 utmerket seg spesielt på nøyaktighet (f.eks. å finne domenespesifikk kunnskap). Vi ser også tydelig fremgang over tid på disse oppgavene. Ytelsen har mer enn doblet seg fra GPT‑4o (utgitt våren 2024) til GPT‑5 (utgitt sommeren 2025), og følger en klar lineær trend.

I tillegg fant vi ut at frontmodeller kan utføre GDPval-oppgaver rundt 100 ganger raskere og 100 ganger billigere enn bransjeeksperter. Disse tallene gjenspeiler imidlertid ren kjøretid for modellinferens og faktureringsrater for API, og fanger derfor ikke opp de menneskelige tilsyns-, iterasjons- og integrasjonstrinnene som kreves i reelle arbeidsmiljøer for å bruke modellene våre. Spesielt på delmengden av oppgavene hvor modeller er spesielt sterke, forventer vi likevel at det å gi en oppgave til en modell før man prøver den på et menneske, vil spare tid og penger.

Ekspertvurderinger sammenlignet leveranser fra ledende modeller med menneskelige eksperter. Dagens frontmodeller nærmer seg allerede kvaliteten på arbeidet som produseres av bransjeeksperter. Claude Opus 4.1 produserte resultater som var vurdert som like gode eller bedre enn mennesker i litt under halvparten av oppgavene.

Fra GPT‑4o til GPT‑5 ble ytelsen mer enn tredoblet på GDPval-oppgaver på et år.

Til slutt lærte vi trinnvis opp en intern, eksperimentell versjon av GPT‑5 for å vurdere om vi kunne forbedre ytelsen på GDPval. Vi fant ut at denne prosessen forbedret ytelsen, og skapte en metode for ytterligere potensiell forbedring. Andre kontrollerte eksperimenter støtter dette: både å øke modellstørrelsen, oppmuntre til flere resonneringstrinn og gi rikere oppgavekontekst førte til målbare forbedringer.

Du kan lese hele resultatet i artikkelen vår. Vi lanserer også et gull-delsett med GDPval-oppgaver og en offentlig vurderingstjeneste slik at andre forskere kan bygge videre på arbeidet.

Fremtidens arbeid og AI

Etter hvert som AI blir dyktigere, vil det sannsynligvis føre til endringer i arbeidsmarkedet. Tidlige GDPval-resultater viser at modeller allerede kan gjøre enkelte repeterende, tydelig spesifiserte oppgaver raskere og til lavere kostnader enn eksperter. De fleste jobber er imidlertid mer enn bare en samling oppgaver som kan skrives ned. GDPval fremhever hvor AI kan håndtere rutineoppgaver slik at folk kan bruke mer tid på de kreative, vurderingstunge delene av arbeidet. Når AI utfyller arbeidere på denne måten, kan det føre til betydelig økonomisk vekst. Målet vårt er å få alle med på oppturene ved AI ved å demokratisere tilgangen til verktøyene, støtte arbeidere gjennom endring og bygge systemer som belønner brede bidrag.

Begrensninger og veien videre

GDPval er et tidlig skritt. Selv om den dekker 44 yrker og hundrevis av oppgaver, fortsetter vi å forbedre tilnærmingen vår slik at testingen kan utvides og resultatene bli mer meningsfulle. Den nåværende versjonen av evalueringen er også et engangsmodell, så den fanger ikke opp tilfeller der en modell må bygge kontekst eller forbedres gjennom flere utkast – for eksempel å revidere et juridisk notat etter tilbakemeldinger fra klienter eller iterere en dataanalyse etter å ha funnet et avvik. I tillegg er ikke oppgaver i den virkelige verden alltid klart definert med en ledetekst og referansefiler. For eksempel kan en advokat måtte vurdere tvetydigheter og snakke med klienten før de bestemmer seg for at det å lage et juridisk notat er den riktige tilnærmingen for dem. Vi planlegger å utvide GDPval til å inkludere flere yrker, bransjer og oppgavetyper, med økt interaktivitet og flere oppgaver som involverer å håndtere tvetydighet, med langsiktig mål om forbedre måling av fremgang på kunnskapsarbeid.

Bli involvert

Om du er en bransjeekspertsom er interessert i å bidra til GDPval, kan du melde din interesse her.
Hvis du er en kunde som samarbeider med OpenAI, og du ønsker å bidra i en kommende runde av GDPval, kan du melde din interesse her.

Samfunnsdeltakelse er viktig – vi gleder oss til å bygge GDPval sammen med forskere, fagfolk og organisasjoner som deler målet vårt om å gjøre AGI mer nyttig for folk som jobber.

Forfatter

OpenAI

Les videre

Se alle

GPT-Red: Låser opp selvforbedring for robusthet

Sikkerhet15. juli 2026

Skille signal fra støy i kodeevalueringer

Research8. juli 2026

Vi introduserer GeneBench-Pro

Research30. juni 2026