25. september 2025

Måling af vores modellers præstation i den virkelige verden

Vi introducerer GDPval, en ny evaluering, der måler modellernes præstationer på økonomisk værdifulde opgaver i den virkelige verden inden for 44 forskellige erhverv.

Læs artiklen Besøg evals.openai.com

Vores mission er at sikre, at kunstig, generel intelligens kommer hele menneskeheden til gode. Som en del af vores mission, ønsker vi at være åbne om vores fremskridt i forhold til, hvordan AI-modeller kan hjælpe mennesker i den virkelige verden. Derfor introducerer vi GDPval: En ny evaluering, der skal hjælpe os med at spore, hvor godt vores modeller og andre klarer økonomisk værdifulde, virkelige opgaver. Vi kalder denne evaluering GDPval, fordi vi startede med begrebet bruttonationalprodukt (BNP [GDP]) som en vigtig økonomisk indikator og udarbejdede opgaver fra kerneerhverv i de brancher, der bidrager mest til BNP.

Folk taler ofte om AI's bredere indvirkning på samfundet, men den klareste måde at forstå dets potentiale på er ved at se på, hvad modeller allerede er i stand til at gøre. Historien viser, at det har taget mere end et årti for store teknologier – fra internettet til smartphones – at gå fra opfindelse til udbredt anvendelse. Evalueringer som GDPval hjælper med at basere samtaler om fremtidige AI-forbedringer på beviser snarere end gætteri, og kan hjælpe os med at spore modelforbedringer over tid.

Tidligere AI-evalueringer som svære akademiske tests og konkurrencedygtig kodningsudfordringer har været afgørende i forhold til at skubbe grænserne for modelræsonneringsfunktioner, men ofte kan de ikke håndtere den type opgaver, som mange mennesker håndterer i deres daglige arbejde.

For at udligne denne kløft har vi udviklet evalueringer, der måler stadig mere realistiske og økonomisk relevante funktioner. Denne progression er flyttet fra klassiske akademiske benchmarks som MMLU (spørgsmål på tværs af mange emner), til mere anvendte evalueringer som SWE-Bench (opgaver, der retter software-udviklingsfejl), MLE-Bench (maskinlæringsteknikopgaver, såsom modeltræning og -analyse), og Paper-Bench (videnskabelig ræsonnement og kritik af forskningsartikler) og nyere markedsbaserede evalueringer som SWE-Lancer (freelance software-udviklingsprojekter baseret på reelle udbetalinger).

GDPval er næste trin i den progression. Den måler modellernes præstationer på opgaver, der kommer fra erfarne fagfolk i den virkelige verden inden for en lang række erhverv og sektorer, og giver et klarere billede af, hvordan modellerne klarer økonomisk værdifulde opgaver. Evaluering af modeller på realistiske arbejdsopgaver hjælper os med at forstå, ikke bare hvor godt de fungerer i laboratoriet, men hvordan de kan støtte folk i deres daglige arbejde.

Hvad måler GDPval?

GDPval, den første udgave af denne evaluering, omfatter 44 erhverv, der er udvalgt blandt de 9 største industrier, der bidrager til USA's BNP. GDP. Hele GDPval-sættet indeholder 1.320 specialiserede opgaver (220 i guld-sættet med åben kildekode), der hver især er omhyggeligt udformet og gennemgået af erfarne fagfolk, der gennemsnitligt har over 14 års erfaring fra disse områder. Hver opgave er baseret på virkelige produkter, såsom retsnoter, ingeniørtegninger, en kundesupport-samtale eller en sygeplejeplan.

GDPVAL er karakteristisk både i sin realisme og mangfoldighed af opgaver, der evalueres. I modsætning til andre evalueringer, der er knyttet til økonomisk værdi, og som er koncentreret om specifikke områder (f.eks. SWE-Lancer), dækker GDPval mange opgaver og erhverv. Og i modsætning til benchmarks, hvor der syntetisk skabes opgaver i stil med en akademisk eksamen eller test (f.eks. Humanity's Last Exam eller MMLU), fokuserer GDPval på opgaver baseret på leverancer, der enten er et faktisk stykke arbejde eller produkt, der eksisterer i dag, eller et tilsvarende konstrueret arbejdsprodukt.

I modsætning til traditionelle benchmarks er GDPval-opgaver ikke simple tekstforespørgsler. De kommer med referencer og kontekst, og de forventede resultater omfatter dokumenter, slides, diagrammer, regneark og multimedia. Denne realisme gør GDPval til en mere realistisk test af, hvordan modeller kan støtte fagfolk.

GDPval er et indledende skridt, der ikke afspejler alle nuancer i mange økonomiske opgaver. Selv om den dækker 44 erhverv og hundredvis af videnarbejdsopgaver, er den begrænset til engangsevalueringer, så den fanger ikke tilfælde, hvor en model skulle opbygge kontekst eller forbedre gennem flere udkast. Fremtidige versioner vil omfatte mere interaktive arbejdsgange og kontekstrige opgaver for bedre at afspejle kompleksiteten af vidensarbejde i den virkelige verden (se mere i afsnittet om begrænsninger nedenfor).

Sådan vælger vi erhverv

GDPval dækker opgaver inden for 9 brancher og 44 erhverv, og fremtidige versioner vil fortsat udvide dækningen. De første 9 brancher blev valgt ud fra de brancher, der bidrog med over 5 % til USA's BNP. BNP, som fastslået af data fra Federal Reserve Bank of St. Louis. Derefter udvalgte vi de 5 erhverv inden for hver branche, der bidrager mest til de samlede lønninger og tillæg og er overvejende erhverv inden for vidensarbejde, ved hjælp af løn- og beskæftigelsesdata fra maj 2024 US Bureau of Labor Statistics (BLS) erhvervsmæssig beskæftigelsesrapport⁠(åbner i et nyt vindue). For at afgøre, om erhvervene var overvejende vidensarbejde, brugte vi opgavedata fra O*NET⁠(åbner i et nyt vindue), en database over amerikansk erhvervsinformation sponsoreret af U.S. Department of Labor. Arbejdsministeriet. Vi klassificerede, om hver opgave for hvert erhverv i O*NET var vidensarbejde eller fysisk arbejde/manuelt arbejde (som kræver handlinger, der skal udføres i den fysiske verden). Et erhverv kvalificeres generelt som "overvejende vidensarbejde", hvis mindst 60 % af de opgaver, der indgår, klassificeres som ikke-fysisk eller manuelt arbejde. Vi valgte denne 60 %-tærskel som udgangspunkt for den første version af GDPval, der fokuserer på erhverv, hvor AI kunne have den største indvirkning på produktiviteten i den virkelige verden.

Denne proces resulterede i 44 erhverv, der skulle inkluderes.

Fast ejendom og leje og leasing

Portnere
Ejendoms-, fast ejendoms- og fællesskabsadministratorer
Ejendomssalgsagenter
Ejendomsmæglere
Skranke- og lejepersonale

Regering

Rekreationsarbejdere
Overvågningsansvarlige
Tilsynsførende for betjente og kriminalfolk
Administrative service-managere
Børne-, familie- og skolesocialrådgivere

Fremstilling

Maskiningeniører
Civilingeniører
Sælgere og indkøbere
Shipping- og lagerfolk og varemodtagere
Tilsynsførende for produktions- og driftsarbejdere

Professionelle, videnskabelige og tekniske tjenester

Softwareudviklere
Advokater
Regnskabsfører og revisorer
Computer- og informationssystemmanagere
Projektledelsesspecialister

Sundheds- og socialvæsen

Sygeplejersker
Praktiserende sygeplejersker
Forvaltere af medicinske og sundhedstjenester
Tilsynsførende af kontor- og administrative støttefunktioner
Lægesekretærer og administrative assistenter

Finansiering og forsikring

Kundeservicemedarbejdere
Økonomi- og investeringsanalytikere
Økonomiforvalter
Personlige finansielle rådgivere
Salgsagenter inden for værdipapirer, råvarer og finansielle tjenesteydelser

Detailhandel

Farmaceuter
Tilsynsførende for detailhandlere
Generel- og driftsledere
Privatdetektiver og efterforskere

Engroshandel

Salgsledere
Ordremedarbejdere
Tilsynsførende for ikke-detailhandlere
Salgskonsulenter, engros og produktion, bortset fra tekniske og videnskabelige produkter
Salgskonsulenter, engros og produktion, tekniske og videnskabelige produkter

Information

Lyd- og videoteknikere
Producere og instruktører
Nyhedsanalytikere, reportere og journalister
Film- og videoredaktører
Redaktører

GDPval dækker 44 erhverv inden for vidensarbejde på tværs af 9 sektorer, fra softwareudviklere og advokater til sygeplejersker og maskiningeniører. Disse erhverv blev udvalgt på grund af deres økonomiske betydning og repræsenterer de typer af dagligdags arbejde, hvor AI kan hjælpe fagfolk på en meningsfuld måde.

Sådan bygger vi datasættet

For hvert erhverv arbejdede vi sammen med erfarne fagfolk for at skabe repræsentative opgaver, der afspejler deres daglige arbejde. Disse fagfolk havde i gennemsnit 14 års erfaring, og de havde en solid erfaring med fremskridt. Vi rekrutterede bevidst en bred vifte af eksperter – f.eks. advokater fra forskellige praksisområder og firmaer af forskellige størrelser – for at opnå optimal repræsentation.

Hver opgave gennemgik en gennemgangsproces i flere trin for at sikre, at den var repræsentativ for reelt arbejde, mulig for en anden fagperson at udføre og klar til evaluering. I gennemsnit blev hver opgave gennemgået 5 gange af eksperter, herunder kontrol af andre opgaveforfattere, yderligere faglige revisorer og modelbaseret validering.

Datasættet omfatter 30 fuldt gennemgåede opgaver pr. erhverv (fuldt sæt) med 5 opgaver pr. erhverv i vores open-source guldsæt, hvilket giver et godt fundament for evaluering af modellens præstation på videnarbejdsopgaver i den virkelige verden.

Eksempler på GDPval-opgaver

Forespørgsel + opgavekontekst

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Resultater takket være erfaren menneskelig ekspert

Sprængskitse af et design til en kabelrulle

Hver opgave i GDPval er udformet af en erfaren fagperson og afspejler reelt vidensarbejde fra deres erhverv. Forespørgslen er en realistisk arbejdsopgave, der er udformet af en ekspert inden for området, og resultatet er ekspertens egen løsning.

Sådan klassificerer vi modelpræstation

For at evaluere modellernes præstationer på GDPval-opgaver er vi afhængige af ekspert "klassifikatorer" – en gruppe erfarne fagfolk fra de samme erhverv, der er repræsenteret i datasættet. Disse klassifikatorer sammenligner blindt modelgenererede resultater med dem, der produceres af opgaveforfattere (uden at vide, hvilke er AI- versus menneskeskabte), og giver kritik og rangeringer. Klassifikatorer rangerer derefter de menneske- og AI-skabte leverancer og klassificerer hver AI-levering som "bedre", "lige så god som" eller "værre end" hinanden.

Opgaveskriverne har også skabt detaljerede pointrubrikker for deres erhverv, som giver konsistens og gennemsigtighed til karakteriseringsprocessen. Vi byggede også en "automatiseret klassifikator", et AI-system, der er trænet til at estimere, hvordan menneskelige eksperter ville bedømme en given leverance. Med andre ord, i stedet for at udføre en fuld ekspertgennemgang hver gang, kan den automatiserede klassifikator hurtigt forudsige, hvilket output folk sandsynligvis foretrækker. Vi udgiver dette værktøj på evals.openai.com som en eksperimentel research-tjeneste, men det er endnu ikke lige så pålideligt som ekspertvurderinger, så vi bruger det ikke til at erstatte dem.

Tidlige resultater

Vi fandt ud af, at nutidens bedste banebrydende modeller allerede nærmer sig kvaliteten af det arbejde, branchens eksperter udfører. For at teste dette gennemførte vi blinde evalueringer, hvor brancheeksperter sammenlignede resultater fra flere førende modeller – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro og Grok 4 – mod menneskeligt produceret arbejde. I de 220 opgaver i GDPval-guldsættet registrerede vi, hvornår modellernes resultater blev bedømt som bedre end (“vinder“) eller på niveau med (“uafgjort“) de resultater, der blev leveret af brancheeksperter, som vist i søjlediagrammet nedenfor. Claude Opus 4.1 var den bedst præsterende model i sættet og udmærkede sig især med hensyn til æstetik (f.eks. dokumentformatering, slide-layout), og GPT‑5 udmærkede sig især med hensyn til nøjagtighed (f.eks. at finde domænespecifik viden). Vi ser også tydelige fremskridt over tid på disse opgaver. Udførelsen er mere end fordoblet fra GPT‑4o (udgivet foråret 2024) til GPT‑5 (udgivet sommeren 2025), efter en klar lineær tendens.

Desuden fandt vi ud af, at banebrydende modeller kan udføre GDPval-opgaver 100 gange hurtigere og 100 gange billigere end branchens eksperter. Disse tal afspejler imidlertid kun modelinferenstid og API-faktureringsatser, og fanger derfor ikke den menneskelige overvågning, iteration og integration, der kræves i virkelige arbejdspladssituationer for at bruge vores modeller. Det er særligt ved opgaveundersæt, at modellerne er ekstra stærke. Så vi forventer, at hvis en model får en opgave før et menneske, vil det spare tid og penge.

Eksperter sammenlignede resultaterne fra førende modeller med menneskelige eksperter. Nutidens bedste banebrydende modeller nærmer sig allerede kvaliteten af det arbejde, branchens eksperter udfører. Claude Opus 4.1 producerede outputs, der blev bedømt lige så godt som eller bedre end mennesker i næsten halvdelen af opgaverne.

Fra GPT‑4o til GPT‑5 er præstation på GDPval-opgaver mere end tredoblet på et år.

Endelig trænede vi gradvist en intern, eksperimentel version af GPT‑5 for at vurdere, om vi kunne forbedre resultaterne på GDPval. Vi fandt ud af, at denne proces forbedrede præstationen og gav mulighed for flere potentielle forbedringer. Andre kontrollerede eksperimenter understøtter dette: at øge modelstørrelsen, opmuntre til flere ræsonnerende trin og give en dybere opgavekontekst hver i sær førte til målbare gevinster.

Du kan læse alle resultater i vores artikel. Vi lancerer også en guldundergruppe af GDPval-opgaver og en offentlig klassificeringstjeneste, så andre researchere kan bygge videre på dette arbejde.

Fremtiden for arbejde og karriere

Efterhånden som AI bliver bedre, vil det sandsynligvis medføre ændringer på arbejdsmarkedet. Tidlige resultater fra GDPval viser, at modeller allerede kan udføre nogle gentagne, veldefinerede opgaver hurtigere og billigere end eksperter. Men de fleste job er mere end blot en samling af opgaver der kan skrives ned. GDPval fremhæver, hvor AI kan håndtere rutinemæssige opgaver, så folk kan bruge mere tid på de kreative dele af arbejdet, der kræver mere dømmekraft. Når AI supplerer arbejdstagerne på denne måde, kan det resultere i betydelig økonomisk vækst. Vores mål er at have alle med på AI-bølgen ved at demokratisere adgangen til disse værktøjer og støtte arbejdstagerne gennem forandring og opbygning af systemer, der belønner omfattende bidrag.

Begrænsninger, og hvad skal der ske?

GDPval er et indledende trin. Selv om det dækker 44 erhverv og hundredvis af opgaver, fortsætter vi med at forfine vores tilgang for at udvide omfanget af vores test og gøre resultaterne mere meningsfulde. Den nuværende udgave af evalueringen er også et one-shot, så den fanger ikke tilfælde, hvor en model skulle opbygge kontekst eller forbedre gennem flere udkast - f.eks. revidere et juridisk notat efter klient-feedback eller gentage en dataanalyse efter at have opdaget en anomali. Desuden er opgaver i den virkelige verden ikke altid klart defineret med en henvisning og referencefiler; f.eks. kan en advokat være nødt til at navigere i tvetydighed og tale med sin klient, før han beslutter, at det er den rigtige fremgangsmåde at oprette en juridisk notat for at hjælpe dem. Vi planlægger at udvide GDPval til at omfatte flere erhverv, brancher og opgaver med øget interaktivitet og flere opgaver, der indebærer at navigere i tvetydighed, med det langsigtede mål at bedre kunne måle fremskridt på forskelligartet vidensarbejde.

Involver dig

Hvis du er en industriekspert, der er interesseret i at bidrage til GDPval, vis din interesse her.
Hvis du er en kunde, der arbejder med OpenAI, og du gerne vil bidrage til en kommende runde af GDPval, kan du udtrykke din interesse her.

Fællesskabsdeltagelse er nøglen. Vi er glade for at opbygge GDPval sammen med researchere, erhvervsdrivende og organisationer, der deler vores mål om at gøre AGI mere nyttigt for folk på arbejdspladsen.

Skrevet af

OpenAI

Læs videre

Se alle

GPT-Red: Frigør selvforbedring for robusthed

Sikkerhed15. jul. 2026

At skelne signal fra støj i kodeevalueringer

Research8. jul. 2026

Vi introducerer GeneBench-Pro

Research30. jun. 2026