25 september 2025

Vi mäter våra modellers prestanda när de utför uppgifter från verkligheten

Vi introducerar GDPval, en ny utvärdering som mäter modellprestanda utifrån ekonomiskt värdefulla, verkliga uppgifter i 44 yrkeskategorier.

Läs dokumentet Gå till evals.openai.com

Vårt mål är att se till att artificiell generell intelligens gynnar alla människor. Som en del av vårt uppdrag vill vi kommunicera transparent om framsteg vad gäller hur våra AI-modeller kan hjälpa människor i verkligheten. Därför introducerar vi GDPval: en ny utvärdering utformad för att hjälpa oss att spåra hur bra våra och andras modeller presterar när det gäller ekonomiskt värdefulla uppgifter från verkligheten. Vi kallar den här utvärderingen för GDPval eftersom vi utgick från konceptet bruttonationalprodukt, BNP, (eller GDP – Gross Domestic Product) som en viktig ekonomisk indikator och hämtade uppgifter från de viktigaste yrkeskategorierna i de branscher som bidrar mest till BNP.

Det spekuleras ofta kring vilken effekt AI kommer att få på samhället, men det tydligaste sättet att förstå dess potential är genom att titta på vad modellerna klarar att göra redan idag. Historien visar att det tog mer än ett decennium för annan viktig teknik – från internet till smartphones – att gå från uppfinning till användning på bred front. Utvärderingar som GDPval bidrar till att lägga grund för samtal om framtida AI-förbättringar i form av belägg istället för gissningar. Det kan också hjälpa oss att spåra modellförbättringar över tid.

Tidigare AI-utvärderingar, som utmanande akademiska tester och kodningstävlingar i hård konkurrens, har varit avgörande för att flytta fram gränserna för modellernas resonemangsfunktion, men de kommer ofta till korta när det gäller den typ av uppgifter som människor hanterar i vardagen.

För att hantera den här bristen har vi tagit fram utvärderingar som mäter allt mer realistiska och ekonomiskt relevanta funktioner. ”Utvecklingen har gått från klassiska akademiska riktmärken som MMLU (frågor av tentamenstyp i tiotals olika ämnen) till mer tillämpade utvärderingar som SWE-Bench (uppgifter som handlar om att åtgärda fel i programvara), MLE-Bench (utvecklingsuppgifter inom maskininlärning som modellträning och analys) och Paper-Bench (vetenskapliga resonemang och kritik av forskningsartiklar) samt på senare tid marknadsbaserade utvärderingar som SWE-Lancer (projekt inom programvaruutveckling på frilansbasis baserade på verkliga utbetalningar).

GDPval är nästa steg i den här utvecklingen. Det mäter modellprestanda på uppgifter som hämtas direkt från erfarna yrkespersoners kunskapsarbete i verkligheten inom ett stort antal yrkeskategorier och sektorer, vilket ger en tydligare bild av hur modeller presterar när det gäller ekonomiskt värdefulla uppgifter. Att utvärdera modeller på realistiska yrkesuppgifter hjälper oss inte bara att förstå hur bra de kommer att prestera i labbmiljö, utan också hur de kan stödja människor i det arbete de utför varje dag.

Vad GDPval mäter

GDPval, den första versionen av den här utvärderingen, omfattar 44 yrkeskategorier som är utvalda inom de nio branscher som bidrar mest till USA:s BNP. Hela GDPval-uppsättningen omfattar 1 320 specialiserade uppgifter (220 i ”gulduppsättningen” med öppen källkod), där varje uppgift är noggrant framtagen och granskad av erfarna yrkespersoner med i genomsnitt mer än 14 års erfarenhet från de här områdena. Varje uppgift är baserad på verkliga arbetsprodukter, som rättsfallskoncentrat, tekniska ritningar, kundsupportsamtal eller vårdplaner.

GDPval skiljer sig från mängden både genom att den är realistisk och att en mångfald av uppgifter utvärderas. Till skillnad från andra ekonomiska utvärderingar kopplade till ekonomiskt värde som koncentrerar sig på specifika områden (t.ex. SWE-Lancer) omfattar GDPval många uppgifter och yrkeskategorier. Och till skillnad från riktmärken där uppgifter skapas syntetiskt i form av en akademisk examen eller ett test (t.ex. Humanitys Last Exam eller MMLU) fokuserar GDPval på uppgifter baserade på slutresultat som antingen är en faktisk uppgift eller produkt som finns idag eller uppgifter som är konstruerade på ett liknande sätt.

Till skillnad från traditionella riktmärken är GDPval-uppgifter inte enkla textprompter. De har referensfiler och kontext och de förväntade slutresultaten kan vara dokument, presentationsbilder, diagram, kalkylblad och multimedia. Den här realismen gör GDPval till ett mer realistiskt test av hur modeller kan ge användare stöd i arbetet.

GDPval är ett tidigt steg som inte återspeglar alla nyanser hos många ekonomiska uppgifter. Även om GDPval omfattar 44 yrkeskategorier och hundratals uppgifter inom kunskapsarbete är den ändå begränsad till engångsutvärderingar och fångar därmed inte upp alla fall där en modell skulle behöva utveckla kontext eller förbättras genom flera utkast. Framtida versioner kommer att omfatta mer interaktiva arbetsflöden och kontextrika uppgifter för att på ett bättre sätt återspegla komplexiteten hos verkligt kunskapsarbete (se mer i vårt avsnitt om begränsningar nedan).

Så väljer vi yrkeskategorier

GDPval omfattar uppgifter inom nio branscher och 44 yrkeskategorier och i framtida versioner kommer denna omfattning att utökas ytterligare. De första nio branscherna valdes ut baserat på att de bidrar med mer än 5 procent till USA:s BNP, vilket fastställs med hjälp av data från Federal Reserve Bank of St. Louis. Därefter valde vi ut fem yrkeskategorier inom varje bransch som bidrar mest till de totala lönerna och ersättningarna och som till största delen är kunskapsarbete. Här använde vi sysselsättningssiffror från i maj 2024 från US Bureau of Labor Statistics (BLS) sysselsättningsrapport⁠(öppnas i ett nytt fönster). För att fastställa om yrkeskategorierna till största delen omfattade kunskapsarbete använde vi uppgiftsdata från O*NET⁠(öppnas i ett nytt fönster), en databas med amerikanska sysselsättningssiffror som får finansieringsstöd från U.S. Department of Labor. Vi klassificerade om uppgifterna i O*NET var kunskapsarbete eller fysiskt arbete/manuellt arbete (som kräver att fysiska handlingar utförs). En yrkeskategori kvalificerade sig som ”huvudsakligen kunskapsarbete” om minst 60 procent av de ingående uppgifterna var klassificerade som att de inte innefattade fysiskt eller manuellt arbete. Vi valde detta tröskelvärde på 60 procent som en utgångspunkt för den första versionen av GDPval och fokuserade på de yrkeskategorier där AI skulle kunna få störst effekt på produktiviteten i verkligheten.

Denna process utmynnade i att 44 yrkeskategorier inkluderades.

Fastighets- och uthyrningsbranschen

Concierge-tjänster
Fastighetsförvaltare och förvaltare inom boendeorganisationer
Fastighetsagenter
Fastighetsmäklare
Receptionspersonal i uthyrningsverksamhet

Offentlig sektor

Personal som arbetar med fritidsaktiviteter
Compliance-ansvariga
Första linjens polischefer
Administrativa chefer
Socialarbetare

Tillverkning

Maskiningenjörer
Industriingenjörer
Inköpare och inköpsagenter
Tjänstemän inom leverans, mottagning och lager
Första linjens chefer för arbetare i produktion och operativ verksamhet

Professionella, vetenskapliga och tekniska tjänster

Programvaruutvecklare
Jurister
Redovisningsekonomer och revisorer
Chefer inom dator- och IT-system
Projektledningsspecialister

Hälso- och sjukvård och social omsorg

Sjuksköterskor
Medicinskt ansvariga sjuksköterskor
Chefer inom hälso- och sjukvårdstjänster
Första linjens chefer för kontorspersonal och administrativ supportpersonal
Medicinska sekreterare och administrativa assistenter

Finans och försäkring

Kundservicemedarbetare
Finans- och investeringsanalytiker
Finanschefer
Privatekonomiska rådgivare
Säljmedarbetare inom värdepapper, råvaror och finansiella tjänster

Detaljhandel

Farmaceuter
Första linjens chefer för medarbetare inom detaljhandeln
Operativa chefer
Privatdetektiver och utredare

Grossisthandel

Säljchefer
Ordermottagare
Första linjens chefer för medarbetare utanför detaljhandeln
Säljare, grossistverksamhet och tillverkning, utom tekniska och vetenskapliga produkter
Säljare, grossistverksamhet och tillverkning, tekniska och vetenskapliga produkter

Information

Ljud- och videotekniker
Producenter och regissörer
Nyhetsanalytiker, reportrar och journalister
Film- och videoredigerare
Redaktörer

GDPval omfattar 44 yrkeskategorier inom kunskapsarbete i nio sektorer – från programvaruutvecklare och jurister till sjuksköterskor och maskiningenjörer. De här yrkeskategorierna valdes ut för att de är ekonomiskt viktiga och representerar de typer av arbete i vardagen där AI på ett meningsfullt sätt kan hjälpa yrkesutövare.

Så byggde vi datasetet

För varje yrkeskategori arbetade vi med erfarna yrkespersoner för att skapa representativa uppgifter som återspeglar deras arbete i vardagen. De här yrkespersonerna hade i genomsnitt 14 års erfarenhet, med en stark historik av vidareutveckling. Vi anlitade medvetet experter med stor bredd – som jurister specialiserade på olika rättsområden och företag i olika storlekar – för att representativiteten skulle bli så stor som möjligt.

Varje uppgift genomgick en granskningsprocess i flera steg för att säkerställa att den var representativ för verkligt arbete, möjlig att genomföra för en annan yrkesperson och tydlig vid utvärdering. I genomsnitt genomgick varje uppgift fem omgångar av expertgranskningar, inklusive kontroller av andra uppgiftsskribenter, fler yrkesgranskare samt modellbaserad validering.

Det dataset detta gav upphov till omfattar 30 helt granskade uppgifter per yrkeskategori (hela setet) med fem uppgifter per yrkeskategori i vår ”gulduppsättning” med öppen källkod. Detta bildade en stabil grund för att utvärdera modellprestanda på verkligt kunskapsarbete.

Exempel på GDPval-uppgifter

Prompt + uppgiftskontext

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Leverans från erfaren mänsklig expert

Sprängskiss av en design för en kabelvinda

Varje uppgift i GDPval är utformad av en erfaren yrkesperson och återspeglar verkligt kunskapsarbete från dennes yrkesområde. Prompten är en realistisk arbetsuppgift som skapats av en områdesexpert och det önskvärda resultatet är expertens egen lösning.

Så betygsätter vi modellprestanda

För att utvärdera modellprestanda på GDPval-uppgifter förlitar vi oss på experter som sätter betyg – en grupp erfarna yrkespersoner från de yrkeskategorier som är representerade i datasetet. De här experterna jämför de modellgenererade resultaten i ett blindtest med de resultat som uppgiftsskribenter producerar (utan att veta vad som är genererat av AI respektive människor) och ger kritik samt rangordnar alternativen. Experterna rangordnar sedan det mänskliga och det AI-genererade resultatet och klassificerar varje AI-resultat som ”bättre”, ”lika bra som” eller ”sämre än” övriga resultat.

Uppgiftsskribenterna skapade också detaljerade poängrubriker för sina yrkeskategorier, vilket tillför enhetlighet och öppenhet i betygsprocessen. Vi har också utvecklat en ”automatisk betygsättare”, ett AI-system som är tränat på att uppskatta hur mänskliga experter skulle bedöma ett visst resultat. Med andra ord: istället för att genomföra en fullständig expertgranskning varje gång kan den automatiska betygsättaren snabbt förutspå vilket resultat som det är sannolikt att människor skulle föredra. Vi lanserar det här verktyget via evals.openai.com som en experimentell forskningstjänst, men det är ännu inte lika tillförlitligt som de experter som sätter betyg och därför använder vi det inte för att ersätta dem.

Tidiga resultat

Vi har kommit fram till att dagens mest avancerade modeller redan närmar sig samma kvalitet på arbetet som det som utförs av branschexperter. För att testa detta genomförde vi blindutvärderingar där branschexperter jämförde resultat från flera ledande modeller – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro och Grok 4 – med arbete som producerats av människor. För 220 uppgifter i GDPvals ”gulduppsättning” registrerade vi när modellresultatet bedömdes vara bättre än (”vinster”) eller lika bra som (”delad plats”) resultatet från branschexperter. Detta visas i stapeldiagrammet nedan. Claude Opus 4.1 var den modell som presterade bäst i setet och var särskilt bra på estetik (t.ex. formatering av dokument, bildlayout). GPT‑5 var särskilt bra på noggrannhet (t.ex. att hitta områdesspecifik kunskap). Vi ser också att det sker en tydlig utveckling över tid för de här uppgifterna. Prestanda har mer än fördubblats från GPT‑4o (lanserad våren 2024) jämfört med GPT‑5 (lanserad sommaren 2025) och detta följer en tydlig linjär trend.

Dessutom kom vi fram till att avancerade modeller kan genomföra GDPval-uppgifter ungefär hundra gånger snabbare och hundra gånger billigare jämfört med branschexperter. De här siffrorna återspeglar dock ren inferenstid för modellen och API-faktureringsnivåer och inkluderar därmed inte den mänskliga övervakning, iteration och de integrationssteg som krävs i verkliga arbetsplatsmiljöer för att använda våra modeller. Men vi förväntar oss ända att det skulle spara tid och pengar att ge en modell en uppgift innan vi testar den på en människa – inte minst när det handlar om den undergrupp av uppgifter där modellerna är särskilt starka.

Betygssättare jämförde resultat från ledande modeller med mänskliga experter. Dagens avancerade modeller närmar sig redan samma kvalitet på arbetet som det som utförs av branschexperter. Claude Opus 4.1 producerade resultat som bedömdes vara lika bra som eller bättre än människor på strax under hälften av uppgifterna.

Från GPT‑4o till GPT‑5 mer än tredubblades prestanda på GDPval-uppgifter inom ett år.

Slutligen har vi stegvis tränat en intern, experimentell version av GPT‑5 för att utvärdera om vi skulle kunna förbättra prestanda på GDPval. Vi kom fram till att den här processen förbättrade prestanda och skapade en väg för fortsatta potentiella förbättringar. Detta får stöd av andra kontrollerade experiment: att öka modellens storlek, uppmuntra fler resonemangssteg och ge mer innehållsrik uppgiftskontext har var för sig lett till mätbara vinster.

Du kan läsa om det fullständiga resultatet i vår rapport. Vi lanserar också en ”guldundergrupp” med GDPval-uppgifter och en allmän betygstjänst så att andra forskare kan bygga vidare på detta arbete.

Framtidens arbete och AI

Allt eftersom AI blir mer kraftfullt kommer det sannolikt att medföra förändringar på arbetsmarknaden. Tidiga GDPval-resultat visar att modeller redan kan ta sig an en del repetitiva, tydligt specificerade uppgifter snabbare och till lägre kostnader jämfört med experter. De flesta jobb omfattar dock mer än bara ett antal uppgifter som kan skrivas ned. GDPval visar var AI kan hantera rutinuppgifter så att människor kan lägga mer tid på de kreativa, omdömeskrävande delarna av arbetet. När AI kompletterar arbetstagare på det här sättet kan det omvandlas till betydande ekonomisk tillväxt. Vårt mål är att se till att alla är med i ”AI-hissen” på väg uppåt genom att demokratisera tillgången till dessa verktyg, ge arbetstagarna stöd under förändringen och bygga system som belönar breda insatser.

Begränsningar och nästa steg

GDPval är ett tidigt steg. Även om GDPval omfattar 44 yrkeskategorier och hundratals uppgifter fortsätter vi att finjustera vår strategi för att utöka bredden i vår testning och göra resultaten mer meningsfulla. Den nuvarande versionen av utvärderingen är också en engångsvariant och fångar därför inte upp fall där en modell skulle behöva bygga kontext eller förbättras genom flera utkast – exempelvis ändringar i ett rättsfallskoncentrat efter feedback från en klient eller iterering av en dataanalys efter att en avvikelse upptäckts. Dessutom är uppgifter i verkligheten inte alltid tydligt definierade med en prompt och referensfiler. En jurist kan exempelvis behöva hantera tvetydigheter och prata med sin klient innan han/hon kommer fram till att rätt strategi för att hjälpa dem är att ta fram ett rättsfallskoncentrat. Vi planerar att utvidga GDPval så att det omfattar fler yrkeskategorier, branscher och uppgiftstyper, med ökad interaktivitet och fler uppgifter där man måste hantera tvetydigheter. Det långsiktiga målet är att mäta framsteg inom olika typer av kunskapsarbete på ett bättre sätt.

Bli delaktig

Om du är branschexpert och intresserad av att bidra till GDPval kan du anmäla ditt intresse här.
Om du är en kund som arbetar med OpenAI och vill bidra till en omgång av GDPval längre fram kan du anmäla ditt intresse här

Engagemang från hela communityt är viktigt – vi ser fram emot att utveckla GDPval tillsammans med forskare, praktiskt verksamma yrkesutövare och organisationer som delar vårt mål att göra AGI mer användbart för människor i arbetslivet.

Författare

OpenAI

Fortsätt läsa

Visa alla

GPT-Red: Självförbättring för robusthet

Säkerhet15 juli 2026

Skilja signal från brus i kodningsutvärderingar

Forskning8 juli 2026

Vi introducerar GeneBench-Pro

Forskning30 juni 2026