Preskočite na glavni sadržaj
OpenAI

Mjerenje učinkovitosti naših modela na zadacima iz stvarnog svijeta

Predstavljamo GDPval, novu evaluaciju koja mjeri performanse modela na ekonomski vrijednim, stvarnim zadacima u 44 zanimanja.

Naša je misija osigurati da umjetna inteligencija bude na dobrobit čitavog čovječanstva. Kao dio naše misije, želimo transparentno komunicirati napredak o tome kako AI modeli mogu pomoći ljudima u stvarnom svijetu. Zato uvodimo GDPval: novu evaluaciju osmišljenu da nam pomogne pratiti koliko dobro naši modeli i drugi modeli obavljaju ekonomski vrijedne zadatke iz stvarnog svijeta. Ovu evaluaciju nazivamo GDPval jer smo započeli s konceptom bruto domaćeg proizvoda (BDP) kao ključnog ekonomskog pokazatelja i izvukli zadatke iz ključnih zanimanja u industrijama koje najviše doprinose BDP-u.

Ljudi često spekuliraju o širem utjecaju umjetne inteligencije na društvo, ali najjasniji način za razumijevanje njezinog potencijala jest promatranje onoga što modeli već mogu učiniti. Povijest pokazuje da je velikim tehnologijama– od interneta do pametnih telefona – trebalo više od desetljeća kako bi izum prešao u široku primjenu. Evaluacije poput GDPvala pomažu utemeljiti razgovore o budućim poboljšanjima umjetne inteligencije na dokazima umjesto na nagađanjima i mogu nam pomoći pratiti napredak modela tijekom vremena.

Prethodne evaluacije umjetne inteligencije, poput izazovnih akademskih testova i natjecateljskih koderskih izazova, bile su ključne u pomicanju granica sposobnosti rasuđivanja modela, ali često ne odgovaraju vrstama zadataka koje mnogi ljudi obavljaju u svom svakodnevnom radu.

Kako bismo premostili ovaj jaz, razvijamo evaluacije koje mjere sve realističnije i ekonomski relevantne sposobnosti. Ovaj napredak se pomaknuo od klasičnih akademskih mjerila poput MMLU-a (ispitna pitanja iz desetaka predmeta) do primijenjenih evaluacija kao što su SWE-Bench (zadaci ispravljanja grešaka u softverskom inženjerstvu), MLE-Bench (zadaci strojnog učenja kao što su obuka modela i analiza) i Paper-Bench (znanstveno prosuđivanje i kritika istraživačkih radova) te nedavno do evaluacija temeljenih na tržištu kao što je SWE-Lancer (freelance projekti softverskog inženjerstva temeljeni na stvarnim isplatama).

GDPval je sljedeći korak u tom napretku. Mjeri izvedbu modela na zadacima izravno preuzetim iz rada zasnovanog na znanju iskusnih profesionalaca u širokom spektru zanimanja i sektora, pružajući jasniju sliku o tome kako modeli obavljaju ekonomski vrijedne zadatke. Procjena modela na realističnim radnim zadacima pomaže nam razumjeti ne samo koliko dobro funkcioniraju u laboratoriju, već i kako bi mogli pružiti podršku ljudima u poslu koji obavljaju svakodnevno. 

Što GDPval mjeri

GDPval, prva verzija ove evaluacije, obuhvaća 44 zanimanja odabrana iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Cijeli set GDPval uključuje 1.320 specijaliziranih zadataka (220 u zlatnom otvorenom setu), svaki pažljivo izrađen i provjeren od strane iskusnih stručnjaka s prosječno više od 14 godina iskustva u tim područjima. Svaki zadatak temelji se na stvarnim radnim proizvodima, kao što su pravni dokument, inženjerski nacrt, razgovor s korisničkom podrškom ili plan njege u sestrinstvu.

GDPval je prepoznatljiv i po svojem realizmu i raznolikosti zadataka koji se procjenjuju. Za razliku od drugih evaluacija vezanih uz ekonomsku vrijednost koje se usredotočuju na specifične domene (npr. SWE-Lancer), GDPval pokriva mnoge zadatke i zanimanja. Za razliku od referentnih mjerila koja uključuju sintetičko stvaranje zadataka u stilu akademskog ispita ili testa (npr. Humanity’s Last Exam ili MMLU), GDPval se fokusira na zadatke temeljene na isporukama koje su ili stvarni rad ili proizvod koji danas postoji ili su slično konstruirani radni proizvodi. 

Za razliku od tradicionalnih mjerila, GDPval zadaci nisu jednostavni tekstualni upiti. Oni dolaze s referentnim datotekama i kontekstom, a očekivani isporučivi materijali uključuju dokumente, prezentacije, dijagrame, proračunske tablice i multimediju. Ovaj realizam čini GDPval realističnijim testom o tome kako modeli mogu podržati profesionalce.

GDPval je početni korak koji ne odražava sve nijanse mnogih ekonomskih zadataka. Iako obuhvaća 44 zanimanja i stotine zadataka vezanih uz znanje, ograničeno je na jednokratne evaluacije, pa ne obuhvaća slučajeve u kojima bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta. Buduće verzije će se proširiti na interaktivnije tokove rada i zadatke bogate kontekstom kako bi bolje odražavale složenost stvarnog znanja (pogledajte više u našem odjeljku Ograničenja u nastavku).

Kako smo odabrali zanimanja

GDPval pokriva zadatke u 9 industrija i 44 zanimanja, a buduće verzije će nastaviti širiti pokrivenost. Početnih 9 industrija odabrano je na temelju onih koje doprinose više od 5 % BDP-a SAD-a, prema podacima banke federalne rezerve St. Louisa. Zatim smo odabrali 5 zanimanja unutar svake industrije koja najviše doprinose ukupnim plaćama i naknadama, a koja su pretežno zanimanja koja zahtijevaju znanje, koristeći podatke o plaćama i zaposlenosti iz izvještaja o zaposlenosti po zanimanjima američkog Zavoda za statistiku rada (BLS) iz svibnja 2024(otvara se u novom prozoru). Kako bismo utvrdili jesu li zanimanja pretežno poslovi zasnovani na znanju, koristili smo podatke o zadacima iz O*NET(otvara se u novom prozoru), baze podataka o zanimanjima u SAD-u koju sponzorira Ministarstvo rada SAD-a. Klasificirali smo svaki zadatak za svako zanimanje u O*NET-u kao rad koji zahtijeva znanje ili fizički rad/manualni rad (koji zahtijeva poduzimanje radnji u fizičkom svijetu). Zanimanje se općenito kvalificira kao "pretežno rad temeljen na znanju" ako je najmanje 60 % njegovih sastavnih zadataka klasificirano kao oni koji ne uključuju fizički rad ili ručni rad. Odabrali smo prag od 60 % kao početnu točku za prvu verziju GDPvala, fokusirajući se na zanimanja gdje bi AI mogao imati najveći utjecaj na produktivnost u stvarnom svijetu. 

Ovaj proces rezultirao je s 44 zanimanja za uključivanje.

Nekretnine, iznajmljivanje i leasing

  • Konsijerži

  • Upravitelji imovine, nekretnina i upravitelji zajednica

  • Agenti za prodaju nekretnina

  • Posrednici u nekretninama

  • Blagajnici i službenici za iznajmljivanje

Vlada

  • Radnici u rekreaciji

  • Službenici za usklađenost

  • Nadzornici prve razine policije i detektiva

  • Voditelji administrativnih usluga

  • Socijalni radnici za djecu, obitelj i školu

Proizvodnja

  • Mehanički inženjeri

  • Industrijski inženjeri

  • Kupci i nabavni agenti

  • Referenti za otpremu, prijem i skladištenje

  • Nadzornici prve linije proizvodnih i operativnih radnika

Profesionalne, znanstvene i tehničke usluge

  • Softverski programeri

  • Odvjetnici

  • Računovođe i revizori

  • Menadžeri računalnih i informacijskih sustava

  • Specijalisti za upravljanje projektima

Zdravstvena zaštita i socijalna pomoć

  • Registrirane medicinske sestre

  • Medicinske sestre specijalistice

  • Upravitelji medicinskih i zdravstvenih usluga

  • Nadzornici prve linije uredskih i administrativnih radnika za podršku

  • Medicinske tajnice i administrativni asistenti

Financije i osiguranje

  • Predstavnici korisničke podrške

  • Financijski i investicijski analitičari

  • Financijski menadžeri

  • Osobni financijski savjetnici

  • Agenti prodaje vrijednosnih papira, robe i financijskih usluga

Maloprodajna trgovina

  • Farmaceuti

  • Nadzornici prve linije maloprodajnih radnika

  • Generalni i operativni menadžeri

  • Privatni detektivi i istražitelji

Veleprodajna trgovina

  • Voditelji prodaje

  • Referenti za narudžbe

  • Prvostupanjski nadzornici radnika u prodaji izvan maloprodaje

  • Prodajni predstavnici, veleprodaja i proizvodnja, osim tehničkih i znanstvenih proizvoda

  • Prodajni predstavnici, veleprodaja i proizvodnja, tehnički i znanstveni proizvodi

Informacije

  • Audio i video tehničari

  • Producenti i redatelji

  • Analitičari vijesti, reporteri i novinari

  • Filmski i video montažeri

  • Urednici

GDPval obuhvaća 44 zanimanja u području znanja kroz 9 sektora, od razvojnih inženjera i pravnika do registriranih medicinskih sestara i strojarskih inženjera. Ova zanimanja odabrana su zbog njihove ekonomske važnosti i predstavljaju vrste svakodnevnog rada u kojima umjetna inteligencija može značajno pomoći stručnjacima.

Kako smo izradili skup podataka

Za svako zanimanje surađivali smo s iskusnim profesionalcima kako bismo stvorili reprezentativne zadatke koji odražavaju njihov svakodnevni rad. Ovi profesionalci u prosjeku imaju 14 godina iskustva s jakim rezultatima u napredovanju. Namjerno smo angažirali širok spektar stručnjaka – poput odvjetnika iz različitih pravnih područja i tvrtki različitih veličina – kako bismo maksimizirali reprezentativnost.

Svaki zadatak prošao je kroz višestupanjski proces pregleda kako bi se osiguralo da je reprezentativan za stvarni rad, izvediv za drugog profesionalca i jasan za ocjenjivanje. U prosjeku, svaki zadatak je prošao kroz 5 krugova stručne recenzije, uključujući provjere od strane drugih pisaca zadataka, dodatnih stručnih recenzenata i validaciju temeljenu na modelu. 

Rezultirajući skup podataka uključuje 30 potpuno pregledanih zadataka po zanimanju (puni skup) s 5 zadataka po zanimanju u našem otvorenom zlatnom skupu, pružajući čvrstu osnovu za procjenu performansi modela na stvarnim poslovima koji zahtijevaju znanje.

Primjeri zadataka GDPval

Upit + kontekst zadatka

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Iskusna ljudska isporuka

Rasklopni prikaz dizajna za kolut kabela
Svaki zadatak u GDPvalu osmišljen je od strane iskusnog profesionalca i odražava stvarni rad temeljen na znanju iz njihove profesije. Odzivnik je realističan radni zadatak koji je stvorio stručnjak iz domene, a zlatni isporučivi rezultat je vlastito rješenje stručnjaka.

Kako ocjenjujemo izvedbu modela

Za procjenu izvedbe modela na zadacima GDPval, oslanjamo se na stručne "ocjenjivače" – skupinu iskusnih profesionalaca iz istih zanimanja zastupljenih u skupu podataka. Ovi ocjenjivači slijepo uspoređuju isporuke smišljene modelom s onima koje su izradili autori zadataka (ne znajući koji je generiran od strane AI-ja, a koji od strane čovjeka) te nude kritike i rangiranja. Ocjenjivači zatim rangiraju ljudske i AI isporuke te klasificiraju svaku AI isporuku kao "bolju", "jednako dobru" ili "lošiju" od ostalih.

Autori zadataka također su izradili detaljne rubrike za ocjenjivanje za svoja zanimanja, što dodaje dosljednost i transparentnost procesu ocjenjivanja. Također smo izgradili "automatizirani ocjenjivač", AI sustav obučen da procijeni kako bi ljudski stručnjaci ocijenili određeni dostavljeni rezultat. Drugim riječima, umjesto da svaki put provodite cjelovitu stručnu recenziju, automatizirani ocjenjivač može brzo predvidjeti koji bi izlaz ljudi vjerojatno preferirali. Ovaj alat objavljujemo putem evals.openai.com kao eksperimentalnu istraživačku uslugu, ali još nije pouzdan kao stručni ocjenjivači, stoga ga ne koristimo za njihovu zamjenu. 

Rani rezultati

Otkrili smo da današnji najbolji napredni modeli već dostižu kvalitetu rada koju proizvode stručnjaci iz industrije. Kako bismo to testirali, proveli smo slijepa vrednovanja u kojima su stručnjaci iz industrije uspoređivali isporuke nekoliko vodećih modela – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro i Grok 4 – s radovima proizvedenim od strane ljudi. U 220 zadataka u zlatnom setu GDPval, zabilježili smo kada su rezultati modela ocijenjeni kao bolji od (“pobjede”) ili jednaki (“izjednačenja”) isporukama industrijskih stručnjaka, kao što je prikazano na donjem stupčastom grafikonu. Claude Opus 4.1 bio je najbolje izvedeni model u skupu, posebno se ističući u estetici (npr. formatiranje dokumenata, raspored slajdova), dok je GPT‑5 briljirao u točnosti (npr. pronalaženje znanja specifičnog za domenu). Također vidimo jasan napredak tijekom vremena na ovim zadacima. Performanse su se više nego udvostručile od modela GPT‑4o (objavljenog u proljeće 2024.) do modela GPT‑5 (objavljenog u ljeto 2025.), slijedeći jasan linearni trend.

Osim toga, otkrili smo da napredni modeli mogu izvršavati GDPval zadatke otprilike 100 puta brže i 100 puta jeftinije od stručnjaka iz industrije. Međutim, ovi podaci odražavaju samo vrijeme izvođenja modela i stope naplate API-ja te stoga ne uključuju ljudski nadzor, iteracije i korake integracije potrebne u stvarnim radnim okruženjima za korištenje naših modela. Ipak, posebno na podskupu zadataka gdje su modeli posebno jaki, očekujemo da će dodjeljivanje zadatka modelu prije nego što ga isprobamo s ljudima uštedjeti vrijeme i novac.

Stručni ocjenjivači usporedili su rezultate vodećih modela s ljudskim stručnjacima. Današnji napredni modeli već se približavaju kvaliteti rada koju ostvaruju industrijski stručnjaci. Claude Opus 4.1 proizveo je rezultate koji su ocijenjeni jednako dobrima ili boljima od ljudskih u nešto manje od polovice zadataka.

Od modela GPT‑4o do GPT‑5, izvedba na GDPval zadacima više se nego utrostručila u godinu dana. 

Konačno, postupno smo obučili internu, eksperimentalnu verziju modela GPT‑5 kako bismo procijenili možemo li poboljšati performanse na GDPval. Otkrili smo da je ovaj proces poboljšao performanse, stvarajući put za daljnja potencijalna poboljšanja. Drugi kontrolirani eksperimenti to potvrđuju: povećanje veličine modela, poticanje više koraka prosuđivanja i pružanje bogatijeg konteksta zadatka doveli su do mjerljivih poboljšanja.

Možete pročitati cjelovite rezultate u našem radu. Također objavljujemo zlatni podskup zadataka GDPval i javnu uslugu ocjenjivanja kako bi drugi istraživači mogli nadograditi na ovom radu.

Budućnost rada i umjetne inteligencije 

Kako umjetna inteligencija postaje sposobnija, vjerojatno će uzrokovati promjene na tržištu rada. Rani rezultati GDPvala pokazuju da modeli već mogu preuzeti neke ponavljajuće, dobro specificirane zadatke brže i uz niže troškove od stručnjaka. Međutim, većina poslova je više od puke zbirke zadataka koji se mogu zapisati. GDPval ističe gdje AI može preuzeti rutinske zadatke kako bi ljudi mogli provoditi više vremena na kreativnim dijelovima posla koji zahtijevaju prosudbu. Kada umjetna inteligencija na ovaj način nadopunjuje radnike, to može rezultirati značajnim gospodarskim rastom. Naš cilj je zadržati sve na "uzlaznoj putanji" umjetne inteligencije demokratizacijom pristupa tim alatima, podržavanjem radnika kroz promjene i izgradnjom sustava koji nagrađuju široki doprinos. 

Ograničenja i što je sljedeće

GDPval je početni korak. Iako pokriva 44 zanimanja i stotine zadataka, nastavljamo usavršavati naš pristup kako bismo proširili opseg našeg testiranja i učinili rezultate značajnijima. Trenutačna verzija evaluacije također je jednokratna, pa ne obuhvaća slučajeve u kojima bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta – primjerice, revidiranje pravnog sažetka nakon povratnih informacija klijenta ili iteriranje analize podataka nakon uočavanja anomalije. Osim toga, u stvarnom svijetu zadaci nisu uvijek jasno definirani s upitom i referentnim datotekama; na primjer, odvjetnik bi mogao navigirati kroz nejasnoće i razgovarati sa svojim klijentom prije nego što odluči da je izrada pravnog memoranduma pravi pristup za pomoć. Planiramo proširiti GDPval kako bismo uključili više zanimanja, industrija i vrsta zadataka, s povećanom interaktivnošću i više zadataka koji uključuju navigaciju kroz nejasnoće s dugoročnim ciljem boljeg mjerenja napretka u raznolikom znanju.

Uključite se

Sudjelovanje zajednice je ključno – veselimo se gradnji GDPval zajedno s istraživačima, praktičarima i organizacijama koje dijele naš cilj učiniti AGI korisnijim za ljude na radnom mjestu.