Mjerenje učinkovitosti naših modela na zadacima iz stvarnog svijeta
Predstavljamo GDPval, novu evaluaciju koja mjeri performanse modela na ekonomski vrijednim, stvarnim zadacima u 44 zanimanja.
Naša je misija osigurati da umjetna inteligencija bude na dobrobit čitavog čovječanstva. Kao dio naše misije, želimo transparentno komunicirati napredak o tome kako AI modeli mogu pomoći ljudima u stvarnom svijetu. Zato uvodimo GDPval: novu evaluaciju osmišljenu da nam pomogne pratiti koliko dobro naši modeli i drugi modeli obavljaju ekonomski vrijedne zadatke iz stvarnog svijeta. Ovu evaluaciju nazivamo GDPval jer smo započeli s konceptom bruto domaćeg proizvoda (BDP) kao ključnog ekonomskog pokazatelja i izvukli zadatke iz ključnih zanimanja u industrijama koje najviše doprinose BDP-u.
Ljudi često spekuliraju o širem utjecaju umjetne inteligencije na društvo, ali najjasniji način za razumijevanje njezinog potencijala jest promatranje onoga što modeli već mogu učiniti. Povijest pokazuje da je velikim tehnologijama– od interneta do pametnih telefona – trebalo više od desetljeća kako bi izum prešao u široku primjenu. Evaluacije poput GDPvala pomažu utemeljiti razgovore o budućim poboljšanjima umjetne inteligencije na dokazima umjesto na nagađanjima i mogu nam pomoći pratiti napredak modela tijekom vremena.
Prethodne evaluacije umjetne inteligencije, poput izazovnih akademskih testova i natjecateljskih koderskih izazova, bile su ključne u pomicanju granica sposobnosti rasuđivanja modela, ali često ne odgovaraju vrstama zadataka koje mnogi ljudi obavljaju u svom svakodnevnom radu.
Kako bismo premostili ovaj jaz, razvijamo evaluacije koje mjere sve realističnije i ekonomski relevantne sposobnosti. Ovaj napredak se pomaknuo od klasičnih akademskih mjerila poput MMLU-a (ispitna pitanja iz desetaka predmeta) do primijenjenih evaluacija kao što su SWE-Bench (zadaci ispravljanja grešaka u softverskom inženjerstvu), MLE-Bench (zadaci strojnog učenja kao što su obuka modela i analiza) i Paper-Bench (znanstveno prosuđivanje i kritika istraživačkih radova) te nedavno do evaluacija temeljenih na tržištu kao što je SWE-Lancer (freelance projekti softverskog inženjerstva temeljeni na stvarnim isplatama).
GDPval je sljedeći korak u tom napretku. Mjeri izvedbu modela na zadacima izravno preuzetim iz rada zasnovanog na znanju iskusnih profesionalaca u širokom spektru zanimanja i sektora, pružajući jasniju sliku o tome kako modeli obavljaju ekonomski vrijedne zadatke. Procjena modela na realističnim radnim zadacima pomaže nam razumjeti ne samo koliko dobro funkcioniraju u laboratoriju, već i kako bi mogli pružiti podršku ljudima u poslu koji obavljaju svakodnevno.
GDPval, prva verzija ove evaluacije, obuhvaća 44 zanimanja odabrana iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Cijeli set GDPval uključuje 1.320 specijaliziranih zadataka (220 u zlatnom otvorenom setu), svaki pažljivo izrađen i provjeren od strane iskusnih stručnjaka s prosječno više od 14 godina iskustva u tim područjima. Svaki zadatak temelji se na stvarnim radnim proizvodima, kao što su pravni dokument, inženjerski nacrt, razgovor s korisničkom podrškom ili plan njege u sestrinstvu.
GDPval je prepoznatljiv i po svojem realizmu i raznolikosti zadataka koji se procjenjuju. Za razliku od drugih evaluacija vezanih uz ekonomsku vrijednost koje se usredotočuju na specifične domene (npr. SWE-Lancer), GDPval pokriva mnoge zadatke i zanimanja. Za razliku od referentnih mjerila koja uključuju sintetičko stvaranje zadataka u stilu akademskog ispita ili testa (npr. Humanity’s Last Exam ili MMLU), GDPval se fokusira na zadatke temeljene na isporukama koje su ili stvarni rad ili proizvod koji danas postoji ili su slično konstruirani radni proizvodi.
Za razliku od tradicionalnih mjerila, GDPval zadaci nisu jednostavni tekstualni upiti. Oni dolaze s referentnim datotekama i kontekstom, a očekivani isporučivi materijali uključuju dokumente, prezentacije, dijagrame, proračunske tablice i multimediju. Ovaj realizam čini GDPval realističnijim testom o tome kako modeli mogu podržati profesionalce.
GDPval je početni korak koji ne odražava sve nijanse mnogih ekonomskih zadataka. Iako obuhvaća 44 zanimanja i stotine zadataka vezanih uz znanje, ograničeno je na jednokratne evaluacije, pa ne obuhvaća slučajeve u kojima bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta. Buduće verzije će se proširiti na interaktivnije tokove rada i zadatke bogate kontekstom kako bi bolje odražavale složenost stvarnog znanja (pogledajte više u našem odjeljku Ograničenja u nastavku).
GDPval pokriva zadatke u 9 industrija i 44 zanimanja, a buduće verzije će nastaviti širiti pokrivenost. Početnih 9 industrija odabrano je na temelju onih koje doprinose više od 5 % BDP-a SAD-a, prema podacima banke federalne rezerve St. Louisa. Zatim smo odabrali 5 zanimanja unutar svake industrije koja najviše doprinose ukupnim plaćama i naknadama, a koja su pretežno zanimanja koja zahtijevaju znanje, koristeći podatke o plaćama i zaposlenosti iz izvještaja o zaposlenosti po zanimanjima američkog Zavoda za statistiku rada (BLS) iz svibnja 2024(otvara se u novom prozoru). Kako bismo utvrdili jesu li zanimanja pretežno poslovi zasnovani na znanju, koristili smo podatke o zadacima iz O*NET(otvara se u novom prozoru), baze podataka o zanimanjima u SAD-u koju sponzorira Ministarstvo rada SAD-a. Klasificirali smo svaki zadatak za svako zanimanje u O*NET-u kao rad koji zahtijeva znanje ili fizički rad/manualni rad (koji zahtijeva poduzimanje radnji u fizičkom svijetu). Zanimanje se općenito kvalificira kao "pretežno rad temeljen na znanju" ako je najmanje 60 % njegovih sastavnih zadataka klasificirano kao oni koji ne uključuju fizički rad ili ručni rad. Odabrali smo prag od 60 % kao početnu točku za prvu verziju GDPvala, fokusirajući se na zanimanja gdje bi AI mogao imati najveći utjecaj na produktivnost u stvarnom svijetu.
Ovaj proces rezultirao je s 44 zanimanja za uključivanje.
Nekretnine, iznajmljivanje i leasing
Konsijerži
Upravitelji imovine, nekretnina i upravitelji zajednica
Agenti za prodaju nekretnina
Posrednici u nekretninama
Blagajnici i službenici za iznajmljivanje
Vlada
Radnici u rekreaciji
Službenici za usklađenost
Nadzornici prve razine policije i detektiva
Voditelji administrativnih usluga
Socijalni radnici za djecu, obitelj i školu
Proizvodnja
Mehanički inženjeri
Industrijski inženjeri
Kupci i nabavni agenti
Referenti za otpremu, prijem i skladištenje
Nadzornici prve linije proizvodnih i operativnih radnika
Profesionalne, znanstvene i tehničke usluge
Softverski programeri
Odvjetnici
Računovođe i revizori
Menadžeri računalnih i informacijskih sustava
Specijalisti za upravljanje projektima
Zdravstvena zaštita i socijalna pomoć
Registrirane medicinske sestre
Medicinske sestre specijalistice
Upravitelji medicinskih i zdravstvenih usluga
Nadzornici prve linije uredskih i administrativnih radnika za podršku
Medicinske tajnice i administrativni asistenti
Financije i osiguranje
Predstavnici korisničke podrške
Financijski i investicijski analitičari
Financijski menadžeri
Osobni financijski savjetnici
Agenti prodaje vrijednosnih papira, robe i financijskih usluga
Maloprodajna trgovina
Farmaceuti
Nadzornici prve linije maloprodajnih radnika
Generalni i operativni menadžeri
Privatni detektivi i istražitelji
Veleprodajna trgovina
Voditelji prodaje
Referenti za narudžbe
Prvostupanjski nadzornici radnika u prodaji izvan maloprodaje
Prodajni predstavnici, veleprodaja i proizvodnja, osim tehničkih i znanstvenih proizvoda
Prodajni predstavnici, veleprodaja i proizvodnja, tehnički i znanstveni proizvodi
Informacije
Audio i video tehničari
Producenti i redatelji
Analitičari vijesti, reporteri i novinari
Filmski i video montažeri
Urednici
Za svako zanimanje surađivali smo s iskusnim profesionalcima kako bismo stvorili reprezentativne zadatke koji odražavaju njihov svakodnevni rad. Ovi profesionalci u prosjeku imaju 14 godina iskustva s jakim rezultatima u napredovanju. Namjerno smo angažirali širok spektar stručnjaka – poput odvjetnika iz različitih pravnih područja i tvrtki različitih veličina – kako bismo maksimizirali reprezentativnost.
Svaki zadatak prošao je kroz višestupanjski proces pregleda kako bi se osiguralo da je reprezentativan za stvarni rad, izvediv za drugog profesionalca i jasan za ocjenjivanje. U prosjeku, svaki zadatak je prošao kroz 5 krugova stručne recenzije, uključujući provjere od strane drugih pisaca zadataka, dodatnih stručnih recenzenata i validaciju temeljenu na modelu.
Rezultirajući skup podataka uključuje 30 potpuno pregledanih zadataka po zanimanju (puni skup) s 5 zadataka po zanimanju u našem otvorenom zlatnom skupu, pružajući čvrstu osnovu za procjenu performansi modela na stvarnim poslovima koji zahtijevaju znanje.
Primjeri zadataka GDPval
Upit + kontekst zadatka
Iskusna ljudska isporuka

Za procjenu izvedbe modela na zadacima GDPval, oslanjamo se na stručne "ocjenjivače" – skupinu iskusnih profesionalaca iz istih zanimanja zastupljenih u skupu podataka. Ovi ocjenjivači slijepo uspoređuju isporuke smišljene modelom s onima koje su izradili autori zadataka (ne znajući koji je generiran od strane AI-ja, a koji od strane čovjeka) te nude kritike i rangiranja. Ocjenjivači zatim rangiraju ljudske i AI isporuke te klasificiraju svaku AI isporuku kao "bolju", "jednako dobru" ili "lošiju" od ostalih.
Autori zadataka također su izradili detaljne rubrike za ocjenjivanje za svoja zanimanja, što dodaje dosljednost i transparentnost procesu ocjenjivanja. Također smo izgradili "automatizirani ocjenjivač", AI sustav obučen da procijeni kako bi ljudski stručnjaci ocijenili određeni dostavljeni rezultat. Drugim riječima, umjesto da svaki put provodite cjelovitu stručnu recenziju, automatizirani ocjenjivač može brzo predvidjeti koji bi izlaz ljudi vjerojatno preferirali. Ovaj alat objavljujemo putem evals.openai.com kao eksperimentalnu istraživačku uslugu, ali još nije pouzdan kao stručni ocjenjivači, stoga ga ne koristimo za njihovu zamjenu.
Otkrili smo da današnji najbolji napredni modeli već dostižu kvalitetu rada koju proizvode stručnjaci iz industrije. Kako bismo to testirali, proveli smo slijepa vrednovanja u kojima su stručnjaci iz industrije uspoređivali isporuke nekoliko vodećih modela – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro i Grok 4 – s radovima proizvedenim od strane ljudi. U 220 zadataka u zlatnom setu GDPval, zabilježili smo kada su rezultati modela ocijenjeni kao bolji od (“pobjede”) ili jednaki (“izjednačenja”) isporukama industrijskih stručnjaka, kao što je prikazano na donjem stupčastom grafikonu. Claude Opus 4.1 bio je najbolje izvedeni model u skupu, posebno se ističući u estetici (npr. formatiranje dokumenata, raspored slajdova), dok je GPT‑5 briljirao u točnosti (npr. pronalaženje znanja specifičnog za domenu). Također vidimo jasan napredak tijekom vremena na ovim zadacima. Performanse su se više nego udvostručile od modela GPT‑4o (objavljenog u proljeće 2024.) do modela GPT‑5 (objavljenog u ljeto 2025.), slijedeći jasan linearni trend.
Osim toga, otkrili smo da napredni modeli mogu izvršavati GDPval zadatke otprilike 100 puta brže i 100 puta jeftinije od stručnjaka iz industrije. Međutim, ovi podaci odražavaju samo vrijeme izvođenja modela i stope naplate API-ja te stoga ne uključuju ljudski nadzor, iteracije i korake integracije potrebne u stvarnim radnim okruženjima za korištenje naših modela. Ipak, posebno na podskupu zadataka gdje su modeli posebno jaki, očekujemo da će dodjeljivanje zadatka modelu prije nego što ga isprobamo s ljudima uštedjeti vrijeme i novac.
Stručni ocjenjivači usporedili su rezultate vodećih modela s ljudskim stručnjacima. Današnji napredni modeli već se približavaju kvaliteti rada koju ostvaruju industrijski stručnjaci. Claude Opus 4.1 proizveo je rezultate koji su ocijenjeni jednako dobrima ili boljima od ljudskih u nešto manje od polovice zadataka.
Od modela GPT‑4o do GPT‑5, izvedba na GDPval zadacima više se nego utrostručila u godinu dana.
Konačno, postupno smo obučili internu, eksperimentalnu verziju modela GPT‑5 kako bismo procijenili možemo li poboljšati performanse na GDPval. Otkrili smo da je ovaj proces poboljšao performanse, stvarajući put za daljnja potencijalna poboljšanja. Drugi kontrolirani eksperimenti to potvrđuju: povećanje veličine modela, poticanje više koraka prosuđivanja i pružanje bogatijeg konteksta zadatka doveli su do mjerljivih poboljšanja.
Možete pročitati cjelovite rezultate u našem radu. Također objavljujemo zlatni podskup zadataka GDPval i javnu uslugu ocjenjivanja kako bi drugi istraživači mogli nadograditi na ovom radu.
Kako umjetna inteligencija postaje sposobnija, vjerojatno će uzrokovati promjene na tržištu rada. Rani rezultati GDPvala pokazuju da modeli već mogu preuzeti neke ponavljajuće, dobro specificirane zadatke brže i uz niže troškove od stručnjaka. Međutim, većina poslova je više od puke zbirke zadataka koji se mogu zapisati. GDPval ističe gdje AI može preuzeti rutinske zadatke kako bi ljudi mogli provoditi više vremena na kreativnim dijelovima posla koji zahtijevaju prosudbu. Kada umjetna inteligencija na ovaj način nadopunjuje radnike, to može rezultirati značajnim gospodarskim rastom. Naš cilj je zadržati sve na "uzlaznoj putanji" umjetne inteligencije demokratizacijom pristupa tim alatima, podržavanjem radnika kroz promjene i izgradnjom sustava koji nagrađuju široki doprinos.
GDPval je početni korak. Iako pokriva 44 zanimanja i stotine zadataka, nastavljamo usavršavati naš pristup kako bismo proširili opseg našeg testiranja i učinili rezultate značajnijima. Trenutačna verzija evaluacije također je jednokratna, pa ne obuhvaća slučajeve u kojima bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta – primjerice, revidiranje pravnog sažetka nakon povratnih informacija klijenta ili iteriranje analize podataka nakon uočavanja anomalije. Osim toga, u stvarnom svijetu zadaci nisu uvijek jasno definirani s upitom i referentnim datotekama; na primjer, odvjetnik bi mogao navigirati kroz nejasnoće i razgovarati sa svojim klijentom prije nego što odluči da je izrada pravnog memoranduma pravi pristup za pomoć. Planiramo proširiti GDPval kako bismo uključili više zanimanja, industrija i vrsta zadataka, s povećanom interaktivnošću i više zadataka koji uključuju navigaciju kroz nejasnoće s dugoročnim ciljem boljeg mjerenja napretka u raznolikom znanju.
- Ako ste stručnjak u industriji zainteresiran za doprinos GDPvalu, molimo vas da ovdje pokažete svoj interes.
- Ako ste korisnik koji surađuje s OpenAI-jem i želite doprinijeti budućem krugu GDPvala, molimo vas da ovdje izrazite interes.
Sudjelovanje zajednice je ključno – veselimo se gradnji GDPval zajedno s istraživačima, praktičarima i organizacijama koje dijele naš cilj učiniti AGI korisnijim za ljude na radnom mjestu.


