Mjerenje performansi naših modela na zadacima u stvarnom svijetu
Predstavljamo GDPval, novu evaluaciju koja mjeri performanse modela na ekonomski vrijednim, stvarnim zadacima u 44 zanimanja.
Naša misija je osigurati da opća umjetna inteligencija koristi cijelom čovječanstvu. Kao dio naše misije, želimo transparentno komunicirati napredak o tome kako AI modeli mogu pomoći ljudima u stvarnom svijetu. Zato uvodimo GDPval: novu evaluaciju osmišljenu da nam pomogne pratiti koliko dobro naši modeli i drugi modeli izvršavaju ekonomski vrijedne zadatke u stvarnom svijetu. Ovu evaluaciju nazivamo GDPval jer smo započeli s konceptom Bruto domaćeg proizvoda (BDP) kao ključnog ekonomskog pokazatelja i izvukli zadatke iz ključnih zanimanja u industrijama koje najviše doprinose BDP-u.
Ljudi često spekulišu o širem uticaju AI na društvo, ali najjasniji način da se shvati njegov potencijal je posmatrajući šta modeli već mogu da urade. Historija pokazuje da je velikim tehnologijama—od interneta do pametnih telefona—trebalo više od decenije da pređu iz faze izuma u fazu široke upotrebe. Evaluacije poput GDPval-a pomažu da se razgovori o budućim poboljšanjima AI-a temelje na dokazima umjesto na nagađanjima, i mogu Vam pomoći da pratite poboljšanje modela tokom vremena.
Prethodne evaluacije AI-a, poput izazovnih akademskih testova i takmičarskih izazova kodiranja, bile su ključne u pomjeranju granica sposobnosti rezonovanja modela, ali često ne odgovaraju vrstama zadataka koje mnogi ljudi obavljaju u svom svakodnevnom radu.
Kako bismo premostili ovaj jaz, razvijamo evaluacije koje mjere sve realističnije i ekonomski relevantne sposobnosti. Ovaj napredak se pomjerio od klasičnih akademskih mjerila kao što je MMLU (pitanja u stilu ispita iz desetina predmeta), do više primijenjenih evaluacija kao što su SWE-Bench (zadaci ispravljanja grešaka u softverskom inženjeringu), MLE-Bench (zadaci mašinskog učenja kao što su obuka modela i analiza), i Paper-Bench (naučno rezonovanje i kritika istraživačkih radova), a nedavno i do evaluacija zasnovanih na tržištu kao što je SWE-Lancer (freelance projekti softverskog inženjeringa zasnovani na stvarnim isplatama).
GDPval je sljedeći korak u tom napretku. On mjeri performanse modela na zadacima direktno preuzetim iz stvarnog znanja iskusnih profesionalaca u širokom spektru zanimanja i sektora, pružajući jasniju sliku o tome kako modeli obavljaju ekonomski vrijedne zadatke. Evaluacija modela na realističnim zadacima zanimanja pomaže nam da shvatimo ne samo koliko dobro oni funkcionišu u laboratoriju, već i kako mogu podržati ljude u poslu koji obavljaju svakodnevno.
GDPval, prva verzija ove evaluacije, obuhvata 44 zanimanja odabrana iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Kompletan set GDPval uključuje 1.320 specijaliziranih zadataka (220 u zlatnom otvorenom setu), svaki pažljivo izrađen i provjeren od strane iskusnih profesionalaca s prosječno više od 14 godina iskustva u ovim oblastima. Svaki zadatak se temelji na stvarnim radnim proizvodima, kao što su pravni dokument, inženjerski nacrt, razgovor s korisničkom podrškom ili plan njege u sestrinstvu.
GDPval je prepoznatljiv i po svom realizmu i po raznolikosti zadataka koji se evaluiraju. Za razliku od drugih evaluacija vezanih za ekonomsku vrijednost koje se fokusiraju na specifične domene (npr. SWE-Lancer), GDPval pokriva mnoge zadatke i zanimanja. Za razliku od mjerila koja uključuju sintetičko kreiranje zadataka u stilu akademskog ispita ili testa (npr. Humanity’s Last Exam ili MMLU), GDPval se fokusira na zadatke zasnovane na isporukama koje su ili stvarni radni proizvodi koji postoje danas ili su slično konstruisani radni proizvodi.
Za razliku od tradicionalnih mjerila, GDPval zadaci nisu jednostavni tekstualni upiti. Oni dolaze s datotekama i kontekstom, a očekivani isporučivi materijali obuhvataju dokumente, slajdove, dijagrame, proračunske tabele i multimedijalne sadržaje. Ovaj realizam čini GDPval realističnijim testom kako modeli mogu podržati profesionalce.
GDPval je početni korak koji ne odražava sve nijanse mnogih ekonomskih zadataka. Iako obuhvata 44 zanimanja i stotine zadataka vezanih za znanje, ograničeno je na jednokratne evaluacije, tako da ne obuhvata slučajeve u kojima bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta. Buduće verzije će se proširiti na interaktivnije radne tokove i zadatke bogate kontekstom kako bi bolje odražavale složenost stvarnog rada sa znanjem (pogledajte više u našem odjeljku Ograničenja ispod).
GDPval pokriva zadatke u 9 industrija i 44 zanimanja, a buduće verzije će nastavit širiti obuhvat. Početnih 9 industrija odabrano je na osnovu onih koje doprinose više od 5% BDP-u SAD-a, prema podacima Federalne rezerve Banke St. Louis. Zatim smo odabrali 5 zanimanja unutar svake industrije koja najviše doprinose ukupnim platama i naknadama, a koja su pretežno zanimanja koja zahtijevaju znanje, koristeći podatke o platama i zaposlenju iz izvještaja o zaposlenju po zanimanjima američkog Biroa za radnu statistiku (BLS) za maj 2024.(otvara se u novom prozoru) Da bismo utvrdili jesu li zanimanja pretežno zasnovana na znanju, koristili smo podatke o zadacima iz O*NET(otvara se u novom prozoru), baze podataka o zanimanjima u SAD-u koju sponzorira Ministarstvo rada SAD-a. Klasifikovali smo da li je svaki zadatak za svaku profesiju u O*NET-u bio rad sa znanjem ili fizički rad/manualni rad (koji zahtijeva preduzimanje radnji u fizičkom svijetu). Zanimanje se kvalifikuje kao „pretežno rad zasnovan na znanju“ ako je najmanje 60% njegovih zadataka klasifikovano kao da ne uključuje fizički rad ili manuelni rad. Odabrali smo prag od 60% kao početnu tačku za prvu verziju GDPval-a, fokusirajući se na zanimanja gdje bi AI mogao imati najveći uticaj na produktivnost u stvarnom svijetu.
Ovaj proces je rezultirao s 44 zanimanja za uključivanje.
Nekretnine, najam i leasing
Konsijerži
Menadžeri za nekretnine, nekretnine i menadžeri udruženja zajednice
Agenti za prodaju nekretnina
Posrednici za nekretnine
Blagajnici i službenici za najam
Vlada
Radnici za rekreaciju
Službenici za usklađenost
Nadređeni policajcima i detektivima
Menadžeri administrativnih usluga
Socijalni radnici za djecu, porodicu i školu
Proizvodnja
Mašinski inženjeri
Industrijski inženjeri
Kupci i agenti za nabavku
Službenici za otpremu, prijem i zalihe
Nadzornici prve linije proizvodnih i operativnih radnika
Profesionalne, naučne i tehničke usluge
Softverski programeri
Advokati
Računovođe i revizori
Menadžeri računarskih i informacionih sistema
Specijalisti za upravljanje projektima
Zdravstvena njega i socijalna pomoć
Registrirane medicinske sestre
Medicinske sestre specijalisti
Menadžeri medicinskih i zdravstvenih usluga
Nadzornici prve linije uredskih i administrativnih radnika za podršku
Medicinski sekretari i administrativni asistenti
Finansije i osiguranje
Predstavnici korisničke podrške
Finansijski i investicijski analitičari
Finansijski menadžeri
Osobni financijski savjetnici
Agenti za prodaju vrijednosnih papira, roba i financijskih usluga
Maloprodaja
Farmaceuti
Nadzornici prve linije prodajnih radnika u maloprodaji
Generalni i operativni menadžeri
Privatni detektivi i istražitelji
Veleprodaja
Menadžeri prodaje
Referenti za narudžbe
Nadzornici prve linije radnika u prodaji izvan maloprodaje
Predstavnici prodaje, veleprodaje i proizvodnje, osim tehničkih i znanstvenih proizvoda
Prodajni predstavnici, veleprodaja i proizvodnja, tehnički i znanstveni proizvodi
Informacija
Audio i video tehničari
Producenti i režiseri
Analitičari vijesti, reporteri i novinari
Urednici filmova i videozapisa
Urednici
Za svako zanimanje, radili smo s iskusnim profesionalcima kako bismo kreirali reprezentativne zadatke koji odražavaju njihov svakodnevni rad. Ovi profesionalci su u prosjeku imali 14 godina iskustva, s jakim dokazima napredovanja. Namjerno smo angažovali širok spektar stručnjaka—kao što su advokati iz različitih oblasti prakse i firmi različitih veličina—kako bismo maksimizirali reprezentativnost.
Svaki zadatak je prošao kroz višestepeni proces pregleda kako bi se osiguralo da je reprezentativan za stvarni rad, izvediv za drugog profesionalca i jasan za ocjenjivanje. U prosjeku, svaki zadatak je prošao kroz 5 krugova stručne revizije, uključujući provjere od strane drugih pisaca zadataka, dodatnih profesionalnih recenzenata i validaciju temeljenu na modelu.
Rezultirajući skup podataka uključuje 30 potpuno pregledanih zadataka po zanimanju (puni skup) s 5 zadataka po zanimanju u našem otvorenom zlatnom skupu, pružajući čvrstu osnovu za evaluaciju performansi modela na stvarnim poslovima koji zahtijevaju znanje.
Primjeri zadataka GDPval
Upit + kontekst zadatka
Iskusna ljudska dostava

Za procjenu performansi modela na GDPval zadacima, oslanjamo se na stručne „ocjenjivače“—grupu iskusnih profesionalaca iz istih zanimanja predstavljenih u skupu podataka. Ovi ocjenjivači nasumično upoređuju isporuke generirane modelom s onima koje su proizveli pisci zadataka (ne znajući koje su generirane od strane AI, a koje od strane ljudi), te nude kritike i rangiranja. Ocjenjivači zatim rangiraju ljudske i AI isporuke i klasificiraju svaku AI isporuku kao „bolju“, „jednako dobru kao“ ili „lošiju od“ drugih.
Autori zadataka su također kreirali detaljne rubrike ocjenjivanja za svoje profesije, što dodaje dosljednost i transparentnost procesu ocjenjivanja. Također smo izgradili „automatizirani ocjenjivač“, AI sistem obučen da procijeni kako bi ljudski stručnjaci ocijenili određeni dostavljeni rezultat. Drugim riječima, umjesto da svaki put provodimo potpunu stručnu reviziju, automatizirani ocjenjivač može brzo predvidjeti koji bi izlaz ljudi najvjerovatnije preferirali. Ovaj alat objavljujemo putem evals.openai.com kao eksperimentalnu istraživačku uslugu, ali još uvijek nije pouzdan kao stručni ocjenjivači, stoga ga ne koristimo za njihovu zamjenu.
Otkrili smo da se najbolji današnji napredni modeli već približavaju kvaliteti rada koji proizvode stručnjaci iz industrije. Da bismo ovo testirali, proveli smo slijepa ocjenjivanja u kojima su stručnjaci iz industrije upoređivali isporuke nekoliko vodećih modela—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro i Grok 4—s radovima koje su proizveli ljudi. U okviru 220 zadataka u GDPval zlatnom setu, zabilježili smo kada su rezultati modela ocijenjeni kao bolji od (“pobjede”) ili jednaki („neriješeno“) isporukama stručnjaka iz industrije, kao što je prikazano u donjem stupčastom grafikonu. Claude Opus 4.1 je bio model s najboljim performansama u setu, posebno se ističući u estetici (npr. formatiranje dokumenta, raspored slajdova), dok je GPT‑5 posebno briljirao u tačnosti (npr. pronalaženje znanja specifičnog za domenu). Također vidimo jasan napredak kroz vrijeme na ovim zadacima. Performanse su se više nego udvostručile od GPT‑4o (objavljenog u proljeće 2024.) do GPT‑5 (objavljenog u ljeto 2025.), prateći jasan linearni trend.
Pored toga, otkrili smo da granični modeli mogu izvršiti zadatke GDPval otprilike 100 puta brže i 100 puta jeftinije od stručnjaka iz industrije. Međutim, ovi podaci odražavaju samo vrijeme izvođenja modela i cijene naplate API-ja, te stoga ne obuhvataju ljudski nadzor, iteracije i korake integracije potrebne u stvarnim radnim okruženjima za korištenje naših modela. Ipak, posebno na podskupu zadataka gdje su modeli posebno jaki, očekujemo da će dodjeljivanje zadatka modelu prije nego što ga isprobamo s ljudima sačuvati vrijeme i novac.
Stručni ocjenjivači su uporedili isporuke vodećih modela s ljudskim stručnjacima. Današnji napredni modeli već se približavaju kvaliteti rada koji proizvode industrijski stručnjaci. Claude Opus 4.1 je proizveo rezultate koji su ocijenjeni jednako dobrima ili boljima od ljudskih u nešto manje od polovine zadataka.
Od GPT‑4o do GPT‑5, performanse na GDPval zadacima su se više nego utrostručile u jednoj godini.
Konačno, postepeno smo obučili internu, eksperimentalnu verziju GPT‑5 kako bismo procijenili možemo li poboljšati performanse na GDPval. Otkrili smo da je ovaj proces poboljšao performanse, kreirajući put za daljnje potencijalno poboljšanje. Drugi kontrolisani eksperimenti to potvrđuju: povećanje veličine modela, poticanje više koraka rezonovanja i davanje bogatijeg konteksta zadatka svaki su doveli do mjerljivih poboljšanja.
Možete pročitati kompletne rezultate u našem radu. Također objavljujemo zlatni podskup GDPval zadataka i javnu uslugu ocjenjivanja kako bi drugi istraživači mogli nadograditi na ovom radu.
Kako umjetna inteligencija postaje sposobnija, vjerovatno će izazvati promjene na tržištu rada. Rani rezultati GDPval-a pokazuju da modeli već mogu preuzeti neke ponavljajuće, dobro specificirane zadatke brže i uz niže troškove od stručnjaka. Međutim, većina poslova je više od puke zbirke zadataka koji se mogu zapisati. GDPval ističe gdje AI može preuzeti rutinske zadatke kako bi ljudi mogli provoditi više vremena na kreativnim, dijelovima posla koji zahtijevaju prosudbu. Kada AI na ovaj način dopunjuje radnike, to može rezultirati značajnim ekonomskim rastom. Naš cilj je zadržati sve na „uzlaznom liftu“ umjetne inteligencije demokratizacijom pristupa ovim alatima, podržavanjem radnika kroz promjene i izgradnjom sistema koji nagrađuju široki doprinos.
GDPval je rani korak. Iako pokriva 44 zanimanja i stotine zadataka, nastavljamo usavršavati naš pristup kako bismo proširili opseg našeg testiranja i učinili rezultate značajnijima. Trenutna verzija evaluacije je također jednokratna, tako da ne obuhvata slučajeve gdje bi model trebao izgraditi kontekst ili se poboljšati kroz više nacrta—na primjer, revidiranje pravnog sažetka nakon povratnog odgovora klijenta ili iteriranje analize podataka nakon uočavanja anomalije. Dodatno, u stvarnom svijetu, zadaci nisu uvijek jasno definirani s upitom i referentnim datotekama; na primjer, advokat bi mogao morati navigirati kroz nejasnoće i razgovarati sa svojim klijentom prije nego što odluči da je kreiranje pravnog dokumenta pravi pristup da mu pomogne. Planiramo proširiti GDPval kako bismo uključili više zanimanja, industrija i vrsta zadataka, s povećanom interaktivnošću i više zadataka koji uključuju navigaciju kroz nejasnoće, s dugoročnim ciljem boljeg mjerenja napretka u raznovrsnom radu sa znanjem.
- Ako ste stručnjak iz industrije zainteresirani za doprinos GDPval-u, molimo vas da ovdje iskažete svoj interes.
- Ako ste korisnik koji radi s OpenAI-om i želite doprinijeti budućoj rundi GDPval-a, molimo vas ovdje izrazite interes.
Sudjelovanje zajednice je ključno—uzbuđeni smo što ćemo zajedno s istraživačima, praktičarima i organizacijama koje dijele naš cilj učiniti AGI korisnijim za ljude na poslu, graditi GDPval.


