Merjenje učinkovitosti naših modelov pri dejanskih nalogah
Predstavljamo GDPval, novo metodo vrednotenja, ki meri učinkovitost modelov pri ekonomsko pomembnih dejanskih nalogah v 44 različnih poklicih.
Naše poslanstvo je, da bi zagotovili, da bo splošna umetna inteligenca koristila celotnemu človeštvu. V sklopu našega poslanstva želimo pregledno poročati o napredku pri tem, kako lahko modeli umetne inteligence pomagajo ljudem v resničnem svetu. Zato uvajamo GDPval: novo metodo vrednotenja, zasnovano za pomoč pri spremljanju, kako dobro se naši in drugi modeli odrežejo pri ekonomsko pomembnih nalogah iz resničnega sveta. To metodo vrednotenja imenujemo GDPval, ker smo za izhodišče vzeli koncept bruto domačega proizvoda (BDP ali angleško GDP) kot ključnega ekonomskega kazalnika in nato izbrali naloge iz ključnih poklicev v panogah, ki največ prispevajo k BDP-ju.
Ljudje pogosto ugibajo o širšem vplivu umetne inteligence na družbo, vendar njen potencial najbolje razumemo tako, da pogledamo, kaj modeli že zmorejo. Iz zgodovine je razvidno, da so glavne tehnologije – od interneta do pametnih telefonov – potrebovale več kot desetletje, da so prešle od izuma do vsesplošne uporabe. Vrednotenja, kot je GDPval, pomagajo zagotavljati utemeljene razprave o prihodnjih izboljšavah umetne inteligence na podlagi dokazov namesto z ugibanjem ter nam lahko pomagajo spremljati izboljšave modelov skozi čas.
Prejšnje metode ocenjevanja umetne inteligence, na primer z zahtevnimi akademskimi preizkusi in tekmovalnimi izzivi v programiranju, so bile ključne pri premikanju meja sposobnosti sklepanja modelov, vendar te metode pogosto ne zajamejo nalog, s katerimi se mnogi ljudje srečujejo pri svojem vsakdanjem delu.
Za premostitev te vrzeli razvijamo vrednotenja, ki merijo vse bolj realistične in ekonomsko pomembne zmogljivosti. Z razvojem smo od klasičnih akademskih meril, kot je MMLU (izpitna vprašanja iz več deset predmetov), pristopili k uporabnejšim metodam vrednotenja, kot so SWE-Bench (naloge odpravljanja napak v programskem inženiringu), MLE-Bench (inženirske naloge s strojnim učenjem, kot je usposabljanje in analiza modelov) in Paper-Bench (znanstveno razmišljanje in kritična presoja raziskovalnih člankov), ter pred kratkim tudi k tržno usmerjenim metodam vrednotenja, kot je SWE-Lancer (projekti programskega inženiringa za samostojne poklice, ki temeljijo na dejanskih izplačilih).
Metoda GDPval predstavlja naslednjo stopnjo razvoja. Meri učinkovitost modelov pri nalogah, ki izhajajo neposredno iz dejanskega intelektualnega dela izkušenih strokovnjakov v širokem spektru poklicev in sektorjev, kar zagotavlja boljši pregled nad tem, kako se modeli obnesejo pri ekonomsko pomembnih nalogah. Vrednotenje modelov pri realističnih poklicnih nalogah nam pomaga razumeti ne le, kako dobro se ti izkažejo v laboratoriju, temveč tudi, kako lahko podpirajo ljudi pri vsakodnevnem delu.
GDPval, prva različica te metode vrednotenja, zajema 44 poklicev, izbranih iz 9 vodilnih panog, ki največ prispevajo k BDP-ju Združenih držav. Celoten nabor metode GDPval vključuje 1320 specializiranih nalog (220 v nepogrešljivem, »zlatem« odprtokodnem naboru), pri čemer je vsaka naloga skrbno pripravljena in preverjena s strani izkušenih strokovnjakov s povprečno več kot 14 leti izkušenj na teh področjih. Vsaka naloga temelji na resničnih delovnih izdelkih, kot so pravni spis, inženirski načrt, podporni pogovor s stranko ali načrt zdravstvene nege.
GDPval je edinstven tako z vidika realističnosti kakor tudi raznolikosti nalog, ki se vrednotijo. Za razliko od drugih vrednotenj, ki so vezana na ekonomsko vrednost in se osredotočajo na specifična področja (npr. SWE-Lancer), GDPval pokriva številne naloge in poklice. In za razliko od meril, ki vključujejo umetno ustvarjanje nalog v slogu akademskega izpita ali preverjanja znanja (npr. Humanity's Last Exam ali MMLU), se GDPval osredotoča na naloge, ki temeljijo na konkretnih rezultatih, ki so bodisi že obstoječi dejanski produkti dela ali izdelki bodisi podobno zasnovani produkti dela.
Za razliko od tradicionalnih meril pri nalogah GDPval ne gre za preproste besedilne pozive. Te naloge imajo priložene referenčne datoteke in kontekst, pričakovani konkretni izdelki pa obsegajo dokumente, diapozitive, diagrame, preglednice in večpredstavnostne vsebine. Zaradi konkretnih izdelkov zagotavlja metoda GDPval bolj realističen prikaz, kako lahko modeli nudijo podporo strokovnjakom.
Metoda GDPval je šele v zgodnji fazi razvoja, kjer še ne odraža vseh odtenkov mnogih ekonomskih nalog. Čeprav zajema 44 poklicev in stotine delovnih nalog, ki temeljijo na znanju, je metoda omejena na enkratna vrednotenja, zato ne zajema primerov, kjer bi model moral oblikovati kontekst ali se izboljšati skozi več osnutkov. Prihodnje različice bodo razširjene na bolj interaktivne delovne tokove in naloge, opremljene s kontekstom, da bodo bolje odražale kompleksnost dela z znanjem v resničnem svetu (preberite več v spodnjem razdelku Omejitve).
GDPval zajema naloge v 9 panogah in 44 poklicih, s prihodnjimi različicami pa se bo pokritost še naprej širila. Prvih 9 panog je bilo izbranih med panogami, ki prispevajo več kot 5 % k BDP-ju Združenih držav, kar se ugotavlja na podlagi podatkov zvezne centralne banke v St. Louisu. Nato smo v vsaki panogi izbrali 5 poklicev, ki največ prispevajo k skupni višini osebnih dohodkov in nadomestil ter so pretežno poklici, ki temeljijo na znanju, pri čemer smo se zanašali na podatke o plačah in zaposlenosti iz poročila Urada ZDA za statistiko dela (BLS) o zaposlenosti po poklicih za maj 2024(odpre se v novem oknu). Da bi ugotovili, ali so bila delovna mesta pretežno povezana z znanjem, smo uporabili podatke o nalogah iz O*NET(odpre se v novem oknu), zbirke podatkov o poklicnih informacijah v ZDA, katere pokrovitelj je Ministrstvo ZDA za delo. Posamezno nalogo pri vsakem poklicu iz zbirke O*NET smo razvrstili v razrede glede na to, ali gre za intelektualno delo ali fizično delo/ročna dela (ki zahtevajo dejanja v stvarnem svetu). Poklic se na splošno kvalificira kot »pretežno intelektualno delo«, če je vsaj 60 % pripadajočih nalog razvrščenih med naloge, ki ne vključujejo fizičnega ali ročnega dela. To 60-odstotno mejno vrednost smo izbrali kot izhodišče za prvo različico metode GDPval, pri čemer smo se osredotočili na poklice, pri katerih bi umetna inteligenca lahko imela največji vpliv na dejansko produktivnost.
S tem postopkom smo pridobili 44 poklicev, ki jih lahko vključimo.
Nepremičnine, najem in dajanje v zakup
Skrbniki gostov
Upravitelji nepremičnin in vodje združenj stanovalcev
Nepremičninski prodajni zastopniki
Nepremičninski posredniki
Blagajniški in izposojevalni referenti
Delavci državne uprave
Delavci v prostočasnih in rekreativnih dejavnostih
Pooblaščenci za skladnost
Neposredni nadzorniki policijske in kriminalistične službe
Vodje upravnih služb
Otroški, družinski in šolski socialni delavci
Proizvodnja
Strojni inženirji
Industrijski inženirji
Kupci in nabavniki
Referenti za odpremo, sprejem in vodenje zalog
Neposredni nadzorniki proizvodnih in operativnih delavcev
Strokovne, znanstvene in tehnične službe
Razvijalci programske opreme
Odvetniki
Računovodje in revizorji
Upravitelji računalniških in informacijskih sistemov
Strokovnjaki za vodenje projektov
Zdravstveno varstvo in socialna pomoč
Registrirane medicinske sestre/tehniki
Specializirane medicinske sestre/tehniki
Vodje medicinskih in zdravstvenih služb
Neposredni nadzorniki pisarniških in režijskih delavcev
Zdravstveni administrativni delavci in administrativni asistenti
Finance in zavarovalništvo
Predstavniki službe za stranke
Finančni in naložbeni analitiki
Finančni direktorji
Osebni finančni svetovalci
Prodajni zastopniki za vrednostne papirje, blago in finančne storitve
Trgovina na drobno
Lekarnarji, farmacevti
Neposredni nadzorniki zaposlenih v maloprodaji
Generalni in poslovni direktorji
Zasebni detektivi in preiskovalci
Trgovina na debelo
Vodje prodaje
Referenti za sprejemanje naročil
Neposredni nadzorniki zaposlenih, ki ne delajo v maloprodaji
Prodajni zastopniki, veleprodaja in proizvodnja, razen tehničnih in znanstvenih izdelkov
Prodajni zastopniki, veleprodaja in proizvodnja, tehnični in znanstveni izdelki
Informacije
Tehniki za avdio in video
Producenti in režiserji
Analitiki novic, poročevalci in novinarji
Filmski in video montažerji
Uredniki
Pri vsakem poklicu smo sodelovali z izkušenimi strokovnjaki, da bi ustvarili reprezentativne naloge, ki odražajo njihovo vsakodnevno delo. Ti strokovnjaki so imeli v povprečju 14 let izkušenj in odlične dosežke pri napredovanju. Namenoma smo zbrali širok spekter strokovnjakov, na primer odvetnike z različnih pravnih področij in firm različnih velikosti, da bi dosegli čim večjo reprezentativnost.
Vsaka naloga je šla skozi večstopenjski postopek pregleda, da se zagotovi reprezentativnost pri dejanskem delu, izvedljivost za drugega strokovnjaka in jasnost za vrednotenje. Vsaka naloga je bila v povprečju strokovno pregledana v 5 krogih, vključno s pregledi drugih piscev nalog, dodatnimi poklicnimi pregledovalci in potrditvijo z modeli.
Nastali nabor podatkov vključuje 30 popolnoma pregledanih nalog za posamezen poklic (celoten nabor), s 5 nalogami na poklic v našem odprtokodnem »zlatem« naboru, kar zagotavlja trdno osnovo za vrednotenje učinkovitosti modelov pri dejanskem delu, ki temelji na znanju.
Primeri nalog GDPval
Poziv + kontekst naloge
Izdelek izkušenega človeka

Za ocenjevanje učinkovitosti modelov pri nalogah GDPval se zanašamo na strokovne ocenjevalce – skupino izkušenih strokovnjakov iz istih poklicev, ki so zastopani v naboru podatkov. Ti ocenjevalci slepo primerjajo izdelke, ki jih ustvarijo modeli, z izdelki, ki jih pripravijo pisci nalog (ne vedoč, katere je ustvarila umetna inteligenca in katere človek) ter opravijo kritično presojo in razvrščanje. Ocenjevalci nato razvrstijo človeške izdelke in izdelke umetne inteligence ter vsak izdelek umetne inteligence razvrstijo v kategorije »boljši«, »enako dober kot« ali »slabši od«.
Pisci nalog so ustvarili tudi podrobne ocenjevalne rubrike za svoje poklice, kar prispeva k večji doslednosti in preglednosti pri ocenjevanju. Razvili smo tudi »avtomatizirani ocenjevalnik«, sistem umetne inteligence, usposobljen za presojanje, kakšno oceno bi človeški strokovnjaki pripisali določenemu izdelku. Z drugimi besedami: namesto da bi vsakič izvedli celovit strokovni pregled, lahko avtomatizirani ocenjevalnik hitro napove, kateri izdelek bi ljudje verjetno raje izbrali. To orodje je na voljo kot poskusna raziskovalna storitev na naslovu evals.openai.com, vendar še ni tako zanesljivo kot strokovni ocenjevalci, zato ga ne uporabljamo namesto njih.
Ugotovili smo, da današnji najboljši najsodobnejši modeli že dosegajo kakovost dela, kakršno se pričakuje od panožnih strokovnjakov. Za preizkus tega smo izvedli slepa vrednotenja, kjer so panožni strokovnjaki izdelke več vodilnih modelov – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro in Grok 4 – primerjali z izdelki, ki so jih ustvarili ljudje. Pri 220 nalogah iz »zlate« zbirke GDPval smo zabeležili, kdaj so bili izdelki modelov ocenjeni kot boljši od (»zmage«) izdelkov industrijskih strokovnjakov ali njim enakovredni (»izenačenja«), kot je prikazano v spodnjem stolpčnem grafikonu. Claude Opus 4.1 je bil najboljši model v naboru, saj je še posebej izstopal na področju estetike (npr. pri oblikovanju dokumentov, postavitvi diapozitivov), medtem ko je GPT‑5 blestel predvsem v natančnosti (npr. pri iskanju specifičnega znanja na nekem področju). Prav tako jasno opažamo napredek pri teh nalogah skozi čas. Zmogljivost se je več kot podvojila od modela GPT‑4o (izdanega spomladi 2024) do modela GPT‑5 (izdanega poleti 2025), kar nedvoumno odraža linearni trend.
Poleg tega smo ugotovili, da lahko najnaprednejši modeli opravijo naloge GDPval približno 100-krat hitreje in 100-krat ceneje kot strokovnjaki na danem področju. Vendar te številke odražajo zgolj čas sklepanja modelov in zaračunane cene za uporabo API-jev, ne zajemajo pa človeškega nadzora, izvajanja ponovitev in integracijskih korakov, ki so v resničnih delovnih okoljih potrebni pri uporabi naših modelov. Kljub temu predvidevamo – še posebej pri podskupini nalog, kjer so se modeli izrazito dobro izkazali –, da bi z dodelitvijo naloge modelu, še preden jo poskusi opraviti človek, prihranili čas in denar.
Strokovni ocenjevalci so primerjali izdelke vodilnih modelov z izdelki človeških strokovnjakov. Današnji najnaprednejši modeli že dosegajo kakovost dela, kakršno se pričakuje od strokovnjakov na danem področju. Model Claude Opus 4.1 je pri skoraj polovici nalog ustvaril izdelke, ki so bili ocenjeni vsaj tako dobro kot človeški izdelki.
Med različicama GPT‑4o in GPT‑5 se je učinkovitost pri nalogah GDPval v enem letu več kot potrojila.
Nazadnje smo postopoma usposobili interno, poskusno različico modela GPT‑5, da bi ocenili, ali lahko izboljšamo učinkovitost pri metodi GDPval. Ugotovili smo, da je ta proces izboljšal učinkovitost, kar je odprlo pot za nadaljnje potencialne izboljšave. Drugi nadzorovani poskusi temu pritrjujejo: povečanje velikosti modela, spodbujanje več korakov sklepanja in zagotavljanje bogatejšega konteksta naloge so privedli do merljivih izboljšav.
Celotne rezultate si lahko ogledate v našem strokovnem članku. Prav tako objavljamo podskupino nepogrešljivih nalog GDPval in javno storitev ocenjevanja, da lahko drugi raziskovalci nadaljujejo svoje delo na tej podlagi.
Umetna inteligenca postaja vse sposobnejša, kar bo verjetno povzročilo spremembe na trgu dela. Zgodnji rezultati metode GDPval kažejo, da lahko modeli že prevzamejo nekatere ponavljajoče se, dobro opredeljene naloge in jih opraviojo hitreje in ceneje kot strokovnjaki. Vendar pa gre pri večini delovnih mest več kot le za seznam nalog, ki jih je mogoče zapisati. GDPval izpostavlja področja, kjer lahko umetna inteligenca opravlja rutinske naloge, da lahko ljudje več časa posvetijo ustvarjalnemu delu, ki zahteva tehtno presojo. Ko umetna inteligenca na tak način dopolnjuje zaposlene, to lahko prinese občutno gospodarsko rast. Naš cilj je, da vsem ljudem omogočimo »vzpon« po poti umetne inteligence, tako, da demokratiziramo dostop do teh orodij, podpiramo zaposlene skozi spremembe in gradimo sisteme, ki nagrajujejo obsežen prispevek.
Zgodba metode GDPval se šele začenja. Čeprav že zajema 44 poklicev in stotine nalog, nadaljujemo z izpopolnjevanjem našega pristopa, da razširimo obseg našega preizkušanja in naredimo rezultate bolj uporabne. Trenutna različica metode vrednotenja prav tako deluje z enkratnim poskusom, zato ne zajema primerov, kjer bi model moral pripraviti kontekst ali bi se moral izboljšati skozi več osnutkov – na primer pri reviziji pravnega spisa po prejemu povratnih informacijah stranke ali pri ponovitvi analize podatkov po zaznavi odstopanja. Poleg tega naloge v resničnem svetu niso vedno jasno opredeljene s pozivom in referenčnimi datotekami; na primer, odvetnik je morda zaznal dvoumnost in se mora pogovoriti s svojo stranko, preden se odloči, da je ustvarjanje pravnega spisa pravi pristop, ki jima bo v pomoč. Načrtujemo razširitev metode GDPval z vključitvijo večjega števila poklicev, panog in vrst nalog, z večjo stopnjo interaktivnosti in več nalogami, v katerih se pojavlja dvoumnost – z dolgoročnim ciljem boljšega merjenja napredka pri raznolikem delu, ki temelji na znanju.
- Če ste panožni strokovnjak in želite prispevati v GDPval, izkažite zanimanje tukaj.
- Če ste stranka, ki sodeluje z družbo OpenAI in želite prispevati k prihodnjemu krogu razvoja metode GDPval, izkažite zanimanje tukaj.
Sodelovanje skupnosti je bistvenega pomena – veselimo se, da bomo GDPval razvijali skupaj z raziskovalci, izvajalci dejavnosti in organizacijami, s katerimi imamo skupni cilj, da splošna umetna inteligenca (AGI) postane uporabnejša pri človeškem delu.


