Preskočite na glavno vsebino
OpenAI

25. september 2025

ObjavaRaziskave

Merjenje učinkovitosti naših modelov pri dejanskih nalogah

Predstavljamo GDPval, novo metodo vrednotenja, ki meri učinkovitost modelov pri ekonomsko pomembnih dejanskih nalogah v 44 različnih poklicih.

Naše poslanstvo je, da bi zagotovili, da bo splošna umetna inteligenca koristila celotnemu človeštvu. V sklopu našega poslanstva želimo pregledno poročati o napredku pri tem, kako lahko modeli umetne inteligence pomagajo ljudem v resničnem svetu. Zato uvajamo GDPval: novo metodo vrednotenja, zasnovano za pomoč pri spremljanju, kako dobro se naši in drugi modeli odrežejo pri ekonomsko pomembnih nalogah iz resničnega sveta. To metodo vrednotenja imenujemo GDPval, ker smo za izhodišče vzeli koncept bruto domačega proizvoda (BDP ali angleško GDP) kot ključnega ekonomskega kazalnika in nato izbrali naloge iz ključnih poklicev v panogah, ki največ prispevajo k BDP-ju.

Ljudje pogosto ugibajo o širšem vplivu umetne inteligence na družbo, vendar njen potencial najbolje razumemo tako, da pogledamo, kaj modeli že zmorejo. Iz zgodovine je razvidno, da so glavne tehnologije – od interneta do pametnih telefonov – potrebovale več kot desetletje, da so prešle od izuma do vsesplošne uporabe. Vrednotenja, kot je GDPval, pomagajo zagotavljati utemeljene razprave o prihodnjih izboljšavah umetne inteligence na podlagi dokazov namesto z ugibanjem ter nam lahko pomagajo spremljati izboljšave modelov skozi čas.

Prejšnje metode ocenjevanja umetne inteligence, na primer z zahtevnimi akademskimi preizkusi in tekmovalnimi izzivi v programiranju, so bile ključne pri premikanju meja sposobnosti sklepanja modelov, vendar te metode pogosto ne zajamejo nalog, s katerimi se mnogi ljudje srečujejo pri svojem vsakdanjem delu.

Za premostitev te vrzeli razvijamo vrednotenja, ki merijo vse bolj realistične in ekonomsko pomembne zmogljivosti. Z razvojem smo od klasičnih akademskih meril, kot je MMLU (izpitna vprašanja iz več deset predmetov), pristopili k uporabnejšim metodam vrednotenja, kot so SWE-Bench (naloge odpravljanja napak v programskem inženiringu), MLE-Bench (inženirske naloge s strojnim učenjem, kot je usposabljanje in analiza modelov) in Paper-Bench (znanstveno razmišljanje in kritična presoja raziskovalnih člankov), ter pred kratkim tudi k tržno usmerjenim metodam vrednotenja, kot je SWE-Lancer (projekti programskega inženiringa za samostojne poklice, ki temeljijo na dejanskih izplačilih).

Metoda GDPval predstavlja naslednjo stopnjo razvoja. Meri učinkovitost modelov pri nalogah, ki izhajajo neposredno iz dejanskega intelektualnega dela izkušenih strokovnjakov v širokem spektru poklicev in sektorjev, kar zagotavlja boljši pregled nad tem, kako se modeli obnesejo pri ekonomsko pomembnih nalogah. Vrednotenje modelov pri realističnih poklicnih nalogah nam pomaga razumeti ne le, kako dobro se ti izkažejo v laboratoriju, temveč tudi, kako lahko podpirajo ljudi pri vsakodnevnem delu. 

Kaj se meri z metodo GDPval

GDPval, prva različica te metode vrednotenja, zajema 44 poklicev, izbranih iz 9 vodilnih panog, ki največ prispevajo k BDP-ju Združenih držav. Celoten nabor metode GDPval vključuje 1320 specializiranih nalog (220 v nepogrešljivem, »zlatem« odprtokodnem naboru), pri čemer je vsaka naloga skrbno pripravljena in preverjena s strani izkušenih strokovnjakov s povprečno več kot 14 leti izkušenj na teh področjih. Vsaka naloga temelji na resničnih delovnih izdelkih, kot so pravni spis, inženirski načrt, podporni pogovor s stranko ali načrt zdravstvene nege.

GDPval je edinstven tako z vidika realističnosti kakor tudi raznolikosti nalog, ki se vrednotijo. Za razliko od drugih vrednotenj, ki so vezana na ekonomsko vrednost in se osredotočajo na specifična področja (npr. SWE-Lancer), GDPval pokriva številne naloge in poklice. In za razliko od meril, ki vključujejo umetno ustvarjanje nalog v slogu akademskega izpita ali preverjanja znanja (npr. Humanity's Last Exam ali MMLU), se GDPval osredotoča na naloge, ki temeljijo na konkretnih rezultatih, ki so bodisi že obstoječi dejanski produkti dela ali izdelki bodisi podobno zasnovani produkti dela. 

Za razliko od tradicionalnih meril pri nalogah GDPval ne gre za preproste besedilne pozive. Te naloge imajo priložene referenčne datoteke in kontekst, pričakovani konkretni izdelki pa obsegajo dokumente, diapozitive, diagrame, preglednice in večpredstavnostne vsebine. Zaradi konkretnih izdelkov zagotavlja metoda GDPval bolj realističen prikaz, kako lahko modeli nudijo podporo strokovnjakom.

Metoda GDPval je šele v zgodnji fazi razvoja, kjer še ne odraža vseh odtenkov mnogih ekonomskih nalog. Čeprav zajema 44 poklicev in stotine delovnih nalog, ki temeljijo na znanju, je metoda omejena na enkratna vrednotenja, zato ne zajema primerov, kjer bi model moral oblikovati kontekst ali se izboljšati skozi več osnutkov. Prihodnje različice bodo razširjene na bolj interaktivne delovne tokove in naloge, opremljene s kontekstom, da bodo bolje odražale kompleksnost dela z znanjem v resničnem svetu (preberite več v spodnjem razdelku Omejitve).

Kako smo izbrali poklice

GDPval zajema naloge v 9 panogah in 44 poklicih, s prihodnjimi različicami pa se bo pokritost še naprej širila. Prvih 9 panog je bilo izbranih med panogami, ki prispevajo več kot 5 % k BDP-ju Združenih držav, kar se ugotavlja na podlagi podatkov zvezne centralne banke v St. Louisu. Nato smo v vsaki panogi izbrali 5 poklicev, ki največ prispevajo k skupni višini osebnih dohodkov in nadomestil ter so pretežno poklici, ki temeljijo na znanju, pri čemer smo se zanašali na podatke o plačah in zaposlenosti iz poročila Urada ZDA za statistiko dela (BLS) o zaposlenosti po poklicih za maj 2024(odpre se v novem oknu). Da bi ugotovili, ali so bila delovna mesta pretežno povezana z znanjem, smo uporabili podatke o nalogah iz O*NET(odpre se v novem oknu), zbirke podatkov o poklicnih informacijah v ZDA, katere pokrovitelj je Ministrstvo ZDA za delo. Posamezno nalogo pri vsakem poklicu iz zbirke O*NET smo razvrstili v razrede glede na to, ali gre za intelektualno delo ali fizično delo/ročna dela (ki zahtevajo dejanja v stvarnem svetu). Poklic se na splošno kvalificira kot »pretežno intelektualno delo«, če je vsaj 60 % pripadajočih nalog razvrščenih med naloge, ki ne vključujejo fizičnega ali ročnega dela. To 60-odstotno mejno vrednost smo izbrali kot izhodišče za prvo različico metode GDPval, pri čemer smo se osredotočili na poklice, pri katerih bi umetna inteligenca lahko imela največji vpliv na dejansko produktivnost. 

S tem postopkom smo pridobili 44 poklicev, ki jih lahko vključimo.

Nepremičnine, najem in dajanje v zakup

  • Skrbniki gostov

  • Upravitelji nepremičnin in vodje združenj stanovalcev

  • Nepremičninski prodajni zastopniki

  • Nepremičninski posredniki

  • Blagajniški in izposojevalni referenti

Delavci državne uprave

  • Delavci v prostočasnih in rekreativnih dejavnostih

  • Pooblaščenci za skladnost

  • Neposredni nadzorniki policijske in kriminalistične službe

  • Vodje upravnih služb

  • Otroški, družinski in šolski socialni delavci

Proizvodnja

  • Strojni inženirji

  • Industrijski inženirji

  • Kupci in nabavniki

  • Referenti za odpremo, sprejem in vodenje zalog

  • Neposredni nadzorniki proizvodnih in operativnih delavcev

Strokovne, znanstvene in tehnične službe

  • Razvijalci programske opreme

  • Odvetniki

  • Računovodje in revizorji

  • Upravitelji računalniških in informacijskih sistemov

  • Strokovnjaki za vodenje projektov

Zdravstveno varstvo in socialna pomoč

  • Registrirane medicinske sestre/tehniki

  • Specializirane medicinske sestre/tehniki

  • Vodje medicinskih in zdravstvenih služb

  • Neposredni nadzorniki pisarniških in režijskih delavcev

  • Zdravstveni administrativni delavci in administrativni asistenti

Finance in zavarovalništvo

  • Predstavniki službe za stranke

  • Finančni in naložbeni analitiki

  • Finančni direktorji

  • Osebni finančni svetovalci

  • Prodajni zastopniki za vrednostne papirje, blago in finančne storitve

Trgovina na drobno

  • Lekarnarji, farmacevti

  • Neposredni nadzorniki zaposlenih v maloprodaji

  • Generalni in poslovni direktorji

  • Zasebni detektivi in preiskovalci

Trgovina na debelo

  • Vodje prodaje

  • Referenti za sprejemanje naročil

  • Neposredni nadzorniki zaposlenih, ki ne delajo v maloprodaji

  • Prodajni zastopniki, veleprodaja in proizvodnja, razen tehničnih in znanstvenih izdelkov

  • Prodajni zastopniki, veleprodaja in proizvodnja, tehnični in znanstveni izdelki

Informacije

  • Tehniki za avdio in video

  • Producenti in režiserji

  • Analitiki novic, poročevalci in novinarji

  • Filmski in video montažerji

  • Uredniki

GDPval zajema 44 poklicev, ki temeljijo na znanju, v 9 sektorjih, od razvijalcev programske opreme in pravnikov do registriranih medicinskih sester/tehnikov in strojnih inženirjev. Ti poklici so bili izbrani zaradi njihovega gospodarskega pomena in predstavljajo vrste vsakodnevnega dela, kjer lahko umetna inteligenca pomembno pomaga strokovnjakom.

Kako smo pripravili nabor podatkov

Pri vsakem poklicu smo sodelovali z izkušenimi strokovnjaki, da bi ustvarili reprezentativne naloge, ki odražajo njihovo vsakodnevno delo. Ti strokovnjaki so imeli v povprečju 14 let izkušenj in odlične dosežke pri napredovanju. Namenoma smo zbrali širok spekter strokovnjakov, na primer odvetnike z različnih pravnih področij in firm različnih velikosti, da bi dosegli čim večjo reprezentativnost.

Vsaka naloga je šla skozi večstopenjski postopek pregleda, da se zagotovi reprezentativnost pri dejanskem delu, izvedljivost za drugega strokovnjaka in jasnost za vrednotenje. Vsaka naloga je bila v povprečju strokovno pregledana v 5 krogih, vključno s pregledi drugih piscev nalog, dodatnimi poklicnimi pregledovalci in potrditvijo z modeli. 

Nastali nabor podatkov vključuje 30 popolnoma pregledanih nalog za posamezen poklic (celoten nabor), s 5 nalogami na poklic v našem odprtokodnem »zlatem« naboru, kar zagotavlja trdno osnovo za vrednotenje učinkovitosti modelov pri dejanskem delu, ki temelji na znanju.

Primeri nalog GDPval

Poziv + kontekst naloge

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Izdelek izkušenega človeka

Pogled sestavnih delov zasnove kabelskega koluta
Vsako nalogo pri metodi GDPval je zasnoval izkušen strokovnjak, da odslikava dejansko intelektualno delo iz njihovega poklica. Poziv je realistična delovna naloga, ki jo je ustvaril področni strokovnjak, in »zlati« izdelek je strokovnjakova lastna rešitev.

Kako ocenjujemo učinkovitost modela

Za ocenjevanje učinkovitosti modelov pri nalogah GDPval se zanašamo na strokovne ocenjevalce – skupino izkušenih strokovnjakov iz istih poklicev, ki so zastopani v naboru podatkov. Ti ocenjevalci slepo primerjajo izdelke, ki jih ustvarijo modeli, z izdelki, ki jih pripravijo pisci nalog (ne vedoč, katere je ustvarila umetna inteligenca in katere človek) ter opravijo kritično presojo in razvrščanje. Ocenjevalci nato razvrstijo človeške izdelke in izdelke umetne inteligence ter vsak izdelek umetne inteligence razvrstijo v kategorije »boljši«, »enako dober kot« ali »slabši od«.

Pisci nalog so ustvarili tudi podrobne ocenjevalne rubrike za svoje poklice, kar prispeva k večji doslednosti in preglednosti pri ocenjevanju. Razvili smo tudi »avtomatizirani ocenjevalnik«, sistem umetne inteligence, usposobljen za presojanje, kakšno oceno bi človeški strokovnjaki pripisali določenemu izdelku. Z drugimi besedami: namesto da bi vsakič izvedli celovit strokovni pregled, lahko avtomatizirani ocenjevalnik hitro napove, kateri izdelek bi ljudje verjetno raje izbrali. To orodje je na voljo kot poskusna raziskovalna storitev na naslovu evals.openai.com, vendar še ni tako zanesljivo kot strokovni ocenjevalci, zato ga ne uporabljamo namesto njih. 

Zgodnji rezultati

Ugotovili smo, da današnji najboljši najsodobnejši modeli že dosegajo kakovost dela, kakršno se pričakuje od panožnih strokovnjakov. Za preizkus tega smo izvedli slepa vrednotenja, kjer so panožni strokovnjaki izdelke več vodilnih modelov – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro in Grok 4 – primerjali z izdelki, ki so jih ustvarili ljudje. Pri 220 nalogah iz »zlate« zbirke GDPval smo zabeležili, kdaj so bili izdelki modelov ocenjeni kot boljši od (»zmage«) izdelkov industrijskih strokovnjakov ali njim enakovredni (»izenačenja«), kot je prikazano v spodnjem stolpčnem grafikonu. Claude Opus 4.1 je bil najboljši model v naboru, saj je še posebej izstopal na področju estetike (npr. pri oblikovanju dokumentov, postavitvi diapozitivov), medtem ko je GPT‑5 blestel predvsem v natančnosti (npr. pri iskanju specifičnega znanja na nekem področju). Prav tako jasno opažamo napredek pri teh nalogah skozi čas. Zmogljivost se je več kot podvojila od modela GPT‑4o (izdanega spomladi 2024) do modela GPT‑5 (izdanega poleti 2025), kar nedvoumno odraža linearni trend.

Poleg tega smo ugotovili, da lahko najnaprednejši modeli opravijo naloge GDPval približno 100-krat hitreje in 100-krat ceneje kot strokovnjaki na danem področju. Vendar te številke odražajo zgolj čas sklepanja modelov in zaračunane cene za uporabo API-jev, ne zajemajo pa človeškega nadzora, izvajanja ponovitev in integracijskih korakov, ki so v resničnih delovnih okoljih potrebni pri uporabi naših modelov. Kljub temu predvidevamo – še posebej pri podskupini nalog, kjer so se modeli izrazito dobro izkazali –, da bi z dodelitvijo naloge modelu, še preden jo poskusi opraviti človek, prihranili čas in denar.

Strokovni ocenjevalci so primerjali izdelke vodilnih modelov z izdelki človeških strokovnjakov. Današnji najnaprednejši modeli že dosegajo kakovost dela, kakršno se pričakuje od strokovnjakov na danem področju. Model Claude Opus 4.1 je pri skoraj polovici nalog ustvaril izdelke, ki so bili ocenjeni vsaj tako dobro kot človeški izdelki.

Med različicama GPT‑4o in GPT‑5 se je učinkovitost pri nalogah GDPval v enem letu več kot potrojila. 

Nazadnje smo postopoma usposobili interno, poskusno različico modela GPT‑5, da bi ocenili, ali lahko izboljšamo učinkovitost pri metodi GDPval. Ugotovili smo, da je ta proces izboljšal učinkovitost, kar je odprlo pot za nadaljnje potencialne izboljšave. Drugi nadzorovani poskusi temu pritrjujejo: povečanje velikosti modela, spodbujanje več korakov sklepanja in zagotavljanje bogatejšega konteksta naloge so privedli do merljivih izboljšav.

Celotne rezultate si lahko ogledate v našem strokovnem članku. Prav tako objavljamo podskupino nepogrešljivih nalog GDPval in javno storitev ocenjevanja, da lahko drugi raziskovalci nadaljujejo svoje delo na tej podlagi.

Prihodnost dela in umetne inteligence 

Umetna inteligenca postaja vse sposobnejša, kar bo verjetno povzročilo spremembe na trgu dela. Zgodnji rezultati metode GDPval kažejo, da lahko modeli že prevzamejo nekatere ponavljajoče se, dobro opredeljene naloge in jih opraviojo hitreje in ceneje kot strokovnjaki. Vendar pa gre pri večini delovnih mest več kot le za seznam nalog, ki jih je mogoče zapisati. GDPval izpostavlja področja, kjer lahko umetna inteligenca opravlja rutinske naloge, da lahko ljudje več časa posvetijo ustvarjalnemu delu, ki zahteva tehtno presojo. Ko umetna inteligenca na tak način dopolnjuje zaposlene, to lahko prinese občutno gospodarsko rast. Naš cilj je, da vsem ljudem omogočimo »vzpon« po poti umetne inteligence, tako, da demokratiziramo dostop do teh orodij, podpiramo zaposlene skozi spremembe in gradimo sisteme, ki nagrajujejo obsežen prispevek. 

Omejitve in kaj sledi

Zgodba metode GDPval se šele začenja. Čeprav že zajema 44 poklicev in stotine nalog, nadaljujemo z izpopolnjevanjem našega pristopa, da razširimo obseg našega preizkušanja in naredimo rezultate bolj uporabne. Trenutna različica metode vrednotenja prav tako deluje z enkratnim poskusom, zato ne zajema primerov, kjer bi model moral pripraviti kontekst ali bi se moral izboljšati skozi več osnutkov – na primer pri reviziji pravnega spisa po prejemu povratnih informacijah stranke ali pri ponovitvi analize podatkov po zaznavi odstopanja. Poleg tega naloge v resničnem svetu niso vedno jasno opredeljene s pozivom in referenčnimi datotekami; na primer, odvetnik je morda zaznal dvoumnost in se mora pogovoriti s svojo stranko, preden se odloči, da je ustvarjanje pravnega spisa pravi pristop, ki jima bo v pomoč. Načrtujemo razširitev metode GDPval z vključitvijo večjega števila poklicev, panog in vrst nalog, z večjo stopnjo interaktivnosti in več nalogami, v katerih se pojavlja dvoumnost – z dolgoročnim ciljem boljšega merjenja napredka pri raznolikem delu, ki temelji na znanju.

Pridružite se

Sodelovanje skupnosti je bistvenega pomena – veselimo se, da bomo GDPval razvijali skupaj z raziskovalci, izvajalci dejavnosti in organizacijami, s katerimi imamo skupni cilj, da splošna umetna inteligenca (AGI) postane uporabnejša pri človeškem delu.