Meranie výkonnosti našich modelov pri úlohách v reálnom svete
Predstavujeme GDPval, nové hodnotenie, ktoré meria výkonnosť modelu pri ekonomicky hodnotných úlohách v reálnych podmienkach v 44 povolaniach.
Naším poslaním je zabezpečiť, aby zo všeobecnej umelej inteligencie čerpalo výhody celé ľudstvo. V rámci nášho poslania chceme transparentne komunikovať pokrok v tom, ako môžu modely umelej inteligencie pomáhať ľuďom v reálnom svete. Preto predstavujeme GDPval: nové hodnotenie navrhnuté na to, aby nám pomohlo sledovať, ako dobre naše modely a iné modely fungujú na ekonomicky hodnotných úlohách v reálnom svete. Toto hodnotenie nazývame GDPval, pretože sme začali s konceptom hrubého domáceho produktu (HDP) ako kľúčového ekonomického ukazovateľa a úlohy sme čerpali z kľúčových povolaní v odvetviach, ktoré najviac prispievajú k HDP.
Ľudia často špekulujú o širšom vplyve umelej inteligencie na spoločnosť, ale najjasnejším spôsobom, ako pochopiť jej potenciál, je pozrieť sa na to, čo už modely dokážu. História ukazuje, že hlavným technológiám – od internetu až po smartfóny – trvalo viac ako desaťročie, kým sa od vynálezu dostali do širokého prijatia. Hodnotenia ako GDPval pomáhajú uzemniť diskusie o budúcich vylepšeniach umelej inteligencie na základe dôkazov, a nie dohadov, a môžu nám pomôcť sledovať zlepšovanie modelu v priebehu času.
Predchádzajúce hodnotenia umelej inteligencie, ako sú náročné akademické testy a súťaže v kódovaní, boli nevyhnutné na posúvanie hraníc schopností modelu v oblasti uvažovania, ale často nedosahujú úroveň úloh, ktoré mnohí ľudia riešia vo svojej každodennej práci.
Aby sme prekonali tento rozdiel, vyvíjame hodnotenia, ktoré merajú čoraz realistickejšie a ekonomicky relevantné schopnosti. Tento postup sa posunul od klasických akademických benchmarkov, ako je MMLU (otázky v štýle skúšky z desiatok predmetov), k aplikovanejším hodnoteniam, ako je SWE-Bench (úlohy na opravu chýb v softvérovom inžinierstve), MLE-Bench (úlohy strojového učenia, ako je trénovanie a analýza modelov) a Paper-Bench (vedecké myslenie a kritika výskumných prác), a v poslednej dobe k trhovo orientovaným hodnoteniam, ako je SWE-Lancer (nezávislé softvérové inžinierske projekty založené na skutočných vyplateniach).
GDPval je ďalej krokom v tomto postupe. Meria výkon modelu na úlohách priamo vychádzajúcich z reálnych znalostných činností skúsených profesionálov naprieč širokou škálou povolaní a sektorov, poskytujúc jasnejší obraz o tom, ako modely vykonávajú ekonomicky hodnotné úlohy. Hodnotenie modelov na realistických pracovných úlohách nám pomáha pochopiť nielen to, ako dobre si vedú v laboratóriu, ale aj to, ako môže ich podpora pomáhať ľuďom v práci, ktorú vykonávajú každý deň.
GDPval, prvá verzia tohto hodnotenia, zahŕňa 44 povolaní vybraných z 9 hlavných odvetví prispievajúcich k HDP USA. Kompletná sada GDPval obsahuje 1 320 špecializovaných úloh (220 v zlatej sade s otvoreným zdrojovým kódom), pričom každá z nich je starostlivo vypracovaná a overená skúsenými profesionálmi s priemerne viac ako 14-ročnými skúsenosťami v týchto oblastiach. Každá úloha je založená na skutočných pracovných produktoch, ako sú právny dokument, technický plán, rozhovor so zákazníckou podporou alebo plán ošetrovateľskej starostlivosti.
GDPval sa vyznačuje realizmom aj rozmanitosťou hodnotených úloh. Na rozdiel od iných hodnotení viazaných na ekonomickú hodnotu, ktoré sa zameriavajú na špecifické oblasti (napr. SWE-Lancer), GDPval pokrýva mnoho úloh a povolaní. A na rozdiel od benchmarkov, ktoré zahŕňajú syntetické vytváranie úloh v štýle akademickej skúšky alebo testu (napr. Humanity's Last Exam alebo MMLU), GDPval sa zameriava na úlohy založené na výstupoch, ktoré sú buď skutočným dielom alebo produktom, ktorý existuje dnes, alebo sú podobne skonštruovaným dielom.
Na rozdiel od tradičných benchmarkov nie sú úlohy GDPval jednoduché textové príkazy. Prichádzajú s referenčnými súbormi a kontextom a očakávané výstupy zahŕňajú dokumenty, snímky, diagramy, tabuľky a multimédiá. Vďaka tomuto realizmu je GDPval realistickejším testom toho, ako môžu modely podporovať profesionálov.
GDPval je počiatočný krok, ktorý neodráža všetky nuansy mnohých ekonomických úloh. Hoci zahŕňa 44 povolaní a stovky úloh v oblasti vedomostnej práce, je obmedzený na jednorazové hodnotenia, takže nezachytáva prípady, kedy by model potreboval vybudovať kontext alebo sa vylepšiť prostredníctvom viacerých návrhov. Budúce verzie sa rozšíria na interaktívnejšie pracovné postupy a úlohy bohaté na kontext, aby lepšie odrážali zložitosť práce s reálnymi znalosťami (viac nájdete v našej sekcii Obmedzenia nižšie).
GDPval pokrýva úlohy v 9 odvetviach a 44 povolaniach a budúce verzie budú naďalej rozširovať pokrytie. Prvých 9 odvetví bolo vybraných na základe tých, ktoré prispievajú k HDP USA viac ako 5 %, ako to určili údaje Federálnej rezervnej banky v St. Louis. Následne sme v každom odvetví vybrali 5 povolaní, ktoré najviac prispievajú k celkovým mzdám a kompenzáciám a sú prevažne povolania zamerané na znalostnú prácu, pričom sme použili údaje o mzdách a zamestnanosti zo správy o zamestnanosti v povolaniach amerického Úradu pre štatistiku práce (BLS) z mája 2024(otvorí sa v novom okne). Aby sme zistili, či išlo prevažne o znalostnú prácu, použili sme údaje o úlohách z O*NET(otvorí sa v novom okne), databázy informácií o povolaniach v USA, ktorú sponzoruje Ministerstvo práce USA. Klasifikovali sme, či každá úloha pre každé povolanie v O*NET bola znalostnou prácou alebo fyzickou/manuálnou prácou (vyžadujúcou si činnosť vo fyzickom svete). Povolanie sa celkovo kvalifikovalo ako „prevažne znalostná práca“, ak aspoň 60 % jeho jednotlivých úloh bolo klasifikovaných ako nezahŕňajúcich fyzickú prácu alebo manuálnu prácu. Túto 60 % hranicu sme zvolili ako východiskový bod pre prvú verziu GDPval so zameraním na povolania, v ktorých by umelá inteligencia mohla mať najväčší vplyv na produktivitu v reálnom svete.
Tento proces priniesol 44 povolaní na zaradenie.
Nehnuteľnosti, prenájom a lízing
Domovníci
Správcovia nehnuteľností, realít a komunitných združení
Realitní predajcovia
Realitní makléri
Pracovníci na pultoch a pri prenájmoch
Vláda
Pracovníci v oblasti rekreácie
Pracovníci v oblasti súladu s predpismi
Priami nadriadení policajtov a detektívov
Manažéri administratívnych služieb
Sociálni pracovníci pre deti, rodiny a školy
Výroba
Strojní inžinieri
Priemyselní inžinieri
Kupujúci a nákupní agenti
Pracovníci prepravy, prijímania a skladovania zásob
Prvostupňoví nadriadení výrobných a prevádzkových pracovníkov
Profesionálne, vedecké a technické služby
Softvéroví vývojári
Právnici
Účtovníci a audítori
Manažéri počítačových a informačných systémov
Špecialisti na riadenie projektov
Zdravotná starostlivosť a sociálna asistencia
Registrované zdravotné sestry
Zdravotné sestry
Manažéri zdravotníckych a zdravotných služieb
Vedúci prvej línie pracovníkov kancelárskej a administratívnej podpory
Zdravotnícke sekretárky a administratívni asistenti
Financie a poisťovníctvo
Zástupcovia zákazníckeho servisu
Finanční a investiční analytici
Finanční manažéri
Osobní finanční poradcovia
Obchodní zástupcovia pre cenné papiere, komodity a finančné služby
Maloobchod
Farmaceuti
Vedúci pracovníci prvej línie pre maloobchodný predaj
Generálni a prevádzkoví manažéri
Súkromní detektívi a vyšetrovatelia
Veľkoobchod
Manažéri predaja
Vybavovatelia objednávok
Vedúci pracovníci prvej línie pre iný ako maloobchodný predaj
Obchodní zástupcovia, veľkoobchod a výroba, s výnimkou technických a vedeckých produktov
Obchodní zástupcovia, veľkoobchod a výroba, technické a vedecké produkty
Informácie
Zvukoví a video technici
Producenti a režiséri
Analytici správ, reportéri a novinári
Strihači filmov a videí
Redaktori
Pre každé povolanie sme spolupracovali so skúsenými profesionálmi na vytvorení reprezentatívnych úloh, ktoré odrážajú ich každodennú prácu. Títo profesionáli mali v priemere 14 rokov skúseností a vynikajúcu históriu kariérneho postupu. Zámerne sme prijali širokú škálu profesionálov – napríklad právnikov z rôznych oblastí praxe a firiem rôznych veľkostí – aby sme maximalizovali reprezentatívnosť.
Každá úloha prešla viacstupňovým procesom kontroly, aby sa zabezpečilo, že je reprezentatívna pre skutočnú prácu, je uskutočniteľná pre iného profesionála a je vhodná na hodnotenie. V priemere bola každá úloha podrobená 5 kolám odborného preskúmania, vrátane kontrol od iných autorov úloh, ďalších odborných recenzentov a validácie na základe modelu.
Výsledný súbor údajov obsahuje 30 plne preskúmaných úloh na povolanie (úplný súbor) s 5 úlohami na povolanie v našom zlatom súbore s otvoreným zdrojovým kódom, čo poskytuje robustný základ pre hodnotenie výkonnosti modelu v znalostnej práci v reálnom svete.
Príklady úloh GDPval
Príkaz + kontext úlohy
Skúsený ľudský výstup

Na hodnotenie výkonnosti modelu pri úlohách GDPval sa spoliehame na odborných „hodnotiteľov“—skupinu skúsených profesionálov z rovnakých povolaní zastúpených v dátovej množine. Títo hodnotitelia slepo porovnávajú výstupy generované modelom s výstupmi vytvorenými autormi úloh (bez toho, aby vedeli, ktorý z nich je vytvorený umelou inteligenciou alebo ktorý je vytvorený človekom) a ponúkajú kritiku a hodnotenie. Hodnotitelia potom zoradia výstupy vytvorené ľuďmi a umelou inteligenciou a klasifikujú každý výstup umelej inteligencie ako „lepší“, „rovnako dobrý ako“ alebo „horší“ ako ten druhý.
Autori úloh tiež vytvorili podrobné hodnotiace rubriky pre svoje povolania, ktoré zvyšujú konzistentnosť a transparentnosť procesu hodnotenia. Taktiež sme vytvorili „automatizovaného hodnotiteľa“, systém umelej inteligencie trénovaný na odhadovanie toho, ako by ľudskí experti posúdili daný výstup. Inými slovami, namiesto vykonávania úplnej odbornej kontroly zakaždým môže automatizovaný hodnotiteľ rýchlo predpovedať, ktorý výstup by ľudia pravdepodobne uprednostnili. Tento nástroj sprístupňujeme na stránke evals.openai.com ako experimentálnu výskumnú službu, ale zatiaľ nie je taký spoľahlivý ako odborníci na hodnotenie, takže ho nepoužívame ako ich náhradu.
Zistili sme, že dnešné najlepšie pokročilé modely sa už blížia ku kvalite práce, ktorú produkujú odborníci z odvetvia. Aby sme to otestovali, vykonali sme slepé hodnotenia, v ktorých odborníci z odvetvia porovnávali výsledky niekoľkých popredných modelov – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro a Grok 4 – s prácou vytvorenou človekom. V rámci 220 úloh v zlatej sade GDPval sme zaznamenali, kedy boli výstupy modelu hodnotené ako lepšie („víťazstvá“) alebo na rovnakej úrovni („remízy“) ako výsledky od odborníkov z odvetvia, ako je znázornené v stĺpcovom grafe nižšie. Claude Opus 4.1 bol najlepším modelom v sade, vynikal najmä v estetike (napr. formátovanie dokumentu, rozloženie snímok) a GPT‑5 vynikal najmä v presnosti (napr. vyhľadávanie znalostí špecifických pre danú oblasť). V týchto úlohách tiež vidíme v priebehu času jasný pokrok. Výkonnosť sa od verzie GPT‑4o (vydanej na jar 2024) po GPT‑5 (vydanú v lete 2025) viac ako zdvojnásobil, pričom sleduje jasný lineárny trend.
Okrem toho sme zistili, že pokročilé modely dokážu dokončiť úlohy GDPval približne 100-krát rýchlejšie a 100-krát lacnejšie ako odborníci z odvetvia. Tieto čísla však odrážajú čistý čas inferencie modelu a sadzby fakturácie API, a preto nezahŕňajú kroky ľudského dohľadu, iterácie a integrácie, ktoré sú potrebné v reálnych pracovných prostrediach na používanie našich modelov. Napriek tomu, najmä v podmnožine úloh, kde sú modely obzvlášť silné, očakávame, že zadaním úlohy modelu pred jej skúšaním s človekom by sme ušetrili čas a peniaze.
Odborníci na hodnotenie porovnávali výstupy od popredných modelov s výstupmi od ľudských expertov. Dnešné najlepšie pokročilé modely sa už blížia ku kvalite práce, ktorú produkujú odborníci z odvetvia. Claude Opus 4.1 dosiahol v necelej polovici úloh výstupy hodnotené rovnako dobre alebo lepšie ako ľudské.
Od GPT‑4o po GPT‑5 sa výkonnosť úloh GDPval za rok viac ako strojnásobila.
Nakoniec sme postupne trénovali internú, experimentálnu verziu GPT‑5, aby sme posúdili, či by sme mohli zlepšiť výkonnosť na GDPval. Zistili sme, že tento proces zlepšil výkon a vytvoril cestu pre ďalšie potenciálne zlepšenie. Potvrdzujú to aj ďalšie kontrolované experimenty: zväčšenie veľkosti modelu, podpora viacerých krokov myslenia a poskytnutie bohatšieho kontextu úlohy viedlo k merateľným ziskom.
Kompletné výsledky si môžete prečítať v našich novinách. Taktiež vydávame zlatú podmnožinu úloh GDPval a verejnú službu hodnotenia, aby na tejto práci mohli stavať aj ďalší výskumníci.
S rastúcimi schopnosťami umelej inteligencie pravdepodobne dôjde k zmenám na trhu práce. Prvé výsledky GDPval ukazujú, že modely už dokážu zvládnuť niektoré opakujúce sa, dobre špecifikované úlohy rýchlejšie a za nižšie náklady ako experti. Väčšina pracovných miest je však viac než len súbor úloh, ktoré sa dajú zapísať. GDPval zdôrazňuje, kde dokáže umelá inteligencia zvládnuť rutinné úlohy, aby ľudia mohli tráviť viac času kreatívnymi časťami práce, ktoré sú náročné na posudzovanie. Keď umelá inteligencia takto dopĺňa pracovníkov, môže sa to premietnuť do významného hospodárskeho rastu. Naším cieľom je udržať všetkých vo "výťahu nahor" v oblasti umelej inteligencie tým, že demokratizujeme prístup k týmto nástrojom, podporujeme pracovníkov počas zmien a budujeme systémy, ktoré odmeňujú široký prínos.
GDPval je počiatočným krokom. Hoci sa vzťahuje na 44 povolaní a stovky úloh, náš prístup neustále zdokonaľujeme, aby sme rozšírili rozsah nášho testovania a aby boli výsledky zmysluplnejšie. Aktuálna verzia hodnotenia je tiež jednorazová, takže nezahŕňa prípady, v ktorých by bolo potrebné, aby model vybudoval kontext alebo vylepšil sa prostredníctvom viacerých návrhov – napríklad revízia právneho dokumentu po spätnej väzbe od klienta alebo iterácia analýzy údajov po zistení anomálie. Navyše, v reálnom svete nie sú úlohy vždy jasne definované pomocou výzvy a referenčných súborov; napríklad právnik sa môže musieť vyrovnať s nejasnosťami a porozprávať sa so svojím klientom, kým sa rozhodne, že vytvorenie právneho dokumentu je ten správny prístup, ktorý mu pomôže. Plánujeme rozšíriť GDPval tak, aby zahŕňal viac povolaní, odvetví a typov úloh so zvýšenou interaktivitou a viac úlohami zahŕňajúcimi prekonávanie nejednoznačností s dlhodobým cieľom lepšieho merania pokroku v práci s rozmanitými znalosťami.
- Ak ste odborníkom z odvetvia a máte záujem prispieť k GDPval, prejavte svoj záujem tu.
- Ak ste zákazníkom pracujúcim s OpenAI a chceli by ste prispieť k budúcemu kolu GDPval, vyjadrite svoj záujem tu.
Účasť komunity je nevyhnutná—sme nadšení, že môžeme spolupracovať na budovaní GDPval s výskumníkmi, odborníkmi a organizáciami, ktoré zdieľajú náš cieľ urobiť všeobecnú umelú inteligenciu (AGI) užitočnejšou pre ľudí v práci.


