25. septembra 2025

Meranie výkonnosti našich modelov pri úlohách v reálnom svete

Predstavujeme GDPval, nové hodnotenie, ktoré meria výkonnosť modelu pri ekonomicky hodnotných úlohách v reálnych podmienkach v 44 povolaniach.

Prečítajte si dokument Navštívte evals.openai.com

Naším poslaním je zabezpečiť, aby zo všeobecnej umelej inteligencie čerpalo výhody celé ľudstvo. V rámci nášho poslania chceme transparentne komunikovať pokrok v tom, ako môžu modely umelej inteligencie pomáhať ľuďom v reálnom svete. Preto predstavujeme GDPval: nové hodnotenie navrhnuté na to, aby nám pomohlo sledovať, ako dobre naše modely a iné modely fungujú na ekonomicky hodnotných úlohách v reálnom svete. Toto hodnotenie nazývame GDPval, pretože sme začali s konceptom hrubého domáceho produktu (HDP) ako kľúčového ekonomického ukazovateľa a úlohy sme čerpali z kľúčových povolaní v odvetviach, ktoré najviac prispievajú k HDP.

Ľudia často špekulujú o širšom vplyve umelej inteligencie na spoločnosť, ale najjasnejším spôsobom, ako pochopiť jej potenciál, je pozrieť sa na to, čo už modely dokážu. História ukazuje, že hlavným technológiám – od internetu až po smartfóny – trvalo viac ako desaťročie, kým sa od vynálezu dostali do širokého prijatia. Hodnotenia ako GDPval pomáhajú uzemniť diskusie o budúcich vylepšeniach umelej inteligencie na základe dôkazov, a nie dohadov, a môžu nám pomôcť sledovať zlepšovanie modelu v priebehu času.

Predchádzajúce hodnotenia umelej inteligencie, ako sú náročné akademické testy a súťaže v kódovaní, boli nevyhnutné na posúvanie hraníc schopností modelu v oblasti uvažovania, ale často nedosahujú úroveň úloh, ktoré mnohí ľudia riešia vo svojej každodennej práci.

Aby sme prekonali tento rozdiel, vyvíjame hodnotenia, ktoré merajú čoraz realistickejšie a ekonomicky relevantné schopnosti. Tento postup sa posunul od klasických akademických benchmarkov, ako je MMLU (otázky v štýle skúšky z desiatok predmetov), k aplikovanejším hodnoteniam, ako je SWE-Bench (úlohy na opravu chýb v softvérovom inžinierstve), MLE-Bench (úlohy strojového učenia, ako je trénovanie a analýza modelov) a Paper-Bench (vedecké myslenie a kritika výskumných prác), a v poslednej dobe k trhovo orientovaným hodnoteniam, ako je SWE-Lancer (nezávislé softvérové inžinierske projekty založené na skutočných vyplateniach).

GDPval je ďalej krokom v tomto postupe. Meria výkon modelu na úlohách priamo vychádzajúcich z reálnych znalostných činností skúsených profesionálov naprieč širokou škálou povolaní a sektorov, poskytujúc jasnejší obraz o tom, ako modely vykonávajú ekonomicky hodnotné úlohy. Hodnotenie modelov na realistických pracovných úlohách nám pomáha pochopiť nielen to, ako dobre si vedú v laboratóriu, ale aj to, ako môže ich podpora pomáhať ľuďom v práci, ktorú vykonávajú každý deň.

Čo meria GDPval

GDPval, prvá verzia tohto hodnotenia, zahŕňa 44 povolaní vybraných z 9 hlavných odvetví prispievajúcich k HDP USA. Kompletná sada GDPval obsahuje 1 320 špecializovaných úloh (220 v zlatej sade s otvoreným zdrojovým kódom), pričom každá z nich je starostlivo vypracovaná a overená skúsenými profesionálmi s priemerne viac ako 14-ročnými skúsenosťami v týchto oblastiach. Každá úloha je založená na skutočných pracovných produktoch, ako sú právny dokument, technický plán, rozhovor so zákazníckou podporou alebo plán ošetrovateľskej starostlivosti.

GDPval sa vyznačuje realizmom aj rozmanitosťou hodnotených úloh. Na rozdiel od iných hodnotení viazaných na ekonomickú hodnotu, ktoré sa zameriavajú na špecifické oblasti (napr. SWE-Lancer), GDPval pokrýva mnoho úloh a povolaní. A na rozdiel od benchmarkov, ktoré zahŕňajú syntetické vytváranie úloh v štýle akademickej skúšky alebo testu (napr. Humanity's Last Exam alebo MMLU), GDPval sa zameriava na úlohy založené na výstupoch, ktoré sú buď skutočným dielom alebo produktom, ktorý existuje dnes, alebo sú podobne skonštruovaným dielom.

Na rozdiel od tradičných benchmarkov nie sú úlohy GDPval jednoduché textové príkazy. Prichádzajú s referenčnými súbormi a kontextom a očakávané výstupy zahŕňajú dokumenty, snímky, diagramy, tabuľky a multimédiá. Vďaka tomuto realizmu je GDPval realistickejším testom toho, ako môžu modely podporovať profesionálov.

GDPval je počiatočný krok, ktorý neodráža všetky nuansy mnohých ekonomických úloh. Hoci zahŕňa 44 povolaní a stovky úloh v oblasti vedomostnej práce, je obmedzený na jednorazové hodnotenia, takže nezachytáva prípady, kedy by model potreboval vybudovať kontext alebo sa vylepšiť prostredníctvom viacerých návrhov. Budúce verzie sa rozšíria na interaktívnejšie pracovné postupy a úlohy bohaté na kontext, aby lepšie odrážali zložitosť práce s reálnymi znalosťami (viac nájdete v našej sekcii Obmedzenia nižšie).

Ako sme vyberali povolania

GDPval pokrýva úlohy v 9 odvetviach a 44 povolaniach a budúce verzie budú naďalej rozširovať pokrytie. Prvých 9 odvetví bolo vybraných na základe tých, ktoré prispievajú k HDP USA viac ako 5 %, ako to určili údaje Federálnej rezervnej banky v St. Louis. Následne sme v každom odvetví vybrali 5 povolaní, ktoré najviac prispievajú k celkovým mzdám a kompenzáciám a sú prevažne povolania zamerané na znalostnú prácu, pričom sme použili údaje o mzdách a zamestnanosti zo správy o zamestnanosti v povolaniach amerického Úradu pre štatistiku práce (BLS) z mája 2024⁠(otvorí sa v novom okne). Aby sme zistili, či išlo prevažne o znalostnú prácu, použili sme údaje o úlohách z O*NET⁠(otvorí sa v novom okne), databázy informácií o povolaniach v USA, ktorú sponzoruje Ministerstvo práce USA. Klasifikovali sme, či každá úloha pre každé povolanie v O*NET bola znalostnou prácou alebo fyzickou/manuálnou prácou (vyžadujúcou si činnosť vo fyzickom svete). Povolanie sa celkovo kvalifikovalo ako „prevažne znalostná práca“, ak aspoň 60 % jeho jednotlivých úloh bolo klasifikovaných ako nezahŕňajúcich fyzickú prácu alebo manuálnu prácu. Túto 60 % hranicu sme zvolili ako východiskový bod pre prvú verziu GDPval so zameraním na povolania, v ktorých by umelá inteligencia mohla mať najväčší vplyv na produktivitu v reálnom svete.

Tento proces priniesol 44 povolaní na zaradenie.

Nehnuteľnosti, prenájom a lízing

Domovníci
Správcovia nehnuteľností, realít a komunitných združení
Realitní predajcovia
Realitní makléri
Pracovníci na pultoch a pri prenájmoch

Vláda

Pracovníci v oblasti rekreácie
Pracovníci v oblasti súladu s predpismi
Priami nadriadení policajtov a detektívov
Manažéri administratívnych služieb
Sociálni pracovníci pre deti, rodiny a školy

Výroba

Strojní inžinieri
Priemyselní inžinieri
Kupujúci a nákupní agenti
Pracovníci prepravy, prijímania a skladovania zásob
Prvostupňoví nadriadení výrobných a prevádzkových pracovníkov

Profesionálne, vedecké a technické služby

Softvéroví vývojári
Právnici
Účtovníci a audítori
Manažéri počítačových a informačných systémov
Špecialisti na riadenie projektov

Zdravotná starostlivosť a sociálna asistencia

Registrované zdravotné sestry
Zdravotné sestry
Manažéri zdravotníckych a zdravotných služieb
Vedúci prvej línie pracovníkov kancelárskej a administratívnej podpory
Zdravotnícke sekretárky a administratívni asistenti

Financie a poisťovníctvo

Zástupcovia zákazníckeho servisu
Finanční a investiční analytici
Finanční manažéri
Osobní finanční poradcovia
Obchodní zástupcovia pre cenné papiere, komodity a finančné služby

Maloobchod

Farmaceuti
Vedúci pracovníci prvej línie pre maloobchodný predaj
Generálni a prevádzkoví manažéri
Súkromní detektívi a vyšetrovatelia

Veľkoobchod

Manažéri predaja
Vybavovatelia objednávok
Vedúci pracovníci prvej línie pre iný ako maloobchodný predaj
Obchodní zástupcovia, veľkoobchod a výroba, s výnimkou technických a vedeckých produktov
Obchodní zástupcovia, veľkoobchod a výroba, technické a vedecké produkty

Informácie

Zvukoví a video technici
Producenti a režiséri
Analytici správ, reportéri a novinári
Strihači filmov a videí
Redaktori

GDPval zahŕňa 44 profesií v oblasti vedomostnej práce v 9 sektoroch, od vývojárov softvéru a právnikov až po registrované zdravotné sestry a strojných inžinierov. Tieto povolania boli vybrané pre ich ekonomický význam a predstavujú typy každodennej práce, kde môže umelá inteligencia zmysluplne pomáhať profesionálom.

Ako sme zostavili súbor údajov

Pre každé povolanie sme spolupracovali so skúsenými profesionálmi na vytvorení reprezentatívnych úloh, ktoré odrážajú ich každodennú prácu. Títo profesionáli mali v priemere 14 rokov skúseností a vynikajúcu históriu kariérneho postupu. Zámerne sme prijali širokú škálu profesionálov – napríklad právnikov z rôznych oblastí praxe a firiem rôznych veľkostí – aby sme maximalizovali reprezentatívnosť.

Každá úloha prešla viacstupňovým procesom kontroly, aby sa zabezpečilo, že je reprezentatívna pre skutočnú prácu, je uskutočniteľná pre iného profesionála a je vhodná na hodnotenie. V priemere bola každá úloha podrobená 5 kolám odborného preskúmania, vrátane kontrol od iných autorov úloh, ďalších odborných recenzentov a validácie na základe modelu.

Výsledný súbor údajov obsahuje 30 plne preskúmaných úloh na povolanie (úplný súbor) s 5 úlohami na povolanie v našom zlatom súbore s otvoreným zdrojovým kódom, čo poskytuje robustný základ pre hodnotenie výkonnosti modelu v znalostnej práci v reálnom svete.

Príklady úloh GDPval

Príkaz + kontext úlohy

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Skúsený ľudský výstup

Rozložený pohľad na návrh káblového navijaka

Každú úlohu v GDPval navrhol skúsený odborník a odráža skutočné znalosti získané v jeho povolaní. Príkaz je realistická pracovná úloha vytvorená odborníkom na doménu a zlatým výstupom je vlastné riešenie odborníka.

Ako hodnotíme výkonnosť modelu

Na hodnotenie výkonnosti modelu pri úlohách GDPval sa spoliehame na odborných „hodnotiteľov“—skupinu skúsených profesionálov z rovnakých povolaní zastúpených v dátovej množine. Títo hodnotitelia slepo porovnávajú výstupy generované modelom s výstupmi vytvorenými autormi úloh (bez toho, aby vedeli, ktorý z nich je vytvorený umelou inteligenciou alebo ktorý je vytvorený človekom) a ponúkajú kritiku a hodnotenie. Hodnotitelia potom zoradia výstupy vytvorené ľuďmi a umelou inteligenciou a klasifikujú každý výstup umelej inteligencie ako „lepší“, „rovnako dobrý ako“ alebo „horší“ ako ten druhý.

Autori úloh tiež vytvorili podrobné hodnotiace rubriky pre svoje povolania, ktoré zvyšujú konzistentnosť a transparentnosť procesu hodnotenia. Taktiež sme vytvorili „automatizovaného hodnotiteľa“, systém umelej inteligencie trénovaný na odhadovanie toho, ako by ľudskí experti posúdili daný výstup. Inými slovami, namiesto vykonávania úplnej odbornej kontroly zakaždým môže automatizovaný hodnotiteľ rýchlo predpovedať, ktorý výstup by ľudia pravdepodobne uprednostnili. Tento nástroj sprístupňujeme na stránke evals.openai.com ako experimentálnu výskumnú službu, ale zatiaľ nie je taký spoľahlivý ako odborníci na hodnotenie, takže ho nepoužívame ako ich náhradu.

Prvé výsledky

Zistili sme, že dnešné najlepšie pokročilé modely sa už blížia ku kvalite práce, ktorú produkujú odborníci z odvetvia. Aby sme to otestovali, vykonali sme slepé hodnotenia, v ktorých odborníci z odvetvia porovnávali výsledky niekoľkých popredných modelov – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro a Grok 4 – s prácou vytvorenou človekom. V rámci 220 úloh v zlatej sade GDPval sme zaznamenali, kedy boli výstupy modelu hodnotené ako lepšie („víťazstvá“) alebo na rovnakej úrovni („remízy“) ako výsledky od odborníkov z odvetvia, ako je znázornené v stĺpcovom grafe nižšie. Claude Opus 4.1 bol najlepším modelom v sade, vynikal najmä v estetike (napr. formátovanie dokumentu, rozloženie snímok) a GPT‑5 vynikal najmä v presnosti (napr. vyhľadávanie znalostí špecifických pre danú oblasť). V týchto úlohách tiež vidíme v priebehu času jasný pokrok. Výkonnosť sa od verzie GPT‑4o (vydanej na jar 2024) po GPT‑5 (vydanú v lete 2025) viac ako zdvojnásobil, pričom sleduje jasný lineárny trend.

Okrem toho sme zistili, že pokročilé modely dokážu dokončiť úlohy GDPval približne 100-krát rýchlejšie a 100-krát lacnejšie ako odborníci z odvetvia. Tieto čísla však odrážajú čistý čas inferencie modelu a sadzby fakturácie API, a preto nezahŕňajú kroky ľudského dohľadu, iterácie a integrácie, ktoré sú potrebné v reálnych pracovných prostrediach na používanie našich modelov. Napriek tomu, najmä v podmnožine úloh, kde sú modely obzvlášť silné, očakávame, že zadaním úlohy modelu pred jej skúšaním s človekom by sme ušetrili čas a peniaze.

Odborníci na hodnotenie porovnávali výstupy od popredných modelov s výstupmi od ľudských expertov. Dnešné najlepšie pokročilé modely sa už blížia ku kvalite práce, ktorú produkujú odborníci z odvetvia. Claude Opus 4.1 dosiahol v necelej polovici úloh výstupy hodnotené rovnako dobre alebo lepšie ako ľudské.

Od GPT‑4o po GPT‑5 sa výkonnosť úloh GDPval za rok viac ako strojnásobila.

Nakoniec sme postupne trénovali internú, experimentálnu verziu GPT‑5, aby sme posúdili, či by sme mohli zlepšiť výkonnosť na GDPval. Zistili sme, že tento proces zlepšil výkon a vytvoril cestu pre ďalšie potenciálne zlepšenie. Potvrdzujú to aj ďalšie kontrolované experimenty: zväčšenie veľkosti modelu, podpora viacerých krokov myslenia a poskytnutie bohatšieho kontextu úlohy viedlo k merateľným ziskom.

Kompletné výsledky si môžete prečítať v našich novinách. Taktiež vydávame zlatú podmnožinu úloh GDPval a verejnú službu hodnotenia, aby na tejto práci mohli stavať aj ďalší výskumníci.

Budúcnosť práce a umelej inteligencie

S rastúcimi schopnosťami umelej inteligencie pravdepodobne dôjde k zmenám na trhu práce. Prvé výsledky GDPval ukazujú, že modely už dokážu zvládnuť niektoré opakujúce sa, dobre špecifikované úlohy rýchlejšie a za nižšie náklady ako experti. Väčšina pracovných miest je však viac než len súbor úloh, ktoré sa dajú zapísať. GDPval zdôrazňuje, kde dokáže umelá inteligencia zvládnuť rutinné úlohy, aby ľudia mohli tráviť viac času kreatívnymi časťami práce, ktoré sú náročné na posudzovanie. Keď umelá inteligencia takto dopĺňa pracovníkov, môže sa to premietnuť do významného hospodárskeho rastu. Naším cieľom je udržať všetkých vo "výťahu nahor" v oblasti umelej inteligencie tým, že demokratizujeme prístup k týmto nástrojom, podporujeme pracovníkov počas zmien a budujeme systémy, ktoré odmeňujú široký prínos.

Obmedzenia a ďalšie kroky

GDPval je počiatočným krokom. Hoci sa vzťahuje na 44 povolaní a stovky úloh, náš prístup neustále zdokonaľujeme, aby sme rozšírili rozsah nášho testovania a aby boli výsledky zmysluplnejšie. Aktuálna verzia hodnotenia je tiež jednorazová, takže nezahŕňa prípady, v ktorých by bolo potrebné, aby model vybudoval kontext alebo vylepšil sa prostredníctvom viacerých návrhov – napríklad revízia právneho dokumentu po spätnej väzbe od klienta alebo iterácia analýzy údajov po zistení anomálie. Navyše, v reálnom svete nie sú úlohy vždy jasne definované pomocou výzvy a referenčných súborov; napríklad právnik sa môže musieť vyrovnať s nejasnosťami a porozprávať sa so svojím klientom, kým sa rozhodne, že vytvorenie právneho dokumentu je ten správny prístup, ktorý mu pomôže. Plánujeme rozšíriť GDPval tak, aby zahŕňal viac povolaní, odvetví a typov úloh so zvýšenou interaktivitou a viac úlohami zahŕňajúcimi prekonávanie nejednoznačností s dlhodobým cieľom lepšieho merania pokroku v práci s rozmanitými znalosťami.

Zapojte sa

Ak ste odborníkom z odvetvia a máte záujem prispieť k GDPval, prejavte svoj záujem tu.
Ak ste zákazníkom pracujúcim s OpenAI a chceli by ste prispieť k budúcemu kolu GDPval, vyjadrite svoj záujem tu.

Účasť komunity je nevyhnutná—sme nadšení, že môžeme spolupracovať na budovaní GDPval s výskumníkmi, odborníkmi a organizáciami, ktoré zdieľajú náš cieľ urobiť všeobecnú umelú inteligenciu (AGI) užitočnejšou pre ľudí v práci.

Autor

OpenAI

Pokračovať v čítaní

Zobraziť všetko

GPT-Red: odomknutie sebazlepšovania pre robustnosť

Bezpečnosť15. 7. 2026

Oddelenie signálu od šumu v hodnoteniach programovania

Vyhľadávanie8. 7. 2026

Predstavujeme GeneBench-Pro

Vyhľadávanie30. 6. 2026