Měření výkonnosti našich modelů při plnění úkolů v reálném světě
Představujeme GDPval, nové hodnocení, které měří výkonnost modelu na ekonomicky významných úkolech v reálném světě napříč 44 povoláními.
Naším posláním je zajistit, aby obecná umělá inteligence sloužila ve prospěch celému lidstvu. V rámci našeho poslání chceme transparentně informovat o pokroku v tom, jak mohou modely umělé inteligence pomáhat lidem v reálném světě. Proto zavádíme GDPval: nové hodnocení určené k tomu, abychom mohli sledovat, jak dobře naše modely a další modely plní ekonomicky významné úkoly v reálném světě. Toto hodnocení nazýváme GDPval, protože jsme začali s konceptem hrubého domácího produktu (GDP) jako klíčového ekonomického ukazatele a čerpali úkoly z klíčových profesí v odvětvích, která nejvíce přispívají k hrubému domácímu produktu.
Lidé často spekulují o širším vlivu působení AI na společnost, ale nejjasnější způsob, jak pochopit její potenciál, je podívat se na to, co modely už umí. Historie ukazuje, že hlavní technologie – od internetu po chytré telefony – potřebovaly více než deset let, aby se rozšířily od vynálezu k širokému přijetí. Hodnocení jako GDPval pomáhají zakotvit konverzace o budoucích vylepšeních AI v důkazech spíše než v odhadech a mohou nám pomoci sledovat zlepšování modelu v průběhu času.
Předchozí hodnocení AI, jako jsou náročné akademické testy a soutěžní programátorské výzvy, byla zásadní při posouvání hranic schopností odůvodňování u modelů, ale často nedosahují úrovně úkolů, které mnoho lidí řeší v každodenní práci.
Abychom překlenuli tuto mezeru, vyvíjíme hodnocení, která měří stále realističtější a ekonomicky relevantní schopnosti. Tento vývoj se posunul od klasických akademických měřítek, jako je MMLU (otázky ve stylu zkoušek napříč desítkami předmětů), k více aplikovaným hodnocením, jako je SWE-Bench (úkoly na opravu chyb v softwarovém inženýrství), MLE-Bench (úkoly strojového učení, jako je školení modelů a analýza), a Paper-Bench (vědecké odůvodňování a kritika výzkumných prací), a nedávno k hodnocením založeným na trhu, jako je SWE-Lancer (freelance projekty softwarového inženýrství založené na skutečných přínosech).
GDPval je dalším krokem v této posloupnosti. Měří výkonnost modelu na úkolech přímo vycházejících ze znalostní práce z reálného světa zkušených profesionálů napříč širokou škálou povolání a sektorů, což poskytuje jasnější obraz o tom, jak modely fungují na ekonomicky relevantních úkolech. Hodnocení modelů na pracovních úkolech z reálného světa nám pomáhá pochopit nejen to, jak dobře si vedou v laboratoři, ale také jak mohou podpořit lidi při práci, kterou lidé vykonávají každý den.
GDPval, první verze tohoto hodnocení, zahrnuje 44 povolání vybraných z 9 nejvýznamnějších odvětví přispívajících k HDP USA. Kompletní sada GDPval zahrnuje 1 320 specializovaných úkolů (220 v otevřeně dostupné zlaté sadě), z nichž každý je pečlivě vytvořen a ověřen zkušenými profesionály s průměrně více než 14 lety zkušeností v těchto oborech. Každý úkol je založen na reálných pracovních produktech, jako je právní dokument, technický projekt, konverzace se zákaznickou podporou nebo plán ošetřovatelské péče.
Hodnocení GDPval je výjimečné jak svým realismem, tak rozmanitostí hodnocených úkolů. Na rozdíl od jiných hodnocení spojených s ekonomickou hodnotou, která se soustředí na specifické domény (např. SWE-Lancer), GDPval pokrývá mnoho úkolů a povolání. Na rozdíl od srovnávacích testů, které zahrnují syntetické vytváření úkolů ve stylu akademické zkoušky nebo testu (např. Humanity’s Last Exam nebo MMLU), zaměřuje se GDPval na úkoly založené na výstupech, které jsou buď skutečným dílem nebo produktem, jaký dnes existuje, nebo jsou podobně konstruovaným dílem.
Na rozdíl od tradičních srovnávacích testů nejsou úkoly GDPval jednoduchými textovými prompty. Přicházejí s referenčními soubory a kontextem a očekávané výstupy zahrnují dokumenty, prezentace, diagramy, tabulky a multimédia. Tento realismus činí z GDPval realističtější test toho, jak mohou modely poskytovat podporu profesionálům.
GDPval je počátečním krokem, který neodráží všechny nuance mnoha ekonomických úkolů. Ačkoli pokrývá 44 povolání a stovky znalostních úkolů, je omezen na jednorázová hodnocení, takže nezachycuje případy, kdy by model potřeboval budovat kontext nebo se zlepšovat prostřednictvím více návrhů. Budoucí verze se rozšíří na interaktivnější pracovní postupy a úkoly bohaté na kontext, aby lépe odrážely složitost znalostní práce v reálném světě (více viz níže v naší sekci Omezení).
GDPval pokrývá úkoly napříč 9 odvětvími a 44 profesemi a budoucí verze budou pokračovat v rozšiřování pokrytí. Počátečních 9 odvětví bylo vybráno na základě těch, které přispívají více než 5 % k HDP USA, jak bylo vybráno podle údajů Federální rezervní banky v St. Louis. Poté jsme vybrali 5 povolání v každém odvětví, která nejvíce přispívají k celkovým mzdám a odměnám a jsou převážně povoláními založenými na znalostech, s využitím údajů o mzdách a zaměstnanosti z květnové zprávy o zaměstnanosti podle povolání zpracovaného americkým Úřadem pro statistiku práce (BLS) z roku 2024(otevře se v novém okně). Abychom zjistili, zda byla povolání převážně založená na znalostní práci, použili jsme údaje o úkolech z O*NET(otevře se v novém okně), databáze informací o povoláních v USA, kterou sponzoruje Ministerstvo práce USA. Klasifikovali jsme, zda každý úkol pro každé povolání v databázi O*NET vyžadoval znalostní práci nebo fyzickou/manuální práci (vyžadující akce ve fyzickém světě). Povolání je celkově kvalifikováno jako „převážně znalostní práce“, pokud alespoň 60 % jeho komponentních úkolů je klasifikováno jako nezahrnující fyzickou nebo manuální práci. Tuto 60% hranici jsme zvolili jako výchozí bod pro první verzi hodnocení GDPval, zaměřující se na povolání, kde by AI mohla mít největší vliv na produktivitu v reálném světě.
Tento proces přinesl 44 povolání k zařazení.
Nemovitosti, pronájem a leasing
Domovníci a recepční
Manažeři nemovitostí, realit a správy společenství
Realitní agenti
Realitní makléři
Prodavači na přepážkách a v půjčovnách
Vláda
Pracovníci v oblasti rekreace
Pracovníci odpovědní za dodržování předpisů
Vedoucí pracovníci policie a detektivů
Manažeři administrativních služeb
Sociální pracovníci pro děti, rodiny a školy
Výroba
Strojní inženýři
Průmysloví inženýři
Kupující a nákupčí
Pracovníci expedice, příjmu a skladníci
Předáci výrobních a provozních pracovníků
Odborné, vědecké a technické služby
Softwaroví vývojáři
Právníci
Účetní a auditoři
Manažeři počítačových a informačních systémů
Specialisté na řízení projektů
Zdravotní péče a sociální asistence
Registrované sestry
Zdravotní praktikantky
Manažeři lékařských a zdravotních služeb
Vedoucí pracovníci první linie kancelářských a administrativních pracovníků podpory
Lékařské sekretářky a administrativní asistenti
Finance a pojištění
Zástupci zákaznické podpory
Finanční a investiční analytici
Finanční manažeři
Osobní finanční poradci
Obchodní zástupci pro prodej cenných papírů, komodit a finanční služby
Maloobchod
Lékárníci
Vedoucí pracovníci při prodeji v maloobchodě
Obecní a provozní manažeři
Soukromí detektivové a vyšetřovatelé
Velkoobchod
Obchodní manažeři
Referenti pro objednávky
Vedoucí pracovníků první linie prodeje mimo maloobchod
Obchodní zástupci, velkoobchod a výroba, kromě technických a vědeckých produktů
Obchodní zástupci, velkoobchod a výroba, technické a vědecké produkty
Informace
Technici audia a videa
Producenti a režiséři
Analytici, reportéři a novináři
Střihači filmů a videa
Redaktoři
U každého povolání jsme spolupracovali se zkušenými profesionály na vytvoření reprezentativních úkolů, které odrážejí jejich každodenní práci. Tito profesionálové měli v průměru 14 let zkušeností a silné záznamy o postupu v kariéře. Záměrně jsme najali široké spektrum odborníků – například právníky z různých oblastí praxe a z firem různých velikostí – abychom maximalizovali reprezentativnost.
Každý úkol prošel vícestupňovým procesem kontroly, aby bylo zajištěno, že je reprezentativní pro skutečnou práci, proveditelný pro jiného profesionála a jasný při hodnocení. V průměru každý úkol prošel 5 koly odborné kontroly včetně kontrol od jiných autorů úkolů, dalších odborných recenzentů a validace na základě modelu.
Výsledná datová sada zahrnuje 30 plně zkontrolovaných úkolů na každé povolání (úplná sada) a 5 úkolů na každé povolání v naší otevřené zlaté sadě, což poskytuje robustní základ pro hodnocení výkonnosti modelu ve znalostní práci v reálném světě.
Příklady úkolů GDPval
prompt + kontext úkolu
Zkušený lidský výstup

K vyhodnocení výkonnosti modelu na úkolech GDPval se spoléháme na odborné „hodnotitele“ – skupinu zkušených profesionálů ze stejných profesí zastoupených v datové sadě. Tito hodnotitelé naslepo porovnávají výstupy generované modelem s těmi, které vytvořili autoři úkolů (aniž by věděli, které jsou generovány AI a které člověkem), a nabízejí kritiku a hodnocení. Hodnotitelé pak seřadí lidské a AI výstupy a klasifikují každý AI výstup jako „lepší“, „stejně dobrý“ nebo „horší“ než ostatní.
Autoři úkolů také vytvořili podrobné hodnotící rubriky pro své povolání, které přidávají konzistentnost a transparentnost do procesu hodnocení. Také jsme vytvořili „automatizovaného hodnotitele“, což je systém umělé inteligence, který je vyškolen k odhadu, jak by lidský odborník posoudil daný výstup. Jinými slovy – namísto provádění úplné odborné kontroly může automatický hodnotitel pokaždé rychle předpovědět, který výstup by lidé pravděpodobně upřednostnili. Tento nástroj uvolňujeme na evals.openai.com jako experimentální výzkumnou službu, ale zatím není tak spolehlivý jako odborní hodnotitelé, takže ho nepoužíváme, abychom je nahradili.
Zjistili jsme, že dnešní nejlepší pokročilé modely se již blíží kvalitě práce, kterou přinášejí odborníci v oboru. Abychom to otestovali, provedli jsme slepé hodnocení, kde odborníci z oboru porovnávali výstupy z několika předních modelů – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro a Grok 4 – s prací vytvořenou lidmi. V rámci 220 úkolů ve zlatém souboru GDPval jsme zaznamenali, kdy byly výstupy modelu hodnoceny jako lepší než („výhry“) nebo na stejné úrovni („vazby“) jako dodávky od odborníků z oboru, jak je znázorněno v níže uvedeném sloupcovém grafu. Nejlépe hodnoceným modelem v sadě byl Claude Opus 4.1, vynikal zejména v estetice (např. formátování dokumentů, rozložení snímků prezentace) a GPT‑5 vynikal zejména v přesnosti (např. vyhledávání znalostí specifických pro doménu). V průběhu času také vidíme na těchto úkolech jasný pokrok. Z GPT‑4o (vydaného na jaře 2024) na GPT‑5 (vydaného v létě 2025) se výkonnost více než zdvojnásobila, což vyjadřuje jasný lineární trend.
Kromě toho jsme zjistili, že pokročilé modely mohou dokončit úkoly GDPval přibližně 100x rychleji a 100x levněji než odborníci z průmyslu. Tyto údaje však odrážejí pouze čistý čas inferencí modelu a sazby účtování API, a proto nezachycují lidský dohled, iteraci a integrační kroky nutné v reálném pracovním prostředí k použití našich modelů. Zejména u podmnožiny úkolů, kde jsou modely obzvláště silné, však očekáváme, že zadání úkolu modelu před jeho vyzkoušením s člověkem by ušetřilo čas a peníze.
Odborní hodnotitelé porovnali výstupy od předních modelů s lidskými odborníky. Dnešní pokročilé modely se již blíží kvalitě práce produkované odborníky v oboru. Claude Opus 4.1 produkoval výstupy hodnocené stejně dobře nebo lépe než lidé v necelé polovině úkolů.
Od GPT‑4o k GPT‑5 se za rok výkonnost na úkolech GDPval více než ztrojnásobila.
Nakonec jsme postupně vytrénovali interní, experimentální verzi GPT‑5, abychom vyhodnotili, zda dokážeme zlepšit výkon na GDPval. Zjistili jsme, že tento proces zlepšil výkonnost, čímž vytvořil cestu k dalšímu možnému zlepšování. Další kontrolované experimenty to potvrzují: zvětšení velikosti modelu, podpora více kroků odůvodňování a poskytnutí bohatšího kontextu úkolu vedly k měřitelným zlepšením.
Úplné výsledky si můžeš přečíst v našem dokumentu. Také vydáváme zlatou podmnožinu úkolů GDPval a veřejnou službu hodnocení, aby na této práci mohli stavět i další výzkumní pracovníci.
Jak se AI stává schopnější, pravděpodobně způsobí změny na trhu práce. První výsledky GDPval ukazují, že modely již mohou převzít některé opakující se, dobře definované úkoly rychleji a za nižší náklady než odborníci. Většina pracovních míst však je více než jen soubor úkolů, které lze sepsat. GDPval zdůrazňuje, kde AI může zvládnout rutinní úkoly, aby lidé mohli trávit více času na kreativních částech práce s velkým podílem úsudku. Když AI tímto způsobem doplňuje pracovníky, může se to projevit na významném hospodářském růstu. Naším cílem je udržet všechny ve „výtahu AI nahoru“ tím, že demokratizujeme přístup k těmto nástrojům, podporujeme pracovníky během změn a budujeme systémy, které odměňují široký přínos.
GDPval je počátečním krokem. Ačkoli pokrývá 44 povolání a stovky úkolů, pokračujeme ve zdokonalování našeho přístupu, abychom rozšířili rozsah našeho testování a učinili výsledky užitečnějšími. Současná verze hodnocení je také jednorázová, takže nezachycuje případy, kdy by model potřeboval budovat kontext nebo se zlepšovat prostřednictvím více konceptů –například při revizi právního dokumentu na základě zpětné vazby od klienta nebo při iteraci analýzy dat po zjištění anomálie. Ve skutečném světě navíc nebývají úkoly vždy jasně definovány pomocí promptu a referenčních souborů; například právník může být nucen manévrovat v nejasnostech a mluvit se svým klientem, než se rozhodne, že vytvoření právního dokumentu je správným přístupem, jak mu pomoci. Hodnocení GDPval plánujeme rozšířit tak, aby zahrnovalo více povolání, odvětví a typů úkolů, s vyšší interaktivitou a větším počtem úkolů zahrnujících manévrování v nejasnostech, s dlouhodobým cílem lépe měřit pokrok v různorodé znalostní práci.
- Pokud jsi odborník v oboru a máš zájem přispět k GDPval, projev svůj zájem zde.
- Pokud jsi zákazníkem spolupracujícím s OpenAI a chtěl bys přispět do budoucího kola GDPval, vyjádři svůj zájem zde.
Účast komunity je zásadní – těšíme se, že budeme budovat GDPval společně s výzkumnými pracovníky, praktiky a organizacemi, které sdílejí náš cíl učinit AGI užitečnější pro lidi v práci.


