25. září 2025

Měření výkonnosti našich modelů při plnění úkolů v reálném světě

Představujeme GDPval, nové hodnocení, které měří výkonnost modelu na ekonomicky významných úkolech v reálném světě napříč 44 povoláními.

Přečti si článek Navštiv evals.openai.com

Naším posláním je zajistit, aby obecná umělá inteligence sloužila ve prospěch celému lidstvu. V rámci našeho poslání chceme transparentně informovat o pokroku v tom, jak mohou modely umělé inteligence pomáhat lidem v reálném světě. Proto zavádíme GDPval: nové hodnocení určené k tomu, abychom mohli sledovat, jak dobře naše modely a další modely plní ekonomicky významné úkoly v reálném světě. Toto hodnocení nazýváme GDPval, protože jsme začali s konceptem hrubého domácího produktu (GDP) jako klíčového ekonomického ukazatele a čerpali úkoly z klíčových profesí v odvětvích, která nejvíce přispívají k hrubému domácímu produktu.

Lidé často spekulují o širším vlivu působení AI na společnost, ale nejjasnější způsob, jak pochopit její potenciál, je podívat se na to, co modely už umí. Historie ukazuje, že hlavní technologie – od internetu po chytré telefony – potřebovaly více než deset let, aby se rozšířily od vynálezu k širokému přijetí. Hodnocení jako GDPval pomáhají zakotvit konverzace o budoucích vylepšeních AI v důkazech spíše než v odhadech a mohou nám pomoci sledovat zlepšování modelu v průběhu času.

Předchozí hodnocení AI, jako jsou náročné akademické testy a soutěžní programátorské výzvy, byla zásadní při posouvání hranic schopností odůvodňování u modelů, ale často nedosahují úrovně úkolů, které mnoho lidí řeší v každodenní práci.

Abychom překlenuli tuto mezeru, vyvíjíme hodnocení, která měří stále realističtější a ekonomicky relevantní schopnosti. Tento vývoj se posunul od klasických akademických měřítek, jako je MMLU (otázky ve stylu zkoušek napříč desítkami předmětů), k více aplikovaným hodnocením, jako je SWE-Bench (úkoly na opravu chyb v softwarovém inženýrství), MLE-Bench (úkoly strojového učení, jako je školení modelů a analýza), a Paper-Bench (vědecké odůvodňování a kritika výzkumných prací), a nedávno k hodnocením založeným na trhu, jako je SWE-Lancer (freelance projekty softwarového inženýrství založené na skutečných přínosech).

GDPval je dalším krokem v této posloupnosti. Měří výkonnost modelu na úkolech přímo vycházejících ze znalostní práce z reálného světa zkušených profesionálů napříč širokou škálou povolání a sektorů, což poskytuje jasnější obraz o tom, jak modely fungují na ekonomicky relevantních úkolech. Hodnocení modelů na pracovních úkolech z reálného světa nám pomáhá pochopit nejen to, jak dobře si vedou v laboratoři, ale také jak mohou podpořit lidi při práci, kterou lidé vykonávají každý den.

Co měří GDPval

GDPval, první verze tohoto hodnocení, zahrnuje 44 povolání vybraných z 9 nejvýznamnějších odvětví přispívajících k HDP USA. Kompletní sada GDPval zahrnuje 1 320 specializovaných úkolů (220 v otevřeně dostupné zlaté sadě), z nichž každý je pečlivě vytvořen a ověřen zkušenými profesionály s průměrně více než 14 lety zkušeností v těchto oborech. Každý úkol je založen na reálných pracovních produktech, jako je právní dokument, technický projekt, konverzace se zákaznickou podporou nebo plán ošetřovatelské péče.

Hodnocení GDPval je výjimečné jak svým realismem, tak rozmanitostí hodnocených úkolů. Na rozdíl od jiných hodnocení spojených s ekonomickou hodnotou, která se soustředí na specifické domény (např. SWE-Lancer), GDPval pokrývá mnoho úkolů a povolání. Na rozdíl od srovnávacích testů, které zahrnují syntetické vytváření úkolů ve stylu akademické zkoušky nebo testu (např. Humanity’s Last Exam nebo MMLU), zaměřuje se GDPval na úkoly založené na výstupech, které jsou buď skutečným dílem nebo produktem, jaký dnes existuje, nebo jsou podobně konstruovaným dílem.

Na rozdíl od tradičních srovnávacích testů nejsou úkoly GDPval jednoduchými textovými prompty. Přicházejí s referenčními soubory a kontextem a očekávané výstupy zahrnují dokumenty, prezentace, diagramy, tabulky a multimédia. Tento realismus činí z GDPval realističtější test toho, jak mohou modely poskytovat podporu profesionálům.

GDPval je počátečním krokem, který neodráží všechny nuance mnoha ekonomických úkolů. Ačkoli pokrývá 44 povolání a stovky znalostních úkolů, je omezen na jednorázová hodnocení, takže nezachycuje případy, kdy by model potřeboval budovat kontext nebo se zlepšovat prostřednictvím více návrhů. Budoucí verze se rozšíří na interaktivnější pracovní postupy a úkoly bohaté na kontext, aby lépe odrážely složitost znalostní práce v reálném světě (více viz níže v naší sekci Omezení).

Jak jsme si vybírali povolání

GDPval pokrývá úkoly napříč 9 odvětvími a 44 profesemi a budoucí verze budou pokračovat v rozšiřování pokrytí. Počátečních 9 odvětví bylo vybráno na základě těch, které přispívají více než 5 % k HDP USA, jak bylo vybráno podle údajů Federální rezervní banky v St. Louis. Poté jsme vybrali 5 povolání v každém odvětví, která nejvíce přispívají k celkovým mzdám a odměnám a jsou převážně povoláními založenými na znalostech, s využitím údajů o mzdách a zaměstnanosti z květnové zprávy o zaměstnanosti podle povolání zpracovaného americkým Úřadem pro statistiku práce (BLS) z roku 2024⁠(otevře se v novém okně). Abychom zjistili, zda byla povolání převážně založená na znalostní práci, použili jsme údaje o úkolech z O*NET⁠(otevře se v novém okně), databáze informací o povoláních v USA, kterou sponzoruje Ministerstvo práce USA. Klasifikovali jsme, zda každý úkol pro každé povolání v databázi O*NET vyžadoval znalostní práci nebo fyzickou/manuální práci (vyžadující akce ve fyzickém světě). Povolání je celkově kvalifikováno jako „převážně znalostní práce“, pokud alespoň 60 % jeho komponentních úkolů je klasifikováno jako nezahrnující fyzickou nebo manuální práci. Tuto 60% hranici jsme zvolili jako výchozí bod pro první verzi hodnocení GDPval, zaměřující se na povolání, kde by AI mohla mít největší vliv na produktivitu v reálném světě.

Tento proces přinesl 44 povolání k zařazení.

Nemovitosti, pronájem a leasing

Domovníci a recepční
Manažeři nemovitostí, realit a správy společenství
Realitní agenti
Realitní makléři
Prodavači na přepážkách a v půjčovnách

Vláda

Pracovníci v oblasti rekreace
Pracovníci odpovědní za dodržování předpisů
Vedoucí pracovníci policie a detektivů
Manažeři administrativních služeb
Sociální pracovníci pro děti, rodiny a školy

Výroba

Strojní inženýři
Průmysloví inženýři
Kupující a nákupčí
Pracovníci expedice, příjmu a skladníci
Předáci výrobních a provozních pracovníků

Odborné, vědecké a technické služby

Softwaroví vývojáři
Právníci
Účetní a auditoři
Manažeři počítačových a informačních systémů
Specialisté na řízení projektů

Zdravotní péče a sociální asistence

Registrované sestry
Zdravotní praktikantky
Manažeři lékařských a zdravotních služeb
Vedoucí pracovníci první linie kancelářských a administrativních pracovníků podpory
Lékařské sekretářky a administrativní asistenti

Finance a pojištění

Zástupci zákaznické podpory
Finanční a investiční analytici
Finanční manažeři
Osobní finanční poradci
Obchodní zástupci pro prodej cenných papírů, komodit a finanční služby

Maloobchod

Lékárníci
Vedoucí pracovníci při prodeji v maloobchodě
Obecní a provozní manažeři
Soukromí detektivové a vyšetřovatelé

Velkoobchod

Obchodní manažeři
Referenti pro objednávky
Vedoucí pracovníků první linie prodeje mimo maloobchod
Obchodní zástupci, velkoobchod a výroba, kromě technických a vědeckých produktů
Obchodní zástupci, velkoobchod a výroba, technické a vědecké produkty

Informace

Technici audia a videa
Producenti a režiséři
Analytici, reportéři a novináři
Střihači filmů a videa
Redaktoři

GDPval zahrnuje 44 profesí zaměřených na znalostní práci napříč 9 sektory – od softwarových vývojářů a právníků po registrované zdravotní sestry a strojní inženýry. Tato povolání byla vybrána pro jejich ekonomický význam a představují typy každodenní práce, kde může AI významně pomáhat profesionálům.

Jak jsme vytvořili datovou sadu

U každého povolání jsme spolupracovali se zkušenými profesionály na vytvoření reprezentativních úkolů, které odrážejí jejich každodenní práci. Tito profesionálové měli v průměru 14 let zkušeností a silné záznamy o postupu v kariéře. Záměrně jsme najali široké spektrum odborníků – například právníky z různých oblastí praxe a z firem různých velikostí – abychom maximalizovali reprezentativnost.

Každý úkol prošel vícestupňovým procesem kontroly, aby bylo zajištěno, že je reprezentativní pro skutečnou práci, proveditelný pro jiného profesionála a jasný při hodnocení. V průměru každý úkol prošel 5 koly odborné kontroly včetně kontrol od jiných autorů úkolů, dalších odborných recenzentů a validace na základě modelu.

Výsledná datová sada zahrnuje 30 plně zkontrolovaných úkolů na každé povolání (úplná sada) a 5 úkolů na každé povolání v naší otevřené zlaté sadě, což poskytuje robustní základ pro hodnocení výkonnosti modelu ve znalostní práci v reálném světě.

Příklady úkolů GDPval

prompt + kontext úkolu

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Zkušený lidský výstup

Rozložený náhled na návrh kabelového navijáku

Každý úkol v GDPval je navržen zkušeným profesionálem a odráží skutečnou znalostní práci z jejich povolání. Prompt je realistický pracovní úkol vytvořený odborníkem v dané doméně a zlatý výstup je řešení samotného odborníka.

Jak hodnotíme výkonnost modelu

K vyhodnocení výkonnosti modelu na úkolech GDPval se spoléháme na odborné „hodnotitele“ – skupinu zkušených profesionálů ze stejných profesí zastoupených v datové sadě. Tito hodnotitelé naslepo porovnávají výstupy generované modelem s těmi, které vytvořili autoři úkolů (aniž by věděli, které jsou generovány AI a které člověkem), a nabízejí kritiku a hodnocení. Hodnotitelé pak seřadí lidské a AI výstupy a klasifikují každý AI výstup jako „lepší“, „stejně dobrý“ nebo „horší“ než ostatní.

Autoři úkolů také vytvořili podrobné hodnotící rubriky pro své povolání, které přidávají konzistentnost a transparentnost do procesu hodnocení. Také jsme vytvořili „automatizovaného hodnotitele“, což je systém umělé inteligence, který je vyškolen k odhadu, jak by lidský odborník posoudil daný výstup. Jinými slovy – namísto provádění úplné odborné kontroly může automatický hodnotitel pokaždé rychle předpovědět, který výstup by lidé pravděpodobně upřednostnili. Tento nástroj uvolňujeme na evals.openai.com jako experimentální výzkumnou službu, ale zatím není tak spolehlivý jako odborní hodnotitelé, takže ho nepoužíváme, abychom je nahradili.

Rané výsledky

Zjistili jsme, že dnešní nejlepší pokročilé modely se již blíží kvalitě práce, kterou přinášejí odborníci v oboru. Abychom to otestovali, provedli jsme slepé hodnocení, kde odborníci z oboru porovnávali výstupy z několika předních modelů – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro a Grok 4 – s prací vytvořenou lidmi. V rámci 220 úkolů ve zlatém souboru GDPval jsme zaznamenali, kdy byly výstupy modelu hodnoceny jako lepší než („výhry“) nebo na stejné úrovni („vazby“) jako dodávky od odborníků z oboru, jak je znázorněno v níže uvedeném sloupcovém grafu. Nejlépe hodnoceným modelem v sadě byl Claude Opus 4.1, vynikal zejména v estetice (např. formátování dokumentů, rozložení snímků prezentace) a GPT‑5 vynikal zejména v přesnosti (např. vyhledávání znalostí specifických pro doménu). V průběhu času také vidíme na těchto úkolech jasný pokrok. Z GPT‑4o (vydaného na jaře 2024) na GPT‑5 (vydaného v létě 2025) se výkonnost více než zdvojnásobila, což vyjadřuje jasný lineární trend.

Kromě toho jsme zjistili, že pokročilé modely mohou dokončit úkoly GDPval přibližně 100x rychleji a 100x levněji než odborníci z průmyslu. Tyto údaje však odrážejí pouze čistý čas inferencí modelu a sazby účtování API, a proto nezachycují lidský dohled, iteraci a integrační kroky nutné v reálném pracovním prostředí k použití našich modelů. Zejména u podmnožiny úkolů, kde jsou modely obzvláště silné, však očekáváme, že zadání úkolu modelu před jeho vyzkoušením s člověkem by ušetřilo čas a peníze.

Odborní hodnotitelé porovnali výstupy od předních modelů s lidskými odborníky. Dnešní pokročilé modely se již blíží kvalitě práce produkované odborníky v oboru. Claude Opus 4.1 produkoval výstupy hodnocené stejně dobře nebo lépe než lidé v necelé polovině úkolů.

Od GPT‑4o k GPT‑5 se za rok výkonnost na úkolech GDPval více než ztrojnásobila.

Nakonec jsme postupně vytrénovali interní, experimentální verzi GPT‑5, abychom vyhodnotili, zda dokážeme zlepšit výkon na GDPval. Zjistili jsme, že tento proces zlepšil výkonnost, čímž vytvořil cestu k dalšímu možnému zlepšování. Další kontrolované experimenty to potvrzují: zvětšení velikosti modelu, podpora více kroků odůvodňování a poskytnutí bohatšího kontextu úkolu vedly k měřitelným zlepšením.

Úplné výsledky si můžeš přečíst v našem dokumentu. Také vydáváme zlatou podmnožinu úkolů GDPval a veřejnou službu hodnocení, aby na této práci mohli stavět i další výzkumní pracovníci.

Budoucnost práce a umělé inteligence

Jak se AI stává schopnější, pravděpodobně způsobí změny na trhu práce. První výsledky GDPval ukazují, že modely již mohou převzít některé opakující se, dobře definované úkoly rychleji a za nižší náklady než odborníci. Většina pracovních míst však je více než jen soubor úkolů, které lze sepsat. GDPval zdůrazňuje, kde AI může zvládnout rutinní úkoly, aby lidé mohli trávit více času na kreativních částech práce s velkým podílem úsudku. Když AI tímto způsobem doplňuje pracovníky, může se to projevit na významném hospodářském růstu. Naším cílem je udržet všechny ve „výtahu AI nahoru“ tím, že demokratizujeme přístup k těmto nástrojům, podporujeme pracovníky během změn a budujeme systémy, které odměňují široký přínos.

Omezení a co bude dál

GDPval je počátečním krokem. Ačkoli pokrývá 44 povolání a stovky úkolů, pokračujeme ve zdokonalování našeho přístupu, abychom rozšířili rozsah našeho testování a učinili výsledky užitečnějšími. Současná verze hodnocení je také jednorázová, takže nezachycuje případy, kdy by model potřeboval budovat kontext nebo se zlepšovat prostřednictvím více konceptů –například při revizi právního dokumentu na základě zpětné vazby od klienta nebo při iteraci analýzy dat po zjištění anomálie. Ve skutečném světě navíc nebývají úkoly vždy jasně definovány pomocí promptu a referenčních souborů; například právník může být nucen manévrovat v nejasnostech a mluvit se svým klientem, než se rozhodne, že vytvoření právního dokumentu je správným přístupem, jak mu pomoci. Hodnocení GDPval plánujeme rozšířit tak, aby zahrnovalo více povolání, odvětví a typů úkolů, s vyšší interaktivitou a větším počtem úkolů zahrnujících manévrování v nejasnostech, s dlouhodobým cílem lépe měřit pokrok v různorodé znalostní práci.

Zapoj se

Pokud jsi odborník v oboru a máš zájem přispět k GDPval, projev svůj zájem zde.
Pokud jsi zákazníkem spolupracujícím s OpenAI a chtěl bys přispět do budoucího kola GDPval, vyjádři svůj zájem zde.

Účast komunity je zásadní – těšíme se, že budeme budovat GDPval společně s výzkumnými pracovníky, praktiky a organizacemi, které sdílejí náš cíl učinit AGI užitečnější pro lidi v práci.

Autor

OpenAI

Pokračuj ve čtení

Zobrazit vše

GPT-Red: Sebezlepšování pro robustnost

Bezpečnost15. 7. 2026

Oddělování signálu od šumu v hodnocení programování

Výzkum8. 7. 2026

Představujeme GeneBench-Pro

Výzkum30. 6. 2026