Мерење учинка наших модела на задацима из стварног света
Представљамо GDPval, нову евалуацију која мери учинак модела на економски вредним задацима из стварног света у 44 занимања.
Наша мисија је да обезбедимо да општа вештачка интелигенција користи целом човечанству. Као део те мисије, желимо да транспарентно комуницирамо напредак у томе како AI модели могу да помажу људима у стварном свету. Зато представљамо GDPval: нову евалуацију осмишљену да нам помогне да пратимо колико добро наши и други модели обављају економски вредне задатке из стварног света. Ову евалуацију зовемо GDPval зато што смо пошли од концепта бруто домаћег производа (GDP) као кључног економског показатеља и извукли задатке из кључних занимања у индустријама које највише доприносе GDP-у.
Људи често спекулишу о ширем утицају AI-а на друштво, али најјаснији начин да се разуме његов потенцијал јесте да се погледа шта су модели већ сада способни да раде. Историја показује да је великим технологијама — од интернета до паметних телефона — било потребно више од деценије да пређу пут од изума до широке примене. Евалуације као што је GDPval помажу да се разговори о будућим побољшањима AI-а утемеље у доказима, а не у нагађањима, и могу нам помоћи да пратимо напредак модела током времена.
Претходне AI евалуације, као што су захтевни академски тестови и такмичарски изазови у програмирању, биле су кључне за померање граница способности моделa за резоновање, али често не обухватају врсту задатака којима се многи људи баве у свакодневном послу.
Да бисмо премостили тај јаз, развијамо евалуације које мере све реалистичније и економски релевантније способности. Тај напредак се кретао од класичних академских мерила као што је MMLU (питања у стилу испита из више десетина области), до примењенијих евалуација као што су SWE-Bench (задаци исправљања грешака у софтверском инжењерству), MLE-Bench (задаци машинског учења као што су тренирање и анализа модела) и Paper-Bench (научно резоновање и критика истраживачких радова), а у новије време и до тржишно заснованих евалуација као што је SWE-Lancer (фриленс пројекти софтверског инжењерства засновани на стварним исплатама).
GDPval је следећи корак у том развоју. Он мери учинак модела на задацима директно преузетим из стварног интелектуалног рада искусних стручњака из широког спектра занимања и сектора, пружајући јаснију слику о томе како модели раде на економски вредним задацима. Оцењивање модела на реалистичним професионалним задацима помаже нам да разумемо не само колико добро раде у лабораторији, већ и како би могли да подрже људе у послу који свакодневно обављају.
GDPval, прва верзија ове евалуације, обухвата 44 занимања одабрана из 9 водећих индустрија које доприносе америчком GDP-у. Комплетан GDPval скуп укључује 1.320 специјализованих задатака (220 у златном скупу отвореног кода), од којих је сваки пажљиво осмишљен и проверен од стране искусних стручњака са у просеку више од 14 година искуства у тим областима. Сваки задатак заснован је на стварним радним производима, као што су правни поднесак, инжењерски нацрт, разговор са корисничком подршком или план неге пацијента.
GDPval је посебан и по реалистичности и по разноврсности задатака који се оцењују. За разлику од других евалуација повезаних с економском вредношћу које су концентрисане на одређене домене (нпр. SWE-Lancer), GDPval обухвата много задатака и занимања. А за разлику од мерила која укључују синтетичко креирање задатака у стилу академског испита или теста (нпр. Humanity’s Last Exam или MMLU), GDPval се фокусира на задатке засноване на резултатима који су или стварни радови или производи који данас постоје, или слично конструисани радни производи.
За разлику од традиционалних мерила, GDPval задаци нису једноставне текстуалне инструкције. Долазе са референтним датотекама и контекстом, а очекивани резултати обухватају документе, презентације, дијаграме, табеле и мултимедију. Ова реалистичност чини GDPval реалистичнијим тестом начина на који модели могу да подрже стручњаке.
GDPval је рани корак који не одражава у потпуности све нијансе многих економских задатака. Иако обухвата 44 занимања и стотине задатака интелектуалног рада, ограничен је на евалуације с једним примером, па не обухвата случајеве у којима би модел морао да изгради контекст или да се побољша кроз више нацрта. Будуће верзије ће се проширити на интерактивније токове рада и задатке богатије контекстом како би боље одражавале сложеност интелектуалног рада у стварном свету (више у одељку о ограничењима испод).
GDPval обухвата задатке из 9 индустрија и 44 занимања, а будуће верзије ће наставити да шире покривеност. Почетних 9 индустрија изабрано је на основу тога што свака доприноси са више од 5% америчког GDP-а, према подацима Банке федералних резерви Сент Луиса. Затим смо изабрали 5 занимања унутар сваке индустрије која највише доприносе укупним зарадама и накнадама и која су претежно занимања интелектуалног рада, користећи податке о зарадама и запослености из извештаја о запослености по занимањима америчког Бироа за статистику рада (BLS) за мај 2024.(отвара се у новом прозору) Да бисмо утврдили да ли су занимања претежно интелектуални рад, користили смо податке о задацима из O*NET-а(отвара се у новом прозору), базе података о занимањима у САД коју спонзорише америчко Министарство рада. Класификовали смо да ли је сваки задатак за свако занимање у O*NET-у интелектуални рад или физички рад/ручни рад (који захтева радње у физичком свету). Занимање је у целини квалификовано као „претежно интелектуални рад” ако је најмање 60% његових саставних задатака класификовано као задаци који не укључују физички или ручни рад. Тај праг од 60% изабрали смо као полазну тачку за прву верзију GDPval-а, фокусирајући се на занимања у којима AI може имати највећи утицај на продуктивност у стварном свету.
Овај процес је резултирао укључивањем 44 занимања.
Некретнине и изнајмљивање и лизинг
Консијержи
Менаџери имовине, некретнина и удружења станара
Агенти за продају некретнина
Брокери некретнина
Службеници на шалтеру и за изнајмљивање
Државна управа
Радници у рекреацији
Службеници за усаглашеност
Надзорници прве линије полицајаца и детектива
Менаџери административних услуга
Социјални радници за децу, породицу и школе
Производња
Машински инжењери
Индустријски инжењери
Купци и набавни агенти
Службеници за отпрему, пријем и залихе
Надзорници прве линије производних и оперативних радника
Професионалне, научне и техничке услуге
Програмери софтвера
Адвокати
Рачуновође и ревизори
Менаџери рачунарских и информационих система
Специјалисти за управљање пројектима
Здравствена и социјална заштита
Регистроване медицинске сестре
Медицинске сестре практичари
Менаџери медицинских и здравствених услуга
Надзорници прве линије канцеларијских и административних радника подршке
Медицински секретари и административни асистенти
Финансије и осигурање
Представници корисничке подршке
Финансијски и инвестициони аналитичари
Финансијски менаџери
Лични финансијски саветници
Продајни агенти за хартије од вредности, робу и финансијске услуге
Трговина на мало
Фармацеути
Надзорници прве линије продајних радника у малопродаји
Генерални и оперативни менаџери
Приватни детективи и истражитељи
Трговина на велико
Менаџери продаје
Службеници за наруџбине
Надзорници прве линије продајних радника ван малопродаје
Представници продаје у велепродаји и производњи, осим техничких и научних производа
Представници продаје у велепродаји и производњи, технички и научни производи
Информације
Аудио и видео техничари
Продуценти и редитељи
Новински аналитичари, репортери и новинари
Филмски и видео монтажери
Уредници
За свако занимање сарађивали смо са искусним стручњацима како бисмо креирали репрезентативне задатке који одражавају њихов свакодневни рад. Ти стручњаци су у просеку имали 14 година искуства, уз снажне показатеље напредовања. Намерно смо ангажовали широк спектар експерата — као што су адвокати из различитих области праксе и из фирми различите величине — како бисмо максимално повећали репрезентативност.
Сваки задатак је прошао кроз вишестепени процес прегледа како би се осигурало да представља стварни рад, да га други стручњак може изводљиво завршити и да је јасан за евалуацију. У просеку је сваки задатак добио 5 кругова стручне ревизије, укључујући провере других аутора задатака, додатних рецензената из те професије и валидацију засновану на моделу.
Добијени скуп података укључује 30 у потпуности рецензираних задатака по занимању (комплетан скуп), са 5 задатака по занимању у нашем златном скупу отвореног кода, што пружа чврсту основу за евалуацију учинка модела на интелектуалном раду из стварног света.
Примери GDPval задатака
Инструкција + контекст задатка
Резултат од стране искусних људи

Да бисмо оценили учинак модела на GDPval задацима, ослањамо се на стручне „оцењиваче” — групу искусних професионалаца из истих занимања која су заступљена у скупу података. Ови оцењивачи насумично упоређују резултате које генеришу модели са онима које су произвели аутори задатака (не знајући шта је генерисала AI, а шта човек), и дају критике и рангирања. Затим рангирају људске и AI резултате и класификују сваки AI резултат као „бољи”, „једнако добар као” или „лошији од” другог.
Аутори задатака су такође направили детаљне рубрике оцењивања за своја занимања, што додаје доследност и транспарентност процесу оцењивања. Изградили смо и „аутоматизованог оцењивача”, AI систем обучен да процени како би људски стручњаци оценили одређени резултат. Другим речима, уместо да се сваки пут спроводи пуна стручна ревизија, аутоматизовани оцењивач може брзо да предвиди који би резултат људи вероватно преферирали. Овај алат објављујемо на evals.openai.com као експерименталну истраживачку услугу, али још увек није поуздан као стручни оцењивачи, па га не користимо да их заменимо.
Установили смо да се најбољи данашњи гранични модели већ приближавају квалитету рада који производе стручњаци у индустрији. Да бисмо то тестирали, спровели смо слепе евалуације у којима су стручњаци из индустрије упоређивали резултате неколико водећих модела — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4 — са радом који су произвели људи. Кроз 220 задатака у GDPval златном скупу бележили смо када су резултати модела оцењени као бољи од („победе”) или равноправни („нерешено”) у односу на резултате стручњака из индустрије, као што је приказано на тракастом графикону испод. Claude Opus 4.1 био је модел с најбољим учинком у овом скупу, посебно се истичући у естетици (нпр. форматирање докумената, распоред слајдова), док се GPT‑5 посебно истицао у тачности (нпр. проналажење знања специфичног за домен). Такође видимо јасан напредак током времена на овим задацима. Учинак се више него удвостручио од GPT‑4o (објављен у пролеће 2024) до GPT‑5 (објављен у лето 2025), пратећи јасан линеарни тренд.
Поред тога, установили смо да гранични модели могу да заврше GDPval задатке отприлике 100 пута брже и 100 пута јефтиније од стручњака из индустрије. Међутим, ове бројке одражавају искључиво време инференције модела и API тарифе, те зато не обухватају људски надзор, итерације и кораке интеграције који су потребни у стварном радном окружењу да би се наши модели користили. Ипак, нарочито на подскупу задатака у којима су модели посебно јаки, очекујемо да би давање задатка моделу пре него што се покуша са човеком уштедело време и новац.
Стручни оцењивачи су упоредили резултате водећих модела са резултатима људских стручњака. Данашњи гранични модели већ се приближавају квалитету рада који производе стручњаци у индустрији. Claude Opus 4.1 је произвео резултате оцењене као једнако добри као или бољи од људских у нешто мање од половине задатака.
Од GPT‑4o до GPT‑5, учинак на GDPval задацима се више него утростручио за годину дана.
На крају, постепено смо тренирали интерну, експерименталну верзију GPT‑5 како бисмо проценили да ли можемо да побољшамо учинак на GDPval-у. Установили смо да је овај процес побољшао учинак, стварајући пут за даља могућа побољшања. То потврђују и други контролисани експерименти: повећање величине модела, подстицање на више корака резоновања и давање богатијег контекста задатка довели су до мерљивих добитака.
Пуне резултате можете прочитати у нашем раду. Такође објављујемо златни подскуп GDPval задатака и јавну услугу оцењивања како би и други истраживачи могли да надограде овај рад.
Како AI постаје све способнији, вероватно ће изазвати промене на тржишту рада. Рани GDPval резултати показују да модели већ могу да преузму неке понављајуће, добро дефинисане задатке брже и по нижој цени од стручњака. Међутим, већина послова је више од збирке задатака који се могу записати. GDPval истиче где AI може да обавља рутинске задатке како би људи могли да проводе више времена на креативним деловима посла и деловима који захтевају процену. Када AI на овај начин допуњује раднике, то се може преточити у значајан економски раст. Наш циљ је да све задржимо на „покретним степеницама навише” AI-а тако што демократизујемо приступ овим алатима, подржавамо раднике кроз промене и градимо системе који награђују широк допринос.
GDPval је рани корак. Иако обухвата 44 занимања и стотине задатака, настављамо да унапређујемо наш приступ како бисмо проширили обим тестирања и резултате учинили смисленијим. Тренутна верзија евалуације је такође с једним примером, па не обухвата случајеве у којима би модел морао да изгради контекст или да се побољша кроз више нацрта — на пример, ревидирање правног поднеска након повратних информација клијента или понављање анализе података након уочавања аномалије. Поред тога, у стварном свету задаци нису увек јасно дефинисани инструкцијом и референтним датотекама; на пример, адвокат ће можда морати да се снађе у двосмислености и разговара са клијентом пре него што одлучи да је израда правног поднеска прави приступ да му помогне. Планирамо да проширимо GDPval тако да укључи више занимања, индустрија и типова задатака, уз већу интерактивност и више задатака који укључују сналажење у двосмислености, са дугорочним циљем бољег мерења напретка у различитим облицима интелектуалног рада.
- Ако сте стручњак из индустрије и желите да допринесете GDPval-у, овде можете исказати интересовање.
- Ако сте клијент који сарађује са OpenAI-јем и желите да допринесете неком будућем кругу GDPval-а, овде можете исказати интересовање.
Учешће заједнице је од суштинског значаја — радујемо се да GDPval градимо заједно са истраживачима, практичарима и организацијама које деле наш циљ да AGI буде кориснији људима на послу.


