Пређите на главни садржај
OpenAI

Мерење учинка наших модела на задацима из стварног света

Представљамо GDPval, нову евалуацију која мери учинак модела на економски вредним задацима из стварног света у 44 занимања.

Наша мисија је да обезбедимо да општа вештачка интелигенција користи целом човечанству. Као део те мисије, желимо да транспарентно комуницирамо напредак у томе како AI модели могу да помажу људима у стварном свету. Зато представљамо GDPval: нову евалуацију осмишљену да нам помогне да пратимо колико добро наши и други модели обављају економски вредне задатке из стварног света. Ову евалуацију зовемо GDPval зато што смо пошли од концепта бруто домаћег производа (GDP) као кључног економског показатеља и извукли задатке из кључних занимања у индустријама које највише доприносе GDP-у.

Људи често спекулишу о ширем утицају AI-а на друштво, али најјаснији начин да се разуме његов потенцијал јесте да се погледа шта су модели већ сада способни да раде. Историја показује да је великим технологијама — од интернета до паметних телефона — било потребно више од деценије да пређу пут од изума до широке примене. Евалуације као што је GDPval помажу да се разговори о будућим побољшањима AI-а утемеље у доказима, а не у нагађањима, и могу нам помоћи да пратимо напредак модела током времена.

Претходне AI евалуације, као што су захтевни академски тестови и такмичарски изазови у програмирању, биле су кључне за померање граница способности моделa за резоновање, али често не обухватају врсту задатака којима се многи људи баве у свакодневном послу.

Да бисмо премостили тај јаз, развијамо евалуације које мере све реалистичније и економски релевантније способности. Тај напредак се кретао од класичних академских мерила као што је MMLU (питања у стилу испита из више десетина области), до примењенијих евалуација као што су SWE-Bench (задаци исправљања грешака у софтверском инжењерству), MLE-Bench (задаци машинског учења као што су тренирање и анализа модела) и Paper-Bench (научно резоновање и критика истраживачких радова), а у новије време и до тржишно заснованих евалуација као што је SWE-Lancer (фриленс пројекти софтверског инжењерства засновани на стварним исплатама).

GDPval је следећи корак у том развоју. Он мери учинак модела на задацима директно преузетим из стварног интелектуалног рада искусних стручњака из широког спектра занимања и сектора, пружајући јаснију слику о томе како модели раде на економски вредним задацима. Оцењивање модела на реалистичним професионалним задацима помаже нам да разумемо не само колико добро раде у лабораторији, већ и како би могли да подрже људе у послу који свакодневно обављају. 

Шта GDPval мери

GDPval, прва верзија ове евалуације, обухвата 44 занимања одабрана из 9 водећих индустрија које доприносе америчком GDP-у. Комплетан GDPval скуп укључује 1.320 специјализованих задатака (220 у златном скупу отвореног кода), од којих је сваки пажљиво осмишљен и проверен од стране искусних стручњака са у просеку више од 14 година искуства у тим областима. Сваки задатак заснован је на стварним радним производима, као што су правни поднесак, инжењерски нацрт, разговор са корисничком подршком или план неге пацијента.

GDPval је посебан и по реалистичности и по разноврсности задатака који се оцењују. За разлику од других евалуација повезаних с економском вредношћу које су концентрисане на одређене домене (нпр. SWE-Lancer), GDPval обухвата много задатака и занимања. А за разлику од мерила која укључују синтетичко креирање задатака у стилу академског испита или теста (нпр. Humanity’s Last Exam или MMLU), GDPval се фокусира на задатке засноване на резултатима који су или стварни радови или производи који данас постоје, или слично конструисани радни производи. 

За разлику од традиционалних мерила, GDPval задаци нису једноставне текстуалне инструкције. Долазе са референтним датотекама и контекстом, а очекивани резултати обухватају документе, презентације, дијаграме, табеле и мултимедију. Ова реалистичност чини GDPval реалистичнијим тестом начина на који модели могу да подрже стручњаке.

GDPval је рани корак који не одражава у потпуности све нијансе многих економских задатака. Иако обухвата 44 занимања и стотине задатака интелектуалног рада, ограничен је на евалуације с једним примером, па не обухвата случајеве у којима би модел морао да изгради контекст или да се побољша кроз више нацрта. Будуће верзије ће се проширити на интерактивније токове рада и задатке богатије контекстом како би боље одражавале сложеност интелектуалног рада у стварном свету (више у одељку о ограничењима испод).

Како смо одабрали занимања

GDPval обухвата задатке из 9 индустрија и 44 занимања, а будуће верзије ће наставити да шире покривеност. Почетних 9 индустрија изабрано је на основу тога што свака доприноси са више од 5% америчког GDP-а, према подацима Банке федералних резерви Сент Луиса. Затим смо изабрали 5 занимања унутар сваке индустрије која највише доприносе укупним зарадама и накнадама и која су претежно занимања интелектуалног рада, користећи податке о зарадама и запослености из извештаја о запослености по занимањима америчког Бироа за статистику рада (BLS) за мај 2024.(отвара се у новом прозору) Да бисмо утврдили да ли су занимања претежно интелектуални рад, користили смо податке о задацима из O*NET-а(отвара се у новом прозору), базе података о занимањима у САД коју спонзорише америчко Министарство рада. Класификовали смо да ли је сваки задатак за свако занимање у O*NET-у интелектуални рад или физички рад/ручни рад (који захтева радње у физичком свету). Занимање је у целини квалификовано као „претежно интелектуални рад” ако је најмање 60% његових саставних задатака класификовано као задаци који не укључују физички или ручни рад. Тај праг од 60% изабрали смо као полазну тачку за прву верзију GDPval-а, фокусирајући се на занимања у којима AI може имати највећи утицај на продуктивност у стварном свету. 

Овај процес је резултирао укључивањем 44 занимања.

Некретнине и изнајмљивање и лизинг

  • Консијержи

  • Менаџери имовине, некретнина и удружења станара

  • Агенти за продају некретнина

  • Брокери некретнина

  • Службеници на шалтеру и за изнајмљивање

Државна управа

  • Радници у рекреацији

  • Службеници за усаглашеност

  • Надзорници прве линије полицајаца и детектива

  • Менаџери административних услуга

  • Социјални радници за децу, породицу и школе

Производња

  • Машински инжењери

  • Индустријски инжењери

  • Купци и набавни агенти

  • Службеници за отпрему, пријем и залихе

  • Надзорници прве линије производних и оперативних радника

Професионалне, научне и техничке услуге

  • Програмери софтвера

  • Адвокати

  • Рачуновође и ревизори

  • Менаџери рачунарских и информационих система

  • Специјалисти за управљање пројектима

Здравствена и социјална заштита

  • Регистроване медицинске сестре

  • Медицинске сестре практичари

  • Менаџери медицинских и здравствених услуга

  • Надзорници прве линије канцеларијских и административних радника подршке

  • Медицински секретари и административни асистенти

Финансије и осигурање

  • Представници корисничке подршке

  • Финансијски и инвестициони аналитичари

  • Финансијски менаџери

  • Лични финансијски саветници

  • Продајни агенти за хартије од вредности, робу и финансијске услуге

Трговина на мало

  • Фармацеути

  • Надзорници прве линије продајних радника у малопродаји

  • Генерални и оперативни менаџери

  • Приватни детективи и истражитељи

Трговина на велико

  • Менаџери продаје

  • Службеници за наруџбине

  • Надзорници прве линије продајних радника ван малопродаје

  • Представници продаје у велепродаји и производњи, осим техничких и научних производа

  • Представници продаје у велепродаји и производњи, технички и научни производи

Информације

  • Аудио и видео техничари

  • Продуценти и редитељи

  • Новински аналитичари, репортери и новинари

  • Филмски и видео монтажери

  • Уредници

GDPval обухвата 44 занимања интелектуалног рада у 9 сектора, од програмера софтвера и адвоката до регистрованих медицинских сестара и машинских инжењера. Ова занимања су одабрана због свог економског значаја и представљају врсте свакодневног посла у којима AI може значајно да помогне стручњацима.

Како смо изградили скуп података

За свако занимање сарађивали смо са искусним стручњацима како бисмо креирали репрезентативне задатке који одражавају њихов свакодневни рад. Ти стручњаци су у просеку имали 14 година искуства, уз снажне показатеље напредовања. Намерно смо ангажовали широк спектар експерата — као што су адвокати из различитих области праксе и из фирми различите величине — како бисмо максимално повећали репрезентативност.

Сваки задатак је прошао кроз вишестепени процес прегледа како би се осигурало да представља стварни рад, да га други стручњак може изводљиво завршити и да је јасан за евалуацију. У просеку је сваки задатак добио 5 кругова стручне ревизије, укључујући провере других аутора задатака, додатних рецензената из те професије и валидацију засновану на моделу. 

Добијени скуп података укључује 30 у потпуности рецензираних задатака по занимању (комплетан скуп), са 5 задатака по занимању у нашем златном скупу отвореног кода, што пружа чврсту основу за евалуацију учинка модела на интелектуалном раду из стварног света.

Примери GDPval задатака

Инструкција + контекст задатка

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Резултат од стране искусних људи

Експлодирани приказ дизајна калема за кабл
Сваки задатак у GDPval-у осмишљава искусан стручњак и одражава стварни интелектуални рад из његовог занимања. Инструкција је реалистичан радни задатак који је креирао стручњак из дате области, а златни резултат је решење самог стручњака.

Како оцењујемо учинак модела

Да бисмо оценили учинак модела на GDPval задацима, ослањамо се на стручне „оцењиваче” — групу искусних професионалаца из истих занимања која су заступљена у скупу података. Ови оцењивачи насумично упоређују резултате које генеришу модели са онима које су произвели аутори задатака (не знајући шта је генерисала AI, а шта човек), и дају критике и рангирања. Затим рангирају људске и AI резултате и класификују сваки AI резултат као „бољи”, „једнако добар као” или „лошији од” другог.

Аутори задатака су такође направили детаљне рубрике оцењивања за своја занимања, што додаје доследност и транспарентност процесу оцењивања. Изградили смо и „аутоматизованог оцењивача”, AI систем обучен да процени како би људски стручњаци оценили одређени резултат. Другим речима, уместо да се сваки пут спроводи пуна стручна ревизија, аутоматизовани оцењивач може брзо да предвиди који би резултат људи вероватно преферирали. Овај алат објављујемо на evals.openai.com као експерименталну истраживачку услугу, али још увек није поуздан као стручни оцењивачи, па га не користимо да их заменимо. 

Рани резултати

Установили смо да се најбољи данашњи гранични модели већ приближавају квалитету рада који производе стручњаци у индустрији. Да бисмо то тестирали, спровели смо слепе евалуације у којима су стручњаци из индустрије упоређивали резултате неколико водећих модела — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4 — са радом који су произвели људи. Кроз 220 задатака у GDPval златном скупу бележили смо када су резултати модела оцењени као бољи од („победе”) или равноправни („нерешено”) у односу на резултате стручњака из индустрије, као што је приказано на тракастом графикону испод. Claude Opus 4.1 био је модел с најбољим учинком у овом скупу, посебно се истичући у естетици (нпр. форматирање докумената, распоред слајдова), док се GPT‑5 посебно истицао у тачности (нпр. проналажење знања специфичног за домен). Такође видимо јасан напредак током времена на овим задацима. Учинак се више него удвостручио од GPT‑4o (објављен у пролеће 2024) до GPT‑5 (објављен у лето 2025), пратећи јасан линеарни тренд.

Поред тога, установили смо да гранични модели могу да заврше GDPval задатке отприлике 100 пута брже и 100 пута јефтиније од стручњака из индустрије. Међутим, ове бројке одражавају искључиво време инференције модела и API тарифе, те зато не обухватају људски надзор, итерације и кораке интеграције који су потребни у стварном радном окружењу да би се наши модели користили. Ипак, нарочито на подскупу задатака у којима су модели посебно јаки, очекујемо да би давање задатка моделу пре него што се покуша са човеком уштедело време и новац.

Стручни оцењивачи су упоредили резултате водећих модела са резултатима људских стручњака. Данашњи гранични модели већ се приближавају квалитету рада који производе стручњаци у индустрији. Claude Opus 4.1 је произвео резултате оцењене као једнако добри као или бољи од људских у нешто мање од половине задатака.

Од GPT‑4o до GPT‑5, учинак на GDPval задацима се више него утростручио за годину дана. 

На крају, постепено смо тренирали интерну, експерименталну верзију GPT‑5 како бисмо проценили да ли можемо да побољшамо учинак на GDPval-у. Установили смо да је овај процес побољшао учинак, стварајући пут за даља могућа побољшања. То потврђују и други контролисани експерименти: повећање величине модела, подстицање на више корака резоновања и давање богатијег контекста задатка довели су до мерљивих добитака.

Пуне резултате можете прочитати у нашем раду. Такође објављујемо златни подскуп GDPval задатака и јавну услугу оцењивања како би и други истраживачи могли да надограде овај рад.

Будућност рада и AI 

Како AI постаје све способнији, вероватно ће изазвати промене на тржишту рада. Рани GDPval резултати показују да модели већ могу да преузму неке понављајуће, добро дефинисане задатке брже и по нижој цени од стручњака. Међутим, већина послова је више од збирке задатака који се могу записати. GDPval истиче где AI може да обавља рутинске задатке како би људи могли да проводе више времена на креативним деловима посла и деловима који захтевају процену. Када AI на овај начин допуњује раднике, то се може преточити у значајан економски раст. Наш циљ је да све задржимо на „покретним степеницама навише” AI-а тако што демократизујемо приступ овим алатима, подржавамо раднике кроз промене и градимо системе који награђују широк допринос. 

Ограничења и шта следи

GDPval је рани корак. Иако обухвата 44 занимања и стотине задатака, настављамо да унапређујемо наш приступ како бисмо проширили обим тестирања и резултате учинили смисленијим. Тренутна верзија евалуације је такође с једним примером, па не обухвата случајеве у којима би модел морао да изгради контекст или да се побољша кроз више нацрта — на пример, ревидирање правног поднеска након повратних информација клијента или понављање анализе података након уочавања аномалије. Поред тога, у стварном свету задаци нису увек јасно дефинисани инструкцијом и референтним датотекама; на пример, адвокат ће можда морати да се снађе у двосмислености и разговара са клијентом пре него што одлучи да је израда правног поднеска прави приступ да му помогне. Планирамо да проширимо GDPval тако да укључи више занимања, индустрија и типова задатака, уз већу интерактивност и више задатака који укључују сналажење у двосмислености, са дугорочним циљем бољег мерења напретка у различитим облицима интелектуалног рада.

Укључите се

Учешће заједнице је од суштинског значаја — радујемо се да GDPval градимо заједно са истраживачима, практичарима и организацијама које деле наш циљ да AGI буде кориснији људима на послу.