Мерење на изведбата на нашите модели на реални задачи
Воведуваме GDPval, нова евалуација која го мери перформансот на моделот на економски значајни, реални задачи во 44 професии.
Нашата мисија е да обезбедиме општата вештачка интелигенција да биде од корист за целото човештво. Како дел од нашата мисија, сакаме транспарентно да го комуницираме напредокот за тоа како моделите со вештачка интелигенција можат да им помогнат на луѓето во реалниот свет. Затоа го воведуваме GDPval: нова евалуација дизајнирана да ни помогне да следиме колку добро нашите модели и другите се изведуваат на економски вредни, реални задачи. Оваа евалуација ја нарекуваме GDPval затоа што започнавме со концептот на Бруто домашен производ (БДП) како клучен економски индикатор и извлековме задачи од клучните професии во индустриите што најмногу придонесуваат за БДП.
Луѓето често шпекулираат за поширокото влијание на вештачката интелигенција врз општеството, но најјасниот начин да го разбереш нејзиниот потенцијал е да погледнеш што моделите веќе можат да направат. Историјата покажува дека големите технологии – од интернетот до паметните телефони – им требаше повеќе од една деценија за да преминат од изум до широка употреба. Евалуациите како GDPval помагаат да се засноваат разговорите за идните подобрувања на вештачката интелигенција на докази наместо нагаѓања и можат да помогнат во следењето на подобрувањето на моделот со текот на времето.
Претходните евалуации на вештачка интелигенција, како што се предизвикувачки академски тестови и натпреварувачки кодирачки предизвици, беа суштински за проширување на границите на способностите за расудување на моделите, но често не ги опфаќаат задачите со кои многу луѓе се справуваат во својата секојдневна работа.
За да го премостиме овој јаз, развиваме евалуации кои мерат сè пореалистични и економски релевантни способности. Овој напредок се движеше од класични академски репери како MMLU (прашања во стил на испит низ десетици предмети), до повеќе применети евалуации како SWE-Bench (задачи за поправка на грешки во софтверско инженерство), MLE-Bench (задачи за машинско учење како обука на модел и анализа) и Paper-Bench (научно расудување и критика на истражувачки трудови) и поновите евалуации базирани на пазарот како SWE-Lancer (фриленс проекти за софтверско инженерство базирани на реални исплати).
GDPval е следниот чекор во таа прогресија. Тоа ги мери перформансите на моделот на задачи извлечени директно од реалната работа со знаење на искусни професионалци низ широк спектар на занимања и сектори, обезбедувајќи појасна слика за тоа како моделите се изведуваат на економски вредни задачи. Оценувањето на моделите на реалистични работни задачи ни помага да разбереме не само колку добро се изведуваат во лабораторијата, туку и како можат да ги поддржуваат луѓето во работата што ја вршат секој ден.
GDPval, првата верзија на оваа евалуација, опфаќа 44 професии избрани од врвните 9 индустрии кои придонесуваат за БДП на САД. Целосниот сет на GDPval вклучува 1320 специјализирани задачи (220 во златниот сет со отворен код), секоја внимателно изработена и проверена од искусни професионалци со просечно над 14 години искуство во овие области. Секоја задача се базира на реални работни производи, како што се правна белешка, инженерски план, разговор за поддржува на клиенти или план за нега на пациенти.
GDPval е карактеристичен и по својот реализам и по разновидноста на задачите што се оценуваат. За разлика од другите евалуации поврзани со економска вредност кои се концентрираат на специфични домени (на пр., SWE-Lancer), GDPval опфаќа многу задачи и занимања. И за разлика од реперите кои вклучуваат синтетичко креирање задачи во стилот на академски испит или тест (на пр., Humanity’s Last Exam или MMLU), GDPval се фокусира на задачи базирани на испорачани производи кои или се вистински дел од работа или производ што постои денес или се слично конструиран дел од работен производ.
За разлика од традиционалните одредници, задачите на GDPval не се едноставни текстуални промптови. Тие доаѓаат со референтни датотеки и контекст, а очекуваните испораки вклучуваат документи, слајдови, дијаграми, електронски табели и мултимедија. Овој реализам го прави GDPval пореален тест за тоа како моделите можат да ги поддржуваат професионалците.
GDPval е рана фаза што не ги одразува сите нијанси на многу економски задачи. Иако опфаќа 44 професии и стотици задачи за работа со знаење, ограничено е на еднократни евалуации, па не ги опфаќа случаите каде моделот би требало да изгради контекст или да се подобри преку повеќе нацрти. Идните верзии ќе се прошират на поинтерактивни работни процеси и задачи богати со контекст за подобро да ја одразат сложеноста на работата со знаење во реалниот свет (види повеќе во нашиот дел „Ограничувања“ подолу).
GDPval покрива задачи во 9 индустрии и 44 професии, а идните верзии ќе продолжат да го прошируваат опфатот. Почетните 9 индустрии беа избрани врз основа на оние што придонесуваат над 5% во БДП на САД, како што е утврдено од податоците на Федералната резервна банка на Сент Луис. Потоа, ги избравме 5-те професии во секоја индустрија кои најмногу придонесуваат за вкупните плати и компензации и се претежно професии со знаење, користејќи податоци за плати и вработување од извештајот за вработување по занимања на US Bureau of Labor Statistics (BLS) за мај 2024 година(се отвора во нов прозорец). За да утврдиме дали занимањата беа претежно работа со знаење, користевме податоци за задачи од O*NET(се отвора во нов прозорец), база на податоци за информации за занимања во САД спонзорирана од Министерството за труд на САД. Класифициравме дали секоја задача за секоја професија во O*NET е работа со знаење или физичка работа/рачен труд (што бара дејства да се преземат во физичкиот свет). Една професија се квалификува како „претежно работа на знаење“ ако најмалку 60% од нејзините составни задачи се класифицирани како задачи кои не вклучуваат физичка работа или рачен труд. Ние го избравме овој праг од 60% како почетна точка за првата верзија на GDPval, фокусирајќи се на професии каде што вештачката интелигенција може да има најголемо влијание врз продуктивноста во реалниот свет.
Овој процес резултираше со 44 професии за вклучување.
Недвижности и изнајмување и закуп
Консиержи
Менаџери на имот, недвижности и здруженија на заедници
Агенти за продажба на недвижен имот
Агенти за недвижности
Шалтерски и службеници за изнајмување
Влада
Рекреативни работници
Службеници за усогласеност
Првостепени надзорници на полицајци и детективи
Менаџери за административни услуги
Социјални работници за деца, семејства и училишта
Производство
Машински инженери
Индустриски инженери
Купувачи и агенти за набавка
Службеници за испорака, прием и попис
Надзорници од прва линија на производствени и оперативни работници
Професионални, научни и технички услуги
Развивачи на софтвер
Адвокати
Сметководители и ревизори
Менаџери на компјутерски и информациски системи
Специјалисти за управување со проекти
Здравствена заштита и социјална помош
Регистрирани медицински сестри
Медицински сестри – практичари
Менаџери за медицински и здравствени услуги
Првостепени супервизори на канцелариски и административни работници за поддршка
Медицински секретари и административни асистенти
Финансии и осигурување
Претставници за корисничка служба
Финансиски и инвестициски аналитичари
Финансиски менаџери
Лични финансиски советници
Агенти за продажба на хартии од вредност, стоки и финансиски услуги
Малопродажна трговија
Фармацевти
Првостепени супервизори на работници во малопродажба
Генерални и оперативни менаџери
Приватни детективи и истражувачи
Трговија на големо
Менаџери за продажба
Службеници за нарачки
Првостепени супервизори на работници кои не се занимаваат со малопродажба
Претставници за продажба, на големо и производство, освен технички и научни производи
Претставници за продажба, на големо и производство, технички и научни производи
Информација
Аудио и видео техничари
Продуценти и режисери
Аналитичари на вести, репортери и новинари
Монтажери на филм и видео
Уредници
За секоја професија, работевме со искусни професионалци за да креираме репрезентативни задачи кои го одразуваат нивното секојдневно работење. Овие професионалци во просек имаат 14 години искуство, со силни резултати во напредокот. Ние намерно регрутиравме широк спектар на експерти – како адвокати од различни области на пракса и фирми од различни големини – за да ја максимизираме претставителноста.
Секоја задача помина низ процес на преглед во повеќе чекори за да се осигура дека е репрезентативна за вистинска работа, изводлива за друг професионалец да ја заврши и јасна за оценување. Во просек, секоја задача доби 5 круга на експертска ревизија, вклучувајќи проверки од други автори на задачи, дополнителни професионални рецензенти и валидација базирана на модел.
Резултирачкиот сет на податоци вклучува 30 целосно прегледани задачи по професии (целосен сет) со 5 задачи по професија во нашиот отворен златен сет, обезбедувајќи цврста основа за оценување на перформансите на моделот во реалната работа со знаење.
Примери на задачи за GDPval
Промпт + контекст на задача
Искусен испорачан резултат од луѓе

За да ја оцениш изведбата на моделот на задачите GDPval, се потпираме на експертски „оценувачи“ – група на искусни професионалци од истите професии претставени во збирката на податоци. Овие оценувачи слепо ги споредуваат испораките генерирани од моделот со оние произведени од писателите на задачи (без да знаат кои се генерирани од вештачка интелигенција, а кои од човек) и даваат критики и рангирања. Потоа, оценувачите ги рангираат резултатите од човекот и вештачката интелигенција и го класифицираат секој резултат од вештачката интелигенција како „подобар“, „исто толку добар“ или „полош“ од едниот друг.
Писателите на задачи исто така креираа детални критериуми за оценување за нивните занимања, кои додаваат конзистентност и транспарентност во процесот на оценување. Исто така, изградивме „автоматизиран оценувач“, систем на вештачка интелигенција обучен да процени како човечки експерти би оцениле даден испорачан материјал. Со други зборови, наместо секојпат да се спроведува целосна експертска ревизија, автоматизираниот оценувач може брзо да предвиди кој излез луѓето најверојатно би го претпочитале. Ja објавуваме овaa алатka преку evals.openai.com како експериментална истражувачка услуга, но сè уште не е толку сигурна како експертските оценувачи, па затоа не ја користиме за да ги замениме.
Откривме дека најдобрите најсовремени модели денес веќе се приближуваат до квалитетот на работата произведена од индустриските експерти. За да го тестираме ова, спроведовме слепи евалуации каде што индустриските експерти ги споредуваа испораките од неколку водечки модели – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4 – со работата произведена од луѓе. Во 220 задачи од златниот сет на GDPval, забележавме кога резултатите од моделот беа оценети како подобри („победи“) или на исто ниво („изедначувања“) со испораките од индустриските експерти, како што е прикажано во столбестиот дијаграм подолу. Claude Opus 4.1 беше најдобриот модел во сетот, особено се истакнуваше во естетиката (на пр., форматирање на документи, распоред на слајдови), а GPT‑5 особено се истакнуваше во точноста (на пр., пронаоѓање на знаење специфично за доменот). Исто така, забележуваме јасен напредок со текот на времето на овие задачи. Перформансот е повеќе од двојно зголемен од GPT‑4o (објавен пролетта 2024 г.) до GPT‑5 (објавен летото 2025 г.), следејќи јасен линеарен тренд.
Дополнително, откривме дека најсовремените модели можат да ги завршат задачите на GDPval приближно 100 пати побрзо и 100 пати поевтино од индустриските експерти. Сепак, овие бројки одразуваат чисто време на изведување на моделот и стапки на наплата на API и затоа не ги опфаќаат човечкиот надзор, итерација и чекори на интеграција потребни во реални работни средини за користење на нашите модели. Сепак, особено на подмножество задачи каде што моделите се особено силни, очекуваме дека давање задача на модел пред да се проба со човек би зачувало време и пари.
Експертите оценувачи ги споредија испораките од водечките модели со оние на човечките експерти. Денешните најсовремени модели веќе се приближуваат до квалитетот на работа што го произведуваат индустриските експерти. Claude Opus 4.1 произведе резултати оценети како добри или подобри од оние на луѓето во нешто помалку од половина од задачите.
Од GPT‑4o до GPT‑5, перформансот на задачите на GDPval повеќе од тројно се зголеми за една година.
Конечно, постепено обучивме внатрешна, експериментална верзија на GPT‑5 за да процениме дали можеме да го подобриме перформансот на GDPval. Откривме дека овој процес ги подобри перформансите, креирајќи патека за понатамошно потенцијално подобрување. Други контролирани експерименти го поддржуваат ова назад: зголемувањето на големината на моделот, поттикнувањето на повеќе чекори на расудување и обезбедувањето побогат контекст на задачата доведоа до мерливи придобивки.
Можеш да ги прочиташ целосните резултати во нашиот труд. Исто така, објавуваме златно подмножество на задачи од GDPval и јавна услуга за оценување, за да можат и други истражувачи да се надоврзат на оваа работа.
Како што вештачката интелигенција станува поспособна, веројатно ќе предизвика промени на пазарот на трудот. Раните резултати од GDPval покажуваат дека моделите веќе можат да преземат некои повторувачки, добро специфицирани задачи побрзо и со пониска цена од експертите. Сепак, повеќето работни места се повеќе од само збирка задачи што можат да се запишат. GDPval истакнува каде вештачката интелигенција може да се справи со рутинските задачи, така што луѓето можат да поминат повеќе време на креативните и делови од работата кои бараат проценка. Кога вештачката интелигенција ги дополнува работниците на овој начин, тоа може да се претвори во значителен економски раст. Нашата цел е да ги држиме сите на „воздигнувањето“ на вештачката интелигенција преку демократизација на пристапот до овие алатки, поддршка на работниците преку промени и градење системи што наградуваат широк придонес.
GDPval е почетен чекор. Додека опфаќа 44 професии и стотици задачи, ние продолжуваме да го усовршуваме нашиот пристап за да го прошириме опсегот на нашето тестирање и да ги направиме резултатите позначајни. Тековната верзија на евалуацијата е исто така еднократна, така што не ги опфаќа случаите каде што моделот би требало да изгради контекст или да се подобри преку повеќе нацрти – на пример, ревидирање на правна белешка по повратни информации од клиентот или итерација на анализа на податоци по забележување на аномалија. Дополнително, во реалниот свет, задачите не се секогаш јасно дефинирани со промпт и референтни датотеки; на пример, адвокат може да мора да се справи со двосмисленост и да разговара со својот клиент пред да одлучи дека креирањето на правен документ е вистинскиот пристап за да му помогне. Планираме да го прошириме GDPval за да вклучиме повеќе занимања, индустрии и типови на задачи, со зголемена интерактивност и повеќе задачи кои вклучуваат навигација низ двосмисленост, со долгорочна цел за подобро мерење на напредокот во разновидната работа со знаење.
- Ако си експерт во индустријата и си заинтересиран да придонесеш за GDPval, покажи го твојот интерес овде.
- Ако си клиент кој работи со OpenAI и сакаш да придонесеш во идна рунда на GDPval, изрази го интересот овде.
Учеството на заедницата е од суштинско значење – возбудени сме да го изградиме GDPval заедно со истражувачи, практичари и организации кои ја делат нашата цел да ја направиме вештачката општа интелигенција (AGI) покорисна за луѓето на работа.


