Измерване на производителността на нашите модели при задачи от реалния свят
Представяме GDPval, нова оценка, която измерва производителността на модела при икономически ценни, реални задачи в 44 професии.
Нашата мисия е да гарантираме, че изкуственият интелект ще бъде от полза за цялото човечество. Като част от нашата мисия, искаме прозрачно да съобщаваме напредъка относно това как моделите на ИИ могат да помагат на хората в реалния свят. Ето защо представяме GDPval: нова оценка, създадена да ни помогне да проследим колко добре нашите модели и други се справят с икономически ценни задачи от реалния свят. Наричаме тази оценка GDPval, защото започнахме с концепцията за Брутен вътрешен продукт (БВП) като ключов икономически показател и извлякохме задачи от ключовите професии в индустриите, които допринасят най-много за БВП.
Хората често спекулират за по-широкото въздействие на изкуствения интелект върху обществото, но най-ясният начин да разберете неговия потенциал е като разгледате какво моделите вече са способни да правят. Историята показва, че основните технологии—от интернет до смартфоните—отнемат повече от десетилетие, за да преминат от изобретение до широко разпространено приемане. Оценки като GDPval помагат да се основават разговорите за бъдещите подобрения на ИИ на доказателства, а не на догадки, и могат да ни помогнат да проследим подобрението на модела с времето.
Предишни оценки на изкуствения интелект, като предизвикателни академични тестове и състезателни кодиращи предизвикателства, бяха от съществено значение за разширяване на границите на възможностите за разсъждение на моделите, но често не съответстват на вида задачи, които много хора изпълняват в ежедневната си работа.
За да преодолеем тази разлика, ние разработваме оценки, които измерват все по-реалистични и икономически значими способности. Тази прогресия се е преместила от класически академични показатели като MMLU (въпроси в стил изпит по десетки предмети), към по-приложни оценки като SWE-Bench (задачи за отстраняване на грешки в софтуерното инженерство), MLE-Bench (задачи за машинно обучение като обучение на модел и анализ), и Paper-Bench (научно разсъждение и критика върху научни статии), и по-скоро към оценки, базирани на пазара, като SWE-Lancer (проекти за фрийланс софтуерно инженерство, базирани на реални изплащания).
GDPval е напред стъпка в тази прогресия. Той измерва представянето на модела при задачи, извлечени директно от реалната работа със знания на опитни професионалисти в широк спектър от професии и сектори, предоставяйки по-ясна представа за това как моделите се представят при икономически ценни задачи. Оценяването на модели върху реалистични професионални задачи ни помага да разберем не само колко добре се представят в лабораторията, но и как биха могли да поддържат хората в работата, която извършват всеки ден.
GDPval, първата версия на тази оценка, обхваща 44 професии, избрани от деветте водещи индустрии, допринасящи за БВП на САЩ. Пълният набор GDPval включва 1,320 специализирани задачи (220 в златния набор с отворен код), всяка от които е внимателно създадена и проверена от опитни професионалисти със средно над 14 години опит в тези области. Всяка задача се основава на реални работни продукти, като например правно становище, инженерни чертежи, разговор с клиентска поддържам или план за медицински грижи.
GDPval е отличителен както със своята реалистичност, така и с разнообразието от задачи, които се оценяват. За разлика от други оценки, свързани с икономическа стойност, които се концентрират върху специфични домейни (например, SWE-Lancer), GDPval обхваща много задачи и професии. За разлика от еталоните, които включват синтетично създаване на задачи в стила на академичен изпит или тест (например, Humanity’s Last Exam или MMLU), GDPval се фокусира върху задачи, базирани на резултати, които са или действителна част от работа или продукт, който съществува днес, или са подобно конструирани части от работен продукт.
За разлика от традиционните еталони, задачите GDPval не са прости текстови подкани. Те идват с файлове за справка и контекст, а очакваните резултати включват документи, слайдове, диаграми, електронни таблици и мултимедия. Този реализъм прави GDPval по-реалистичен тест за това как моделите могат да поддържат професионалистите.
GDPval е ранна стъпка, която не отразява напълно нюансите на много икономически задачи. Въпреки че обхваща 44 професии и стотици задачи за работа със знания, той е ограничен до еднократни оценки, така че не обхваща случаи, в които моделът би трябвало да изгради контекст или да се подобри чрез множество чернови. Бъдещите версии ще се разширят до по-интерактивни работни потоци и задачи, богати на контекст, за да отразят по-добре сложността на реалната работа със знания (вижте повече в нашия раздел за ограничения по-долу).
GDPval обхваща задачи в 9 индустрии и 44 професии, а бъдещите версии ще продължат да разширяват обхвата. Първоначалните 9 индустрии бяха избрани въз основа на тези, които допринасят с над 5% за БВП на САЩ, според данни от Федералния резервен банк на Сейнт Луис. След това избрахме 5-те професии във всяка индустрия, които допринасят най-много за общите заплати и компенсации и са предимно професии, свързани със знания, използвайки данни за заплати и заетост от отчета за професионална заетост на Бюрото по трудова статистика на САЩ за май 2024 г.(отваря се в нов прозорец). За да определим дали професиите са предимно свързани с интелектуален труд, използвахме данни за задачи от O*NET(отваря се в нов прозорец), база данни за професионална информация в САЩ, спонсорирана от Министерството на труда на САЩ. Класифицирахме дали всяка задача за всяка професия в O*NET е работа със знания или физическа работа/ръчен труд (изискваща действия в реалния свят). Една професия се квалифицира като „предимно работа със знания“, ако поне 60% от нейните съставни задачи са класифицирани като такива, които не включват физическа работа или ръчен труд. Избрахме този праг от 60% като начална точка за първата версия на GDPval, като се фокусираме върху професии, в които ИИ може да има най-голямо въздействие върху реалната производителност.
Този процес доведе до включването на 44 професии.
Недвижими имоти, наеми и лизинг
Консиержи
Мениджъри на имоти, недвижими имоти и мениджъри на асоциации на общността
Агенти по продажба на недвижими имоти
Брокери на недвижими имоти
Служители на гише и служители по отдаване под наем
Правителство
Работници в сферата на отдиха
Служители по съответствието
Началници на първа линия на полицията и детективите
Мениджъри на административни услуги
Социални работници с деца, семейства и училища
Производство
Машинни инженери
Индустриални инженери
Купувачи и агенти по покупки
Служители по изпращане, получаване и управление на инвентара
Ръководители на първа линия на производствени и оперативни работници
Професионални, научни и технически услуги
Софтуерни разработчици
Адвокати
Счетоводители и одитори
Мениджъри на компютърни и информационни системи
Специалисти по управление на проекти
Здравеопазване и социална помощ
Регистрирани медицински сестри
Медицински сестри практикуващи
Мениджъри на медицински и здравни услуги
Ръководители на първа линия на офис и административни поддържащи служители
Медицински секретари и административни асистенти
Финанси и застраховане
Представители за обслужване на клиенти
Финансови и инвестиционни анализатори
Финансови мениджъри
Лични финансови съветници
Агенти по продажба на ценни книжа, стоки и финансови услуги
Търговия на дребно
Фармацевти
Първостепенни ръководители на работници в търговията на дребно
Общи и оперативни мениджъри
Частни детективи и следователи
Търговия на едро
Мениджъри продажби
Служители за поръчки
Ръководители на първа линия на работници по продажбите извън търговията на дребно
Търговски представители, търговия на едро и производство, с изключение на технически и научни продукти
Търговски представители, търговия на едро и производство, технически и научни продукти
Информация
Аудио и видео техници
Продуценти и режисьори
Анализатори на новини, репортери и журналисти
Монтажисти на филми и видео.
Редактори
За всяка професия работихме с опитни професионалисти, за да създадем представителни задачи, които отразяват ежедневната им работа. Тези професионалисти имат средно 14 години опит, със силни постижения в кариерното развитие. Ние умишлено наехме широка гама от експерти—като адвокати от различни области на практика и фирми с различни размери—за да увеличим представителността.
Всяка задача премина през многоетапен процес на преглед, за да се гарантира, че е представителна за реалната работа, изпълнима от друг професионалист и ясна за оценка. Средно всяка задача получаваше 5 кръга експертен преглед, включително проверки от други автори на задачи, допълнителни професионални рецензенти и валидиране на базата на модел.
Полученият набор от данни включва 30 напълно прегледани задачи за всяка професия (пълен комплект) с 5 задачи за всяка професия в нашия отворен златен набор, предоставяйки здрава основа за оценка на производителността на модела при работа със знания в реалния свят.
Примери за задачи на GDPval
Подкана + контекст на задачата
Резултат от опитен специалист

За да оцените производителността на модела при задачи от GDPval, разчитаме на експертни „оценители“—група от опитни професионалисти от същите професии, представени в набора от данни. Тези оценители на сляпо сравняват резултатите, генерирани от модел, с тези, създадени от авторите на задачи (без да знаят кои са генерирани от изкуствен интелект и кои от хора), и предлагат критики и класации. Оценителите след това класират човешките и ИИ резултати и класифицират всеки ИИ резултат като „по-добър“, „толкова добър, колкото“ или „по-лош от“ един от друг.
Създателите на задачи също създадоха подробни критерии за оценяване за своите професии, които добавят последователност и прозрачност към процеса на оценяване. Също така създадохме „автоматизиран оценител“, система с изкуствен интелект, обучена да преценява как човешки експерти биха оценили даден резултат. С други думи, вместо да се провежда пълен експертен преглед всеки път, автоматизираният оценител може бързо да предскаже кой изход хората биха предпочели. Пускаме този инструмент чрез evals.openai.com като експериментална изследователска услуга, но той все още не е толкова надежден, колкото експертните оценители, затова не го използваме, за да ги заменим.
Установихме, че днешните най-добри авангардни модели вече се доближават до качеството на работа, създадено от експерти в индустрията. За да тестваме това, проведохме слепи оценки, при които експерти от индустрията сравняваха резултатите от няколко водещи модела—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4—с тези, произведени от хора. В 220 задачи от златния набор на GDPval записахме кога изходите на моделите бяха оценени като по-добри („победи“) или равни („равенства“) с резултатите от индустриалните експерти, както е показано в стълбовата диаграма по-долу. Claude Opus 4.1 беше най-добре представящият се модел в набора, като се отличаваше особено в естетиката (напр. форматиране на документи, оформление на слайдове), а GPT‑5 се отличаваше особено в точността (напр. намиране на знания в специфични домейни). Също така виждаме ясен напредък с течение на времето по тези задачи. Производителността се е увеличила повече от два пъти от GPT‑4o (пуснат през пролетта на 2024 г.) до GPT‑5 (пуснат през лятото на 2025 г.), следвайки ясен линеен тренд.
Освен това установихме, че моделите от най-висок клас могат да изпълняват задачи на GDPval приблизително 100 пъти по-бързо и 100 пъти по-евтино от експертите в индустрията. Въпреки това, тези цифри отразяват само времето за извеждане на модела и тарифите за таксуване на API, и следователно не обхващат човешкия надзор, итерациите и стъпките за интеграция, необходими в реални работни условия за използване на нашите модели. Все пак, особено при подмножество от задачи, където моделите са особено силни, очакваме, че възлагането на задача на модел преди да я опитаме с човек ще запази време и пари.
Експертни оценители сравниха резултатите от водещи модели с тези на човешки експерти. Днешните авангардни модели вече се доближават до качеството на работа, създадено от експерти в индустрията. Claude Opus 4.1 произведе резултати, оценени като толкова добри или по-добри от тези на хората в малко под половината от задачите.
От GPT‑4o до GPT‑5, производителността при задачи на GDPval се увеличи повече от три пъти за една година.
Накрая, постепенно обучихме вътрешна, експериментална версия на GPT‑5, за да оценим дали можем да подобрим производителността на GDPval. Установихме, че този процес подобри производителността, създавайки възможност за по-нататъшно потенциално подобрение. Други контролирани експерименти го подкрепят назад: увеличаването на размера на модела, насърчаването на повече стъпки на разсъждение и предоставянето на по-богат контекст на задачата доведоха до измерими подобрения.
Можете да прочетете пълните резултати в нашия документ. Също така пускаме златно подмножество от задачи на GDPval и публична услуга за оценяване, за да могат други изследователи да надграждат върху тази работа.
С развитието на ИИ, вероятно ще настъпят промени на пазара на труда. Ранните резултати от GDPval показват, че моделите вече могат да изпълняват някои повтарящи се, добре определени задачи по-бързо и на по-ниска цена от експертите. Въпреки това, повечето работни позиции са повече от просто съвкупност от задачи, които могат да бъдат записани. GDPval подчертава къде ИИ може да се справи с рутинни задачи, за да могат хората да отделят повече време на креативните и изискващи преценка части от работата. Когато изкуственият интелект допълва работниците по този начин, това може да се превърне в значителен икономически растеж. Нашата цел е да държим всички на „възходящия асансьор“ на ИИ, като демократизираме достъпа до тези инструменти, подкрепяме работниците в процеса на промяна и изграждаме системи, които възнаграждават широкия принос.
GDPval е ранен етап. Докато обхваща 44 професии и стотици задачи, ние продължаваме да усъвършенстваме нашия подход, за да разширим обхвата на нашето тестване и да направим резултатите по-съдържателни. Текущата версия на оценката също е еднократна, така че не обхваща случаи, в които моделът би трябвало да изгради контекст или да се подобри чрез множество чернови—например, преработка на правно становище след обратна връзка от клиент или итерация на анализ на данни след откриване на аномалия. Освен това, в реалния свят задачите не винаги са ясно дефинирани с подкана и референтни файлове; например, на адвокат може да се наложи да се справи с неясноти и да разговаря с клиента си, преди да реши, че създаването на правен меморандум е правилният подход, за да му помогне. Планираме да разширим GDPval, за да включим повече професии, индустрии и типове задачи, с повишена интерактивност и повече задачи, свързани с навигация в неясноти, с дългосрочната цел да измерваме по-добре напредъка в разнообразната работа със знания.
- Ако сте експерт в бранша и се интересувате от възможността да допринесете за GDPval, моля проявете интерес тук.
- Ако сте клиент, който работи с OpenAI и бихте искали да допринесете за бъдещ кръг на GDPval, моля изразете интереса си тук.
Участието на общността е от съществено значение—ние сме развълнувани да изградим GDPval заедно с изследователи, практици и организации, които споделят нашата цел да направим AGI по-полезен за хората на работното място.


