Перейти до основного вмісту
OpenAI

Вимірювання ефективності наших моделей у реальних завданнях

Ми представляємо GDPval — нову систему оцінки, що вимірює ефективність моделей в економічно цінних, реальних завданнях у 44 професіях.

Наша місія полягає в забезпеченні того, щоб штучний інтелект приносив користь людству в цілому. У межах нашої місії ми прагнемо відкрито повідомляти про те, як моделі ШІ можуть допомагати людям у реальному світі. Саме тому ми представляємо GDPval: нову систему оцінки, створену для того, щоб допомогти нам відстежувати, наскільки добре наші моделі та моделі інших розв’язують економічно цінні, реальні завдання. Ми називаємо цю систему оцінки GDPval, оскільки почали з концепції валового внутрішнього продукту (GDP) як ключового економічного показника та сформували завдання для основних професій в галузях, що найбільше впливають на GDP.

Люди часто міркують про ширший вплив ШІ на суспільство, але найкращий спосіб зрозуміти його потенціал — подивитися, на що моделі здатні вже зараз. Історія показує, що ключові технології — від інтернету до смартфонів — потребували понад десятиліття, щоб перейти від винаходу до масового використання. Такі системи оцінки, як GDPval, допомагають вести розмови про майбутні вдосконалення ШІ, спираючись на факти, а не припущення, і можуть допомогти нам відстежувати поліпшення моделей з часом.

Попередні оцінки ШІ, наприклад складні академічні тести та конкурентні завдання з програмування, були важливими для розширення меж можливостей міркування моделей, але вони часто не відповідають тим завданням, які багато людей вирішують у своїй повсякденній роботі.

Щоб подолати цю прогалину, ми розробляємо системи оцінки, що вимірюють дедалі реалістичніші та економічно значущі можливості. Цей поступальний рух триває від класичних академічних бенчмарків, таких як MMLU (питання у форматі іспиту з десятків предметів), до більш прикладних оцінок, як-от SWE-Bench (завдання з виправлення помилок у програмному забезпеченні), MLE-Bench (завдання з машинного навчання, як-от навчання моделей і аналіз), і Paper-Bench (наукове аргументування та критика наукових статей), а нещодавно — до ринкових оцінок, як-от SWE-Lancer (проєкти з розробки програмного забезпечення на фрилансі, засновані на реальних виплатах).

GDPval — наш наступний крок у цьому напрямку. Цей тест оцінює продуктивність моделей на завданнях, узятих безпосередньо з реальної роботи, заснованої на знаннях, що виконується досвідченими професіоналами в різних професіях та секторах, надаючи чіткіше уявлення про те, як моделі справляються з економічно значущими завданнями. Оцінка моделей на реалістичних професійних завданнях допомагає нам зрозуміти не лише те, як вони працюють у лабораторії, а й як вони можуть допомагати людям у їхній повсякденній роботі. 

Що вимірює GDPval

GDPval, перша версія цієї оцінки, охоплює 44 професії, вибрані з 9 провідних галузей, які роблять внесок у ВВП США. Повний набір GDPval включає 1 320 спеціалізованих завдань (220 у відкритому еталонному наборі), кожна з яких ретельно розроблена та перевірена досвідченими професіоналами із середнім стажем роботи понад 14 років у цих галузях. Кожне завдання ґрунтується на реальних результатах роботи, таких як юридичний висновок, інженерне креслення, рішення проблеми клієнта або план догляду за пацієнтом.

GDPval вирізняється як реалізмом, так і різноманітністю завдань, що оцінюються. На відміну від інших оцінювань, пов’язаних з економічною цінністю та зосереджених на окремих доменах (наприклад, SWE-Lancer), GDPval охоплює багато завдань і професій. І на відміну від бенчмарків, які передбачають синтетичне створення завдань у стилі академічного іспиту чи тесту (наприклад, Humanity’s Last Exam або MMLU), GDPval зосереджується на завданнях, заснованих на результатах роботи, які або є реальними робочими матеріалами чи продуктами, що існують сьогодні, або створені за подібним принципом.

На відміну від традиційних бенчмарків, завдання GDPval — це не прості текстові підказки. Вони супроводжуються довідковими файлами та контекстом, а очікувані результати включають документи, слайди, діаграми, електронні таблиці та медіафайли. Така реалістичність робить GDPval більш правдоподібним тестом того, чим моделі можуть бути корисними для фахівців у тій чи іншій галузі.

GDPval — це ранній етап, який не відображає всіх нюансів багатьох економічних завдань. Хоча він і охоплює 44 професії та сотні завдань, пов'язаних із знаннями, він обмежений одноразовими оцінками, тому не охоплює випадки, коли моделі потрібно створювати контекст або покращувати свої результати під час створення кількох чернеток. Майбутні версії будуть розширюватися до більш інтерактивних робочих процесів та завдань, насичених контекстом, щоб краще відображати складність реальної роботи зі знаннями (докладніше див. у розділі «Обмеження» нижче).

Як ми обирали професії

GDPval охоплює завдання в межах 9 галузей і 44 професій, і майбутні версії продовжуватимуть розширювати це охоплення. Початкові 9 галузей були обрані серед тих, що забезпечують понад 5% ВВП США, відповідно до даних Федерального резервного банку Сент-Луїса. Потім ми відібрали 5 професій у межах кожної галузі, які забезпечують найбільший внесок у загальні зарплати та компенсації та переважно належать до інтелектуальної праці, використовуючи дані щодо заробітної плати й зайнятості зі звіту про професійну зайнятість BLS США за травень 2024 року(відкривається у новому вікні). Щоб визначити, чи належать професії переважно до інтелектуальної праці, ми використали дані про завдання з O*NET(відкривається у новому вікні) — бази даних професійної інформації США, яку підтримує Міністерство праці США. Ми класифікували, чи є кожне завдання в кожній професії в O*NET інтелектуальною працею, чи фізичною/ручною працею (тобто такою, що потребує дій у фізичному світі). Професія вважалася «переважно інтелектуальною», якщо щонайменше 60% її складових завдань були класифіковані як такі, що не передбачають фізичної чи ручної праці. Ми обрали цей поріг у 60% як відправну точку для першої версії системи оцінки GDPval, зосередившись на професіях, де ШІ може мати найбільший вплив на продуктивність у реальному світі.

Так ми включили до набору 44 професії.

Нерухомість, оренда та лізинг

  • Консьєржі

  • Менеджери об’єктів нерухомості, житлових комплексів і асоціацій співвласників

  • Агенти з продажу нерухомості

  • Агенти з нерухомості

  • Клерки з обслуговування клієнтів та оренди

Державний сектор

  • Фахівці з організації дозвілля

  • Інспектори з дотримання нормативів

  • Супервізори поліцейських і детективів

  • Менеджери адміністративних служб

  • Соціальні працівники, які працюють з дітьми, сім'ями та школами

Виробництво

  • Інженери-механіки

  • Інженери промислових технологій

  • Фахівці із закупівель

  • Клерки з відвантаження, приймання та обліку товарів

  • Супервізори працівників виробництва та операцій

Професійні, наукові та технічні послуги

  • Розробники програмного забезпечення

  • Юристи

  • Бухгалтери й аудитори

  • Керівники комп’ютерних та інформаційних систем

  • Спеціалісти з управління проєктами

Охорона здоров’я та соціальна допомога

  • Сертифіковані медсестри

  • Практикуючі медсестри

  • Менеджери з медичних і оздоровчих послуг

  • Супервізори працівників офісного та адміністративного забезпечення

  • Медичні секретарі та адміністративні помічники

Фінанси та страхування

  • Представники служби підтримки клієнтів

  • Фінансові й інвестиційні аналітики

  • Фінансові менеджери

  • Персональні фінансові консультанти

  • Агенти з продажу цінних паперів, товарів та фінансових послуг

Роздрібна торгівля

  • Фармацевти

  • Супервізори працівників роздрібних продажів

  • Генеральні та операційні менеджери

  • Приватні детективи та слідчі

Оптова торгівля

  • Менеджери з продажу

  • Клерки з обробки замовлень

  • Супервізори працівників оптових продажів (не роздрібних)

  • Представники з продажу в оптовій і виробничій сферах, крім технічних і наукових продуктів

  • Представники з продажу в оптовій і виробничій сферах, технічних і наукових продуктів

Інформація

  • Техніки з аудіо та відео

  • Продюсери та режисери

  • Аналітики новин, репортери та журналісти

  • Редактори кіно- та відеоматеріалів

  • Редактори

GDPval охоплює 44 професії, пов'язані з роботою, заснованою на знаннях, у 9 секторах, від розробників програмного забезпечення та юристів до дипломованих медсестер та інженерів-механіків. Ці професії були обрані за їх економічну значущість і є видами повсякденної роботи, в яких ШІ може суттєво допомогти професіоналам.

Як ми створили набір даних

Для кожної професії ми працювали з досвідченими фахівцями, щоб створити репрезентативні завдання, які відображають їхню щоденну роботу. У середньому ці фахівці мали 14 років досвіду та успішний професійний розвиток. Ми навмисно залучали широкий спектр експертів — наприклад, юристів із різних практик і компаній різного розміру — щоб максимально підвищити репрезентативність.

Кожне завдання проходило багатоступеневу перевірку, щоб упевнитися, що воно є репрезентативним для реальної роботи, може бути виконане іншим фахівцем і є зрозумілим для оцінювання. У середньому кожне завдання отримало 5 циклів експертної перевірки, включно з перевірками від інших авторів завдань, додаткових оглядачів за професіями та валідацією за допомогою моделей.

Отриманий набір даних включає 30 повністю перевірених завдань для кожної професії (повний набір) і 5 завдань для кожної професії у відкритому еталонному наборі, що забезпечує надійну основу для оцінки продуктивності моделі в реальних умовах роботи, заснованої на знаннях.

Приклади завдань GDPval

Запит + контекст завдання

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Досвідчений людський результат

Рознесене зображення конструкції кабельної котушки
Кожне завдання в GDPval створює досвідчений фахівець, і воно відображає реальну інтелектуальну працю з відповідної професії. Запит є реалістичним робочим завданням, створеним доменним експертом, а еталонний результат — це власне розв’язання експерта.

Як ми оцінюємо ефективність моделі

Для оцінки продуктивності моделі на завданнях GDPval ми покладаємося на експертів-оцінювачів — групу досвідчених професіоналів із тих же професій, що представлені в наборі даних. Ці оцінювачі наосліп порівнюють результати, сформовані моделлю, із тими, які підготовлені авторами завдань (не знаючи, які з них згенеровані ШІ, а які — людиною), і пропонують критичні зауваження та оцінку. Далі оцінювачі розподіляють результати, отримані людиною та ШІ, і класифікують кожен результат ШІ як «краще», «так само добре» або «гірше» порівняно з іншими.

Автори завдань також створили детальні рубрики оцінювання для своїх професій, що забезпечують послідовність і прозорість у процесі виставлення оцінок. Ми також створили «автоматичного оцінювача» — систему ШІ, навчену передбачати, як людські експерти оцінять певний результат роботи. Інакше кажучи, замість проведення повного експертного огляду щоразу, автоматичний оцінювач може швидко передбачити, якому результату, ймовірно, нададуть перевагу люди. Ми публікуємо цей інструмент на сайті evals.openai.com як експериментальний дослідницький сервіс, але він ще не такий надійний, як експертні оцінювачі, тому ми не використовуємо його для їх заміни.

Перші результати

Ми виявили, що найкращі сучасні флагманські моделі вже наближаються до якості роботи, яку виконують галузеві експерти. Щоб перевірити це, ми провели сліпі оцінювання, у яких галузеві експерти порівнювали результати від кількох провідних моделей — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro та Grok 4 — із результатами, створеними людьми. У межах 220 завдань еталонного набору GDPval ми фіксували, коли результати моделей оцінювалися як кращі («wins») або як рівноцінні («ties») результатам галузевих експертів, як показано на стовпчиковій діаграмі нижче. Claude Opus 4.1 стала найефективнішою моделлю в наборі, особливо вирізняючись у сфері естетики (наприклад, форматування документів, макет слайдів), а GPT‑5 особливо відзначився в точності (наприклад, у знаходженні спеціалізованих знань). Ми також бачимо чіткий прогрес у виконанні цих завдань із часом. Ефективність більш ніж подвоїлася від GPT‑4o (випущено навесні 2024 року) до GPT‑5 (випущено влітку 2025 року), демонструючи виразну лінійну динаміку.

Крім того, ми виявили, що передові моделі можуть виконувати завдання GDPval приблизно у 100 разів швидше та у 100 разів дешевше, ніж галузеві експерти. Однак ці показники відображають лише час виведення моделі та тарифи на використання API, тому не враховують людський контроль, ітерації та інтеграційні кроки, необхідні в реальних робочих умовах для використання наших моделей. Тим не менш, і особливо в підмножині завдань, де моделі демонструють високу ефективність, ми очікуємо, що передача завдання моделі до її виконання людиною дозволить заощадити час і гроші.

Експертні оцінювачі порівнювали результати провідних моделей із роботою людських експертів. Сучасні флагманські моделі вже наближаються до якості роботи, яку виконують галузеві експерти. Claude Opus 4.1 створила результати, що оцінювалися як рівні або кращі за результати людей майже в половині завдань.

Від GPT‑4o до GPT‑5 ефективність на завданнях GDPval зросла за рік більш ніж утричі.

Нарешті, ми поступово навчали внутрішню, експериментальну версію GPT‑5, щоб оцінити, чи можемо ми покращити результат моделі на GDPval. Ми виявили, що цей процес покращив продуктивність, створивши можливості для подальшого вдосконалення. Інші контрольовані експерименти підтверджують це: збільшення розміру моделі, заохочення до більшої кількості кроків міркування та надання багатшого контексту завдання призвели до вимірних поліпшень.

Повні результати можна прочитати в нашій науковій статті. Ми також публікуємо еталонний піднабір завдань GDPval і відкритий сервіс оцінювання, щоб інші дослідники могли продовжувати цю роботу.

Майбутнє професійної діяльності та ШІ

У міру того, як ШІ стає більш здатним, він, імовірно, спричинятиме зміни на ринку праці. Перші результати GDPval показують, що моделі вже можуть виконувати деякі повторювані, чітко визначені завдання швидше та дешевше, ніж експерти. Однак більшість робіт — це більше, ніж просто набір завдань, які можна записати. GDPval показує, де ШІ може взяти на себе рутинні завдання, щоб люди могли приділяти більше часу творчим аспектам роботи та тим, що потребують значної кількості суджень. Коли ШІ доповнює роботу людей таким чином, це може перетворитися на значне економічне зростання. Наша мета — допомогти всім рухатися вгору на хвилі підйому ШІ, демократизувавши доступ до цих інструментів, підтримуючи працівників у період змін і створюючи системи, що винагороджують широкий внесок.

Обмеження та подальші перспективи

GDPval — це ранній крок. Попри те, що система охоплює 44 професії та сотні завдань, ми й надалі вдосконалюємо наш підхід, щоб розширити охоплення тестування та зробити результати більш змістовними. Поточна версія системи оцінки також працює в однокроковому режимі, тож вона не охоплює випадки, коли моделі потрібно накопичувати контекст або вдосконалювати результат через кілька чернеток — наприклад, доопрацьовувати юридичний документ після відгуку від клієнта або повторювати аналіз даних після виявлення аномалії. Крім того, у реальному світі завдання не завжди чітко визначені одним запитом і референсними файлами; наприклад, юрист може мати справу з невизначеністю й спочатку поговорити з клієнтом, перш ніж вирішити, що створення юридичного документа — це правильний спосіб допомогти. Ми плануємо розширювати GDPval, щоб охопити більше професій, галузей і типів завдань, із більшою інтерактивністю та більшою кількістю завдань, що передбачають роботу з невизначеністю, маючи довгострокову мету — краще вимірювати прогрес у різних сферах інтелектуальної праці.

Долучайтеся

  • Якщо ви є експертом у галузі, зацікавленим у внеску в GDPval, будь ласка, заповніть цю форму.
  • Якщо ви є клієнтом OpenAI і хочете долучитися до наступного етапу GDPval, будь ласка, залиште запит тут.

Участь спільноти має вирішальне значення. Ми раді створювати GDPval разом із дослідниками, практиками та організаціями, які поділяють нашу мету — зробити AGI більш корисним для людей у робочому середовищі.