Измерение производительности наших моделей в реальных задачах
Мы представляем GDPval, новую оценку, которая измеряет производительность модели в экономически значимых, реальных задачах в 44 профессиях.
Наша миссия заключается в том, чтобы искусственный интеллект приносил пользу всему человечеству. В рамках нашей миссии мы стремимся открыто сообщать о прогрессе в том, как модели ИИ могут помогать людям в реальной жизни. С этой же целью мы представляем GDPval — новую оценку, предназначенную для отслеживания того, насколько хорошо наши модели и другие модели выполняют экономически значимые, реальные задачи. Мы назвали эту оценку GDPval, поскольку мы начали с концепции валового внутреннего продукта (ВВП = GDP) как ключевого экономического показателя и выбрали задачи из ключевых профессий в отраслях, которые вносят наибольший вклад в ВВП.
Люди часто размышляют о более широком влиянии ИИ на общество, но самый очевидный способ понять его потенциал — это посмотреть на то, что модели уже могут делать. История показывает, что крупные технологии — от интернета до смартфонов — прошли десятки лет, чтобы перейти от изобретения к широкому распространению. Такие оценки, как GDPval, помогают обосновывать обсуждения будущих улучшений ИИ на фактах, а не на догадках, и могут помочь нам отслеживать улучшение моделей с течением времени.
Предыдущие оценки ИИ, например сложные академические тесты и конкурентные задачи по программированию, были важны для расширения границ возможностей рассуждения моделей, но они часто не соответствуют тем задачам, которые многие люди решают в своей повседневной работе.
Чтобы преодолеть этот разрыв, мы разрабатываем оценки, которые измеряют всё более реалистичные и экономически значимые возможности. Этот прогресс перешёл от классических академических ориентиров, таких как MMLU (экзаменационные вопросы по десяткам предметов), к более прикладным оценкам, таким как SWE-Bench (задачи по исправлению ошибок в программной инженерии), MLE-Bench (задачи машинного обучения, такие как обучение моделей и анализ) и Paper-Bench (научное рассуждение и критика научных работ), а в последнее время — к рыночным оценкам, таким как SWE-Lancer (фриланс-проекты по разработке программного обеспечения на основе реальных выплат).
GDPval — наш следующий шаг в этом направлении. Этот тест оценивает производительность моделей на задачах, взятых непосредственно из реальной работы, основанной на знаниях, выполняемой опытными профессионалами в различных профессиях и секторах, предоставляя более четкое представление о том, как модели справляются с экономически значимыми задачами. Оценка моделей на реалистичных профессиональных задачах помогает нам понять не только то, как они работают в лаборатории, но и как они могут помогать людям в их повседневной работе.
GDPval, первая версия этой оценки, охватывает 44 профессии, выбранные из 9 ведущих отраслей, вносящих вклад в ВВП США. Полный набор GDPval включает 1 320 специализированных задач (220 в открытом эталонном наборе), каждая из которых тщательно разработана и проверена опытными профессионалами со средним стажем работы более 14 лет в этих областях. Каждая задача основана на реальных результатах работы, таких как юридическое заключение, инженерный чертеж, решение проблемы клиента или план ухода за пациентом.
GDPval отличается как реалистичностью, так и разнообразием оцениваемых задач. В отличие от других оценок, связанных с экономической ценностью, которые сосредоточены на конкретных областях (например, SWE-Lancer), GDPval охватывает множество задач и профессий. И в отличие от бенчмарков, которые включают синтетическое создание задач в стиле академического экзамена или теста (например, Human's Last Exam или MMLU), GDPval сосредоточена на задачах, основанных на результатах, которые либо являются реальной работой или продуктом, существующим сегодня, либо аналогично созданным продуктом.
В отличие от традиционных бенчмарков, задачи GDPval — это не простые текстовые подсказки. Они сопровождаются справочными файлами и контекстом, а ожидаемые результаты включают документы, слайды, диаграммы, электронные таблицы и медиафайлы. Такая реалистичность делает GDPval более правдоподобным тестом того, чем модели могут быть полезны для специалистов в той или иной области.
GDPval — это ранний этап, который не отражает всех нюансов многих экономических задач. Хотя он и охватывает 44 профессии и сотни задач, связанных со знаниями, он ограничен одноразовыми оценками, поэтому не охватывает случаи, когда модели нужно создавать контекст или улучшать свои результаты по ходу создания нескольких черновиков. Будущие версии будут расширяться до более интерактивных рабочих процессов и задач, насыщенных контекстом, чтобы лучше отражать сложность реальной работы со знаниями (подробнее см. в разделе «Ограничения» ниже).
GDPval охватывает задачи в 9 отраслях и 44 профессиях, и будущие версии продолжат расширять охват. Первые 9 отраслей были выбраны из тех, которые вносят вклад более 5% в ВВП США, согласно данным Федерального резервного банка Сент-Луиса. Затем мы выбрали 5 профессий в каждой отрасли, которые вносят наибольший вклад в общий уровень заработной платы и компенсаций и преимущественно являются профессиями, основанными на знаниях, используя данные о заработной плате и занятости из отчёта Бюро статистики труда США (BLS) за май 2024 года(открывается в новом окне). Чтобы определить, являются ли профессии преимущественно работой, связанной со знаниями, мы использовали данные о задачах из O*NET(открывается в новом окне), базы данных информации о профессиях США, спонсируемой Министерством труда США. Мы определили, является ли каждая задача в каждой профессии в O*NET работой, связанной со знаниями, или физической работой/ручным трудом (требующей действий в физическом мире). Профессия классифицировалась как «работа, преимущественно связанная со знаниями», если по крайней мере 60% её составляющих задач классифицируются как не связанные с физическим трудом или ручной работой. Мы выбрали порог в 60% в качестве отправной точки для первой версии GDPval, сосредоточив внимание на профессиях, где ИИ может оказать наибольшее влияние на производительность в реальном мире.
Так мы включили в набор 44 профессии.
Real estate and rental and leasing
Concierges
Property, real estate, and community association managers
Real estate sales agents
Real estate brokers
Counter and rental clerks
Government
Recreation workers
Compliance officers
First-line supervisors of police and detectives
Administrative services managers
Child, family, and school social workers
Manufacturing
Mechanical engineers
Industrial engineers
Buyers and purchasing agents
Shipping, receiving, and inventory clerks
First-line supervisors of production and operating workers
Professional, scientific, and technical services
Software developers
Lawyers
Accountants and auditors
Computer and information systems managers
Project management specialists
Health care and social assistance
Registered nurses
Nurse practitioners
Medical and health services managers
First-line supervisors of office and administrative support workers
Medical secretaries and administrative assistants
Finance and insurance
Customer service representatives
Financial and investment analysts
Financial managers
Personal financial advisors
Securities, commodities and financial services sales agents
Retail trade
Pharmacists
First-line supervisors of retail sales workers
General and operations managers
Private detectives and investigators
Wholesale trade
Sales managers
Order clerks
First-line supervisors of non-retail sales workers
Sales representatives, wholesale and manufacturing, except technical and scientific products
Sales representatives, wholesale and manufacturing, technical and scientific products
Information
Audio and video technicians
Producers and directors
News analysts, reporters, and journalists
Film and video editors
Editors
Мы работали с опытными специалистами каждой из выбранных профессий, чтобы создать репрезентативные задачи, отражающие их повседневную работу. Эти специалисты в среднем имели 14 лет опыта и были отмечены значительными достижениями в карьере. Мы намеренно привлекли широкий круг экспертов, таких как юристы из различных областей практики и фирм разного размера, чтобы максимально повысить репрезентативность.
Каждая задача проходила многоэтапный процесс проверки, чтобы мы могли убедиться, что она точно отражает реальную работу, может быть выполнена другим профессионалом и подлежит оценке. В среднем каждая задача проходила 5 этапов экспертной проверки, включая проверки от других авторов задач, дополнительных профессиональных рецензентов и валидацию на основе модели.
Полученный набор данных включает 30 полностью проверенных задач для каждой профессии (полный набор) и 5 задач для каждой профессии в нашем открытом эталонном наборе, что обеспечивает надежную основу для оценки производительности модели в реальных условиях работы, основанной на знаниях.
Примеры задач GDPval
Запрос + контекст задания
Выполнение опытным специалистом

Для оценки производительности модели на задачах GDPval мы полагаемся на экспертов-оценщиков — группу опытных профессионалов из тех же профессий, что представлены в наборе данных. Эти оценщики вслепую сравнивают результаты, сформированные моделью, с теми, которые подготовлены авторами задач (не зная, какие из них сгенерированы ИИ, а какие — человеком), и предлагают критические замечания и оценку. Далее оценщики распределяют результаты, полученные человеком и ИИ, и классифицируют каждый результат ИИ как «лучше», «так же хорошо» или «хуже» по сравнению с другими.
Составители задач также создали подробные критерии оценивания для своих профессий, что добавляет последовательность и прозрачность в процесс выставления оценок. Мы также создали «автоматизированного оценщика» — систему ИИ, обученную оценивать так, как это делали бы человеческие эксперты. Другими словами, вместо того, чтобы каждый раз проводить полную экспертную проверку, автоматизированная система оценки может быстро предсказать, какой результат люди, вероятно, предпочтут. Мы выпускаем этот инструмент на evals.openai.com в качестве экспериментальной исследовательской услуги, но он пока не так надежен, как эксперты-оценщики, поэтому мы не используем его для их замены.
Мы обнаружили, что сегодняшние лучшие передовые модели уже приближаются к качеству работы, выполняемой отраслевыми экспертами. Чтобы проверить это, мы провели слепое оценивание, в котором эксперты отрасли сравнивали результаты нескольких ведущих моделей — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4 — с работой, выполненной людьми. В 220 задачах из эталонного набора GDPval мы зафиксировали случаи, когда результаты моделей оценивались как превосходящие («победа») или равные («ничья») результатам, предоставленным отраслевыми экспертами, как показано на гистограмме ниже. Claude Opus 4.1 была лучшей моделью в наборе, особенно выделяясь в эстетике (например, форматирование документов, макеты слайдов), а GPT‑5 особенно выделялась в точности (например, поиск специфических знаний в той или иной сфере). Мы также видим явный прогресс со временем в выполнении этих задач. От GPT‑4o (выпущенного весной 2024 года) до GPT‑5 (выпущенного летом 2025 года) производительность выросла более чем вдвое, при этом прослеживается четкая линейная тенденция.
Кроме того, мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты. Однако эти цифры отражают только время вывода модели и тарифы на использование API, и поэтому не учитывают человеческий контроль, итерации и интеграционные шаги, необходимые в реальных рабочих условиях для использования наших моделей. Тем не менее, и особенно в подмножестве задач, где модели демонстрируют высокую эффективность, мы ожидаем, что передача задачи модели до её выполнения человеком позволит сэкономить и время, и деньги.
Эксперты-оценщики сравнили результаты ведущих моделей с результатами человеческих экспертов. Сегодняшние лучшие передовые модели уже приближаются к качеству работы, выполняемой отраслевыми экспертами. Claude Opus 4.1 в чуть менее чем половине задач показал результаты, которые оценивались так же хорошо или лучше, чем у людей.
Производительность на задачах GDPval от GPT‑4o до GPT‑5 увеличилась более чем в три раза за год.
Наконец, мы постепенно обучили внутреннюю экспериментальную версию GPT‑5, чтобы оценить, можем ли мы улучшить результат модели на GDPval. Мы обнаружили, что этот процесс улучшил производительность, создав возможности для дальнейшего улучшения. Другие контролируемые эксперименты подтверждают это: увеличение размера модели, поощрение большего количества шагов рассуждения и предоставление более богатого контекста задачи привели к измеримым улучшениям.
Ознакомиться с полными результатами можно в нашей статье. Мы также выпускаем в открытый доступ эталонный поднабор задач GDPval и публичную службу оценки, чтобы другие исследователи могли далее развивать эту работу.
ИИ становится все более эффективным: не за горами изменения на рынке труда. Ранние результаты GDPval показывают, что модели уже могут выполнять некоторые повторяющиеся задачи с четкими инструкциями быстрее и с меньшими затратами, чем эксперты. Однако большинство работ — это не просто набор задач, которые можно записать. GDPval выделяет рутинные задачи, с которыми может справляться ИИ, чтобы люди могли больше времени уделять тем аспектам работы, которые требуют более творческого подхода и рассуждений. Когда ИИ дополняет работу людей таким образом, это может способствовать значительному экономическому росту. Наша цель — дать всем людям возможность пользоваться ИИ-помощником, предоставив доступ к этим инструментам, поддерживая работников в период перемен и создавая системы, поощряющие широкий вклад.
GDPval — это один из первых шагов. Хотя он уже охватывает 44 профессии и сотни задач, мы продолжаем совершенствовать наш подход, чтобы расширить масштаб нашего тестирования и сделать результаты более значимыми. Текущая версия оценки также является разовой, поэтому она не охватывает случаи, когда модели необходимо строить контекст или улучшать свои результаты по ходу создания нескольких черновиков — например, пересматривать юридическое заключение после отзыва клиента, или повторять анализ данных после обнаружения аномалии. Кроме того, в реальном мире задачи не всегда четко определены с помощью подсказки и файлов. Например, юристу может потребоваться разобраться с неопределенностью и поговорить с клиентом, прежде чем убедиться в том, что ему нужно именно создание юридического обоснования. Мы планируем расширить GDPval, чтобы включить больше профессий, отраслей и типов задач, с увеличенной интерактивностью и большим количеством задач, связанных с навигацией в условиях неопределенности, с долгосрочной целью — лучше измерять прогресс в разнообразной работе с знаниями.
- Если вы являетесь отраслевым экспертом и хотите принять участие в работе над GDPval, пожалуйста, оставьте заявку здесь.
- Если вы являетесь клиентом OpenAI и хотели бы внести вклад в дальнейшее тестирование GDPval, пожалуйста, оставьте заявку здесь.
Участие сообщества имеет решающее значение. Мы рады создавать GDPval вместе с исследователями, практиками и организациями, которые разделяют нашу цель — сделать AGI более полезным для людей в рабочей среде.


