25 сентября 2025 г.

Измерение производительности наших моделей в реальных задачах

Мы представляем GDPval, новую оценку, которая измеряет производительность модели в экономически значимых, реальных задачах в 44 профессиях.

Читать статью Посетите evals.openai.com

Наша миссия заключается в том, чтобы искусственный интеллект приносил пользу всему человечеству. В рамках нашей миссии мы стремимся открыто сообщать о прогрессе в том, как модели ИИ могут помогать людям в реальной жизни. С этой же целью мы представляем GDPval — новую оценку, предназначенную для отслеживания того, насколько хорошо наши модели и другие модели выполняют экономически значимые, реальные задачи. Мы назвали эту оценку GDPval, поскольку мы начали с концепции валового внутреннего продукта (ВВП = GDP) как ключевого экономического показателя и выбрали задачи из ключевых профессий в отраслях, которые вносят наибольший вклад в ВВП.

Люди часто размышляют о более широком влиянии ИИ на общество, но самый очевидный способ понять его потенциал — это посмотреть на то, что модели уже могут делать. История показывает, что крупные технологии — от интернета до смартфонов — прошли десятки лет, чтобы перейти от изобретения к широкому распространению. Такие оценки, как GDPval, помогают обосновывать обсуждения будущих улучшений ИИ на фактах, а не на догадках, и могут помочь нам отслеживать улучшение моделей с течением времени.

Предыдущие оценки ИИ, например сложные академические тесты и конкурентные задачи по программированию, были важны для расширения границ возможностей рассуждения моделей, но они часто не соответствуют тем задачам, которые многие люди решают в своей повседневной работе.

Чтобы преодолеть этот разрыв, мы разрабатываем оценки, которые измеряют всё более реалистичные и экономически значимые возможности. Этот прогресс перешёл от классических академических ориентиров, таких как MMLU (экзаменационные вопросы по десяткам предметов), к более прикладным оценкам, таким как SWE-Bench (задачи по исправлению ошибок в программной инженерии), MLE-Bench (задачи машинного обучения, такие как обучение моделей и анализ) и Paper-Bench (научное рассуждение и критика научных работ), а в последнее время — к рыночным оценкам, таким как SWE-Lancer (фриланс-проекты по разработке программного обеспечения на основе реальных выплат).

GDPval — наш следующий шаг в этом направлении. Этот тест оценивает производительность моделей на задачах, взятых непосредственно из реальной работы, основанной на знаниях, выполняемой опытными профессионалами в различных профессиях и секторах, предоставляя более четкое представление о том, как модели справляются с экономически значимыми задачами. Оценка моделей на реалистичных профессиональных задачах помогает нам понять не только то, как они работают в лаборатории, но и как они могут помогать людям в их повседневной работе.

Что измеряет GDPval

GDPval, первая версия этой оценки, охватывает 44 профессии, выбранные из 9 ведущих отраслей, вносящих вклад в ВВП США. Полный набор GDPval включает 1 320 специализированных задач (220 в открытом эталонном наборе), каждая из которых тщательно разработана и проверена опытными профессионалами со средним стажем работы более 14 лет в этих областях. Каждая задача основана на реальных результатах работы, таких как юридическое заключение, инженерный чертеж, решение проблемы клиента или план ухода за пациентом.

GDPval отличается как реалистичностью, так и разнообразием оцениваемых задач. В отличие от других оценок, связанных с экономической ценностью, которые сосредоточены на конкретных областях (например, SWE-Lancer), GDPval охватывает множество задач и профессий. И в отличие от бенчмарков, которые включают синтетическое создание задач в стиле академического экзамена или теста (например, Human's Last Exam или MMLU), GDPval сосредоточена на задачах, основанных на результатах, которые либо являются реальной работой или продуктом, существующим сегодня, либо аналогично созданным продуктом.

В отличие от традиционных бенчмарков, задачи GDPval — это не простые текстовые подсказки. Они сопровождаются справочными файлами и контекстом, а ожидаемые результаты включают документы, слайды, диаграммы, электронные таблицы и медиафайлы. Такая реалистичность делает GDPval более правдоподобным тестом того, чем модели могут быть полезны для специалистов в той или иной области.

GDPval — это ранний этап, который не отражает всех нюансов многих экономических задач. Хотя он и охватывает 44 профессии и сотни задач, связанных со знаниями, он ограничен одноразовыми оценками, поэтому не охватывает случаи, когда модели нужно создавать контекст или улучшать свои результаты по ходу создания нескольких черновиков. Будущие версии будут расширяться до более интерактивных рабочих процессов и задач, насыщенных контекстом, чтобы лучше отражать сложность реальной работы со знаниями (подробнее см. в разделе «Ограничения» ниже).

Как мы выбирали профессии

GDPval охватывает задачи в 9 отраслях и 44 профессиях, и будущие версии продолжат расширять охват. Первые 9 отраслей были выбраны из тех, которые вносят вклад более 5% в ВВП США, согласно данным Федерального резервного банка Сент-Луиса. Затем мы выбрали 5 профессий в каждой отрасли, которые вносят наибольший вклад в общий уровень заработной платы и компенсаций и преимущественно являются профессиями, основанными на знаниях, используя данные о заработной плате и занятости из отчёта Бюро статистики труда США (BLS) за май 2024 года⁠(открывается в новом окне). Чтобы определить, являются ли профессии преимущественно работой, связанной со знаниями, мы использовали данные о задачах из O*NET⁠(открывается в новом окне), базы данных информации о профессиях США, спонсируемой Министерством труда США. Мы определили, является ли каждая задача в каждой профессии в O*NET работой, связанной со знаниями, или физической работой/ручным трудом (требующей действий в физическом мире). Профессия классифицировалась как «работа, преимущественно связанная со знаниями», если по крайней мере 60% её составляющих задач классифицируются как не связанные с физическим трудом или ручной работой. Мы выбрали порог в 60% в качестве отправной точки для первой версии GDPval, сосредоточив внимание на профессиях, где ИИ может оказать наибольшее влияние на производительность в реальном мире.

Так мы включили в набор 44 профессии.

Real estate and rental and leasing

Concierges
Property, real estate, and community association managers
Real estate sales agents
Real estate brokers
Counter and rental clerks

Government

Recreation workers
Compliance officers
First-line supervisors of police and detectives
Administrative services managers
Child, family, and school social workers

Manufacturing

Mechanical engineers
Industrial engineers
Buyers and purchasing agents
Shipping, receiving, and inventory clerks
First-line supervisors of production and operating workers

Professional, scientific, and technical services

Software developers
Lawyers
Accountants and auditors
Computer and information systems managers
Project management specialists

Health care and social assistance

Registered nurses
Nurse practitioners
Medical and health services managers
First-line supervisors of office and administrative support workers
Medical secretaries and administrative assistants

Finance and insurance

Customer service representatives
Financial and investment analysts
Financial managers
Personal financial advisors
Securities, commodities and financial services sales agents

Retail trade

Pharmacists
First-line supervisors of retail sales workers
General and operations managers
Private detectives and investigators

Wholesale trade

Sales managers
Order clerks
First-line supervisors of non-retail sales workers
Sales representatives, wholesale and manufacturing, except technical and scientific products
Sales representatives, wholesale and manufacturing, technical and scientific products

Information

Audio and video technicians
Producers and directors
News analysts, reporters, and journalists
Film and video editors
Editors

GDPval spans 44 knowledge work occupations across 9 sectors, from software developers and lawyers to registered nurses and mechanical engineers. These occupations were selected for their economic significance and represent the types of day-to-day work where AI can meaningfully assist professionals.

Как мы создали набор данных

Мы работали с опытными специалистами каждой из выбранных профессий, чтобы создать репрезентативные задачи, отражающие их повседневную работу. Эти специалисты в среднем имели 14 лет опыта и были отмечены значительными достижениями в карьере. Мы намеренно привлекли широкий круг экспертов, таких как юристы из различных областей практики и фирм разного размера, чтобы максимально повысить репрезентативность.

Каждая задача проходила многоэтапный процесс проверки, чтобы мы могли убедиться, что она точно отражает реальную работу, может быть выполнена другим профессионалом и подлежит оценке. В среднем каждая задача проходила 5 этапов экспертной проверки, включая проверки от других авторов задач, дополнительных профессиональных рецензентов и валидацию на основе модели.

Полученный набор данных включает 30 полностью проверенных задач для каждой профессии (полный набор) и 5 задач для каждой профессии в нашем открытом эталонном наборе, что обеспечивает надежную основу для оценки производительности модели в реальных условиях работы, основанной на знаниях.

Примеры задач GDPval

Запрос + контекст задания

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Выполнение опытным специалистом

Exploded view of a design for a cable reel

Each task in GDPval is designed by an experienced professional and reflects real knowledge work from their occupation. The prompt is a realistic work assignment created by a domain expert, and the gold deliverable is the expert’s own solution.

Как мы оцениваем эффективность работы модели

Для оценки производительности модели на задачах GDPval мы полагаемся на экспертов-оценщиков — группу опытных профессионалов из тех же профессий, что представлены в наборе данных. Эти оценщики вслепую сравнивают результаты, сформированные моделью, с теми, которые подготовлены авторами задач (не зная, какие из них сгенерированы ИИ, а какие — человеком), и предлагают критические замечания и оценку. Далее оценщики распределяют результаты, полученные человеком и ИИ, и классифицируют каждый результат ИИ как «лучше», «так же хорошо» или «хуже» по сравнению с другими.

Составители задач также создали подробные критерии оценивания для своих профессий, что добавляет последовательность и прозрачность в процесс выставления оценок. Мы также создали «автоматизированного оценщика» — систему ИИ, обученную оценивать так, как это делали бы человеческие эксперты. Другими словами, вместо того, чтобы каждый раз проводить полную экспертную проверку, автоматизированная система оценки может быстро предсказать, какой результат люди, вероятно, предпочтут. Мы выпускаем этот инструмент на evals.openai.com в качестве экспериментальной исследовательской услуги, но он пока не так надежен, как эксперты-оценщики, поэтому мы не используем его для их замены.

Первые результаты

Мы обнаружили, что сегодняшние лучшие передовые модели уже приближаются к качеству работы, выполняемой отраслевыми экспертами. Чтобы проверить это, мы провели слепое оценивание, в котором эксперты отрасли сравнивали результаты нескольких ведущих моделей — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4 — с работой, выполненной людьми. В 220 задачах из эталонного набора GDPval мы зафиксировали случаи, когда результаты моделей оценивались как превосходящие («победа») или равные («ничья») результатам, предоставленным отраслевыми экспертами, как показано на гистограмме ниже. Claude Opus 4.1 была лучшей моделью в наборе, особенно выделяясь в эстетике (например, форматирование документов, макеты слайдов), а GPT‑5 особенно выделялась в точности (например, поиск специфических знаний в той или иной сфере). Мы также видим явный прогресс со временем в выполнении этих задач. От GPT‑4o (выпущенного весной 2024 года) до GPT‑5 (выпущенного летом 2025 года) производительность выросла более чем вдвое, при этом прослеживается четкая линейная тенденция.

Кроме того, мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты. Однако эти цифры отражают только время вывода модели и тарифы на использование API, и поэтому не учитывают человеческий контроль, итерации и интеграционные шаги, необходимые в реальных рабочих условиях для использования наших моделей. Тем не менее, и особенно в подмножестве задач, где модели демонстрируют высокую эффективность, мы ожидаем, что передача задачи модели до её выполнения человеком позволит сэкономить и время, и деньги.

Эксперты-оценщики сравнили результаты ведущих моделей с результатами человеческих экспертов. Сегодняшние лучшие передовые модели уже приближаются к качеству работы, выполняемой отраслевыми экспертами. Claude Opus 4.1 в чуть менее чем половине задач показал результаты, которые оценивались так же хорошо или лучше, чем у людей.

Производительность на задачах GDPval от GPT‑4o до GPT‑5 увеличилась более чем в три раза за год.

Наконец, мы постепенно обучили внутреннюю экспериментальную версию GPT‑5, чтобы оценить, можем ли мы улучшить результат модели на GDPval. Мы обнаружили, что этот процесс улучшил производительность, создав возможности для дальнейшего улучшения. Другие контролируемые эксперименты подтверждают это: увеличение размера модели, поощрение большего количества шагов рассуждения и предоставление более богатого контекста задачи привели к измеримым улучшениям.

Ознакомиться с полными результатами можно в нашей статье. Мы также выпускаем в открытый доступ эталонный поднабор задач GDPval и публичную службу оценки, чтобы другие исследователи могли далее развивать эту работу.

Будущее работы и ИИ

ИИ становится все более эффективным: не за горами изменения на рынке труда. Ранние результаты GDPval показывают, что модели уже могут выполнять некоторые повторяющиеся задачи с четкими инструкциями быстрее и с меньшими затратами, чем эксперты. Однако большинство работ — это не просто набор задач, которые можно записать. GDPval выделяет рутинные задачи, с которыми может справляться ИИ, чтобы люди могли больше времени уделять тем аспектам работы, которые требуют более творческого подхода и рассуждений. Когда ИИ дополняет работу людей таким образом, это может способствовать значительному экономическому росту. Наша цель — дать всем людям возможность пользоваться ИИ-помощником, предоставив доступ к этим инструментам, поддерживая работников в период перемен и создавая системы, поощряющие широкий вклад.

Ограничения и следующие шаги

GDPval — это один из первых шагов. Хотя он уже охватывает 44 профессии и сотни задач, мы продолжаем совершенствовать наш подход, чтобы расширить масштаб нашего тестирования и сделать результаты более значимыми. Текущая версия оценки также является разовой, поэтому она не охватывает случаи, когда модели необходимо строить контекст или улучшать свои результаты по ходу создания нескольких черновиков — например, пересматривать юридическое заключение после отзыва клиента, или повторять анализ данных после обнаружения аномалии. Кроме того, в реальном мире задачи не всегда четко определены с помощью подсказки и файлов. Например, юристу может потребоваться разобраться с неопределенностью и поговорить с клиентом, прежде чем убедиться в том, что ему нужно именно создание юридического обоснования. Мы планируем расширить GDPval, чтобы включить больше профессий, отраслей и типов задач, с увеличенной интерактивностью и большим количеством задач, связанных с навигацией в условиях неопределенности, с долгосрочной целью — лучше измерять прогресс в разнообразной работе с знаниями.

Присоединяйтесь

Если вы являетесь отраслевым экспертом и хотите принять участие в работе над GDPval, пожалуйста, оставьте заявку здесь.
Если вы являетесь клиентом OpenAI и хотели бы внести вклад в дальнейшее тестирование GDPval, пожалуйста, оставьте заявку здесь.

Участие сообщества имеет решающее значение. Мы рады создавать GDPval вместе с исследователями, практиками и организациями, которые разделяют нашу цель — сделать AGI более полезным для людей в рабочей среде.

Автор

OpenAI

Читать далее

Просмотреть все

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.

Отделяя сигнал от шума в оценках кода

Исследования8 июл. 2026 г.

Представляем GeneBench-Pro

Исследования30 июн. 2026 г.