Como medir o desempenho de nossos modelos em tarefas do mundo real
Apresentamos a GDPval: uma nova avaliação para medir o desempenho do modelo em tarefas do mundo real. Ela consegue avaliar 44 profissões e tarefas que geram impacto econômico.
Nossa missão é garantir que a inteligência artificial geral (AGI) possa beneficiar toda a humanidade. Como parte dessa missão, queremos comunicar de forma transparente o progresso que vem sendo alcançado no que diz respeito aos modelos de IA e as maneiras como eles podem ajudar as pessoas no mundo real. É por isso que estamos lançando a GDPval: uma nova metodologia de avaliação projetada para nos ajudar a acompanhar o desempenho dos nossos modelos (e dos modelos de outros) em tarefas que geram valor econômico no mundo real. Chamamos essa avaliação de GDPval porque partimos do conceito de produto interno bruto (GDP, em inglês, significa Gross Domestic Product) como um indicador econômico fundamental. Por isso, selecionamos tarefas realizadas nas principais ocupações e nos setores que mais contribuem para o PIB.
Há muita especulação sobre o impacto mais amplo da IA na sociedade. No entanto, a maneira mais clara de compreender o potencial dessa tecnologia é observar o que os modelos já são capazes de fazer. A História, afinal, nos mostra que as principais tecnologias (desde a Internet até os smartphones) levaram mais de uma década para passar da invenção à adoção generalizada. Avaliações como a GDPval ajudam a fundamentar o tipo de conversa que podemos ter sobre futuras melhorias na IA em termos de evidências concretas. Além disso, também podem nos ajudar a acompanhar a melhoria dos modelos ao longo do tempo.
Outras metodologias para avaliar a IA, como testes acadêmicos desafiadores e desafios de programação, têm sido essenciais para ampliar os limites das capacidades de raciocínio dos modelos; contudo, elas muitas vezes ficam aquém do tipo de tarefas que a maioria das pessoas realiza em seus trabalhos diários.
Por isso, temos desenvolvido avaliações que medem recursos e funcionalidades cada vez mais realistas e economicamente relevantes. Desse modo, passamos de referências acadêmicas clássicas — como MMLU (questões ao estilo de exame em dezenas de disciplinas) — para avaliações mais restritas, como SWE-Bench (tarefas de correção de bugs em engenharia de software), MLE-Bench (tarefas de engenharia de aprendizado de máquina, como treinamento e análises de modelos) e Paper-Bench (raciocínio científico e crítico de artigos de pesquisa). Recentemente, passamos a trabalhar com avaliações baseadas no mercado, como a SWE-Lancer (projetos freelance de engenharia de software baseados em pagamentos reais).
A GDPval é o próximo passo. Ela mede o desempenho do modelo em tarefas extraídas diretamente do trabalho intelectual real de profissionais experientes em uma ampla gama de ocupações e setores, e assim consegue fornecer uma visão mais clara sobre o desempenho dos modelos em tarefas de alto valor econômico. Ao avaliar os modelos em tarefas ocupacionais do mundo real, conseguimos entender não apenas seu desempenho em um ambiente controlado, mas também a maneira como esses modelos podem auxiliar as pessoas em seus trabalhos diários.
Em sua primeira versão, a GDPval abrange 44 profissões, selecionadas entre os 9 principais setores que contribuem para o PIB dos Estados Unidos. O conjunto completo da GDPval inclui 1.320 tarefas especializadas (220 no conjunto gold de código aberto), cada uma meticulosamente elaborada e avaliada por profissionais experientes com mais de 14 anos de experiência, em média, nessas áreas. Cada tarefa é baseada em produtos reais de trabalho, como um documento jurídico, um projeto de engenharia, uma conversa de atendimento ao cliente ou um plano de cuidados de enfermagem.
A GDPval se distingue tanto pelo seu realismo como pela diversidade das tarefas avaliadas. Ao contrário de outras avaliações ligadas ao valor econômico, que se concentram em domínios específicos (como a SWE-Lancer), a GDPval abrange muitas tarefas e ocupações. E, ao contrário dos benchmarks que envolvem a criação sintética de tarefas ao estilo de exame ou teste acadêmico (como Humanity’s Last Exam ou MMLU), a GDPval trata de tarefas baseadas em resultados tangíveis — como um trabalho ou produto real que existe hoje, ou um produto construído de forma semelhante.
Ao contrário dos benchmarks tradicionais, as tarefas da GDPval não são simples prompts de texto. Elas vêm com arquivos de referência e contexto, e os resultados esperados abrangem documentos, slides, diagramas, planilhas e multimídia. Isso tudo faz com que a GDPval seja um teste mais realista na hora de avaliar a forma como os modelos podem auxiliar profissionais.
A GDPval ainda está em suas etapas iniciais e não reflete todas as nuances de muitas tarefas econômicas. Embora abarque 44 profissões e centenas de tarefas de trabalho intelectual, ela está limitada a avaliações pontuais e, portanto, não capta os casos em que um modelo precisaria construir contexto ou estabelecer melhorias ao longo de vários rascunhos. As versões futuras serão ampliadas para fluxos de trabalho mais interativos e tarefas ricas em contexto, a fim de refletir melhor a complexidade do trabalho no mundo real (veja mais em nossa seção Limitações aqui embaixo).
A GDPval abrange tarefas em 9 setores e 44 profissões, e as versões futuras continuarão a expandir esses números. Os nove setores iniciais foram escolhidos com base naqueles que contribuíram com mais de 5% para o PIB dos EUA, conforme determinado pelos dados do Federal Reserve Bank de St. Louis. Em seguida, selecionamos as cinco profissões dentro de cada setor que mais contribuem para o total de salários e remunerações e que são predominantemente profissões do conhecimento. Para isso, utilizamos dados salariais e de emprego do relatório de empregos do Bureau of Labor Statistics (BLS) dos EUA, referente ao mês de maio de 2024(abre em uma nova janela). Para determinar se as profissões eram predominantemente trabalhos intelectuais, utilizamos dados de tarefas do O*NET(abre em uma nova janela): um banco de dados de informações sobre profissões nos Estados Unidos, que é patrocinado pelo Ministério do Trabalho americano. Classificamos cada tarefa de cada profissão no O*NET como trabalho intelectual ou trabalho físico/manual (que requer ações no mundo físico). Uma profissão foi considerada como "predominantemente trabalho intelectual" se pelo menos 60% das tarefas que a compõem eram classificadas como não envolvendo trabalho físico ou manual. Escolhemos esse limite de 60% como ponto de partida para a primeira versão da GDPval, e focamos sobretudo em profissões nas quais a IA poderia ter o maior impacto na produtividade no mundo real.
Esse processo resultou na delimitação das 44 profissões.
Imobiliária, aluguéis e locações
Concierges
Gerentes de propriedades, imóveis e associações comunitárias
Agentes imobiliários
Corretores imobiliários
Funcionários de balcão e locação
Governo
Funcionários de recreação
Responsáveis pela conformidade
Supervisores linha de frente da força policial e detetives
Gerentes de serviços administrativos
Assistentes sociais que atuam com crianças, famílias e escolas
Manufatura
Engenheiros mecânicos
Engenheiros industriais
Compradores e agentes de compras
Funcionários de expedição, recebimento e inventário
Supervisores de primeira linha dos trabalhadores de produção e operação
Serviços profissionais, científicos e técnicos
Desenvolvedores de software
Advogados
Contadores e auditores
Gerentes de informática e sistemas de informação
Especialistas em gerenciamento de projetos
Assistência médica e social
Enfermeiros registrados
Profissionais de enfermagem
Gerentes de serviços médicos e de saúde
Supervisores da linha de frente dos funcionários administrativos e de suporte administrativo
Secretários médicos e assistentes administrativos
Finanças e seguros
Representantes de atendimento ao cliente
Analistas financeiros e de investimentos
Gerentes financeiros
Consultores financeiros pessoais
Agentes de vendas de títulos, commodities e serviços financeiros
Comércio varejista
Farmacêuticos
Supervisores da linha de frente dos funcionários de vendas varejistas
Gerentes gerais e de operações
Detetives particulares e investigadores
Comércio atacadista
Gerentes de vendas
Atendentes de pedidos
Supervisores da linha de frente dos funcionários de vendas não varejistas
Representantes de vendas, atacado e manufatura, exceto produtos técnicos e científicos
Representantes de vendas, atacado e manufatura, produtos técnicos e científicos
Informação
Técnicos de áudio e vídeo
Produtores e diretores
Analistas de notícias, repórteres e jornalistas
Editores de filmes e vídeos
Editores
Para cada profissão, trabalhamos com profissionais experientes na hora de criar tarefas que dessem conta de abarcar o tipo de trabalho diário realizado. Esses profissionais tinham, em média, 14 anos de experiência e uma boa progressão de carreira. Fizemos questão de recrutar uma ampla variedade de especialistas — como advogados de diferentes áreas de atuação e escritórios de diferentes tamanhos — para maximizar a representatividade.
Cada tarefa passou por um processo de revisão em várias etapas para garantir que fosse representativa do trabalho real, além de viável para outro profissional concluir e transparente para avaliação. Em média, cada tarefa passou por cinco rodadas de revisão de especialistas, incluindo verificações por outros redatores de tarefas, revisores ocupacionais adicionais e validação baseada em modelos.
O conjunto de dados final, portanto, inclui 30 tarefas totalmente revisadas por profissão (conjunto completo) com 5 tarefas por profissão em nosso conjunto de dados de código aberto. Uma base robusta para avaliar o desempenho do modelo em trabalhos de conhecimento do mundo real.
Exemplos de tarefas da GDPval
Prompt + contexto da tarefa
Resposta alinhada a especialistas humanos

Para avaliar o desempenho do modelo em tarefas da GDPval, contamos com "avaliadores" especializados: um grupo de profissionais experientes, com as mesmas profissões que aparecem representadas no conjunto de dados. Esses avaliadores comparam, dentro do modelo de avaliação cega, os resultados gerados pelo modelo com aqueles produzidos pelos redatores de tarefas (sem saber quais foram gerados pela IA e quais são gerados por humanos). Em seguida, oferecem críticas e notas. Depois, os avaliadores classificam os resultados humanos e da IA para qualificar cada resultado da IA como "melhor", "tão bom quanto" ou "pior do que" os outros.
Os redatores das tarefas também criaram critérios de pontuação detalhados para suas profissões, o que adiciona uma camada de consistência e transparência ao processo de avaliação. Também criamos um "avaliador automatizado", que nada mais é do que um sistema de IA treinado para estimar a maneira como os especialistas humanos avaliariam um determinado resultado. Ou seja: em vez de sempre realizar uma revisão completa especializada, o avaliador automatizado pode prever rapidamente qual resultado as pessoas provavelmente prefeririam. Estamos lançando essa ferramenta em evals.openai.com como um serviço de pesquisa experimental, mas ela ainda não é tão confiável quanto avaliadores especializados e, por isso, não a utilizamos como substituta.
Descobrimos que os modelos de ponta atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor. Para testar essa afirmação, realizamos avaliações cegas nas quais especialistas do setor compararam os resultados de vários modelos líderes (GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro e Grok 4) com trabalhos produzidos por humanos. Nas 220 tarefas do conjunto GDPval Gold, registramos momentos em que os resultados do modelo foram classificados como melhores ("vitórias") ou equivalentes ("empates") aos resultados dos especialistas do setor, conforme mostrado no gráfico de barras abaixo. O Claude Opus 4.1 foi o modelo com melhor desempenho do conjunto, destacando-se especialmente na estética (por exemplo, formatação de documentos, layout de slides); já o GPT‑5 se destacou especialmente na precisão (por exemplo, na busca de conhecimento específico do domínio). Também observamos um progresso claro ao longo do tempo nessas tarefas. Afinal, o desempenho mais que dobrou do GPT‑4o (lançado na primavera de 2024) para o GPT‑5 (lançado no verão de 2025), seguindo uma clara tendência linear.
Além disso, descobrimos que os modelos de ponta podem realizar tarefas da GDPval cerca de 100 vezes mais rápido e com um valor 100 vezes mais barato do que os especialistas do setor. No entanto, esses números refletem apenas o tempo de inferência do modelo e as taxas de cobrança da API. Portanto, não levam em consideração as etapas de supervisão humana, iteração e integração necessárias em ambientes de trabalho reais para o uso de nossos modelos. Ainda assim, esperamos que atribuir uma tarefa a um modelo antes de pedir para um ser humano realizá-la seja algo que vá economizar tempo e dinheiro — especialmente no subconjunto de tarefas em que os modelos são particularmente fortes.
Avaliadores especializados compararam os resultados dos principais modelos com os de especialistas humanos. Os modelos de ponta atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor. O Claude Opus 4.1 produziu resultados classificados como bons ou melhores do que os humanos em pouco menos da metade das tarefas.
Do GPT‑4o ao GPT‑5, o desempenho nas tarefas da GDPval mais do que triplicou em um ano.
Por fim, treinamos gradualmente uma versão interna e experimental do GPT‑5 para avaliar se poderíamos melhorar o desempenho na GDPval. Descobrimos que esse processo melhorou o desempenho, criando um caminho para melhorias potenciais futuras. Outras experiências controladas confirmam isso. Por exemplo: aumentar o tamanho do modelo, incentivar mais etapas de raciocínio e fornecer um contexto mais rico para as tarefas resultaram em ganhos mensuráveis.
Os resultados completos estão publicados em nosso artigo. Também estamos lançando um subconjunto de tarefas da GDPval, bem como um serviço de classificação público para que outros pesquisadores possam usar esse trabalho como base.
À medida que a IA se torna mais capaz, é provável que ela acabe provocando mudanças no mercado de trabalho. Os primeiros resultados da GDPval, aliás, mostram que os modelos já podem realizar algumas tarefas repetitivas e bem especificadas mais rapidamente e a um custo menor — sobretudo em comparação com o trabalho de especialistas. No entanto, a maioria dos empregos é mais do que um simples conjunto de tarefas que podem ser descritas em palavras. De fato, a GDPval destaca as áreas nas quais a IA pode lidar com tarefas rotineiras para que as pessoas possam dedicar mais tempo às partes criativas do trabalho, que exigem mais discernimento. Quando a IA complementa os trabalhadores dessa forma, ela consegue gerar um crescimento econômico significativo. Nosso objetivo é manter todas as pessoas no "elevador" da IA, democratizando o acesso a essas ferramentas, apoiando os trabalhadores durante as mudanças e criando sistemas que recompensem contribuições amplas.
A GDPval é só o início. Embora ela abranja 44 profissões e centenas de tarefas, continuamos a aperfeiçoar nossa abordagem para ampliar o escopo de nossos testes e tornar os resultados mais significativos. A versão atual da avaliação também é única e, portanto, não dá conta de casos em que um modelo precisaria construir contexto ou melhorar por meio de várias versões preliminares — por exemplo, revisar um documento jurídico após o feedback do cliente ou iterar uma análise de dados após detectar uma anomalia. Além disso, no mundo real, as tarefas nem sempre são claramente definidas com um prompt e arquivos de referência. Um advogado, por exemplo, pode ter que lidar com ambiguidades e conversar com seu cliente antes de decidir que a criação de um documento jurídico é a abordagem correta a seguir. Planejamos expandir a GDPval para incluir mais profissões, setores e tipos de tarefas, incluindo mais interatividade e mais detalhamento quanto à ambiguidade. Nosso objetivo de longo prazo é medir melhor o progresso em diversos trabalhos de conhecimento.
- Se você é um especialista do setor e tem interesse em contribuir com a GDPval, clique aqui.
- Se você é um cliente que trabalha com a OpenAI e gostaria de contribuir para uma futura rodada da GDPval, manifeste seu interesse aqui.
A participação da comunidade é essencial e estamos muito felizes com a possibilidade de desenvolver a GDPval em conjunto com pesquisadores, profissionais e organizações que compartilham nosso objetivo de tornar a AGI mais útil para as pessoas no trabalho.


