Como medir o desempenho de nossos modelos em tarefas do mundo real
Estamos a lançar a GDPval, uma nova avaliação que mede o desempenho do modelo em tarefas com impacto económico e do mundo real em 44 profissões.
A nossa missão é garantir que a inteligência artificial geral beneficia toda a humanidade. Como parte dessa missão, queremos comunicar de forma transparente o progresso sobre como os modelos de IA podem ajudar as pessoas no mundo real. É por isso que estamos a lançar a GDPval: uma nova metodologia de avaliação criada para nos ajudar a monitorizar o desempenho dos nossos modelos e de outros em tarefas com impacto económico e do mundo real. Chamamos a esta avaliação GDPval porque partimos o conceito de Produto Interno Bruto (GDP, na sigla em inglês) como um indicador económico fundamental e selecionámos tarefas das principais ocupações nos setores que mais contribuem para o PIB.
Há muita especulação sobre o impacto mais amplo da IA na sociedade, mas a forma mais clara de compreender o seu potencial é observar o que os modelos já são capazes de fazer. A História mostra que as principais tecnologias — da internet aos smartphones — demoraram mais de uma década a passar da invenção à adoção em larga escala. Avaliações como a GDPval ajudam a fundamentar as discussões sobre futuras melhorias na IA com evidências, em vez de palpites, e podem ajudar-nos a acompanhar a evolução dos modelos ao longo do tempo.
Metodologias de avaliação de IA anteriores, como testes académicos desafiantes e desafios de programação, têm sido essenciais para alargar os limites das capacidades de reflexão dos modelos, mas muitas vezes ficam aquém dos tipos de tarefas que muitas pessoas realizam no seu trabalho diário.
Para colmatar esta lacuna, temos desenvolvido avaliações que medem recursos cada vez mais realistas e economicamente relevantes. Assim, passámos de referências académicas clássicas como o MMLU (perguntas em estilo de exame em dezenas de disciplinas), para avaliações mais restritas como SWE-Bench (tarefas de correção de bugs em engenharia de software), MLE-Bench (tarefas de engenharia de aprendizagem automática, como treino e análise de modelos), e Paper-Bench (reflexão científica e crítica em artigos de investigação). Recentemente, passámos também a trabalhar com avaliações baseadas no mercado como SWE-Lancer (projetos de engenharia de software freelance baseados em pagamentos reais).
A GDPval é o próximo passo. A metodologia mede o desempenho do modelo em tarefas extraídas diretamente do trabalho prático de profissionais experientes numa vasta gama de ocupações e setores, proporcionando uma visão mais clara de como os modelos se comportam em tarefas com valor económico. A avaliação de modelos em tarefas ocupacionais realistas ajuda-nos a compreender não só o seu desempenho em ambiente controlado, mas também como podem ajudar as pessoas nos seus trabalhos diários.
A GDPval, a primeira versão desta avaliação, abrange 44 ocupações selecionadas entre os 9 principais setores que contribuem para o PIB dos EUA. O conjunto completo da GDPval inclui 1.320 tarefas especializadas (220 no conjunto gold de código aberto), cada uma meticulosamente elaborada e verificada por profissionais experientes com mais de 14 anos de experiência, em média, nestas áreas. Cada tarefa baseia-se em produtos reais de trabalho, como um parecer jurídico, um projeto de engenharia, uma conversa de apoio ao cliente ou um plano de cuidados de enfermagem.
A GDPval destaca-se tanto pelo seu realismo como pela diversidade das tarefas avaliadas. Ao contrário de outras avaliações ligadas ao valor económico, que se centram em domínios específicos (por exemplo, SWE-Lancer), a GDPval abrange muitas tarefas e ocupações. E, ao contrário dos benchmarks que envolvem a criação sintética de tarefas ao estilo de um exame ou teste académico (como Humanity’s Last Exam ou MMLU), a GDPval concentra-se em tarefas baseadas em resultados tangíveis, como um trabalho ou produto real que existe hoje ou um produto construído de forma semelhante.
Ao contrário dos benchmarks tradicionais, as tarefas da GDPval não são simples prompts de texto. São acompanhadas de ficheiros de referência e de contexto, e os resultados esperados abrangem documentos, diapositivos, diagramas, planilhas e conteúdos multimédia. Este realismo torna a GDPval um teste mais realista de como os modelos podem ajudar os profissionais.
A GDPval ainda está numa etapa inicial e não reflete todas as nuances de muitas tarefas económicas. Embora abranja 44 ocupações e centenas de tarefas de trabalho intelectual, está limitada a avaliações pontuais e, por isso, não capta casos em que um modelo precisaria de construir contexto ou melhorar através de vários rascunhos. As versões futuras irão incluir fluxos de trabalho mais interativos e tarefas com um contexto mais rico, para refletir refletir a complexidade do trabalho no mundo real (vê mais na secção Limitações abaixo).
A GDPval abrange tarefas em nove setores e 44 ocupações, e as versões futuras continuarão a alargar esses números. Os nove setores iniciais foram escolhidos com base naqueles que contribuem com mais de 5% para o PIB dos EUA, conforme determinado por dados do Federal Reserve Bank de St. Louis. Em seguida, selecionámos as cinco ocupações dentro de cada setor que mais contribuem para o total de salários e remunerações e que são predominantemente ocupações de trabalho intelectual, utilizando os dados salariais e emprego do relatório de empregos do Bureau of Labor Statistics (BLS) dos EUA, de maio de 2024(abre numa nova janela). Para determinar se as ocupações eram predominantemente de trabalho intelectual, utilizámos dados de tarefas do O*NET(abre numa nova janela), uma base de dados de informações sobre profissões nos EUA, patrocinada pelo Ministério do Trabalho americano. Classificamos cada tarefa de cada profissão no O*NET como trabalho intelectual ou trabalho físico/manual (que requer ações no mundo físico). Uma profissão é classificada como "predominantemente trabalho intelectual" se pelo menos 60% das tarefas que a compõem forem classificadas como não envolvendo trabalho físico ou manual. Escolhemos este limite de 60% como ponto de partida para a primeira versão da GDPval, e focámo-nos nas ocupações onde a IA poderia ter o maior impacto na produtividade do mundo real.
Este processo resultou na inclusão de 44 profissões.
Imobiliário, arrendamento e leasing
Concierges
Gestores de propriedades, imóveis e associações comunitárias
Agentes imobiliários
Corretores imobiliários
Funcionários de balcão e de aluguer
Governo
Trabalhadores de recriação
Responsáveis pela conformidade
Supervisores de primeira linha de forças policiais e detetives
Gestores de serviços administrativos
Assistentes sociais de crianças, famílias e escolas
Manufatura
Engenheiros mecânicos
Engenheiros industriais
Compradores e agentes de compras
Funcionários de expedição, receção e inventário
Supervisores de primeira linha de trabalhadores de produção e operação
Serviços profissionais, científicos e técnicos
Programadores de software
Advogados
Contabilistas e auditores
Gestores de informática e sistemas de informação
Especialistas em gestão de projetos
Assistência médica e social
Enfermeiros registados
Enfermeiros especialistas
Gestores de serviços médicos e de saúde
Supervisores de primeira linha de funcionários administrativos e de apoio administrativo
Secretários médicos e assistentes administrativos
Finanças e seguros
Representantes de atendimento ao cliente
Analistas financeiros e de investimento
Gestores financeiros
Consultores financeiros pessoais
Agentes de vendas de títulos, mercadorias e serviços financeiros
Comércio retalhista
Farmacêuticos
Supervisores de primeira linha de trabalhadores de vendas a retalho
Gestores gerais e de operações
Detetives privados e investigadores
Comércio grossista
Gestores de vendas
Atendentes de pedidos
Supervisores de primeira linha de trabalhadores de vendas não retalhistas
Representantes de vendas, grossistas e manufatura, exceto produtos técnicos e científicos
Representantes de vendas, grossistas e manufatura, produtos técnicos e científicos
Informação
Técnicos de áudio e vídeo
Produtores e realizadores
Analistas de notícias, repórteres e jornalistas
Editores de filmes e vídeos
Editores
Para cada profissão, trabalhámos com profissionais experientes para criar tarefas representativas que refletissem o tipo de trabalho diário. Estes profissionais tinham, em média, 14 anos de experiência, com um sólido historial de progressão na carreira. Recrutámos deliberadamente um vasto leque de especialistas — como advogados de diferentes áreas de atuação e escritórios de diferentes dimensões — para maximizar a representatividade.
Cada tarefa passou por um processo de revisão de várias etapas para garantir que era representativa do trabalho real, viável para outro profissional a concluir e adequada para avaliação. Em média, cada tarefa recebeu cinco rondas de revisão especializada, incluindo verificações de outros autores da tarefa, revisores profissionais adicionais e validação baseada em modelos.
O conjunto de dados resultante inclui 30 tarefas totalmente revistas por profissão (conjunto completo), com cinco tarefas por profissão no nosso conjunto de referência de código aberto, fornecendo uma base sólida para avaliar o desempenho do modelo em trabalho intelectual do mundo real.
Exemplos de tarefas da GDPval
Prompt + contexto da tarefa
Resultados produzidos por pessoas experientes

Para avaliar o desempenho do modelo nas tarefas de GDPval, contamos com "avaliadores" especializados — um grupo de profissionais experientes, com as mesmas profissões representadas no conjunto de dados. Estes avaliadores comparam, dentro do modelo de avaliação cega, os resultados gerados pelo modelo com os produzidos pelos autores das tarefas (sem saber quais foram gerados por IA ou por humanos) e oferecem críticas e classificações. Os avaliadores classificam então os resultados humanos e de IA e qualificam cada resultado de IA como “melhor”, “tão bom como” ou “pior do que” os outros.
Os autores das tarefas criaram também critérios de avaliação detalhados para as respetivas profissões, o que acrescenta consistência e transparência ao processo de avaliação. Criámos também um "avaliador automatizado", um sistema de IA treinado para estimar como os especialistas humanos avaliariam um determinado resultado. Por outras palavras, em vez de realizar sempre uma revisão completa por especialistas, o sistema de avaliação automatizado pode prever rapidamente qual o resultado que as pessoas provavelmente prefeririam. Estamos a disponibilizar esta ferramenta em evals.openai.com como um serviço de pesquisa experimental, mas ainda não é tão fiável como os avaliadores especialistas, pelo que não a utilizamos para os substituir.
Descobrimos que os melhores modelos de ponta atuais já se aproximam da qualidade do trabalho produzido pelos especialistas do setor. Para testar esta descoberta, realizámos avaliações cegas, nas quais especialistas do setor compararam os resultados de vários modelos líderes — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro e Grok 4 — com trabalhos produzidos por humanos. Nas 220 tarefas do conjunto gold da GDPval, registámos quando os resultados do modelo foram classificados como melhores ("vitórias") ou equivalentes ("empates") aos resultados dos especialistas do setor, como mostra o gráfico de barras abaixo. O Claude Opus 4.1 foi o modelo com melhor desempenho do conjunto, destacando-se particularmente na estética (por exemplo, formatação de documentos, layout de diapositivos), e o GPT‑5 destacou-se particularmente na precisão (por exemplo, na procura de conhecimento específico do domínio). Também observámos um progresso claro ao longo do tempo nestas tarefas. O desempenho mais do que duplicou do GPT‑4o (lançado na primavera de 2024) para o GPT‑5 (lançado no verão de 2025), seguindo uma clara tendência linear.
Além disso, verificámos que os modelos de ponta conseguem realizar tarefas de avaliação da GDPval de forma aproximadamente 100 vezes mais rápida e 100 vezes mais barata do que os especialistas do setor. No entanto, estes números refletem o tempo de inferência do modelo e as taxas de faturação da API, e, portanto, não têm em consideração a supervisão humana, a iteração e a integração necessárias em ambientes de trabalho reais para utilizar os nossos modelos. Ainda assim, especialmente no subconjunto de tarefas em que os modelos são particularmente fortes, esperamos que atribuir uma tarefa a um modelo antes de a atribuir a um humano poupe tempo e dinheiro.
Os avaliadores especialistas compararam os resultados dos modelos líderes com os dos especialistas humanos. Os modelos de ponta atuais já estão a aproximar-se da qualidade do trabalho produzido por especialistas do setor. O Claude Opus 4.1 produziu resultados classificados como tão bons ou melhores que os de humanos em pouco menos de metade das tarefas.
Do GPT‑4o ao GPT‑5, o desempenho nas tarefas da GDPval mais do que triplicou num ano.
Por fim, treinámos progressivamente uma versão interna e experimental do GPT‑5 para avaliar se poderíamos melhorar o desempenho na GDPval. Descobrimos que este processo melhorou o desempenho, criando um caminho para melhorias potenciais futuras. Outras experiências controladas corroboram isto: aumentar o tamanho do modelo, incentivar mais etapas de reflexão e fornecer um contexto mais rico para as tarefas levaram a ganhos mensuráveis.
Podes ler os resultados completos no nosso artigo. Estamos também a lançar um subconjunto de tarefas da GDPval e um serviço público de classificação para que outros investigadores se possam basear neste trabalho.
À medida que a IA se torna mais capaz, é provável que provoque mudanças no mercado de trabalho. Os primeiros resultados da GDPval mostram que os modelos já conseguem realizar algumas tarefas repetitivas e bem definidas mais rapidamente e a um custo mais baixo do que os especialistas. No entanto, a maioria dos trabalhos é mais do que apenas um conjunto de tarefas que podem ser descritas em palavras. A GDPval destaca as áreas onde a IA pode lidar com tarefas rotineiras, para que as pessoas dediquem mais tempo às partes criativas e que exigem mais discernimento. Quando a IA complementa os trabalhadores desta forma, pode gerar crescimento económico significativo. O nosso objetivo é manter todos no "elevador ascendente" da IA, democratizando o acesso a estas ferramentas, apoiando os trabalhadores durante a mudança e construindo sistemas que recompensem contribuições amplas.
A GDPVal é só o início. Embora abranja 44 ocupações e centenas de tarefas, continuamos a melhorar a nossa abordagem para alargar o âmbito dos nossos testes e tornar os resultados mais significativos. A versão atual da avaliação é também única, pelo que não abrange casos em que um modelo necessitaria de construir contexto ou melhorar através de várias versões — por exemplo, rever um documento jurídico após o feedback do cliente ou iterar numa análise de dados após a identificação de uma anomalia. Além disso, no mundo real, as tarefas nem sempre estão claramente definidas com um prompt e arquivos de referência. Por exemplo, um advogado pode ter de lidar com ambiguidades e falar com o seu cliente antes de decidir que criar um parecer jurídico é a abordagem certa. Planeamos expandir a GDPval para incluir mais profissões, setores e tipos de tarefas, com maior interatividade e mais tarefas que envolvam lidar com a ambiguidade, com o objetivo a longo prazo de medir melhor o progresso em vários trabalhos intelectuais.
- Se és um especialista do setor interessado em contribuir para a GDPval, mostra o teu interesse aqui.
- Se és um cliente que trabalha com a OpenAI e gostarias de contribuir para uma futura ronda da GDPval, por favor manifesta o teu interesse aqui.
A participação da comunidade é essencial — estamos entusiasmados com a possibilidade de construir a GDPval em conjunto com investigadores, profissionais e organizações que partilham o nosso objetivo de tornar a AGI mais útil para as pessoas no trabalho.


