Saltar para o conteúdo principal
OpenAI

25 de setembro de 2025

PublicaçãoInvestigação

Como medir o desempenho de nossos modelos em tarefas do mundo real

Estamos a lançar a GDPval, uma nova avaliação que mede o desempenho do modelo em tarefas com impacto económico e do mundo real em 44 profissões.

A nossa missão é garantir que a inteligência artificial geral beneficia toda a humanidade. Como parte dessa missão, queremos comunicar de forma transparente o progresso sobre como os modelos de IA podem ajudar as pessoas no mundo real. É por isso que estamos a lançar a GDPval: uma nova metodologia de avaliação criada para nos ajudar a monitorizar o desempenho dos nossos modelos e de outros em tarefas com impacto económico e do mundo real. Chamamos a esta avaliação GDPval porque partimos o conceito de Produto Interno Bruto (GDP, na sigla em inglês) como um indicador económico fundamental e selecionámos tarefas das principais ocupações nos setores que mais contribuem para o PIB.

Há muita especulação sobre o impacto mais amplo da IA na sociedade, mas a forma mais clara de compreender o seu potencial é observar o que os modelos já são capazes de fazer. A História mostra que as principais tecnologias — da internet aos smartphones — demoraram mais de uma década a passar da invenção à adoção em larga escala. Avaliações como a GDPval ajudam a fundamentar as discussões sobre futuras melhorias na IA com evidências, em vez de palpites, e podem ajudar-nos a acompanhar a evolução dos modelos ao longo do tempo.

Metodologias de avaliação de IA anteriores, como testes académicos desafiantes e desafios de programação, têm sido essenciais para alargar os limites das capacidades de reflexão dos modelos, mas muitas vezes ficam aquém dos tipos de tarefas que muitas pessoas realizam no seu trabalho diário.

Para colmatar esta lacuna, temos desenvolvido avaliações que medem recursos cada vez mais realistas e economicamente relevantes. Assim, passámos de referências académicas clássicas como o MMLU (perguntas em estilo de exame em dezenas de disciplinas), para avaliações mais restritas como SWE-Bench (tarefas de correção de bugs em engenharia de software), MLE-Bench (tarefas de engenharia de aprendizagem automática, como treino e análise de modelos), e Paper-Bench (reflexão científica e crítica em artigos de investigação). Recentemente, passámos também a trabalhar com avaliações baseadas no mercado como SWE-Lancer (projetos de engenharia de software freelance baseados em pagamentos reais).

A GDPval é o próximo passo. A metodologia mede o desempenho do modelo em tarefas extraídas diretamente do trabalho prático de profissionais experientes numa vasta gama de ocupações e setores, proporcionando uma visão mais clara de como os modelos se comportam em tarefas com valor económico. A avaliação de modelos em tarefas ocupacionais realistas ajuda-nos a compreender não só o seu desempenho em ambiente controlado, mas também como podem ajudar as pessoas nos seus trabalhos diários. 

O que avalia a GDPval

A GDPval, a primeira versão desta avaliação, abrange 44 ocupações selecionadas entre os 9 principais setores que contribuem para o PIB dos EUA. O conjunto completo da GDPval inclui 1.320 tarefas especializadas (220 no conjunto gold de código aberto), cada uma meticulosamente elaborada e verificada por profissionais experientes com mais de 14 anos de experiência, em média, nestas áreas. Cada tarefa baseia-se em produtos reais de trabalho, como um parecer jurídico, um projeto de engenharia, uma conversa de apoio ao cliente ou um plano de cuidados de enfermagem.

A GDPval destaca-se tanto pelo seu realismo como pela diversidade das tarefas avaliadas. Ao contrário de outras avaliações ligadas ao valor económico, que se centram em domínios específicos (por exemplo, SWE-Lancer), a GDPval abrange muitas tarefas e ocupações. E, ao contrário dos benchmarks que envolvem a criação sintética de tarefas ao estilo de um exame ou teste académico (como Humanity’s Last Exam ou MMLU), a GDPval concentra-se em tarefas baseadas em resultados tangíveis, como um trabalho ou produto real que existe hoje ou um produto construído de forma semelhante. 

Ao contrário dos benchmarks tradicionais, as tarefas da GDPval não são simples prompts de texto. São acompanhadas de ficheiros de referência e de contexto, e os resultados esperados abrangem documentos, diapositivos, diagramas, planilhas e conteúdos multimédia. Este realismo torna a GDPval um teste mais realista de como os modelos podem ajudar os profissionais.

A GDPval ainda está numa etapa inicial e não reflete todas as nuances de muitas tarefas económicas. Embora abranja 44 ocupações e centenas de tarefas de trabalho intelectual, está limitada a avaliações pontuais e, por isso, não capta casos em que um modelo precisaria de construir contexto ou melhorar através de vários rascunhos. As versões futuras irão incluir fluxos de trabalho mais interativos e tarefas com um contexto mais rico, para refletir refletir a complexidade do trabalho no mundo real (vê mais na secção Limitações abaixo).

Como escolhemos as profissões

A GDPval abrange tarefas em nove setores e 44 ocupações, e as versões futuras continuarão a alargar esses números. Os nove setores iniciais foram escolhidos com base naqueles que contribuem com mais de 5% para o PIB dos EUA, conforme determinado por dados do Federal Reserve Bank de St. Louis. Em seguida, selecionámos as cinco ocupações dentro de cada setor que mais contribuem para o total de salários e remunerações e que são predominantemente ocupações de trabalho intelectual, utilizando os dados salariais e emprego do relatório de empregos do Bureau of Labor Statistics (BLS) dos EUA, de maio de 2024(abre numa nova janela). Para determinar se as ocupações eram predominantemente de trabalho intelectual, utilizámos dados de tarefas do O*NET(abre numa nova janela), uma base de dados de informações sobre profissões nos EUA, patrocinada pelo Ministério do Trabalho americano. Classificamos cada tarefa de cada profissão no O*NET como trabalho intelectual ou trabalho físico/manual (que requer ações no mundo físico). Uma profissão é classificada como "predominantemente trabalho intelectual" se pelo menos 60% das tarefas que a compõem forem classificadas como não envolvendo trabalho físico ou manual. Escolhemos este limite de 60% como ponto de partida para a primeira versão da GDPval, e focámo-nos nas ocupações onde a IA poderia ter o maior impacto na produtividade do mundo real. 

Este processo resultou na inclusão de 44 profissões.

Imobiliário, arrendamento e leasing

  • Concierges

  • Gestores de propriedades, imóveis e associações comunitárias

  • Agentes imobiliários

  • Corretores imobiliários

  • Funcionários de balcão e de aluguer

Governo

  • Trabalhadores de recriação

  • Responsáveis pela conformidade

  • Supervisores de primeira linha de forças policiais e detetives

  • Gestores de serviços administrativos

  • Assistentes sociais de crianças, famílias e escolas

Manufatura

  • Engenheiros mecânicos

  • Engenheiros industriais

  • Compradores e agentes de compras

  • Funcionários de expedição, receção e inventário

  • Supervisores de primeira linha de trabalhadores de produção e operação

Serviços profissionais, científicos e técnicos

  • Programadores de software

  • Advogados

  • Contabilistas e auditores

  • Gestores de informática e sistemas de informação

  • Especialistas em gestão de projetos

Assistência médica e social

  • Enfermeiros registados

  • Enfermeiros especialistas

  • Gestores de serviços médicos e de saúde

  • Supervisores de primeira linha de funcionários administrativos e de apoio administrativo

  • Secretários médicos e assistentes administrativos

Finanças e seguros

  • Representantes de atendimento ao cliente

  • Analistas financeiros e de investimento

  • Gestores financeiros

  • Consultores financeiros pessoais

  • Agentes de vendas de títulos, mercadorias e serviços financeiros

Comércio retalhista

  • Farmacêuticos

  • Supervisores de primeira linha de trabalhadores de vendas a retalho

  • Gestores gerais e de operações

  • Detetives privados e investigadores

Comércio grossista

  • Gestores de vendas

  • Atendentes de pedidos

  • Supervisores de primeira linha de trabalhadores de vendas não retalhistas

  • Representantes de vendas, grossistas e manufatura, exceto produtos técnicos e científicos

  • Representantes de vendas, grossistas e manufatura, produtos técnicos e científicos

Informação

  • Técnicos de áudio e vídeo

  • Produtores e realizadores

  • Analistas de notícias, repórteres e jornalistas

  • Editores de filmes e vídeos

  • Editores

A GDPval abrange 44 profissões de trabalho intelectual em 9 setores, desde programadores de software e advogados até enfermeiros registados e engenheiros mecânicos. Estas profissões foram selecionadas pela sua importância económica e representam os tipos de trabalho diário onde a IA pode ajudar significativamente os profissionais.

Como construímos o conjunto de dados

Para cada profissão, trabalhámos com profissionais experientes para criar tarefas representativas que refletissem o tipo de trabalho diário. Estes profissionais tinham, em média, 14 anos de experiência, com um sólido historial de progressão na carreira. Recrutámos deliberadamente um vasto leque de especialistas — como advogados de diferentes áreas de atuação e escritórios de diferentes dimensões — para maximizar a representatividade.

Cada tarefa passou por um processo de revisão de várias etapas para garantir que era representativa do trabalho real, viável para outro profissional a concluir e adequada para avaliação. Em média, cada tarefa recebeu cinco rondas de revisão especializada, incluindo verificações de outros autores da tarefa, revisores profissionais adicionais e validação baseada em modelos. 

O conjunto de dados resultante inclui 30 tarefas totalmente revistas por profissão (conjunto completo), com cinco tarefas por profissão no nosso conjunto de referência de código aberto, fornecendo uma base sólida para avaliar o desempenho do modelo em trabalho intelectual do mundo real.

Exemplos de tarefas da GDPval

Prompt + contexto da tarefa

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Resultados produzidos por pessoas experientes

Vista de um projeto para um carretel de cabos
Cada tarefa na GDPval é elaborada por um profissional experiente e reflete o conhecimento prático da sua área de atuação. O prompt é uma tarefa de trabalho realista criada por um especialista da área, e o resultado esperado é a solução do próprio especialista.

Como avaliamos o desempenho do modelo

Para avaliar o desempenho do modelo nas tarefas de GDPval, contamos com "avaliadores" especializados — um grupo de profissionais experientes, com as mesmas profissões representadas no conjunto de dados. Estes avaliadores comparam, dentro do modelo de avaliação cega, os resultados gerados pelo modelo com os produzidos pelos autores das tarefas (sem saber quais foram gerados por IA ou por humanos) e oferecem críticas e classificações. Os avaliadores classificam então os resultados humanos e de IA e qualificam cada resultado de IA como “melhor”, “tão bom como” ou “pior do que” os outros.

Os autores das tarefas criaram também critérios de avaliação detalhados para as respetivas profissões, o que acrescenta consistência e transparência ao processo de avaliação. Criámos também um "avaliador automatizado", um sistema de IA treinado para estimar como os especialistas humanos avaliariam um determinado resultado. Por outras palavras, em vez de realizar sempre uma revisão completa por especialistas, o sistema de avaliação automatizado pode prever rapidamente qual o resultado que as pessoas provavelmente prefeririam. Estamos a disponibilizar esta ferramenta em evals.openai.com como um serviço de pesquisa experimental, mas ainda não é tão fiável como os avaliadores especialistas, pelo que não a utilizamos para os substituir. 

Resultados preliminares

Descobrimos que os melhores modelos de ponta atuais já se aproximam da qualidade do trabalho produzido pelos especialistas do setor. Para testar esta descoberta, realizámos avaliações cegas, nas quais especialistas do setor compararam os resultados de vários modelos líderes — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro e Grok 4 — com trabalhos produzidos por humanos. Nas 220 tarefas do conjunto gold da GDPval, registámos quando os resultados do modelo foram classificados como melhores ("vitórias") ou equivalentes ("empates") aos resultados dos especialistas do setor, como mostra o gráfico de barras abaixo. O Claude Opus 4.1 foi o modelo com melhor desempenho do conjunto, destacando-se particularmente na estética (por exemplo, formatação de documentos, layout de diapositivos), e o GPT‑5 destacou-se particularmente na precisão (por exemplo, na procura de conhecimento específico do domínio). Também observámos um progresso claro ao longo do tempo nestas tarefas. O desempenho mais do que duplicou do GPT‑4o (lançado na primavera de 2024) para o GPT‑5 (lançado no verão de 2025), seguindo uma clara tendência linear.

Além disso, verificámos que os modelos de ponta conseguem realizar tarefas de avaliação da GDPval de forma aproximadamente 100 vezes mais rápida e 100 vezes mais barata do que os especialistas do setor. No entanto, estes números refletem o tempo de inferência do modelo e as taxas de faturação da API, e, portanto, não têm em consideração a supervisão humana, a iteração e a integração necessárias em ambientes de trabalho reais para utilizar os nossos modelos. Ainda assim, especialmente no subconjunto de tarefas em que os modelos são particularmente fortes, esperamos que atribuir uma tarefa a um modelo antes de a atribuir a um humano poupe tempo e dinheiro.

Os avaliadores especialistas compararam os resultados dos modelos líderes com os dos especialistas humanos. Os modelos de ponta atuais já estão a aproximar-se da qualidade do trabalho produzido por especialistas do setor. O Claude Opus 4.1 produziu resultados classificados como tão bons ou melhores que os de humanos em pouco menos de metade das tarefas.

Do GPT‑4o ao GPT‑5, o desempenho nas tarefas da GDPval mais do que triplicou num ano. 

Por fim, treinámos progressivamente uma versão interna e experimental do GPT‑5 para avaliar se poderíamos melhorar o desempenho na GDPval. Descobrimos que este processo melhorou o desempenho, criando um caminho para melhorias potenciais futuras. Outras experiências controladas corroboram isto: aumentar o tamanho do modelo, incentivar mais etapas de reflexão e fornecer um contexto mais rico para as tarefas levaram a ganhos mensuráveis.

Podes ler os resultados completos no nosso artigo. Estamos também a lançar um subconjunto de tarefas da GDPval e um serviço público de classificação para que outros investigadores se possam basear neste trabalho.

O Futuro do trabalho e da IA 

À medida que a IA se torna mais capaz, é provável que provoque mudanças no mercado de trabalho. Os primeiros resultados da GDPval mostram que os modelos já conseguem realizar algumas tarefas repetitivas e bem definidas mais rapidamente e a um custo mais baixo do que os especialistas. No entanto, a maioria dos trabalhos é mais do que apenas um conjunto de tarefas que podem ser descritas em palavras. A GDPval destaca as áreas onde a IA pode lidar com tarefas rotineiras, para que as pessoas dediquem mais tempo às partes criativas e que exigem mais discernimento. Quando a IA complementa os trabalhadores desta forma, pode gerar crescimento económico significativo. O nosso objetivo é manter todos no "elevador ascendente" da IA, democratizando o acesso a estas ferramentas, apoiando os trabalhadores durante a mudança e construindo sistemas que recompensem contribuições amplas. 

Limitações e planos futuros

A GDPVal é só o início. Embora abranja 44 ocupações e centenas de tarefas, continuamos a melhorar a nossa abordagem para alargar o âmbito dos nossos testes e tornar os resultados mais significativos. A versão atual da avaliação é também única, pelo que não abrange casos em que um modelo necessitaria de construir contexto ou melhorar através de várias versões — por exemplo, rever um documento jurídico após o feedback do cliente ou iterar numa análise de dados após a identificação de uma anomalia. Além disso, no mundo real, as tarefas nem sempre estão claramente definidas com um prompt e arquivos de referência. Por exemplo, um advogado pode ter de lidar com ambiguidades e falar com o seu cliente antes de decidir que criar um parecer jurídico é a abordagem certa. Planeamos expandir a GDPval para incluir mais profissões, setores e tipos de tarefas, com maior interatividade e mais tarefas que envolvam lidar com a ambiguidade, com o objetivo a longo prazo de medir melhor o progresso em vários trabalhos intelectuais.

Participa

A participação da comunidade é essencial — estamos entusiasmados com a possibilidade de construir a GDPval em conjunto com investigadores, profissionais e organizações que partilham o nosso objetivo de tornar a AGI mais útil para as pessoas no trabalho.