19 de novembro de 2025

Como os evals impulsionam o próximo capítulo da IA para empresas

Este guia introdutório mostra a líderes empresariais como evals (“frameworks de avaliação”) transformam objetivos de negócio em resultados consistentes.

Carregando…

Mais de um milhão de empresas⁠ em todo o mundo já estão usando IA para aumentar a eficiência e gerar mais valor. Mas algumas organizações têm encontrado dificuldade para alcançar os resultados que esperavam. O que está causando esse descompasso?

Na OpenAI, usamos IA internamente para atingir nossas metas ambiciosas. Um dos conjuntos de ferramentas centrais que usamos são os evals, métodos para medir e aprimorar a capacidade de um sistema de IA de atender às expectativas.

De forma semelhante a documentos de requisitos de produto, os evals tornam objetivos difusos e ideias abstratas em algo específico e explícito. Usar evals de forma estratégica pode tornar um produto voltado ao cliente ou uma ferramenta interna mais confiável em escala, reduzir erros de alta gravidade, proteger contra riscos de queda de desempenho e dar à organização um caminho mensurável para aumentar o ROI.

Na OpenAI, nossos modelos são nossos produtos, por isso nossos pesquisadores usam frontier evals⁠(abre em uma nova janela) rigorosos ¹ para medir o desempenho dos modelos em diferentes domínios. Embora os frontier evals nos ajudem a lançar modelos melhores mais rápido, eles não conseguem capturar todas as nuances necessárias para garantir o desempenho do modelo em um fluxo de trabalho específico, em um contexto de negócios específico. Por isso, nossas equipes internas também criaram dezenas de contextual evals, projetados para avaliar o desempenho em um produto específico ou em um fluxo de trabalho interno específico. E é também por isso que líderes empresariais deveriam aprender a criar contextual evals alinhados às necessidades e ao ambiente operacional de suas organizações.

Este é um guia introdutório para líderes empresariais que desejam aplicar evals em suas organizações. Avaliações contextuais, cada uma elaborada para o fluxo de trabalho ou produto de uma organização específica, são uma área ativa de desenvolvimento, e processos definitivos ainda não surgiram. Como resultado, este artigo fornece uma estrutura ampla que vimos funcionar em várias situações. Esperamos que este campo evolua e que surjam mais frameworks que abordem contextos e objetivos específicos de negócios. Por exemplo, um excelente eval para um produto de consumo de ponta habilitado por IA pode exigir um processo diferente daquele de um eval para uma automação interna baseada em um procedimento operacional padrão. Acreditamos que o framework apresentado a seguir serve como uma coleção de boas práticas para ambos os casos e será um guia útil à medida que você criar evals sob medida para as necessidades da sua organização.

Como funcionam os evals: Especificar → Medir → Melhorar

Diagrama intitulado “Eval Blog”, mostrando um fluxo de componentes e processos de avaliação, em um fundo claro com blocos coloridos e setas representando a lógica de avaliação de modelos.

1. Especificar: Definir o que significa “ótimo”

Comece com uma equipe pequena e capacitada, capaz de descrever em termos simples o propósito do seu sistema de IA; por exemplo: “Converter e-mails de entrada qualificados em demos agendadas, mantendo a identidade da marca.”

Essa equipe deve reunir pessoas com expertise técnica e conhecimento de domínio (no exemplo acima, você vai querer especialistas em vendas no time). Eles devem ser capazes de definir quais são os resultados mais importantes a medir, descrever o fluxo de trabalho de ponta a ponta e identificar cada ponto de decisão relevante que o seu sistema de IA encontrará. Em cada etapa desse fluxo, a equipe deve definir como é o sucesso e o que deve ser evitado. Esse processo vai gerar um mapeamento de dezenas de entradas de exemplo (por exemplo, e-mails recebidos) para os tipos de saída que se espera que o sistema produza. O conjunto resultante — o seu “golden set” de exemplos — deve servir como uma referência viva e confiável do julgamento e do senso de qualidade dos seus especialistas mais experientes sobre o que é “ótimo”.

Não se deixe paralisar pelo ponto de partida nem tente resolver tudo de uma vez. O processo é iterativo e um pouco caótico. Protótipos iniciais podem ajudar — e muito. Revisar de 50 a 100 respostas de uma versão inicial do sistema vai revelar como e quando ele está falhando. Essa “análise de erros” vai resultar em uma taxonomia dos diferentes tipos de erro (e suas frequências), que você poderá acompanhar à medida que o sistema melhora.

Esse processo não é puramente técnico — ele é multifuncional e centrado na definição de objetivos de negócio e processos desejados. As equipes técnicas não devem ser responsáveis, isoladamente, por decidir o que melhor atende clientes ou as necessidades de outras áreas, como Produto, Vendas ou RH. Consequentemente, especialistas de domínio, líderes técnicos e outras partes interessadas críticas devem compartilhar a responsabilidade.

2. Medir: Testar em condições do mundo real

O próximo passo é medir. O objetivo da medição é revelar, de forma confiável, exemplos concretos de como e quando o sistema está falhando. Para isso, crie um ambiente de teste dedicado que reflita de perto as condições do mundo real — não apenas uma demo ou um “playground” de prompts. Avalie o desempenho em relação ao seu golden set e à sua análise de erros sob as mesmas pressões e casos extremos que o sistema realmente enfrentará.

Rubricas podem ajudar a trazer mais objetividade ao avaliar as saídas do sistema, mas é possível acabar dando ênfase excessiva a aspectos superficiais em detrimento dos objetivos principais. Além disso, algumas qualidades são difíceis, ou até impossíveis, de medir. Em alguns casos, métricas de negócio tradicionais serão importantes. Em outros, você precisará criar novas métricas. Mantenha seus especialistas de domínio envolvidos em todas as etapas e alinhe o processo de perto com seus objetivos centrais.

Para realmente testar o sistema, use sempre que possível exemplos retirados de situações reais e inclua (ou crie) casos extremos que sejam raros, mas de alto custo se tratados de forma inadequada.

Alguns evals podem ser escalados com o uso de um LLM grader, um modelo de IA que avalia as respostas da mesma forma que um especialista; ainda assim, é importante manter uma pessoa no circuito. Seus especialistas de domínio precisam auditar regularmente os LLM graders quanto à precisão e também revisar diretamente os logs do comportamento do seu sistema.

Os evals podem ajudar você a decidir quando um sistema está pronto para ser lançado, mas o trabalho não termina no lançamento. Você deve medir continuamente a qualidade das saídas reais do seu sistema geradas a partir de entradas reais. Como em qualquer produto, os sinais vindos dos usuários finais (externos ou internos) são especialmente importantes e devem ser incorporados ao seu eval.

3. Melhorar: Aprender com os erros

A última etapa é estabelecer um processo de melhoria contínua. Tratar os problemas revelados pelo seu eval pode assumir muitas formas: refinar prompts, ajustar o acesso a dados, atualizar o próprio eval para refletir melhor seus objetivos e assim por diante. À medida que você descobre novos tipos de erro, adicione-os à sua análise de erros e trate-os. Cada iteração se soma à anterior: novos critérios e expectativas mais claras sobre o comportamento do sistema ajudam a revelar novos casos extremos e problemas sutis e persistentes a serem corrigidos.

Para sustentar essa iteração, crie um flywheel de dados. Registre entradas, saídas e resultados; faça amostragens desses logs regularmente e encaminhe automaticamente casos ambíguos ou de alto custo para revisão por especialistas. Inclua esses julgamentos de especialistas no seu eval e na sua análise de erros e, em seguida, use-os para atualizar prompts, ferramentas ou modelos. Por meio desse loop, você definirá com mais clareza suas expectativas para o sistema, o alinhará mais de perto a essas expectativas e identificará saídas e resultados adicionais relevantes a serem monitorados. Aplicar esse processo em escala gera um conjunto de dados grande, diferenciado e específico do seu contexto, que é difícil de copiar — um ativo valioso que sua organização pode aproveitar ao construir o melhor produto ou processo do seu mercado.

Embora os evals criem uma forma sistemática de melhorar seu sistema de IA, novos modos de falha podem surgir. Na prática, à medida que modelos, dados e objetivos de negócio evoluem, os evals também precisam ser continuamente mantidos, ampliados e testados sob pressão.

Em implantações voltadas ao público externo, os evals não substituem testes A/B tradicionais nem experimentos de produto. Eles complementam a experimentação tradicional, ajudando a orientar os dois lados e dando visibilidade sobre como as mudanças feitas afetam o desempenho no mundo real.

O que os evals significam para líderes de negócios

Cada grande mudança tecnológica redefine o que é excelência operacional e vantagem competitiva. Frameworks como OKRs e KPIs ajudaram organizações a se orientar em torno de “medir o que importa” para o negócio na era da análise de big data. Os evals são a extensão natural da medição para a era da IA.

Trabalhar com sistemas probabilísticos exige novos tipos de métricas e uma consideração mais profunda dos trade-offs. Líderes precisam decidir quando a precisão é essencial, quando podem ser mais flexíveis e como equilibrar velocidade e confiabilidade.

Os evals são difíceis de implementar pelo mesmo motivo que é difícil construir ótimos produtos: eles exigem rigor, visão e discernimento. Quando bem feitos, os evals se tornam diferenciais únicos. Em um mundo em que a informação está disponível livremente e a expertise é democratizada, sua vantagem depende de quão bem seus sistemas conseguem executar dentro do seu contexto. Evals robustos criam vantagens cumulativas e know-how institucional à medida que seus sistemas melhoram.

No fundo, os evals tratam de um entendimento profundo do contexto e dos objetivos de negócio. Se você não consegue definir o que “ótimo” significa para o seu caso de uso, é improvável que consiga alcançar esse nível. Nesse sentido, os evals ressaltam uma lição central da era da IA: habilidades de gestão são habilidades de IA. Metas claras, feedback direto, julgamento cuidadoso e uma compreensão nítida da sua proposta de valor, estratégia e processos continuam fundamentais — talvez mais do que nunca.

À medida que surgirem mais boas práticas e frameworks, vamos compartilhá-los. Enquanto isso, incentivamos você a experimentar evals e descobrir quais processos funcionam melhor para as suas necessidades. Para começar, identifique o problema a ser resolvido e o seu especialista de domínio, reúna sua equipe enxuta e, se estiver construindo sobre a nossa API, explore nossa documentação da plataforma (Platform Docs)⁠(abre em uma nova janela).

Não espere que o “ótimo” simplesmente aconteça. Especifique o que isso significa, meça e melhore continuamente na direção desse objetivo.

2025

Autoria

OpenAI

Notas de rodapé

1
Se você quiser apoiar nosso trabalho na construção da próxima geração de modelos de IA, convidamos você a contribuir com o GDPVal⁠, nosso benchmark mais recente sobre o desempenho de modelos de IA em tarefas do mundo real. Se você é um especialista do setor interessado em contribuir com o GDPVal, manifeste seu interesse aqui⁠. Se você é um cliente que trabalha com a OpenAI e gostaria de contribuir em uma rodada futura do GDPVal, manifeste seu interesse aqui⁠.

Continuar lendo

Ver tudo

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026

Apresentamos o GeneBench-Pro

Pesquisa30 de jun. de 2026

A near-autonomous AI chemist improves a challenging reaction

Um químico de AI quase autônomo melhora uma reação desafiadora na química medicinal

Pesquisa17 de jun. de 2026