5 de setembro de 2025

Por que os modelos de linguagem alucinam?

Imagem abstrata com gradientes expansivos de turquesa, azul e lavanda mesclados na diagonal do quadro em pinceladas suaves e fluidas.

Carregando…

A OpenAI tem a missão de criar sistemas de IA mais úteis e confiáveis. Por mais que os modelos de linguagem venham melhorando, ainda há um impasse que é difícil de eliminar totalmente: as alucinações. Ou seja, aqueles momentos em que um modelo gera com confiança uma resposta que não é verdadeira. Nosso novo artigo de investigação⁠(abre em uma nova janela) defende que os modelos de linguagem alucinam porque os treinamentos e avaliações tradicionais recompensam adivinhações e não deixam espaço para que se reconheça incertezas.

O ChatGPT também alucina, embora no GPT‑5 isso aconteça com frequência bem menor, principalmente quando a reflexão está ativada⁠. As alucinações continuam sendo um desafio fundamental para todos os grandes modelos de linguagem, mas estamos trabalhando com afinco para reduzi-las.

O que são alucinações?

Alucinações são afirmações plausíveis, porém falsas, geradas pelos modelos de linguagem. Elas aparecem em contextos variados, até mesmo nas respostas aparentemente simples. Por exemplo: perguntamos a um chatbot muito usado qual era o título da tese de doutorado de Adam Tauman Kalai (um dos autores deste artigo), e ele ofereceu três respostas diferentes. Todas elas estavam erradas. Quando perguntamos qual era o aniversário do Adam, também recebemos três respostas erradas.

Ensinar a passar na prova

A persistência das alucinações se deve em parte aos incentivos oferecidos pelos métodos de avaliação que estão sendo usados. Embora as avaliações não provoquem as alucinações diretamente, a maioria delas mede o desempenho do modelo de uma forma que favorece adivinhações, em vez de reconhecer uma incerteza.

É como se fosse um teste de múltipla escolha. Se você não sabe, mas chuta uma resposta, pode acabar acertando. Mas vai ser pura sorte. Além disso, você sabe que deixar a resposta em branco é sinônimo de nota zero. Assim, quando os modelos são avaliados somente pela precisão, ou pelas perguntas com respostas exatas, eles são estimulados a adivinharem — e não a dizerem "não sei".

Outro exemplo: digamos que você pergunte ao modelo de linguagem quando é o aniversário de alguém, mas ele não sabe a resposta. Se ele chutar "10 de setembro", existe uma probabilidade de 1 em 365 de que esteja certo. Se disser "não sei", a pontuação será zero. Após milhares de perguntas de teste, o modelo que faz adivinhações acaba com resultados um pouco melhores do que um modelo mais cuidadoso, que admite que não sabe.

Quando a pergunta admite somente uma "resposta correta", pode-se considerar três categorias de respostas: respostas corretas, erros e abstenções (ou seja, quando o modelo não arrisca uma resposta). A abstenção é uma forma de humildade, um dos valores centrais da OpenAI⁠. A maioria das pontuações prioriza e classifica os modelos de acordo com precisão, só que os erros valem menos que abstenções. Nossas Especificações de modelo⁠(abre em uma nova janela) afirmam que é melhor indicar incerteza ou pedir esclarecimentos do que fornecer com confiança informações que possam estar incorretas.

Vejamos um exemplo concreto: a avaliação do SimpleQA, que está no Cartão do Sistema GPT‑5⁠(abre em uma nova janela).

Métrica	gpt-5-thinking-mini	OpenAI o4-mini
Taxa de abstenção (não é oferecida uma resposta específica)	52%	1%
Taxa de precisão (resposta correta; mais é melhor)	22%	24%
Taxa de erros (resposta errada; menos é melhor)	26%	75%
Total	100%	100%

Em termos de precisão, o modelo OpenAI o4-mini, mais antigo, tem resultados um pouco melhores. Porém, a taxa de erros (ou seja, alucinações) é consideravelmente maior. Adivinhar de forma estratégica e em momentos de incerteza melhora o número de acertos, mas também aumenta erros e alucinações.

Durante a busca por um resultado médio, a maioria das referências prefere a medida de precisão; no entanto, isso resulta numa falsa dicotomia entre certo e errado. Em avaliações básicas como o SimpleQA, alguns modelos chegam a quase 100% de precisão, o que elimina as alucinações. Contudo, em avaliações mais complexas e também no uso real, a precisão fica abaixo de 100%. Isso acontece porque algumas perguntas não podem ser respondidas por diversos motivos (informações indisponíveis, capacidade de raciocínio limitada em modelos pequenos ou ambiguidades que precisariam ser esclarecidas).

Mesmo assim, pontuações que consideram somente a precisão são dominantes nos rankings e cartões de modelos, o que instiga os desenvolvedores a criarem modelos que preferem a adivinhação e evitam a abstenção. Esse é um dos motivos pelos quais mesmo os modelos mais avançados ainda alucinam e dão respostas erradas com toda a confiança, em vez de reconhecer incertezas.

Melhorar a pontuação das avaliações

Existe uma solução simples para essa situação. Penalizar erros confiantes mais do que a incerteza, dando crédito parcial quando a incerteza for reconhecida. Não é uma ideia nova. Na verdade, alguns testes padronizados sempre usaram formas de pontuação negativa para respostas incorretas ou pontuação parcial para respostas em branco, desestimulando os chutes. Vários grupos de pesquisa também já exploraram avaliações que contabilizam incertezas e calibrações.

Nosso argumento é diferente. Sabemos que não basta adicionar outros testes que reconheçam incertezas. As avaliações mais usadas, que se baseiam em precisão, precisam ser atualizadas para que a pontuação penalize adivinhações. Se os principais rankings continuarem recompensando bons chutes, os modelos continuarão aprendendo a chutar. É por isso que a correção pode melhorar a adoção de técnicas para redução de alucinações — tanto as novas quanto as de pesquisas já publicadas.

Como a previsão da próxima palavra gera alucinações

Já falamos dos motivos pelos quais é difícil eliminar alucinações. Mas, afinal, de onde é que vêm essas respostas tão erradas e tão específicas? Afinal de contas, grandes modelos pré-treinados raramente trazem outros tipos de erros, como ortografia ou parênteses desalinhados. A diferença está no tipo de padrão encontrado nos dados.

Os modelos de linguagem aprendem primeiro por meio do pré-treinamento, um processo que prevê a probabilidade da próxima palavra e tem como base imensas quantidades de textos. Diferentemente dos problemas tradicionais de aprendizado de máquina, as afirmações não são rotuladas como verdadeiras ou falsas. O modelo simplesmente acessa exemplos positivos de linguagem fluente e faz aproximações das distribuições mais comuns.

É mais difícil distinguir as afirmações corretas das incorretas quando não há exemplos rotulados como não válidos. Só que, mesmo com os rótulos, alguns erros são inevitáveis. Observe esta analogia simples: no reconhecimento de imagens, se milhares de fotos de cães e gatos forem rotuladas como “cão” ou “gato”, os algoritmos poderiam aprender a classificá-las corretamente. Imagine agora que cada foto estivesse rotulada com o aniversário do animal. Como os aniversários são bastante aleatórios, a tarefa sempre geraria erros, por mais avançado que fosse o algoritmo.

O mesmo acontece com o pré-treinamento. A ortografia e os parênteses seguem sempre o mesmo padrão, o que elimina os erros quando se trabalha em escala. Mas os fatos arbitrários de baixa frequência, como o aniversário de um bichinho de estimação, não podem ser previstos somente por padrões, e isso acaba gerando alucinações. Nossa análise explica que tipo de alucinação costuma ser gerada com as previsões de próximas palavras. Idealmente, elas deveriam ser removidas pelos estágios posteriores ao pré-treinamento. Contudo, isso não funciona perfeitamente, e os motivos já foram descritos na seção anterior.

Conclusões

Esperamos que a perspectiva estatística de nosso artigo esclareça a natureza das alucinações e desfaça algumas confusões comuns:

Alegação: as alucinações serão eliminadas com a melhoria da precisão, porque um modelo 100% preciso nunca alucina.

Constatação: nunca haverá 100% de precisão porque, qualquer que seja o tamanho do modelo ou a capacidade de pesquisa e reflexão, não existe resposta para algumas perguntas.
Alegação: as alucinações são inevitáveis.

Constatação: não são, porque os modelos de linguagem podem abster-se de oferecer uma resposta.
Alegação: evitar alucinações exige um grau de inteligência possível somente em modelos maiores.

Constatação: na verdade, um modelo menor pode entender seus limites com mais facilidade. Por exemplo, se um modelo pequeno receber uma pergunta em Māori e não souber falar essa língua, ele pode responder "Não sei". Por outro lado, um modelo que saiba um pouco de Māori precisará estabelecer até onde vai a própria confiança. Como discutimos no artigo, ser "calibrado" exige muito menos computação do que ser um modelo de alta precisão.
Alegação: alucinações são uma falha misteriosa dos modelos de linguagem modernos.

Constatação: entendemos os mecanismos estatísticos que geram as alucinações e a forma como elas são recompensadas nas avaliações.
Alegação: para medir alucinações, basta uma boa avaliação de alucinação.

Constatação: já foram publicadas avaliações de alucinações. Contudo, uma boa avaliação de alucinação não tem muito efeito contra centenas de avaliações tradicionais baseadas em precisão, que penalizam a humildade e premiam adivinhações. É preciso que as métricas das avaliações iniciais sejam reconfiguradas e passem a recompensar declarações de incerteza.

Nossos modelos mais recentes geram menos alucinações, e continuamos trabalhando para reduzir o número de declarações erradas e confiantes em nossos modelos de linguagem.

Contribuição

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke

Continuar lendo

Ver tudo

GPT-Red: Desbloqueando autoaperfeiçoamento para robustez

Segurança15 de jul. de 2026

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026

Apresentamos o GeneBench-Pro

Pesquisa30 de jun. de 2026