Porque é que os modelos de linguagem têm alucinações?

Na OpenAI, esforçamo-nos para tornar os sistemas de IA mais úteis e fiáveis. Mesmo com os modelos de linguagem cada vez mais capazes, um desafio continua a ser teimosamente difícil de resolver completamente: as alucinações. Ou seja, os casos em que um modelo gera, com segurança, uma resposta que não é verdadeira. O nosso novo artigo de investigação(abre numa nova janela) defende que os modelos de linguagem têm alucinações porque os procedimentos padrão de treino e avaliação recompensam o palpite em vez do reconhecimento da incerteza.
O ChatGPT também alucina. O GPT‑5 tem significativamente menos alucinações especialmente na reflexão, mas ainda ocorrem. As alucinações continuam a ser um desafio fundamental para todos os grandes modelos de linguagem, mas estamos a trabalhar arduamente para as reduzir.
As alucinações são afirmações plausíveis, mas falsas, geradas por modelos de linguagem. Podem surgir de maneiras surpreendentes, mesmo para perguntas aparentemente simples. Por exemplo, quando pedimos a um chatbot amplamente utilizado o título da dissertação de doutoramento de Adam Tauman Kalai (um dos autores deste artigo), este produziu com confiança três respostas diferentes — nenhuma delas correta. Quando pedimos a sua data de nascimento, deu três datas diferentes, todas erradas.
As alucinações persistem em parte porque os métodos atuais de avaliação estabelecem incentivos errados. Embora as avaliações em si não causem alucinações diretamente, a maioria mede o desempenho do modelo de uma forma que incentiva o palpite em vez da honestidade sobre a incerteza.
Pensa nisto como um teste de múltipla escolha. Se não souberes a resposta mas tentares adivinhar, podes ter sorte e acertar. Deixar em branco garante um zero. Da mesma forma, quando os modelos são avaliados apenas com base na precisão, na percentagem de perguntas que acertam, são encorajados a adivinhar em vez de dizer “não sei.”
Como outro exemplo, supõe que um modelo de linguagem é questionado sobre a data de aniversário de alguém, mas não sabe. Se adivinhar “10 de setembro”, tem uma hipótese em 365 de estar certo. Dizer "não sei" garante zero pontos. Ao longo de milhares de perguntas de teste, o modelo de palpite acaba por parecer melhor nos painéis de avaliação do que um modelo cuidadoso que admite incerteza.
Para perguntas em que há uma única “resposta correta”, podemos considerar três categorias de respostas: respostas corretas, erros e abstenções, onde o modelo não se arrisca a adivinhar. Abster-se faz parte da humildade, um dos valores fundamentais da OpenAI. A maioria dos painéis de avaliação prioriza e classifica os modelos com base na precisão, mas os erros são piores do que as abstenções. As nossas especificações do modelo(abre numa nova janela) afirmam que é melhor indicar incerteza ou pedir esclarecimentos do que fornecer informações categóricas que possam estar incorretas.
Para um exemplo concreto, considere-se a SimpleQA eval como um exemplo do cartão do sistema GPT5(abre numa nova janela).
Métrica | gpt-5-thinking-mini | OpenAI o4-mini |
Taxa de abstenção | 52% | 1% |
Taxa de precisão | 22% | 24% |
Taxa de erro | 26% | 75% |
Total | 100% | 100% |
Em termos de precisão, o modelo mais antigo OpenAI o4-mini apresenta um desempenho ligeiramente melhor. No entanto, a sua taxa de erro (ou seja, taxa de alucinação) é significativamente mais alta. Adivinhar estrategicamente quando não se tem certezas melhora a precisão, mas aumenta os erros e alucinações.
Ao calcular a média dos resultados em dezenas de avaliações, a maioria dos benchmarks destaca a métrica de precisão, mas isso implica uma falsa dicotomia entre certo e errado. Em avaliações simplistas como a SimpleQA, alguns modelos atingem uma precisão próxima de 100% eliminado, assim, alucinações. No entanto, em avaliações mais complexas e na utilização real, a precisão está limitada a menos de 100%, porque há algumas perguntas cuja resposta não pode ser determinada por várias razões, como informação indisponível, capacidades de raciocínio limitadas de modelos pequenos ou ambiguidades que têm de ser esclarecidas.
No entanto, os painéis de avaliação baseados apenas na precisão dominam as tabelas de classificação e os cartões de modelos, motivando assim os programadores a criar modelos que fazem suposições em vez de se conterem. Esta é uma das razões pelas quais mesmo os modelos mais avançados podem ainda apresentar alucinações, fornecendo respostas erradas com convicção em vez de reconhecer a incerteza.
Há uma solução simples. Penalizar os erros confiantes mais do que se penaliza a incerteza, e dar crédito parcial às expressões apropriadas de incerteza. Esta ideia não é nova. Alguns testes padronizados utilizam há muito tempo versões de penalização por respostas erradas ou créditos parciais para questões em branco, de forma a desencorajar palpites aleatórios. Vários grupos de investigação também exploraram avaliações que têm em conta a incerteza e a calibração.
O nosso argumento é diferente. Não basta adicionar novos testes que tenham em conta a incerteza. As avaliações baseadas na precisão, amplamente utilizadas, têm de ser atualizadas para que a sua pontuação penalize os palpites. Se os principais painéis de avaliação continuarem a recompensar palpites, os modelos continuarão a aprender a dar palpites. A correção dos painéis de avaliação pode aumentar a adoção de técnicas de redução de alucinações, tanto as recém-desenvolvidas como as de pesquisas anteriores.
Já dissemos porque é que as alucinações são tão difíceis de eliminar, mas de onde vêm estas imprecisões factuais tão específicas? Afinal, grandes modelos pré-treinados raramente apresentam outro tipo de erros, como erros ortográficos e parênteses incorretos. A diferença está nos tipos de padrões que existem nos dados.
Os modelos de linguagem aprendem primeiro através do pré-treino, um processo que prevê a palavra seguinte em grandes quantidades de texto. Ao contrário dos problemas tradicionais de aprendizagem automática, não existem rótulos de "verdadeiro/falso" associados a cada afirmação. O modelo acede apenas a exemplos positivos de linguagem fluente e faz aproximações da distribuição comum.
É duplamente difícil distinguir afirmações válidas de inválidas quando não se tem qualquer exemplo rotulado como inválido. Mas, mesmo com rótulos, alguns erros são inevitáveis. Considera uma analogia simples. No reconhecimento de imagens, se milhões de fotografias de gatos e cães forem rotuladas como "gato" ou "cão", os algoritmos podem aprender a classificá-las de forma fiável. Mas, em vez disso, imagina que cada foto é rotulada com o aniversário do animal. Como os aniversários são aleatórios, esta tarefa produziria sempre erros, por mais avançado que o algoritmo fosse.
O mesmo princípio aplica-se ao pré-treino. A ortografia e o uso de parênteses seguem sempre o mesmo padrão, por isso os erros desaparecem quando se aumenta a escala. Mas os factos arbitrários de baixa frequência, como o aniversário de um animal de estimação, não podem ser previstos apenas a partir de padrões e, portanto, levam a alucinações. A nossa análise explica que tipos de alucinações costumam surgir da previsão da palavra seguinte. Idealmente, as fases após o pré-treino deveriam removê-las, mas tal não é totalmente eficaz pelas razões descritas na secção anterior.
Esperamos que a perspetiva estatística do nosso artigo esclareça a natureza das alucinações e desfaça equívocos comuns:
- Alegação: as alucinações serão eliminadas com o aumento da precisão, porque um modelo 100% preciso nunca alucina.
Conclusão: a precisão nunca atingirá os 100% porque, independentemente do tamanho do modelo, das capacidades de pesquisa e reflexão, algumas questões do mundo real não têm resposta. - Alegação: as distorções são inevitáveis.
Conclusão: não são, porque os modelos de linguagem podem abster-se de responder quando não têm a certeza. - Alegação: evitar alucinações requer um grau de inteligência possível apenas em modelos maiores.
Conclusão: pode ser mais fácil para um modelo pequeno conhecer os seus limites. Por exemplo, quando solicitado a responder a uma pergunta em maori, um modelo pequeno que não conhece maori pode simplesmente dizer “não sei”, enquanto um modelo que conhece algum maori tem de determinar a sua confiança. Como discutimos no artigo, ser “calibrado” requer muito menos computação do que ser altamente preciso. - Alegação: as alucinações são uma falha misteriosa nos modelos de linguagem modernos.
Conclusão: compreendemos os mecanismos estatísticos que geram alucinações e a forma como são recompensadas nas avaliações. - Alegação: para medir as alucinações, basta uma boa avaliação das alucinações.
Conclusão: já foram publicadas avaliações de alucinações. No entanto, uma boa avaliação de alucinação tem pouco efeito contra centenas de avaliações tradicionais baseadas na precisão, que penalizam a humildade e recompensam o palpite. Em vez disso, é preciso que as métricas das avaliações iniciais sejam reformuladas e passem a recompensar declarações de incerteza.
Os nossos modelos mais recentes apresentam taxas de alucinação mais baixas, e continuamos a trabalhar arduamente para diminuir ainda mais o número de declarações categóricas erradas nos nossos modelos de linguagem.
Colaboradores do anúncio
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


