De onde vieram os goblins
A partir do GPT‑5.1, nossos modelos começaram a desenvolver um hábito estranho: mencionavam cada vez mais goblins, gremlins e outras criaturas em suas metáforas. Diferentemente de bugs de modelo que aparecem em uma avaliação despencando ou em uma métrica de treinamento disparando e apontam para uma mudança específica, este surgiu de forma sutil. Um único “goblinzinho” em uma resposta poderia ser inofensivo, até charmoso. Ao longo das gerações de modelos, porém, o hábito ficou difícil de ignorar: os goblins continuavam se multiplicando, e precisávamos descobrir de onde eles vinham.

Em testes iniciais, o GPT‑5.5 no Codex mostrou uma afinidade estranha por metáforas com goblins.
A resposta curta é que o comportamento do modelo é moldado por muitos pequenos incentivos. Neste caso, um desses incentivos veio do treinamento do modelo para o recurso de personalização de personalidade(abre em uma nova janela), em especial a personalidade Nerdy. Sem perceber, demos recompensas especialmente altas para metáforas com criaturas. A partir daí, os goblins se espalharam.

Os goblins eram engraçados no começo, mas o número crescente de relatos de funcionários se tornou preocupante.

Uma interação interessante que nosso cientista-chefe teve com o GPT‑5.5.
A primeira vez que vimos claramente o padrão foi em novembro, depois do lançamento do GPT‑5.1, embora ele possa ter começado antes(abre em uma nova janela). Usuários reclamaram que o modelo estava estranhamente familiar demais nas conversas, o que levou a uma investigação sobre tiques verbais específicos. Um pesquisador de segurança havia se deparado com alguns “goblins” e “gremlins” e pediu que eles fossem incluídos na verificação. Quando analisamos, o uso de “goblin” no ChatGPT havia aumentado 175% após o lançamento do GPT‑5.1, enquanto “gremlin” havia aumentado 52%.
Uma pequena peculiaridade lexical mensurável no GPT‑5.1.
Na época, a prevalência de goblins não parecia especialmente alarmante. Alguns meses depois, os goblins voltaram para nos assombrar de uma forma muito mais específica e reproduzível.
Com o GPT‑5.4, nós e nossos usuários(abre em uma nova janela) notamos um aumento ainda maior nas referências a essas criaturas. Isso desencadeou outra análise interna e revelou a primeira conexão com a causa raiz: a linguagem com criaturas era especialmente comum no tráfego em produção de usuários que haviam selecionado a personalidade “Nerdy”. “Nerdy” usava o seguinte prompt de sistema, que explicava parcialmente a excentricidade:
Você é um mentor de IA descaradamente nerd, brincalhão e sábio para um humano. Você é apaixonadamente entusiasmado por promover a verdade, o conhecimento, a filosofia, o método científico e o pensamento crítico. [...] Você deve minar a pretensão por meio do uso brincalhão da linguagem. O mundo é complexo e estranho, e sua estranheza precisa ser reconhecida, analisada e apreciada. Enfrente assuntos densos sem cair na armadilha de se levar a sério demais. [...]
Se o comportamento fosse simplesmente uma tendência ampla da internet, esperaríamos que ele se espalhasse de forma mais uniforme. Em vez disso, ele estava concentrado na parte do sistema explicitamente otimizada para um estilo brincalhão e nerd. Nerdy respondia por apenas 2,5% de todas as respostas do ChatGPT, mas por 66,7% de todas as menções a “goblin” em respostas do ChatGPT.
O comportamento estava altamente concentrado na personalidade "Nerdy".
Como a prevalência de “goblin” parecia aumentar ao longo dos lançamentos dos nossos modelos, suspeitamos que algo em nosso treinamento de seguimento de instruções de personalidade estivesse amplificando isso.
O Codex nos ajudou a comparar saídas de modelo geradas durante o treinamento por RL que continham goblin ou gremlin com saídas da mesma tarefa que não continham. Um sinal de recompensa se destacou imediatamente: aquele originalmente criado para incentivar a personalidade Nerdy era consistentemente mais favorável às saídas com palavras de criaturas. Em todos os conjuntos de dados da auditoria, a recompensa da personalidade Nerdy mostrou uma tendência clara de pontuar mais alto saídas para o mesmo problema com “goblin” ou “gremlin” do que saídas sem essas palavras, com uplift positivo em 76,2% dos conjuntos de dados.
Isso explicou por que o comportamento era impulsionado com o prompt da personalidade Nerdy, mas não por que ele também aparecia sem esse prompt. Para testar se o estilo estava sendo transferido, acompanhamos as taxas de menção ao longo do treinamento com e sem o prompt Nerdy.
À medida que as menções a goblin e gremlin aumentavam sob a personalidade Nerdy, elas aumentavam quase na mesma proporção relativa em amostras sem ela. Em conjunto, as evidências sugerem que o comportamento mais amplo surgiu por transferência do treinamento da personalidade Nerdy.
As recompensas foram aplicadas apenas na condição Nerdy, mas o aprendizado por reforço não garante que comportamentos aprendidos permaneçam perfeitamente limitados à condição que os produziu. Depois que um tique de estilo é recompensado, treinamentos posteriores podem espalhá-lo ou reforçá-lo em outros lugares, especialmente se essas saídas forem reutilizadas em fine-tuning supervisionado ou dados de preferência.
Isso cria um ciclo de feedback:
- O estilo brincalhão é recompensado
- Alguns exemplos recompensados contêm um tique lexical distintivo.
- O tique aparece com mais frequência em rollouts.
- Rollouts gerados pelo modelo são usados para fine-tuning supervisionado (SFT).
- O modelo fica ainda mais confortável produzindo o tique.
Uma busca nos dados de SFT do GPT‑5.5 encontrou muitos datapoints contendo “goblin” e “gremlin”. Uma investigação adicional revelou uma família inteira de outras criaturas estranhas: guaxinins, trolls, ogros e pombos foram identificados como outras palavras-tique, enquanto a maioria dos usos de sapo se mostrou legítima.
Média semanal da prevalência de goblins e gremlins em produção. A queda no GPT‑5.4 Thinking foi resultado da aposentadoria da personalidade “Nerdy” em meados de março. O GPT‑5.5 nunca foi lançado com a personalidade “Nerdy” e mostrou outro aumento em relação ao GPT‑5.4 (mesmo sem “Nerdy”).
Aposentamos a personalidade “Nerdy” em março, depois do lançamento do GPT‑5.4. No treinamento, removemos o sinal de recompensa favorável a goblins e filtramos dados de treinamento contendo palavras de criaturas, tornando menos provável que goblins aparecessem em excesso ou surgissem em contextos inadequados. Infelizmente, o treinamento do GPT‑5.5 começou antes de encontrarmos a causa raiz dos goblins. Quando começamos a testar o GPT‑5.5 no Codex, funcionários da OpenAI perceberam imediatamente a estranha afinidade por goblins, e adicionamos uma instrução no prompt de desenvolvedor(abre em uma nova janela) para mitigar o problema. Afinal, o Codex é bem nerd.
Se quiser deixar as criaturas correrem livres no Codex, você pode executar este comando para iniciar o Codex com as instruções de supressão de goblins removidas:
Dependendo de quem você perguntar, os goblins são uma peculiaridade encantadora ou irritante do modelo. Mas também são um exemplo poderoso de como sinais de recompensa podem moldar o comportamento do modelo de maneiras inesperadas, e de como modelos podem aprender a generalizar recompensas de certas situações para outras não relacionadas. Dedicar tempo para entender por que um modelo está se comportando de forma estranha e criar formas de investigar esses padrões rapidamente é uma capacidade importante para nossa equipe de pesquisa. Esta investigação resultou em novas ferramentas para a equipe de pesquisa auditar o comportamento dos modelos e corrigir problemas comportamentais pela raiz.


