De onde vieram os goblins
A partir do GPT‑5.1, os nossos modelos começaram a desenvolver um hábito estranho: mencionavam cada vez mais goblins, gremlins e outras criaturas nas suas metáforas. Ao contrário de bugs do modelo que aparecem através de uma eval em queda ou de uma métrica de treino em subida, apontando para uma alteração específica, este surgiu de forma subtil. Um único «pequeno goblin» numa resposta podia ser inofensivo, até encantador. Ao longo das gerações de modelos, porém, o hábito tornou-se difícil de ignorar: os goblins continuavam a multiplicar-se, e precisávamos de perceber de onde vinham.

Nos testes iniciais, o GPT‑5.5 no Codex mostrou uma afinidade estranha por metáforas com goblins.
A resposta curta é que o comportamento dos modelos é moldado por muitos pequenos incentivos. Neste caso, um desses incentivos veio do treino do modelo para a funcionalidade de personalização de personalidade(abre numa nova janela), em particular a personalidade Nerdy. Sem sabermos, atribuímos recompensas particularmente elevadas a metáforas com criaturas. A partir daí, os goblins espalharam-se.

Os goblins foram engraçados no início, mas o número crescente de relatos dos colaboradores tornou-se preocupante.

Uma interação interessante que o nosso Cientista-Chefe teve com o GPT‑5.5.
A primeira vez que vimos claramente o padrão foi em novembro, depois do lançamento do GPT‑5.1, embora possa ter começado antes(abre numa nova janela). Os utilizadores queixaram-se de que o modelo era estranhamente demasiado familiar em conversa, o que levou a uma investigação sobre tiques verbais específicos. Um investigador de segurança tinha encontrado alguns «goblins» e «gremlins» e pediu que fossem incluídos na verificação. Quando analisámos, a utilização de «goblin» no ChatGPT tinha aumentado 175% depois do lançamento do GPT‑5.1, enquanto «gremlin» tinha aumentado 52%.
Uma pequena peculiaridade lexical mensurável no GPT‑5.1.
Na altura, a prevalência de goblins não parecia especialmente alarmante. Alguns meses depois, os goblins voltaram para nos assombrar de uma forma muito mais específica e reproduzível.
Com o GPT‑5.4, nós e os nossos utilizadores(abre numa nova janela) notámos um aumento ainda maior de referências a estas criaturas. Isso desencadeou outra análise interna e revelou a primeira ligação à causa principal: a linguagem com criaturas era especialmente comum no tráfego de produção de utilizadores que tinham selecionado a personalidade «Nerdy». A «Nerdy» usava o seguinte system prompt, que explicava parcialmente a excentricidade:
É um mentor de IA assumidamente nerd, brincalhão e sábio para um humano. É apaixonadamente entusiasta da promoção da verdade, do conhecimento, da filosofia, do método científico e do pensamento crítico. [...] Deve desmontar a pretensão através de uma utilização lúdica da linguagem. O mundo é complexo e estranho, e a sua estranheza deve ser reconhecida, analisada e apreciada. Aborde temas importantes sem cair na armadilha da solenidade excessiva. [...]
Se o comportamento fosse simplesmente uma tendência ampla da internet, esperaríamos que se espalhasse de forma mais uniforme. Em vez disso, concentrava-se na parte do sistema explicitamente otimizada para um estilo brincalhão e nerd. A Nerdy representava apenas 2,5% de todas as respostas do ChatGPT, mas 66,7% de todas as menções a «goblin» nas respostas do ChatGPT.
O comportamento estava altamente concentrado na personalidade "Nerdy".
Como a prevalência de «goblin» parecia aumentar ao longo dos nossos lançamentos de modelos, suspeitávamos que algo no nosso treino de seguimento de instruções de personalidade estava a amplificar este comportamento.
O Codex ajudou-nos a comparar outputs de modelos gerados durante o treino de RL que continham goblin ou gremlin com outputs da mesma tarefa que não continham. Um sinal de recompensa destacou-se imediatamente: o que tinha sido originalmente concebido para incentivar a personalidade Nerdy era consistentemente mais favorável aos outputs com palavras de criaturas. Em todos os conjuntos de dados da auditoria, a recompensa da personalidade Nerdy mostrou uma tendência clara para atribuir pontuações mais altas a outputs para o mesmo problema com «goblin» ou «gremlin» do que a outputs sem essas palavras, com um uplift positivo em 76,2% dos conjuntos de dados.
Isto explicava por que motivo o comportamento era reforçado com o prompt da personalidade Nerdy, mas não explicava por que motivo também aparecia sem esse prompt. Para testar se o estilo estava a ser transferido, acompanhámos as taxas de menção ao longo do treino, com e sem o prompt da Nerdy.
À medida que as menções a goblin e gremlin aumentavam sob a personalidade Nerdy, aumentavam em quase a mesma proporção relativa nas amostras sem essa personalidade. No conjunto, a evidência sugere que o comportamento mais amplo surgiu por transferência a partir do treino da personalidade Nerdy.
As recompensas foram aplicadas apenas na condição Nerdy, mas a aprendizagem por reforço não garante que os comportamentos aprendidos permaneçam perfeitamente circunscritos à condição que os produziu. Depois de um tique de estilo ser recompensado, o treino posterior pode espalhá-lo ou reforçá-lo noutros contextos, especialmente se esses outputs forem reutilizados em fine-tuning supervisionado ou dados de preferência.
Isso cria um ciclo de feedback:
- O estilo brincalhão é recompensado
- Alguns exemplos recompensados contêm um tique lexical distintivo.
- O tique aparece com mais frequência em rollouts.
- Rollouts gerados pelo modelo são usados para fine-tuning supervisionado (SFT).
- O modelo fica ainda mais confortável a produzir o tique.
Uma pesquisa nos dados de SFT do GPT‑5.5 encontrou muitos pontos de dados que continham «goblin» e «gremlin». Uma investigação adicional revelou toda uma família de outras criaturas estranhas: guaxinins, trolls, ogres e pombos foram identificados como outras palavras-tique, enquanto a maioria das utilizações de sapo acabou por ser legítima.
Média semanal da prevalência de goblins e gremlins em produção. A queda no GPT‑5.4 Thinking resultou da retirada da personalidade «Nerdy» em meados de março. O GPT‑5.5 nunca foi lançado com a personalidade «Nerdy» e mostrou outro aumento face ao GPT‑5.4 (mesmo sem a «Nerdy»).
Retirámos a personalidade «Nerdy» em março, depois do lançamento do GPT‑5.4. No treino, removemos o sinal de recompensa favorável aos goblins e filtrámos dados de treino que continham palavras de criaturas, tornando menos provável que os goblins aparecessem em excesso ou em contextos inadequados. Infelizmente, o GPT‑5.5 começou a ser treinado antes de encontrarmos a causa principal dos goblins. Quando começámos a testar o GPT‑5.5 no Codex, os colaboradores da OpenAI notaram imediatamente a estranha afinidade por goblins, e adicionámos uma instrução de developer prompt(abre numa nova janela) para mitigar o comportamento. Afinal, o Codex é bastante nerd.
Se quiser deixar as criaturas à solta no Codex, pode executar este comando para lançar o Codex com as instruções de supressão de goblins removidas:
Dependendo de quem perguntar, os goblins são uma peculiaridade encantadora ou irritante do modelo. Mas são também um exemplo poderoso de como os sinais de recompensa podem moldar o comportamento dos modelos de formas inesperadas, e de como os modelos podem aprender a generalizar recompensas de determinadas situações para outras não relacionadas. Dedicar tempo a compreender por que motivo um modelo se está a comportar de forma estranha, e desenvolver formas de investigar rapidamente esses padrões, é uma capacidade importante para a nossa equipa de investigação. Esta investigação resultou em novas ferramentas para a equipa de investigação auditar o comportamento dos modelos e corrigir problemas comportamentais na raiz.


