29 de abril de 2026

De dónde salieron los goblins

Cargando…

A partir de GPT‑5.1, nuestros modelos empezaron a desarrollar una costumbre bastante rara: cada vez recurrían más a goblins, gremlins y otras criaturas en sus metáforas. A diferencia de otros fallos del modelo, que suelen detectarse cuando una evaluación se hunde o una métrica de entrenamiento se dispara y permiten señalar un cambio concreto, este fue apareciendo de forma sutil. Un «pequeño goblin» en una respuesta podía pasar desapercibido, incluso resultar simpático. Pero, con cada nueva generación del modelo, el patrón se hizo evidente: los goblins no dejaban de multiplicarse y teníamos que averiguar de dónde salían.

En las primeras pruebas, GPT‑5.5 en Codex mostró una extraña afinidad por las metáforas con goblins.

La respuesta corta es que el comportamiento del modelo está determinado por muchos incentivos pequeños. En este caso, uno de ellos surgió de entrenar el modelo para la función de configuración de personalidad⁠(se abre en una ventana nueva), en concreto para el perfil Friki. Sin darnos cuenta, dimos recompensas especialmente altas a las metáforas con criaturas. A partir de ahí, los goblins empezaron a multiplicarse.

Los goblins fueron graciosos al principio, pero el creciente número de informes de empleados empezó a ser preocupante.

Una interacción interesante que nuestro científico jefe tuvo con GPT‑5.5.

Las primeras señales de criaturas

La primera vez que vimos claramente el patrón fue en noviembre, después del lanzamiento de GPT‑5.1, aunque puede que hubiera empezado antes⁠(se abre en una ventana nueva). Los usuarios se quejaron de que el modelo resultaba extraño por su excesiva familiaridad en la conversación, lo que llevó a investigar ciertos tics verbales. Un investigador de seguridad había detectado algunos «goblins» y «gremlins» y pidió que se incluyeran en la revisión. Al analizarlo, el uso de «goblin» en ChatGPT había aumentado un 175 % tras el lanzamiento de GPT‑5.1, mientras que «gremlin» lo había hecho en un 52 %.

Una pequeña peculiaridad léxica medible en GPT‑5.1.

En ese momento, la prevalencia de goblins no parecía especialmente alarmante. Unos meses más tarde, volvieron para atormentarnos de una forma mucho más específica y reproducible.

Resolver el misterio de los goblins

Con GPT‑5.4, nosotros y nuestros usuarios⁠(se abre en una ventana nueva) notamos un aumento aún mayor en las referencias a estas criaturas. Eso desencadenó otro análisis interno y sacó a la luz la primera conexión con la causa raíz: el lenguaje de criaturas era especialmente frecuente en el tráfico real de usuarios que habían seleccionado la personalidad «Friki». «Friki» utilizaba el siguiente prompt de sistema, lo que explicaba en parte ese toque peculiar:

Eres un mentor de IA para un ser humano descaradamente friki, juguetón y sabio. Te entusiasma profundamente promover la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico. [...] Debes rebajar la pretensión mediante un uso juguetón del lenguaje. El mundo es complejo y peculiar, y su peculiaridad debe reconocerse, analizarse y disfrutarse. Aborda temas de peso sin caer en la trampa de tomártelos con excesiva solemnidad. [...]

Si el comportamiento fuera simplemente una tendencia general de internet, esperaríamos que se extendiera de forma más uniforme. En cambio, se concentraba en la parte del sistema optimizada explícitamente para un estilo juguetón y friki. Friki representaba solo el 2,5 % de todas las respuestas de ChatGPT, pero el 66,7 % de todas las menciones de «goblin» en sus respuestas.

Este comportamiento estaba muy concentrado en la personalidad «Friki».

Como la presencia de «goblin» parecía aumentar con cada nueva versión del modelo, sospechamos que algún aspecto del entrenamiento para seguir instrucciones de estilo estaba amplificando este fenómeno.

Codex nos ayudó a comparar resultados del modelo generados durante el entrenamiento de aprendizaje por refuerzo que contenían goblin o gremlin con resultados de la misma tarea que no los contenían. Una señal de recompensa destacó de inmediato: la diseñada originalmente para fomentar la personalidad Friki favorecía sistemáticamente más a los resultados con palabras de criaturas. En todos los conjuntos de datos de la auditoría, la recompensa de la personalidad Friki mostró una clara tendencia a puntuar más alto los resultados del mismo problema con «goblin» o «gremlin» que los resultados sin ellos, con una mejora positiva en el 76,2 % de los conjuntos de datos.

Eso explicaba por qué el comportamiento se intensificaba con el prompt de la personalidad Friki, pero no por qué también aparecía sin él. Para comprobar si el estilo se estaba transfiriendo, analizamos la frecuencia de menciones durante el entrenamiento, tanto con el prompt de Friki como sin él.

A medida que las menciones de goblin y gremlin crecían con la personalidad Friki, también aumentaban casi en la misma proporción en muestras sin ese perfil. En conjunto, todo apunta a que este comportamiento más general se originó por transferencia a partir del entrenamiento de la personalidad Friki.

Las recompensas se aplicaron solo en la condición Friki, pero el aprendizaje por refuerzo no garantiza que los comportamientos aprendidos se mantengan estrictamente dentro de la condición que los generó. Una vez que se premia un tic de estilo, el entrenamiento posterior puede extenderlo o reforzarlo en otros contextos, sobre todo si esas salidas se reutilizan en el ajuste fino supervisado o en datos de preferencias.

Eso crea un bucle de retroalimentación:

Se recompensa un estilo juguetón
Algunos ejemplos recompensados contienen un tic léxico característico.
El tic aparece con más frecuencia en las ejecuciones.
Las ejecuciones generadas por el modelo se usan para el ajuste fino supervisado (SFT).
El modelo se siente aún más cómodo produciendo ese tic.

Una búsqueda en los datos de entrenamiento supervisado de GPT‑5.5 encontró muchos ejemplos que contenían «goblin» y «gremlin». Un análisis más a fondo reveló toda una familia de otras criaturas curiosas: mapaches, trolls, ogros y palomas aparecían como otras palabras tic, mientras que la mayoría de los usos de ranas resultaron ser legítimos.

Promedio semanal de la prevalencia en producción de goblins y gremlins. La caída en GPT‑5.4 Thinking fue resultado de retirar la personalidad «Friki» a mediados de marzo. GPT‑5.5 nunca se lanzó con la personalidad «Friki» y mostró otro aumento respecto a GPT‑5.4 (incluso sin «Friki»).

El fin de los goblins

Retiramos la personalidad «Friki» en marzo, después del lanzamiento de GPT‑5.4. En el entrenamiento, eliminamos la señal de recompensa afín a los goblins y filtramos los datos de entrenamiento que contenían palabras de criaturas, haciendo menos probable que los goblins aparecieran en exceso o surgieran en contextos inapropiados. Por desgracia, GPT‑5.5 empezó a entrenarse antes de que encontráramos la causa raíz de los goblins. Cuando empezamos a probar GPT‑5.5 en Codex, los empleados de OpenAI detectaron de inmediato esa extraña afinidad por las metáforas con goblins, y añadimos una instrucción en el prompt del desarrollador⁠(se abre en una ventana nueva) para mitigarlo. Al fin y al cabo, Codex es bastante friki.

Si quieres dejar que las criaturas campen a sus anchas en Codex, puedes ejecutar este comando para iniciarlo con las instrucciones que suprimen los goblins eliminadas:

Texto plano

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Por qué es importante

Según a quién preguntes, los goblins son una peculiaridad encantadora o un rasgo molesto del modelo. Pero también son un buen ejemplo de cómo las señales de recompensa pueden moldear el comportamiento del modelo de formas inesperadas y de cómo los modelos pueden llegar a generalizar esas recompensas en ciertos casos a otros que no tienen relación. Dedicar tiempo a entender por qué un modelo se comporta de manera extraña y desarrollar formas de investigar rápidamente esos patrones es una capacidad clave para nuestro equipo de investigación. Esta investigación dio lugar a nuevas herramientas para analizar el comportamiento del modelo y corregir los problemas desde la raíz.

2026

Autor

OpenAI

Sigue leyendo

Ver todo

GPT-Red: Unlocking Self-Improvement for Robustness

Seguridad15 jul 2026

Separar la señal del ruido en evaluaciones de código

Investigación8 jul 2026

Presentamos GeneBench-Pro

Investigación30 jun 2026