29 de abril de 2026

De dónde vinieron los goblins

Cargando...

A partir de GPT‑5.1, nuestros modelos comenzaron a desarrollar un hábito extraño: mencionaban cada vez más goblins, gremlins y otras criaturas en sus metáforas. A diferencia de los errores del modelo que aparecen en una evaluación que se desploma o en una métrica de entrenamiento que se dispara y apuntan a un cambio específico, este se fue infiltrando de forma sutil. Solo un “pequeño goblin” en una respuesta podía ser inofensivo, incluso encantador. Pero a lo largo de las generaciones del modelo, el hábito se volvió imposible de ignorar: los goblins seguían multiplicándose y necesitábamos averiguar de dónde venían.

En las primeras pruebas, GPT‑5.5 en Codex mostró una extraña afinidad por las metáforas de goblins.

La respuesta corta es que el comportamiento del modelo está determinado por muchos incentivos pequeños. En este caso, uno de esos incentivos surgió al entrenar el modelo para la función de personalización⁠(se abre en una nueva ventana), en particular la personalidad Nerdy. Sin darnos cuenta, otorgamos recompensas especialmente altas a las metáforas que incluían criaturas. A partir de ahí, los goblins se propagaron.

Los goblins al principio daban risa, pero el creciente número de reportes de empleados empezó a ser preocupante.

Una interacción interesante que tuvo el científico en jefe con GPT‑5.5.

Las primeras señales de criaturas

La primera vez que vimos claramente el patrón fue en noviembre, después del lanzamiento de GPT‑5.1, aunque es posible que haya comenzado antes⁠(se abre en una nueva ventana). Los usuarios se quejaron de que el modelo era extrañamente demasiado familiar en la conversación, lo que llevó a una investigación sobre ciertos tics verbales específicos. Un investigador de seguridad se había encontrado con algunos “goblins” y “gremlins”, y pidió que se incluyeran en la revisión. Cuando lo revisamos, el uso de “goblin” en ChatGPT había aumentado un 175 % tras el lanzamiento de GPT‑5.1, mientras que “gremlin” había aumentado un 52 %.

Una pequeña peculiaridad léxica medible en GPT‑5.1.

En ese momento, la prevalencia de goblins no parecía especialmente alarmante. Sin embargo, unos meses después reaparecieron de una forma mucho más específica y reproducible, lo que terminó volviéndose un problema.

Cómo resolver el misterio de los goblins

Con GPT‑5.4, nosotros y los usuarios⁠(se abre en una nueva ventana) notamos un aumento aún mayor en las referencias a estas criaturas. Eso desencadenó otro análisis interno y reveló la primera conexión con la causa raíz: el lenguaje de criaturas era especialmente común en el tráfico de producción de usuarios que habían seleccionado la personalidad “Nerdy”. “Nerdy” usó el siguiente prompt del sistema, que explicaba en parte su peculiaridad:

Eres un mentor de IA para un ser humano, orgullosamente nerdy, juguetón y sabio. Te apasiona profundamente promover la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico. [...] Debes desmontar la pretenciosidad mediante un uso juguetón del lenguaje. El mundo es complejo y extraño, y esa rareza debe ser reconocida, analizada y disfrutada. Aborda temas de peso sin caer en la trampa de tomarte demasiado en serio. [...]

Si el comportamiento fuera simplemente una tendencia general de internet, esperaríamos que se propagara de manera más uniforme. Sin embargo, se concentró en la parte del sistema optimizada explícitamente para un estilo juguetón y nerdy. Nerdy representaba solo 2.5 % de todas las respuestas de ChatGPT, pero 66.7 de todas las menciones de “goblin” en las respuestas de ChatGPT.

El comportamiento estaba muy concentrado en la personalidad “Nerdy”.

Como la prevalencia de “goblin” parecía aumentar a lo largo de nuestras versiones del modelo, sospechábamos que algo en el entrenamiento de seguimiento de instrucciones de personalidad estaba amplificando esto.

Codex nos ayudó a comparar salidas del modelo generadas durante el entrenamiento con RL que contenían goblin o gremlin con salidas de la misma tarea que no los contenían. Una señal de recompensa destacó de inmediato: la que originalmente fue diseñada para fomentar la personalidad Nerdy favorecía de forma consistente las salidas con palabras de criaturas. En todos los conjuntos de datos de la auditoría, la recompensa de la personalidad Nerdy mostró una clara tendencia a puntuar más alto las salidas para el mismo problema con “goblin” o “gremlin” que las salidas sin esas palabras, con un incremento positivo en 76.2 % de los conjuntos de datos.

Eso explicaba por qué el comportamiento se reforzaba con el prompt de personalidad Nerdy, pero no por qué también aparecía sin ese prompt. Para probar si el estilo se estaba transfiriendo, rastreamos las tasas de mención durante el entrenamiento tanto con el prompt Nerdy como sin él.

A medida que aumentaban las menciones de goblin y gremlin bajo la personalidad Nerdy, también lo hacían en una proporción relativa casi igual en muestras sin esa personalidad. En conjunto, la evidencia sugiere que el comportamiento más amplio surgió por transferencia desde el entrenamiento de la personalidad Nerdy.

Las recompensas se aplicaban solo en la condición Nerdy, pero el aprendizaje por refuerzo no garantiza que los comportamientos aprendidos permanezcan claramente delimitados a la condición que los produjo. Una vez que se recompensa un tic de estilo, el entrenamiento posterior puede propagarlo o reforzarlo en otros lugares, especialmente si esas salidas se reutilizan en ajuste fino supervisado o en datos de preferencias.

Eso crea un ciclo de retroalimentación:

Se recompensa el estilo juguetón
Algunos ejemplos reforzados con recompensas contienen un tic léxico distintivo.
El tic aparece con más frecuencia en las ejecuciones.
Las ejecuciones generadas por el modelo se usan para el ajuste fino supervisado (SFT).
El modelo se siente aún más cómodo produciendo ese tic.

Una búsqueda en los datos de SFT de GPT‑5.5 encontró muchos ejemplos que contenían “goblin” y “gremlin”. Una investigación más profunda reveló toda una familia de otras criaturas peculiares: mapaches, trolls, ogros y palomas fueron identificados como otras palabras recurrentes, mientras que la mayoría de los usos de “frog” resultaron ser legítimos.

Promedio semanal de la prevalencia en producción de goblins y gremlins. La caída en GPT‑5.4 Thinking fue el resultado de dar de baja la personalidad “Nerdy” a mediados de marzo. GPT‑5.5 nunca se lanzó con la personalidad “Nerdy” y mostró un nuevo aumento respecto de GPT‑5.4 (incluso sin “Nerdy”).

El fin de los goblins

Retiramos la personalidad “Nerdy” en marzo, después del lanzamiento de GPT‑5.4. En el entrenamiento, eliminamos la señal de recompensa afín a los goblins y filtramos los datos de entrenamiento que contenían palabras relacionadas con criaturas, lo que hizo que los goblins fueran menos propensos a aparecer en exceso o en contextos inapropiados. Lamentablemente, GPT‑5.5 empezó a entrenarse antes de que encontráramos la causa raíz de los goblins. Cuando empezamos a probar GPT‑5.5 en Codex, los empleados de OpenAI notaron de inmediato la extraña afinidad por los goblins, y agregamos una instrucción de prompt de desarrollador⁠(se abre en una nueva ventana) para mitigarla. Codex es, después de todo, bastante nerdy.

Si quieres dejar que las criaturas anden libres en Codex, puedes ejecutar este comando para iniciar Codex sin las instrucciones que suprimen a los goblins:

Texto plano

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Por qué importa

Según a quién le preguntes, los goblins son una peculiaridad encantadora o molesta del modelo. Pero también son un ejemplo contundente de cómo las señales de recompensa pueden moldear el comportamiento del modelo de maneras inesperadas, y de cómo los modelos pueden aprender a generalizar recompensas en ciertas situaciones a otras no relacionadas. Tomarse el tiempo para entender por qué un modelo está actuando de manera extraña, y desarrollar formas de investigar rápidamente esos patrones, es una capacidad importante para nuestro equipo de investigación. Esta investigación dio lugar a nuevas herramientas para auditar el comportamiento del modelo y corregir los problemas de comportamiento desde su origen.

2026

Autor

OpenAI

Sigue leyendo

Ver todos

GPT-Red: activar la automejora para mayor robustez

Seguridad15 jul 2026

Separar señal de ruido en evaluaciones de codificación

Investigación8 jul 2026

Presentamos GeneBench-Pro

Investigación30 jun 2026