Cómo se propagaron las salidas con goblins en los modelos de IA: cronología, causa raíz y correcciones detrás de peculiaridades de comportamiento impulsadas por la personalidad en GPT-5.
Descubre cómo las especificaciones del modelo de OpenAI sirven como marco público para el comportamiento de los modelos, equilibrando la seguridad, la libertad del usuario y la rendición de cuentas a medida que avanzan los sistemas de IA.
Cómo OpenAI usa el monitoreo de la cadena de pensamiento para estudiar la desalineación en agentes internos de programación, al analizar implementaciones reales para detectar riesgos y reforzar las medidas de seguridad de la IA.
IH-Challenge entrena a los modelos para priorizar instrucciones confiables, lo que mejora la jerarquía de instrucciones, la capacidad de orientar el comportamiento del modelo en materia de seguridad y la resistencia a ataques de inyección de prompts.
OpenAI presenta CoT-Control y descubre que a los modelos de razonamiento les cuesta controlar sus cadenas de pensamiento, lo que refuerza la capacidad de monitoreo como salvaguarda de seguridad en IA.
Un nuevo preprint extiende las amplitudes single-minus a gravitones; GPT-5.2 Pro ayudó a derivar y verificar amplitudes de árbol de gravitones no nulas en gravedad cuántica.