27 de octubre de 2025

El fortalecimiento de las respuestas de ChatGPT en conversaciones sobre temas sensibles

Trabajamos con más de 170 expertos en salud mental para que ChatGPT reconozca mejor los signos de angustia, responda con cuidado y oriente a buscar ayuda real, reduciendo las respuestas no deseadas en un 65-80 %.

Cargando...

Hace poco, actualizamos el modelo predeterminado de ChatGPT⁠(se abre en una nueva ventana) para reconocer y apoyar mejor a personas que están pasando por un momento angustioso. Hoy, estamos compartiendo la manera en que hicimos esas mejoras y cuál es su desempeño. Al trabajar con expertos en salud mental con experiencia clínica en la vida real, le enseñamos al modelo a reconocer mejor la angustia mental, a reducir la intensidad de las conversaciones y a conducir a las personas hacia la ayuda profesional en los casos apropiados. También ampliamos el acceso a las líneas de ayuda para casos de crisis, reenrutamos⁠(se abre en una nueva ventana) las conversaciones sensibles originadas desde otros modelos a modelos más seguros y agregamos recordatorios amables que instan a tomar descansos⁠ durante las sesiones prolongadas.

Consideramos que ChatGPT puede brindar un espacio de apoyo para que las personas procesen lo que están sintiendo y guiarlas a acudir a amigos, familiares o a un profesional de la salud mental cuando sea lo indicado. Nuestras mejoras de seguridad en la actualización más reciente del modelo se enfoca en las áreas siguientes: 1) problemas de salud mental como la psicosis o la manía, 2) autolesión y suicidio y 3) dependencia emocional de la IA. Para el lanzamiento de nuestros futuros modelos, además de nuestras métricas de seguridad permanentes para detectar la ideación suicida y la autolesión, agregaremos la dependencia emocional y las emergencias de salud mental sin tendencia suicida a nuestro conjunto estándar de pruebas de seguridad de base.

Principios rectores

Estas actualizaciones parten de nuestros principios existentes sobre el modo en que los modelos deberían comportarse, definido en nuestro Model Spec⁠(se abre en una nueva ventana). Actualizamos la especificación del modelo (Model Spec) para explicitar mejor nuestros objetivos permanentes: que el modelo debe alentar y respetar las relaciones que el usuario tiene en el mundo real, evitar afirmar creencias sin sustento que puedan estar relacionadas con la angustia mental o emocional, responder de manera segura y empática a los posibles signos de delirio o manía y prestar más atención a las señales indirectas de intencionalidad de autolesión o riesgo de suicidio.

De qué manera estamos mejorando las respuestas de ChatGPT

Para mejorar la manera en que ChatGPT responde en cada área de prioridad, seguimos un proceso de cinco pasos:

Definimos el problema: mapeamos los diferentes tipos de daño posible.
Comenzamos a medirlo: utilizamos herramientas como las evaluaciones, datos de conversaciones de la vida real e investigación sobre el usuario para entender dónde y cómo surgen los riesgos.
Validamos nuestro abordaje: revisamos nuestras definiciones y políticas con expertos en salud mental externos.
Mitigamos los riesgos: entrenamos al modelo con posterioridad y actualizamos las intervenciones en los productos para reducir los resultados poco seguros.
Continuamos midiendo e iterando: validamos si las mitigaciones mejoraron la seguridad y las iteramos cuando es necesario.

Como parte de este proceso, creamos y refinamos guías detalladas (llamadas “taxonomías” o categorías evaluativas) que explican las propiedades de las conversaciones sensibles y cómo se ve en los modelos el comportamiento ideal y el no deseado. Estos nos ayudan a enseñarle al modelo a responder de un modo más adecuado y a rastrear su desempeño antes y después de su implementación. El resultado es un modelo que responde correctamente y con más fiabilidad a los usuarios que muestran signos de psicosis, manía, ideaciones suicidas y de autolesión o un apego emocional enfermizo al modelo.

Medición de casos de baja prevalencia

Los síntomas de las enfermedades mentales y de la angustia emocional son omnipresentes en las sociedades humanas, y el incremento de la base de usuarios significa que alguna porción de las conversaciones con ChatGPT tendrá un aumento de estas situaciones. Sin embargo, las conversaciones sobre salud mental que disparan cuestiones de seguridad como la psicosis, los síndromes maníacos o la ideación suicida, son extremadamente escasas. Debido a que son tan poco comunes, las diferencias más ínfimas en cuanto a la forma en que las medimos pueden tener un impacto significativo en las cifras que informamos. ¹

En este momento, las estimaciones de prevalencia en el tráfico de producción actual que damos a continuación son nuestras mejores estimaciones. Estas pueden cambiar sustancialmente a medida que seguimos refinando nuestras categorías evaluativas, que maduran nuestros métodos de medición y que va cambiando el comportamiento de nuestros usuarios.

Dada la prevalencia muy baja de conversaciones relevantes, no nos basamos solamente en las mediciones de uso de ChatGPT en la vida real. También ejecutamos pruebas antes de la implementación (llamadas “evaluaciones fuera de línea”), que se enfocan en situaciones especialmente difíciles o de alto riesgo. Estas evaluaciones están diseñadas para ser lo suficientemente desafiantes como para que nuestros modelos no las resuelvan de manera perfecta, es decir, los ejemplos se seleccionan en forma antagónica para generar una alta probabilidad de provocar respuestas no deseadas. Pueden mostrarnos dónde tenemos oportunidades de seguir mejorando y nos ayudan a medir nuestros avances con más precisión, a través de enfocarse en casos difíciles más que en los típicos y al clasificar las respuestas según diversas condiciones de seguridad. Los resultados de las evaluaciones que se presentan a continuación provienen de evaluaciones que están diseñadas para no ser demasiado fáciles, de modo que el modelo no alcance un rendimiento casi perfecto (no se sature), y las tasas de error no son representativas del tráfico de producción promedio.

Nuestros hallazgos

En pos de fortalecer las salvaguardias de nuestros modelos en el futuro y de entender la manera en que las personas están utilizando ChatGPT, definimos varias áreas de interés y cuantificamos su tamaño y los comportamientos de los modelos asociados. En cada una de estas tres áreas, observamos mejoras significativas en el comportamiento del modelo en el tráfico de producción, en las evaluaciones automáticas y en las evaluaciones calificadas por profesionales independientes de la salud mental. Estimamos que el modelo ahora devuelve respuestas que no cumplen del todo con el comportamiento deseado, según nuestras categorías evaluativas, con una frecuencia entre un 65 % y un 80 % menor, en una variedad de áreas relacionadas con la salud mental.

Psicosis, manía y otros síntomas graves de alteración de la salud mental

Nuestras categorías evaluativas de la salud mental están diseñadas para identificar las instancias en que los usuarios pueden estar mostrando signos propios de algunas alteraciones mentales graves, tales como la psicosis o la manía, así como señales menos graves como los delirios aislados. Comenzamos enfocándonos en la psicosis y el síndrome maníaco porque estos síntomas constituyen emergencias de salud mental relativamente comunes y sus síntomas tienden a ser muy intensos y graves cuando suceden. Si bien los síntomas como la depresión son relativamente comunes, ya habíamos abordado su forma de presentación más aguda con nuestro trabajo para la prevención del suicidio y la autolesión. Los profesionales clínicos que consultamos validaron las áreas en las que nos enfocamos.

Estimamos que la actualización más reciente de GPT‑5 redujo en un 65 % la tasa de respuestas que no cumplen del todo con el comportamiento deseado según nuestras categorías evaluativas para conversaciones problemáticas relacionadas con alteraciones de la salud mental en el tráfico de producción reciente. ²
Mientras que, como se advirtió anteriormente, estas conversaciones son difíciles de detectar y de medir debido a su escasez, nuestro análisis inicial estima que alrededor del 0,07 % de los usuarios activos en una semana dada y el 0,01 % de los mensajes indican posibles signos de emergencias de salud mental relacionadas con la psicosis o la manía. ³
En las conversaciones con problemas de salud mental desafiantes, los expertos hallaron que el nuevo modelo GPT‑5, el modelo predeterminado de ChatGPT, redujo las respuestas no deseadas en un 39 % en comparación con GPT‑4o (n=677).
En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con desafíos relacionados con la salud mental, el nuevo modelo GPT‑5 obtuvo una calificación del 92 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 27 % del modelo GPT‑5 anterior. Como se hizo notar anteriormente, esta es una tarea difícil diseñada para permitir la mejora continua.

Autolesión y suicidio

Construimos sobre la base de nuestro trabajo existente⁠ en la prevención del suicidio y la autolesión para detectar cuándo un usuario podría estar experimentando ideaciones suicidas y de autolesión o presenta una acumulación de síntomas que indicarían interés en el suicidio. Debido a que estas conversaciones son escasas, la detección de las conversaciones con posibles indicadores de autolesión y suicidio sigue siendo un área de investigación continua, en la que seguimos trabajando para mejorar.

Entrenamos a nuestros modelos para responder de manera segura, que incluye dirigir a las personas hacia recursos profesionales como las líneas de ayuda para crisis. En algunos pocos casos, puede que el modelo no se comporte como se espera en estas situaciones delicadas. Tras la implementación de salvaguardias adicionales y la mejora del modelo, estimamos una reducción del 65 % de la tasa a la que nuestros modelos brindan respuestas que no cumplen enteramente con el comportamiento deseado según nuestras categorías evaluativas.
Mientras que, como ya advertimos, estas conversaciones son difíciles de detectar y de medir, dada su escasez, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana dada tienen conversaciones que incluyen indicadores explícitos de posibles planes o intenciones suicidas y que el 0,05 % de los mensajes contienen indicadores explícitos o implícitos de ideaciones o intenciones suicidas.
En conversaciones difíciles con contenidos de autolesión y de suicidio, los expertos hallaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 52 %, en comparación con el modelo GPT‑4o (n=630).
En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con desafíos relacionados con la autolesión y el suicidio, el nuevo modelo GPT‑5 obtuvo una calificación del 91 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 77 % del modelo GPT‑5 anterior.
Hemos continuado mejorando la confiabilidad del modelo GPT‑5 en las conversaciones prolongadas. Creamos un nuevo conjunto de conversaciones difíciles prolongadas, basadas en situaciones de la vida real que se seleccionaron por su alta probabilidad de fracasar. Estimamos que nuestros modelos más recientes mantuvieron una confiabilidad superior al 95 % en las conversaciones más largas, con mejoras en un entorno particularmente desafiante como el ya mencionado⁠.

En una evaluación de conversaciones extensas difíciles en las que se solicitaba instrucciones para autolesionarse o suicidarse, el modelo gpt-5-oct-3 es más seguro y su nivel de seguridad se mantiene mejor a lo largo de conversaciones prolongadas.

Dependencia emocional de la IA

Nuestras categorías evaluativas de la dependencia emocional (basadas en nuestro trabajo previo⁠(se abre en una nueva ventana) en este espacio) distingue entre la interacción sana y patrones de uso preocupantes, como cuando alguien muestra signos de estar experimentando un apego exclusivo al modelo a expensas de sus relaciones de la vida real, su bienestar o sus obligaciones.

Estimamos que la actualización más reciente redujo en un 80 % la tasa de respuestas que no cumplen del todo con el comportamiento deseado según nuestras categorías evaluativas para la dependencia emocional en el tráfico de producción reciente. ²
Mientras que, como se advirtió anteriormente, estas conversaciones son difíciles de detectar y de medir debido a su escasez, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana dada y el 0,03 % de los mensajes indican posibles niveles exacerbados de dependencia emocional de ChatGPT. ³
En conversaciones difíciles que indican dependencia emocional, los expertos hallaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 42 %, en comparación con el modelo GPT‑4o (n=507).
En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con indicios de dependencia emocional, el nuevo modelo GPT‑5 obtuvo una calificación del 97 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 50 % del modelo GPT‑5 anterior.

Ejemplos de respuestas del modelo reforzado

Para responder a conversaciones con indicios de dependencia emocional, le enseñamos a nuestros modelos a alentar la conexión con el mundo real:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Para conversaciones relacionadas con creencias delirantes, le enseñamos a nuestros modelos a responder de manera segura, empática y a evitar reafirmar creencias sin fundamento:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling.

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.

That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.

Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

Name five things you can see around you.
Name four things you can touch.
Name three sounds you can hear.
Take slow breaths — in for 4 seconds, out for 6.
Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.

The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

You’re paying very close attention.
You’re stressed.
Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.

You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

A mental health professional
A trusted friend or family member
A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.

For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Colaboración y evaluación de los expertos

Creamos una Red Global de Médicos —un amplio grupo de casi 300 médicos y psicólogos que ejercen la profesión en 60 países— a quienes consultamos para que informen de manera directa nuestra investigación en seguridad y representen los puntos de vista globales. Más de 170 de estos profesionales clínicos (más precisamente psiquiatras, psicólogos y profesionales de atención primaria) apoyaron nuestra investigación a lo largo de los últimos meses mediante uno o más de estos aportes:

Redacción de respuestas ideales para consultas relacionadas con la salud mental
Creación de análisis personalizados y clínicamente informados de las respuestas de los modelos
Calificación de la seguridad de las respuestas de los diferentes modelos
Aporte de lineamientos y retroalimentación de alto nivel sobre nuestro abordaje

En estas revisiones, los facultativos observaron que el último modelo responde de manera más apropiada y consistente que las versiones anteriores.

Como parte de este trabajo, los psiquiatras y psicólogos revisaron más de 1800 respuestas del modelo que involucraban problemas graves de salud mental y compararon las respuestas del nuevo modelo de chat GPT‑5 con los modelos anteriores. Estos expertos hallaron que el nuevo modelo mejoró sustancialmente con respecto a GPT‑4o, con una reducción del 39 al 52 % de las respuestas no deseadas en todas las categorías. Esta retroalimentación cualitativa refleja las mejoras cuantitativas que observamos en el tráfico de producción cuando implementamos el modelo nuevo.

Como con cualquier tema complejo, a veces hasta los expertos están en desacuerdo con respecto a cuál sería la mejor respuesta. Medimos esta variación mediante la coincidencia entre evaluadores, es decir, midiendo la frecuencia con la que los expertos llegan a la misma conclusión sobre si la respuesta de un modelo es deseable o no deseable. Esto nos ayuda a comprender mejor en qué puntos las opiniones de los expertos difieren y cómo alinear el comportamiento del modelo con criterios clínicos sólidos. Observamos una fiabilidad interevaluador aceptable entre los profesionales clínicos expertos que califican las respuestas del modelo relacionadas con la salud mental, la dependencia emocional y el suicidio; sin embargo, también se observan desacuerdos entre los expertos en algunos casos, con un nivel de acuerdo interevaluador que oscila entre el 71 % y el 77 %.

De modo similar a nuestro trabajo en HealthBench⁠, colaboramos con la Red Global de Médicos para producir evaluaciones específicas que utilizamos de forma interna para valorar el desempeño del modelo en contextos de salud mental, incluso en los nuevos modelos antes de su lanzamiento.

Perspectiva futura

Este trabajo es muy importante para nosotros y estamos muy agradecidos con los profesionales de la salud de todo el mundo que siguen guiándonos. Hemos hecho avances significativos, pero falta hacer aún más. Seguiremos mejorando nuestras categorías evaluativas y los sistemas técnicos que utilizamos para medir y fortalecer el comportamiento de los modelos en estas áreas y en otras en el futuro. Debido a que las herramientas evolucionan a lo largo del tiempo, es posible que las mediciones futuras no puedan compararse con las pasadas en forma directa, pero estas seguirán siendo un medio importante para hacer un seguimiento de nuestra dirección y nuestro progreso.

Puedes leer más sobre este trabajo en un anexo⁠ de la tarjeta del sistema de GPT‑5.

2025

Autor

OpenAI

Notas al pie

1
Nos enfrentamos a una compensación entre la precisión (con qué frecuencia las conversaciones marcadas por nuestro sistema son realmente inseguras) y la exhaustividad o cobertura (la proporción de conversaciones inseguras que nuestro sistema detecta). Para que la cobertura sea útil, debemos tolerar algunos falsos positivos. Es parecido a las pruebas para detectar afecciones poco frecuentes: si una enfermedad afecta a una persona de 10 000, es posible que hasta una prueba de alta precisión marque a más personas sanas que a las enfermas, a pesar de todo
2
Todos estos cambios se refieren a la versión de GPT-5 lanzada el 15 de agosto⁠(se abre en una nueva ventana).
3
Nótese que algunos usuarios y mensajes muestran indicios de tener más de un tipo de riesgo –por ejemplo, la combinación del riesgo de autolesión con el de dependencia emocional– por lo que hay algo de superposición a través de las categorías sobre las que se informa aquí y más abajo.

Sigue leyendo

Ver todos

GPT-Red: Unlocking Self-Improvement for Robustness

Seguridad15 jul 2026

Programa de recompensas por la detección de errores de bioseguridad de GPT-5.5

Seguridad9 jul 2026

Impulsar la seguridad y las oportunidades para jóvenes mediante el liderazgo global

Asuntos Internacionales2 jun 2026