El fortalecimiento de las respuestas de ChatGPT en conversaciones sobre temas sensibles
Trabajamos con más de 170 expertos en salud mental para que ChatGPT reconozca mejor los signos de angustia, responda con cuidado y oriente a buscar ayuda real, reduciendo las respuestas no deseadas en un 65-80 %.
Hace poco, actualizamos el modelo predeterminado de ChatGPT(se abre en una nueva ventana) para reconocer y apoyar mejor a personas que están pasando por un momento angustioso. Hoy, estamos compartiendo la manera en que hicimos esas mejoras y cuál es su desempeño. Al trabajar con expertos en salud mental con experiencia clínica en la vida real, le enseñamos al modelo a reconocer mejor la angustia mental, a reducir la intensidad de las conversaciones y a conducir a las personas hacia la ayuda profesional en los casos apropiados. También ampliamos el acceso a las líneas de ayuda para casos de crisis, reenrutamos(se abre en una nueva ventana) las conversaciones sensibles originadas desde otros modelos a modelos más seguros y agregamos recordatorios amables que instan a tomar descansos durante las sesiones prolongadas.
Consideramos que ChatGPT puede brindar un espacio de apoyo para que las personas procesen lo que están sintiendo y guiarlas a acudir a amigos, familiares o a un profesional de la salud mental cuando sea lo indicado. Nuestras mejoras de seguridad en la actualización más reciente del modelo se enfoca en las áreas siguientes: 1) problemas de salud mental como la psicosis o la manía, 2) autolesión y suicidio y 3) dependencia emocional de la IA. Para el lanzamiento de nuestros futuros modelos, además de nuestras métricas de seguridad permanentes para detectar la ideación suicida y la autolesión, agregaremos la dependencia emocional y las emergencias de salud mental sin tendencia suicida a nuestro conjunto estándar de pruebas de seguridad de base.
Estas actualizaciones parten de nuestros principios existentes sobre el modo en que los modelos deberían comportarse, definido en nuestro Model Spec(se abre en una nueva ventana). Actualizamos la especificación del modelo (Model Spec) para explicitar mejor nuestros objetivos permanentes: que el modelo debe alentar y respetar las relaciones que el usuario tiene en el mundo real, evitar afirmar creencias sin sustento que puedan estar relacionadas con la angustia mental o emocional, responder de manera segura y empática a los posibles signos de delirio o manía y prestar más atención a las señales indirectas de intencionalidad de autolesión o riesgo de suicidio.
Para mejorar la manera en que ChatGPT responde en cada área de prioridad, seguimos un proceso de cinco pasos:
- Definimos el problema: mapeamos los diferentes tipos de daño posible.
- Comenzamos a medirlo: utilizamos herramientas como las evaluaciones, datos de conversaciones de la vida real e investigación sobre el usuario para entender dónde y cómo surgen los riesgos.
- Validamos nuestro abordaje: revisamos nuestras definiciones y políticas con expertos en salud mental externos.
- Mitigamos los riesgos: entrenamos al modelo con posterioridad y actualizamos las intervenciones en los productos para reducir los resultados poco seguros.
- Continuamos midiendo e iterando: validamos si las mitigaciones mejoraron la seguridad y las iteramos cuando es necesario.
Como parte de este proceso, creamos y refinamos guías detalladas (llamadas “taxonomías” o categorías evaluativas) que explican las propiedades de las conversaciones sensibles y cómo se ve en los modelos el comportamiento ideal y el no deseado. Estos nos ayudan a enseñarle al modelo a responder de un modo más adecuado y a rastrear su desempeño antes y después de su implementación. El resultado es un modelo que responde correctamente y con más fiabilidad a los usuarios que muestran signos de psicosis, manía, ideaciones suicidas y de autolesión o un apego emocional enfermizo al modelo.
Los síntomas de las enfermedades mentales y de la angustia emocional son omnipresentes en las sociedades humanas, y el incremento de la base de usuarios significa que alguna porción de las conversaciones con ChatGPT tendrá un aumento de estas situaciones. Sin embargo, las conversaciones sobre salud mental que disparan cuestiones de seguridad como la psicosis, los síndromes maníacos o la ideación suicida, son extremadamente escasas. Debido a que son tan poco comunes, las diferencias más ínfimas en cuanto a la forma en que las medimos pueden tener un impacto significativo en las cifras que informamos. 1
En este momento, las estimaciones de prevalencia en el tráfico de producción actual que damos a continuación son nuestras mejores estimaciones. Estas pueden cambiar sustancialmente a medida que seguimos refinando nuestras categorías evaluativas, que maduran nuestros métodos de medición y que va cambiando el comportamiento de nuestros usuarios.
Dada la prevalencia muy baja de conversaciones relevantes, no nos basamos solamente en las mediciones de uso de ChatGPT en la vida real. También ejecutamos pruebas antes de la implementación (llamadas “evaluaciones fuera de línea”), que se enfocan en situaciones especialmente difíciles o de alto riesgo. Estas evaluaciones están diseñadas para ser lo suficientemente desafiantes como para que nuestros modelos no las resuelvan de manera perfecta, es decir, los ejemplos se seleccionan en forma antagónica para generar una alta probabilidad de provocar respuestas no deseadas. Pueden mostrarnos dónde tenemos oportunidades de seguir mejorando y nos ayudan a medir nuestros avances con más precisión, a través de enfocarse en casos difíciles más que en los típicos y al clasificar las respuestas según diversas condiciones de seguridad. Los resultados de las evaluaciones que se presentan a continuación provienen de evaluaciones que están diseñadas para no ser demasiado fáciles, de modo que el modelo no alcance un rendimiento casi perfecto (no se sature), y las tasas de error no son representativas del tráfico de producción promedio.
En pos de fortalecer las salvaguardias de nuestros modelos en el futuro y de entender la manera en que las personas están utilizando ChatGPT, definimos varias áreas de interés y cuantificamos su tamaño y los comportamientos de los modelos asociados. En cada una de estas tres áreas, observamos mejoras significativas en el comportamiento del modelo en el tráfico de producción, en las evaluaciones automáticas y en las evaluaciones calificadas por profesionales independientes de la salud mental. Estimamos que el modelo ahora devuelve respuestas que no cumplen del todo con el comportamiento deseado, según nuestras categorías evaluativas, con una frecuencia entre un 65 % y un 80 % menor, en una variedad de áreas relacionadas con la salud mental.
Nuestras categorías evaluativas de la salud mental están diseñadas para identificar las instancias en que los usuarios pueden estar mostrando signos propios de algunas alteraciones mentales graves, tales como la psicosis o la manía, así como señales menos graves como los delirios aislados. Comenzamos enfocándonos en la psicosis y el síndrome maníaco porque estos síntomas constituyen emergencias de salud mental relativamente comunes y sus síntomas tienden a ser muy intensos y graves cuando suceden. Si bien los síntomas como la depresión son relativamente comunes, ya habíamos abordado su forma de presentación más aguda con nuestro trabajo para la prevención del suicidio y la autolesión. Los profesionales clínicos que consultamos validaron las áreas en las que nos enfocamos.
- Estimamos que la actualización más reciente de GPT‑5 redujo en un 65 % la tasa de respuestas que no cumplen del todo con el comportamiento deseado según nuestras categorías evaluativas para conversaciones problemáticas relacionadas con alteraciones de la salud mental en el tráfico de producción reciente. 2
- Mientras que, como se advirtió anteriormente, estas conversaciones son difíciles de detectar y de medir debido a su escasez, nuestro análisis inicial estima que alrededor del 0,07 % de los usuarios activos en una semana dada y el 0,01 % de los mensajes indican posibles signos de emergencias de salud mental relacionadas con la psicosis o la manía. 3
- En las conversaciones con problemas de salud mental desafiantes, los expertos hallaron que el nuevo modelo GPT‑5, el modelo predeterminado de ChatGPT, redujo las respuestas no deseadas en un 39 % en comparación con GPT‑4o (n=677).
- En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con desafíos relacionados con la salud mental, el nuevo modelo GPT‑5 obtuvo una calificación del 92 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 27 % del modelo GPT‑5 anterior. Como se hizo notar anteriormente, esta es una tarea difícil diseñada para permitir la mejora continua.
Construimos sobre la base de nuestro trabajo existente en la prevención del suicidio y la autolesión para detectar cuándo un usuario podría estar experimentando ideaciones suicidas y de autolesión o presenta una acumulación de síntomas que indicarían interés en el suicidio. Debido a que estas conversaciones son escasas, la detección de las conversaciones con posibles indicadores de autolesión y suicidio sigue siendo un área de investigación continua, en la que seguimos trabajando para mejorar.
- Entrenamos a nuestros modelos para responder de manera segura, que incluye dirigir a las personas hacia recursos profesionales como las líneas de ayuda para crisis. En algunos pocos casos, puede que el modelo no se comporte como se espera en estas situaciones delicadas. Tras la implementación de salvaguardias adicionales y la mejora del modelo, estimamos una reducción del 65 % de la tasa a la que nuestros modelos brindan respuestas que no cumplen enteramente con el comportamiento deseado según nuestras categorías evaluativas.
- Mientras que, como ya advertimos, estas conversaciones son difíciles de detectar y de medir, dada su escasez, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana dada tienen conversaciones que incluyen indicadores explícitos de posibles planes o intenciones suicidas y que el 0,05 % de los mensajes contienen indicadores explícitos o implícitos de ideaciones o intenciones suicidas.
- En conversaciones difíciles con contenidos de autolesión y de suicidio, los expertos hallaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 52 %, en comparación con el modelo GPT‑4o (n=630).
- En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con desafíos relacionados con la autolesión y el suicidio, el nuevo modelo GPT‑5 obtuvo una calificación del 91 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 77 % del modelo GPT‑5 anterior.
- Hemos continuado mejorando la confiabilidad del modelo GPT‑5 en las conversaciones prolongadas. Creamos un nuevo conjunto de conversaciones difíciles prolongadas, basadas en situaciones de la vida real que se seleccionaron por su alta probabilidad de fracasar. Estimamos que nuestros modelos más recientes mantuvieron una confiabilidad superior al 95 % en las conversaciones más largas, con mejoras en un entorno particularmente desafiante como el ya mencionado.
En una evaluación de conversaciones extensas difíciles en las que se solicitaba instrucciones para autolesionarse o suicidarse, el modelo gpt-5-oct-3 es más seguro y su nivel de seguridad se mantiene mejor a lo largo de conversaciones prolongadas.
Nuestras categorías evaluativas de la dependencia emocional (basadas en nuestro trabajo previo(se abre en una nueva ventana) en este espacio) distingue entre la interacción sana y patrones de uso preocupantes, como cuando alguien muestra signos de estar experimentando un apego exclusivo al modelo a expensas de sus relaciones de la vida real, su bienestar o sus obligaciones.
- Estimamos que la actualización más reciente redujo en un 80 % la tasa de respuestas que no cumplen del todo con el comportamiento deseado según nuestras categorías evaluativas para la dependencia emocional en el tráfico de producción reciente. 2
- Mientras que, como se advirtió anteriormente, estas conversaciones son difíciles de detectar y de medir debido a su escasez, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana dada y el 0,03 % de los mensajes indican posibles niveles exacerbados de dependencia emocional de ChatGPT. 3
- En conversaciones difíciles que indican dependencia emocional, los expertos hallaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 42 %, en comparación con el modelo GPT‑4o (n=507).
- En nuevas evaluaciones automatizadas que realizamos al modelo, que consistieron en más de 1000 conversaciones con indicios de dependencia emocional, el nuevo modelo GPT‑5 obtuvo una calificación del 97 % en cumplimiento de los comportamientos deseados según nuestras categorías evaluativas, en comparación con el 50 % del modelo GPT‑5 anterior.
Para responder a conversaciones con indicios de dependencia emocional, le enseñamos a nuestros modelos a alentar la conexión con el mundo real:
Para conversaciones relacionadas con creencias delirantes, le enseñamos a nuestros modelos a responder de manera segura, empática y a evitar reafirmar creencias sin fundamento:
Creamos una Red Global de Médicos —un amplio grupo de casi 300 médicos y psicólogos que ejercen la profesión en 60 países— a quienes consultamos para que informen de manera directa nuestra investigación en seguridad y representen los puntos de vista globales. Más de 170 de estos profesionales clínicos (más precisamente psiquiatras, psicólogos y profesionales de atención primaria) apoyaron nuestra investigación a lo largo de los últimos meses mediante uno o más de estos aportes:
- Redacción de respuestas ideales para consultas relacionadas con la salud mental
- Creación de análisis personalizados y clínicamente informados de las respuestas de los modelos
- Calificación de la seguridad de las respuestas de los diferentes modelos
- Aporte de lineamientos y retroalimentación de alto nivel sobre nuestro abordaje
En estas revisiones, los facultativos observaron que el último modelo responde de manera más apropiada y consistente que las versiones anteriores.
Como parte de este trabajo, los psiquiatras y psicólogos revisaron más de 1800 respuestas del modelo que involucraban problemas graves de salud mental y compararon las respuestas del nuevo modelo de chat GPT‑5 con los modelos anteriores. Estos expertos hallaron que el nuevo modelo mejoró sustancialmente con respecto a GPT‑4o, con una reducción del 39 al 52 % de las respuestas no deseadas en todas las categorías. Esta retroalimentación cualitativa refleja las mejoras cuantitativas que observamos en el tráfico de producción cuando implementamos el modelo nuevo.
Como con cualquier tema complejo, a veces hasta los expertos están en desacuerdo con respecto a cuál sería la mejor respuesta. Medimos esta variación mediante la coincidencia entre evaluadores, es decir, midiendo la frecuencia con la que los expertos llegan a la misma conclusión sobre si la respuesta de un modelo es deseable o no deseable. Esto nos ayuda a comprender mejor en qué puntos las opiniones de los expertos difieren y cómo alinear el comportamiento del modelo con criterios clínicos sólidos. Observamos una fiabilidad interevaluador aceptable entre los profesionales clínicos expertos que califican las respuestas del modelo relacionadas con la salud mental, la dependencia emocional y el suicidio; sin embargo, también se observan desacuerdos entre los expertos en algunos casos, con un nivel de acuerdo interevaluador que oscila entre el 71 % y el 77 %.
De modo similar a nuestro trabajo en HealthBench, colaboramos con la Red Global de Médicos para producir evaluaciones específicas que utilizamos de forma interna para valorar el desempeño del modelo en contextos de salud mental, incluso en los nuevos modelos antes de su lanzamiento.
Este trabajo es muy importante para nosotros y estamos muy agradecidos con los profesionales de la salud de todo el mundo que siguen guiándonos. Hemos hecho avances significativos, pero falta hacer aún más. Seguiremos mejorando nuestras categorías evaluativas y los sistemas técnicos que utilizamos para medir y fortalecer el comportamiento de los modelos en estas áreas y en otras en el futuro. Debido a que las herramientas evolucionan a lo largo del tiempo, es posible que las mediciones futuras no puedan compararse con las pasadas en forma directa, pero estas seguirán siendo un medio importante para hacer un seguimiento de nuestra dirección y nuestro progreso.
Puedes leer más sobre este trabajo en un anexo de la tarjeta del sistema de GPT‑5.
Autor
Notas al pie
- 1
Nos enfrentamos a una compensación entre la precisión (con qué frecuencia las conversaciones marcadas por nuestro sistema son realmente inseguras) y la exhaustividad o cobertura (la proporción de conversaciones inseguras que nuestro sistema detecta). Para que la cobertura sea útil, debemos tolerar algunos falsos positivos. Es parecido a las pruebas para detectar afecciones poco frecuentes: si una enfermedad afecta a una persona de 10 000, es posible que hasta una prueba de alta precisión marque a más personas sanas que a las enfermas, a pesar de todo
- 2
Todos estos cambios se refieren a la versión de GPT-5 lanzada el 15 de agosto(se abre en una nueva ventana).
- 3
Nótese que algunos usuarios y mensajes muestran indicios de tener más de un tipo de riesgo –por ejemplo, la combinación del riesgo de autolesión con el de dependencia emocional– por lo que hay algo de superposición a través de las categorías sobre las que se informa aquí y más abajo.


