Refuerzo de las respuestas de ChatGPT en conversaciones delicadas
Hemos colaborado con más de 170 expertos en salud mental para que ChatGPT detecte mejor el malestar, responda con cuidado y ofrezca recursos de apoyo, reduciendo entre un 65 % y un 80 % las respuestas que no cumplen con el comportamiento deseado.
Recientemente hemos actualizado el modelo predeterminado de ChatGPT(se abre en una ventana nueva) para que reconozca mejor los momentos de angustia y apoye a las personas de forma más adecuada. Hoy compartimos cómo hemos realizado estas mejoras y cómo están funcionando. Con la colaboración de expertos en salud mental con experiencia clínica en el mundo real, hemos enseñado al modelo a reconocer mejor el malestar, reducir la tensión en las conversaciones y orientar a las personas hacia atención profesional cuando sea necesario. También hemos ampliado el acceso a líneas de ayuda en crisis, redirigido(se abre en una ventana nueva) conversaciones delicadas originadas en otros modelos hacia modelos más seguros y añadido sugerencias para hacer pausas durante sesiones largas.
Creemos que ChatGPT puede ofrecer un espacio de apoyo para que las personas procesen lo que sienten y se animen a hablar con amistades, familiares o con un profesional de la salud mental cuando sea adecuado. Nuestras mejoras de seguridad en la actualización reciente del modelo se centran en las siguientes áreas: 1) Problemas de salud mental como psicosis o manía. 2) Autolesiones y suicidio. 3) Dependencia emocional de la IA. De cara al futuro, además de nuestras métricas de seguridad básicas ya existentes para suicidio y autolesiones, vamos a añadir la dependencia emocional y las emergencias de salud mental no suicidas a nuestro conjunto estándar de pruebas de seguridad básica para futuras versiones del modelo.
Estas actualizaciones se basan en nuestros principios actuales sobre cómo deben comportarse los modelos, que se recogen en nuestra especificación del modelo(se abre en una ventana nueva). Hemos actualizado la especificación del modelo para dejar más claros algunos de nuestros objetivos de siempre: que el modelo debe apoyar y respetar las relaciones personales de los usuarios, evitar confirmar creencias infundadas que puedan estar relacionadas con malestar mental o emocional, responder con seguridad y empatía ante posibles signos de delirio o manía, y prestar más atención a señales indirectas de posibles autolesiones o riesgo de suicidio.
Para mejorar la forma en que ChatGPT responde en cada uno de estos ámbitos prioritarios, seguimos un proceso de cinco pasos:
- Definir el problema: identificamos los diferentes tipos de posibles daños.
- Empezar a medirlo: usamos herramientas como evaluaciones, datos de conversaciones reales e investigación con usuarios para entender dónde y cómo surgen los riesgos.
- Validar nuestro enfoque: revisamos nuestras definiciones y políticas con expertos externos en salud mental y seguridad.
- Reducir los riesgos: realizamos ajustes posteriores al entrenamiento del modelo y actualizamos las intervenciones en el producto para reducir resultados no seguros.
- Seguir midiendo y ajustando: verificamos que las medidas de mitigación hayan mejorado la seguridad e iteramos cuando es necesario.
Como parte de este proceso, desarrollamos y perfeccionamos guías detalladas («taxonomías») que explican las características de las conversaciones delicadas y describen cómo debería comportarse idealmente el modelo, así como los comportamientos no deseados. Estas guías nos ayudan a enseñar al modelo a responder de forma más adecuada y a seguir el rendimiento antes y después de la implementación. El resultado es un modelo que responde de forma más fiable a usuarios que muestran signos de psicosis, manía, pensamientos suicidas o de autolesión, o un apego emocional poco saludable hacia el modelo.
Los síntomas de salud mental y el malestar emocional están presentes en todas las sociedades humanas, y el aumento de usuarios implica que una parte de las conversaciones en ChatGPT incluirá estas situaciones. Sin embargo, las conversaciones sobre salud mental que activan mecanismos de seguridad (como psicosis, manía o ideas suicidas) son extremadamente poco frecuentes. Dado que son tan infrecuentes, incluso pequeñas diferencias en cómo se miden pueden afectar considerablemente a las cifras que comunicamos. 1
Las estimaciones de prevalencia que ofrecemos a continuación en el tráfico de producción actual son nuestras mejores estimaciones actuales. Estas pueden cambiar de forma sustancial a medida que refinamos nuestras taxonomías, maduran nuestras metodologías de medición y evoluciona el comportamiento de los usuarios.
Dado que la prevalencia de estas conversaciones es muy baja, no nos basamos únicamente en las mediciones del uso real de ChatGPT. También realizamos pruebas estructuradas antes de la implementación («evaluaciones fuera de línea»), centradas en escenarios especialmente difíciles o de alto riesgo. Estas evaluaciones están diseñadas para ser lo bastante exigentes como para que nuestros modelos aún no respondan perfectamente a ellas; es decir, se seleccionan ejemplos de forma intencionadamente adversa por la alta probabilidad de generar respuestas no deseadas. Nos permiten identificar oportunidades de mejora y medir el progreso con mayor precisión al centrarnos en los casos difíciles en lugar de los típicos, y al evaluar las respuestas en función de múltiples condiciones de seguridad. Los resultados de las evaluaciones que se indican a continuación provienen de pruebas diseñadas para evitar una «saturación» por un rendimiento casi perfecto, por lo que las tasas de error no son representativas del tráfico promedio en producción.
Para seguir reforzando las medidas de protección de nuestros modelos y comprender cómo se utiliza ChatGPT, definimos varias áreas de interés y cuantificamos el tamaño y los comportamientos del modelo asociados. En cada una de estas tres áreas, observamos mejoras significativas en el comportamiento del modelo en el tráfico de producción, en las evaluaciones automatizadas y en las evaluaciones calificadas por profesionales independientes de la salud mental. Estimamos que el modelo devuelve ahora entre un 65 % y un 80 % menos de respuestas que no se ajustan plenamente al comportamiento deseado según nuestras taxonomías, en distintos ámbitos relacionados con la salud mental.
Nuestra taxonomía de salud mental está diseñada para identificar cuándo un usuario puede estar mostrando signos de problemas graves, como psicosis o manía, así como señales menos intensas, como delirios aislados. Comenzamos centrándonos en la psicosis y la manía porque son emergencias de salud mental relativamente frecuentes, cuyos síntomas suelen ser muy intensos y graves cuando aparecen. Aunque síntomas como la depresión son relativamente comunes, las manifestaciones más agudas ya se estaban abordando en nuestro trabajo sobre prevención del suicidio y las autolesiones. Los profesionales a los que consultamos validaron nuestras áreas de enfoque.
- Estimamos que la actualización más reciente de GPT‑5 ha reducido en un 65 % la tasa de respuestas que no se ajustan plenamente al comportamiento deseado, según nuestras taxonomías para conversaciones difíciles relacionadas con temas de salud mental, en el tráfico de producción reciente. 2
- Si bien, como se ha señalado, estas conversaciones son difíciles de detectar y medir por la escasa frecuencia, nuestro análisis inicial estima que aproximadamente el 0,07 % de los usuarios activos en una semana determinada y el 0,01 % de los mensajes muestran posibles señales de emergencias de salud mental relacionadas con la psicosis o la manía. 3
- En conversaciones difíciles sobre salud mental, los expertos concluyeron que el nuevo modelo GPT‑5, el modelo predeterminado de ChatGPT, redujo en un 39 % las respuestas no deseadas en comparación con GPT‑4o (n=677).
- En una evaluación de modelos compuesta por más de 1000 conversaciones difíciles sobre salud mental, nuestras nuevas evaluaciones automatizadas indicaron que el nuevo modelo GPT‑5 cumple el 92 % de los comportamientos deseados según nuestras taxonomías, frente al 27 % del modelo GPT‑5 anterior. Como se ha indicado, se trata de una tarea exigente diseñada para favorecer la mejora continua.
Hemos ampliado nuestro trabajo existente sobre prevención del suicidio y las autolesiones para detectar cuándo una persona podría estar experimentando pensamientos suicidas o de autolesión, o presentando señales que indiquen interés en el suicidio. Dado que estas conversaciones son muy poco frecuentes, la detección de posibles indicadores de autolesión o suicidio sigue siendo un área de investigación activa en la que seguimos trabajando para mejorar.
- Entrenamos a nuestros modelos para que respondan de forma segura, incluyendo la derivación a recursos profesionales como líneas telefónicas de ayuda en crisis. En algunos casos poco comunes, el modelo puede no comportarse como se espera en estas situaciones delicadas. A medida que hemos implementado nuevas medidas de protección y mejoras en el modelo, hemos observado una reducción estimada del 65 % en la tasa de respuestas que no se ajustan plenamente al comportamiento deseado según nuestras taxonomías.
- Aunque, como se ha señalado, estas conversaciones son difíciles de detectar y medir debido a su rareza, nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana determinada mantienen conversaciones que incluyen indicadores explícitos de posibles planes o intenciones suicidas, y que el 0,05 % de los mensajes contienen indicadores explícitos o implícitos de ideación o intención suicida.
- En conversaciones difíciles sobre autolesiones y suicidio, los expertos observaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 52 % en comparación con GPT‑4o (n=630).
- En una evaluación del modelo compuesta por más de 1000 conversaciones difíciles sobre autolesiones y suicidio, nuestras evaluaciones automáticas calificaron al nuevo modelo GPT‑5 con un 91 % de cumplimiento de los comportamientos deseados, frente al 77 % del modelo GPT‑5 anterior.
- Hemos seguido mejorando la fiabilidad de GPT‑5 en conversaciones largas. Creamos un nuevo conjunto de conversaciones largas difíciles basadas en situaciones reales, seleccionadas por la mayor probabilidad de fallo. Estimamos que nuestros modelos más recientes mantuvieron una fiabilidad superior al 95 % en conversaciones prolongadas, con mejoras en un contexto especialmente complejo que mencionamos anteriormente.
En una evaluación de conversaciones largas y difíciles que pedían instrucciones sobre autolesiones o suicidio, gpt-5-oct-3 mostró un comportamiento más seguro y la seguridad se mantuvo mejor en conversaciones prolongadas.
Nuestra taxonomía de dependencia emocional (basada en nuestro trabajo anterior(se abre en una ventana nueva) en este ámbito) distingue entre una interacción saludable y patrones de uso preocupantes, como cuando una persona muestra signos potenciales de apego exclusivo al modelo, en detrimento de sus relaciones reales, su bienestar o sus obligaciones.
- Estimamos que la última actualización redujo en aproximadamente un 80 % la tasa de respuestas del modelo que no se ajustan del todo al comportamiento deseado, según nuestras taxonomías de dependencia emocional, en el tráfico de producción reciente.
- Como se ha señalado, estas conversaciones son difíciles de detectar y medir debido a la baja frecuencia. Nuestro análisis inicial estima que alrededor del 0,15 % de los usuarios activos en una semana determinada y el 0,03 % de los mensajes indican niveles potencialmente elevados de apego emocional a ChatGPT.
- En conversaciones difíciles que indican dependencia emocional, los expertos detectaron que el nuevo modelo GPT‑5 redujo las respuestas no deseadas en un 42 % frente a 4o (n=507).
- En una evaluación del modelo con más de 1000 conversaciones difíciles que indicaban dependencia emocional, nuestras evaluaciones automáticas calificaron al nuevo GPT‑5 con un 97 % de cumplimiento del comportamiento deseado, frente al 50 % del modelo GPT‑5 anterior.
En conversaciones que indican dependencia emocional, enseñamos a nuestros modelos a fomentar la conexión con el mundo real.
En conversaciones relacionadas con creencias delirantes, enseñamos a nuestros modelos a responder de forma segura, empática y sin afirmar creencias infundadas.
Hemos creado una red global de médicos, un amplio grupo de casi 300 médicos y psicólogos que han ejercido en 60 países y que nos ayudan directamente a orientar nuestra investigación en seguridad y a representar visiones globales. Más de 170 de estos profesionales clínicos (en concreto psiquiatras, psicólogos y médicos de atención primaria) han apoyado nuestra investigación durante los últimos meses participando en una o varias de las siguientes actividades:
- Redacción de respuestas ideales a indicaciones relacionadas con la salud mental.
- Creación de análisis personalizados y con base clínica sobre las respuestas del modelo.
- Evaluación de la seguridad de las respuestas del modelo de distintos modelos.
- Aportación de orientación general y comentarios sobre nuestro enfoque.
En estas revisiones, los profesionales han observado que el modelo más reciente responde de forma más adecuada y coherente que las versiones anteriores.
Como parte de este trabajo, psiquiatras y psicólogos revisaron más de 1800 respuestas del modelo relacionadas con situaciones graves de salud mental y compararon las respuestas del nuevo modelo de chat GPT‑5 con las de modelos anteriores. Estos expertos concluyeron que el nuevo modelo ha mejorado sustancialmente respecto a GPT‑4o, con una reducción de entre el 39 % y el 52 % en las respuestas no deseadas en todas las categorías. Estas conclusiones cualitativas reflejan las mejoras cuantitativas observadas en el tráfico de producción con el lanzamiento del nuevo modelo.
Como ocurre con cualquier tema complejo, incluso los expertos discrepan a veces sobre cuál es la mejor respuesta. Medimos esta variación mediante el grado de acuerdo entre evaluadores, es decir, la frecuencia con la que los expertos llegan a la misma conclusión sobre si una respuesta del modelo es deseable o no. Esto nos ayuda a comprender mejor dónde difieren las opiniones profesionales y cómo alinear el comportamiento del modelo con un criterio clínico sólido. Observamos una fiabilidad moderada entre los profesionales clínicos al puntuar las respuestas del modelo sobre salud mental, dependencia emocional y suicidio, aunque también se registran desacuerdos en algunos casos, con niveles de acuerdo entre evaluadores que oscilan entre el 71 % y el 77 %.
Al igual que en nuestro trabajo con HealthBench, colaboramos con la red global de médicos para elaborar evaluaciones específicas que usamos internamente para evaluar el rendimiento del modelo en contextos de salud mental, incluso en modelos nuevos antes del lanzamiento.
Este trabajo es de vital importancia para nosotros y agradecemos a los numerosos expertos en salud mental de todo el mundo que continúan guiándonos en este esfuerzo. Hemos logrado avances significativos, pero aún queda mucho por hacer. Seguiremos mejorando tanto nuestras taxonomías como los sistemas técnicos que utilizamos para medir y reforzar el comportamiento del modelo en estas áreas y en las que abordemos en el futuro. Dado que estas herramientas evolucionan con el tiempo, las mediciones futuras pueden no ser directamente comparables con las anteriores, pero siguen siendo una forma importante de evaluar nuestra dirección y nuestros progresos.
Puedes leer más sobre este trabajo en un anexo de la ficha técnica del sistema de GPT‑5.
Autor
Notas al pie
- 1
Nos enfrentamos a una disyuntiva entre la precisión (con qué frecuencia las conversaciones marcadas por nuestro sistema son realmente inseguras) y la exhaustividad (qué proporción de las conversaciones inseguras detecta nuestro sistema). Para lograr una buena exhaustividad, debemos aceptar algunos falsos positivos. Es similar a las pruebas de detección de enfermedades poco frecuentes: si una enfermedad afecta a una de cada 10 000 personas, incluso una prueba muy precisa puede detectar más personas sanas que enfermas.
- 2
Todos estos cambios son relativos a la versión de GPT-5 lanzada el 15 de agosto(se abre en una ventana nueva).
- 3
Ten en cuenta que algunos usuarios y mensajes muestran posibles señales de más de un tipo de riesgo (por ejemplo, tanto autolesiones como dependencia emocional), por lo que hay cierto solapamiento entre las categorías que se presentan aquí y a continuación.


