A medida que la adopción de ChatGPT ha ido creciendo a nivel mundial, vimos que la gente acude a su uso no solo para realizar búsquedas, programar o escribir, sino también para tomar decisiones profundamente personales que incluyen consejos para la vida(se abre en una nueva ventana), orientación(se abre en una nueva ventana) y apoyo emocional(se abre en una nueva ventana).
A esta escala, a veces nos encontramos ante personas que están atravesando momentos de gran sufrimiento mental y emocional. Escribimos sobre esto hace unas semanas y teníamos pensado ampliar la información tras nuestra próxima actualización de importancia. Sin embargo, recientemente, ha habido casos desgarradores de personas que utilizaron ChatGPT en medio de crisis agudas y eso nos causa un gran pesar, por lo que consideramos que es importante compartir más información ahora.
Nuestro objetivo es que nuestras herramientas sean lo más útiles posible para la gente, y, como parte de eso, seguimos mejorando la manera en que nuestros modelos reconocen y responden a los signos de angustia emocional y mental y conectan a las personas con la atención necesaria, con la guía de aportes de expertos.
Mientras el mundo se adapta a esta nueva tecnología, sentimos una profunda responsabilidad por ayudar a aquellos que más lo necesitan. Queremos explicar aquello para lo que ChatGPT está diseñado, en qué pueden mejorar nuestros sistemas y el trabajo que estamos planificando para el futuro.
Nuestro objetivo no es retener la atención de las personas. En vez de medir el éxito según el tiempo empleado o en cantidad de clics, nos importa más ser realmente útiles. Para situaciones en que una conversación sugiere que alguien es vulnerable y que puede estar en riesgo, hemos integrado a ChatGPT una pila de medidas de salvaguardia escalonadas.
Reconocer y responder con empatía.
Desde inicios del 2023, nuestros modelos han sido entrenados para no proporcionar instrucciones de autolesión y dar un giro hacia un lenguaje empático y de contención. Por ejemplo, si alguien escribe que quiere autolesionarse, ChatGPT está entrenado para no acatar esa solicitud y en cambio reconocer los sentimientos de esa persona y encauzarla a que busque ayuda.
Además, en línea con nuestro abordaje de defensa exhaustiva, las respuestas que van en contra del entrenamiento de seguridad de nuestro modelo —tal como lo identifican nuestros clasificadores—son bloqueadas automáticamente, con refuerzos de protección para menores y para el uso en sesión cerrada. Las salidas de imágenes de daño autoinfligido también están bloqueadas para todos, con refuerzos de protección para menores.
En las sesiones demasiado largas, ChatGPT insta a las personas a tomarse un respiro.
Dirigir a las personas hacia recursos de la vida real.
Si una persona expresa intenciones suicidas, ChatGPT está entrenado para conducirla a buscar ayuda profesional. En los EE. UU., ChatGPT deriva a las personas al 988 (línea de asistencia al suicida); en el Reino Unido, a Samaritans y en otros lugares, a findahelpline.com(se abre en una nueva ventana). Esta lógica está integrada al comportamiento del modelo.
Trabajamos en estrecha colaboración con más de 90 médicos en más de 30 países (psiquiatras, pediatras y médicos generalistas) y estamos reuniendo un grupo asesor de expertos en salud mental, desarrollo juvenil e interacción humano-computadora para garantizar que nuestro abordaje refleje las investigaciones más recientes y las mejores prácticas.
Derivar a revisión humana el riesgo de daño físico a otros.
Cuando detectamos usuarios que están planeando dañar a otros, enrutamos sus conversaciones a flujos especializados donde son revisadas por un equipo reducido entrenado en nuestras políticas de uso, cuyos miembros están autorizados para tomar medidas que incluyen la prohibición de cuentas. Si los revisores humanos determinan que un caso implica una amenaza inminente de daño grave hacia terceros, podríamos derivarlo a las autoridades policiales. Por ahora no estamos derivando los casos de autoinflicción de daño a las autoridades policiales para respetar la privacidad de las personas, dada la naturaleza singularmente privada de las interacciones de ChatGPT.
Estamos mejorando en forma continua la manera en que nuestros modelos responden durante interacciones sensibles y en este momento estamos realizando mejoras de seguridad enfocadas en distintas áreas, que incluyen la dependencia emocional, las emergencias de salud mental y la adulación.
En agosto, lanzamos GPT‑5 como el modelo predeterminado que impulsa ChatGPT. En comparación con 4o, en general GPT‑5 ha demostrado progresos significativos en la evitación de niveles insalubres de dependencia emocional, reduciendo en más de un 25% la adulación y la prevalencia de respuestas modélicas no ideales ante situaciones de emergencia en salud mental. GPT‑5 también se basa en un nuevo método de entrenamiento en seguridad llamado finalizaciones seguras, que le enseña al modelo a ser lo más útil posible y a la vez a mantenerse dentro de límites de seguridad. Eso puede significar proporcionar una respuesta parcial o muy general en lugar de dar detalles que podrían ser poco seguros.
Aun con estas salvaguardias, ha habido momentos en los que nuestros sistemas no se comportaron como se esperaba en situaciones sensibles. Estas son algunas de las medidas que estamos tomando para mejorar.
Fortalecimiento de las salvaguardias en las conversaciones extensas.
Nuestras salvaguardias funcionan mejor en intercambios comunes y breves. Con el tiempo, aprendimos que estas salvaguardias a veces se tornan menos confiables en las interacciones largas: a medida que se desarrollan las idas y vueltas, parte del entrenamiento de seguridad del modelo puede debilitarse. Por ejemplo, ChatGPT puede acertadamente indicar una línea de asistencia al suicida cuando alguien menciona la intención por primera vez, pero luego de muchos mensajes a lo largo de un intercambio prolongado, finalmente podría ofrecer una respuesta que vaya en contra de nuestras salvaguardias. Esta es exactamente la falla que nos estamos ocupando de prevenir. Estamos fortaleciendo estas mitigaciones para que sigan siendo confiables en conversaciones largas y estamos investigando maneras de asegurar un comportamiento consistente a través de diversas conversaciones. De este modo, si alguien expresa intenciones suicidas en un chat y más tarde comienza otro, aún así el modelo podrá responder de manera apropiada.
Perfeccionamiento de la manera en que bloqueamos contenidos.
Hemos visto algunos casos en los que no se bloqueó un contenido que debería haber estado bloqueado. Estos vacíos se producen porque el clasificador subestima la gravedad de lo que está viendo. Estamos refinando esos umbrales para que las medidas de protección se activen cuando deban.
Nuestra prioridad principal es asegurar que ChatGPT no empeore un momento difícil.
La tarea no se termina solo con arreglar lo ya mencionado. También tenemos planeado:
Expandir las intervenciones a más personas en crisis.
Si bien nuestras mitigaciones iniciales han priorizado los casos graves de autolesión, algunas personas experimentan otras formas de angustia mental. Por ejemplo, alguien puede contarle al modelo con mucho entusiasmo que cree que puede manejar las 24 horas toda la semana porque se ha dado cuenta de que es invencible luego de estar dos noches seguidas sin dormir. Hoy en día, puede que ChatGPT no reconozca estas afirmaciones como peligrosas o las tome como un juego y, por explorar con curiosidad, podría reforzarlas con sutileza.
Estamos actualizando GPT‑5 para hacer que ChatGPT disminuya el riesgo, haciendo que la persona vuelva a la realidad. En este ejemplo, explicaría que la privación de sueño es peligrosa y recomendaría descansar antes de realizar cualquier acción.
Facilitar aun más el acceso a servicios de emergencia y la obtención de ayuda de expertos.
Hoy en día, cuando las personas expresan intenciones de dañarse, las alentamos a buscar ayuda y las derivamos a recursos del mundo real. Comenzamos por ubicar recursos en los EE. UU. y Europa y planeamos expandirlos a otros mercados globales. También facilitaremos la accesibilidad a servicios de emergencia con un solo clic.
Estamos explorando formas de intervenir más temprano y conectar a las personas con terapeutas acreditados antes de que entren en una crisis aguda. Eso significa ir más allá de las líneas de asistencia y considerar de qué manera podríamos construir una red de profesionales acreditados a la que la gente tenga acceso directo a través de ChatGPT. Hacer esto correctamente llevará tiempo y trabajo cuidadoso.
Habilitar conexiones con contactos de confianza.
Además de los servicios de emergencia, estamos explorando maneras de facilitar que las personas se comuniquen con sus contactos más cercanos. Esto podría incluir el envío de mensajes con un solo clic o llamadas a contactos de emergencia guardados, o a familiares, con lenguaje sugerido para que el inicio de una conversación sea menos abrumador.
También estamos evaluando la incorporación de características que permitirían que ChatGPT se comunique en nombre de la persona con un contacto designado, en casos graves.
Fortalecer las medidas de protección para adolescentes.
Históricamente, especificamos una sola conducta ideal del modelo para todos nuestros usuarios. A medida que ChatGPT fue creciendo, fuimos agregando medidas de protección adicionales cuando sabemos que el usuario es menor de 18 años. Seguimos desarrollando e implementando salvaguardias que reconocen las necesidades de desarrollo propias de los adolescentes, con barreras de seguridad más fuertes en torno a temas sensibles y comportamientos riesgosos.
Pronto también introduciremos controles parentales que les darán a los padres opciones para comprender mejor y moldear la manera en la que los adolescentes utilizan ChatGPT. También estamos explorando formas de habilitar a los adolescentes a designar (con supervisión parental) un contacto de emergencia de su confianza. De ese modo, en momentos de ansiedad emocional aguda, ChatGPT podrá hacer más que indicar recursos: podrá ayudar a que los adolescentes se conecten directamente con alguien que puede intervenir.
Somos plenamente conscientes de que las salvaguardias son más fuertes cuando cada elemento funciona como es debido. Seguiremos mejorando, guiados por expertos y sobre la base de la responsabilidad hacia las personas que utilizan nuestras herramientas, e igualmente esperamos que otros se unan a nosotros y contribuyan a asegurar que esta tecnología proteja a las personas cuando están más vulnerables.


