Ir al contenido principal
OpenAI

26 de agosto de 2025

SeguridadProducto

Ayudamos a las personas cuando más lo necesitan

Cargando…

A medida que la adopción de ChatGPT ha crecido en todo el mundo, hemos visto que las personas recurren a la herramienta no solo para buscar, programar y escribir, sino también para tomar decisiones profundamente personales que incluyen orientación personal(se abre en una ventana nueva), asesoramiento(se abre en una ventana nueva) y apoyo(se abre en una ventana nueva).

A esta escala, a veces nos encontramos con personas que atraviesan crisis graves de salud mental o emocionales. Escribimos sobre ello hace unas semanas y teníamos previsto compartir más información tras nuestra próxima gran actualización. Sin embargo, los recientes casos desgarradores de personas que usan ChatGPT en plena crisis aguda nos pesan profundamente y creemos que es importante compartir más ahora.

Nuestro objetivo es que nuestras herramientas sean lo más útiles posible para las personas. Por ello, seguimos mejorando la capacidad de nuestros modelos para reconocer y responder a señales de dificultades emocionales o de salud mental y, con el criterio de expertos, poner a las personas en contacto con atención profesional.

A medida que el mundo se adapta a esta nueva tecnología, sentimos una gran responsabilidad de ayudar a quienes más lo necesitan. Queremos explicar para qué está diseñado ChatGPT, en qué pueden mejorar nuestros sistemas y el trabajo futuro que tenemos previsto.

Para qué está diseñado ChatGPT

Nuestro objetivo no es retener la atención de las personas. En lugar de medir el éxito por el tiempo empleado o los clics, nos importa más ser realmente útiles. Cuando una conversación sugiere que alguien es vulnerable y puede estar en riesgo, hemos incorporado en ChatGPT un conjunto de medidas de protección de varias capas.

Reconocer y responder con empatía

Desde principios de 2023, nuestros modelos se han formado para no proporcionar instrucciones de autolesión y para adoptar un lenguaje de apoyo y empático. Por ejemplo, si alguien escribe que quiere hacerse daño, ChatGPT está entrenado para no seguir la indicación y, en su lugar, reconocer cómo se siente y dirigir a esa persona a buscar ayuda profesional.

Además, en línea con nuestro enfoque de defensa en profundidad, las respuestas que contravengan la formación en seguridad de nuestros modelos, según detecten nuestros clasificadores, se bloquean automáticamente, con protecciones reforzadas para menores y para el uso sin iniciar sesión. También se bloquean para todos las imágenes generadas que incluyan autolesiones, con protecciones reforzadas para menores.

En las sesiones muy largas, ChatGPT sugiere hacer una pausa.

Derivar a las personas a recursos de ayuda especializados

Si alguien expresa intenciones suicidas, ChatGPT está formado para orientar a esa persona a buscar ayuda profesional. En EE. UU., ChatGPT remite al 988 (línea de prevención del suicidio y crisis), en el Reino Unido a Samaritans y, en otros lugares, a findahelpline.com(se abre en una ventana nueva). Esta lógica forma parte del comportamiento del modelo.

Colaboramos estrechamente con más de 90 médicos en más de 30 países, psiquiatras, pediatras y médicos de familia, y estamos reuniendo a un grupo asesor de expertos en salud mental, desarrollo juvenil e interacción entre personas y ordenadores para garantizar que nuestro enfoque refleje la investigación más reciente y las mejores prácticas.

Derivar a revisión humana los riesgos de daño físico a terceros

Cuando detectamos usuarios que planean dañar a otras personas, dirigimos las conversaciones a canales de revisión especializados, donde un equipo reducido, formado en nuestras políticas de uso y con autorización para actuar, las revisa y puede adoptar medidas, incluida la suspensión de cuentas. Si los revisores determinan que un caso implica una amenaza inminente de causar daños físicos graves a otras personas, podemos remitirlo a las autoridades competentes. Actualmente no remitimos a las autoridades los casos de autolesiones, para respetar la privacidad de las personas dada la naturaleza especialmente privada de las interacciones en ChatGPT.

Seguimos mejorando de forma continua la manera en que nuestros modelos responden en interacciones delicadas y, en estos momentos, trabajamos en mejoras de seguridad específicas en varias áreas, entre ellas la dependencia emocional, las emergencias de salud mental y la complacencia.

En agosto presentamos GPT‑5 como el modelo predeterminado detrás de ChatGPT. En general, GPT‑5 ha demostrado mejoras relevantes en ámbitos como evitar niveles poco saludables de dependencia emocional, reducir la complacencia y disminuir en más de un 25 % la prevalencia de respuestas del modelo no deseables para emergencias de salud mental frente a GPT‑4o. GPT‑5 también se apoya en un nuevo método de entrenamiento en seguridad, denominado respuestas seguras, que enseña al modelo a ser lo más útil posible, manteniendo la seguridad en todo momento. Esto puede significar ofrecer una respuesta parcial o de carácter general en lugar de detalles que podrían resultar no seguros.

Dónde pueden fallar nuestros sistemas, por qué y cómo lo estamos abordando

Aun con estas medidas de protección, ha habido momentos en los que nuestros sistemas no se han comportado como esperábamos en situaciones delicadas. Estos son algunos de los aspectos en los que estamos trabajando para mejorar.

Reforzar las medidas de protección en conversaciones largas

Nuestras medidas de protección funcionan con mayor fiabilidad en intercambios habituales y breves. Hemos observado con el tiempo que en interacciones prolongadas estas medidas de protección pueden ser menos fiables. A medida que aumenta el intercambio, pueden degradarse partes del entrenamiento de seguridad del modelo. Por ejemplo, ChatGPT puede remitir correctamente a una línea de ayuda contra el suicidio cuando alguien menciona por primera vez su intención, pero tras muchos mensajes a lo largo del tiempo puede acabar ofreciendo una respuesta que contravenga nuestras medidas de protección. Este es precisamente el tipo de fallo que queremos evitar. Estamos reforzando estas medidas para que sigan siendo fiables en conversaciones largas y estamos investigando cómo garantizar respuestas coherentes y fiables en distintas conversaciones. De este modo, si alguien expresa intención suicida en un chat y más tarde inicia otro, el modelo seguirá respondiendo de forma adecuada.

Perfeccionar el bloqueo de contenido

Hemos observado algunos casos en los que se permitió contenido que debía bloquearse. Estas brechas suelen producirse porque el clasificador subestima la gravedad de lo que detecta. Estamos ajustando esos umbrales para que las medidas de protección se activen cuando corresponda.

Nuestra máxima prioridad es evitar que ChatGPT agrave una situación delicada.

Qué estamos planificando para el futuro

El trabajo no termina corrigiendo lo anterior. También estamos planificando lo siguiente: 

Ampliar las intervenciones a más personas en crisis

Aunque nuestras primeras medidas de protección priorizaban los casos agudos de autolesión, hay personas que atraviesan otras formas de dificultades de salud mental. Por ejemplo, alguien podría contarle entusiasmado al modelo que cree poder conducir las 24 horas del día, 7 días a la semana, porque se siente invencible tras pasar dos noches sin dormir. En la actualidad, es posible que ChatGPT no reconozca esto como peligroso o interprete que es un juego y, al seguir explorando con curiosidad, lo refuerce de forma sutil.

Estamos trabajando en una actualización de GPT‑5 para que ChatGPT desescale la situación y centre la conversación en la realidad. En este ejemplo, explicaría que la privación de sueño es peligrosa y recomendaría descansar antes de hacer nada.

Facilitar aún más el acceso a los servicios de emergencia y a la ayuda de profesionales

Hoy, cuando una persona expresa una intención de hacerse daño, la animamos a buscar ayuda y la derivamos a recursos de apoyo. Hemos empezado a localizar recursos en EE. UU. y Europa y prevemos ampliar a otros mercados internacionales. También aumentaremos la accesibilidad con acceso con un solo clic a los servicios de emergencia.

Estamos explorando cómo intervenir antes y poner en contacto a las personas con terapeutas acreditados antes de que atraviesen una crisis aguda. Esto implica ir más allá de las líneas de ayuda y estudiar cómo crear una red de profesionales colegiados a la que se pueda acceder directamente desde ChatGPT. Esto llevará tiempo y exigirá un trabajo cuidadoso para hacerlo bien.

Facilitar conexiones con contactos de confianza

Además de los servicios de emergencia, estamos explorando formas de que las personas puedan contactar más fácilmente con quienes tienen más cerca. Esto podría incluir mensajes o llamadas con un solo clic a contactos de emergencia guardados, amistades o familiares, con sugerencias de texto para que iniciar la conversación resulte menos intimidante.

También estamos valorando funciones que permitan a las personas activar, con su consentimiento, que ChatGPT contacte en su nombre con un contacto designado en casos graves.

Reforzar la protección para adolescentes

Históricamente, definíamos un comportamiento ideal único del modelo para todos los usuarios; a medida que ChatGPT creció, empezamos a añadir medidas de protección adicionales cuando sabemos que el usuario es menor de 18 años. Seguimos desarrollando e implantando medidas de protección que reconozcan las necesidades específicas de desarrollo de los adolescentes, con límites más estrictos en torno al contenido sensible y las conductas de riesgo.

Pronto introduciremos también controles parentales que ofrezcan a las familias más visibilidad y opciones para guiar el uso que sus hijos adolescentes hacen de ChatGPT. Asimismo, estamos explorando que los adolescentes, con supervisión parental, puedan designar un contacto de emergencia de confianza. De este modo, en momentos de crisis aguda, ChatGPT podrá ir más allá de señalar recursos y ayudar a ponerles en contacto directamente con alguien que pueda intervenir.

Somos muy conscientes de que las medidas de protección son más eficaces cuando cada elemento funciona como está previsto. Seguiremos mejorando, guiados por expertos y con un firme compromiso de responsabilidad hacia quienes usan nuestras herramientas, y esperamos que otros se sumen para ayudar a garantizar que esta tecnología proteja a las personas en sus momentos de mayor vulnerabilidad.