Ayudar a crear experiencias de IA más seguras para los adolescentes
Presentamos un conjunto de políticas de seguridad para adolescentes formuladas como prompts para GPT‑OSS‑safeguard
Hoy publicamos políticas de seguridad basadas en prompts(se abre en una ventana nueva) para ayudar a los desarrolladores a crear protecciones adecuadas para la edad de los adolescentes. Diseñadas para integrarse con nuestro modelo de seguridad de peso abierto, GPT‑OSS‑safeguard(se abre en una ventana nueva), estas políticas permiten a los desarrolladores convertir los requisitos de seguridad en clasificadores que se pueden aplicar a sistemas reales.
Lanzamos modelos de pesos abiertos para democratizar el acceso a una IA potente y fomentar la innovación. Al mismo tiempo, creemos que la seguridad y la innovación van de la mano: los desarrolladores deben tener acceso a modelos capaces, así como a las herramientas y políticas para implementarlos de forma segura y responsable. Creamos estas políticas para apoyar a los desarrolladores en sus esfuerzos de seguridad para proteger a los usuarios jóvenes, con aportes de organizaciones externas de confianza, que incluyen a Common Sense Media(se abre en una ventana nueva) y everyone.AI(se abre en una ventana nueva).
Reconocemos que los adolescentes y los adultos tienen necesidades diferentes, y que los adolescentes requieren protecciones adicionales. Estas políticas están diseñadas para ayudar a los desarrolladores a considerar esas diferencias y crear experiencias que empoderen a los usuarios más jóvenes y que, al mismo tiempo, sean apropiadas para su edad.
Desde hace tiempo, estamos comprometidos con desarrollar IA que amplíe las oportunidades para los jóvenes y los mantenga seguros. Como parte de este trabajo, hemos actualizado nuestras especificaciones del modelo(se abre en una ventana nueva), que son las directrices que definen el comportamiento previsto de los modelos de OpenAI, para incluir principios para menores de 18 años (U18)(se abre en una ventana nueva) e introducido salvaguardas a nivel de producto, como controles parentales y predicción de edad para proteger mejor a los usuarios más jóvenes. También hemos promovido medidas de protección en toda la industria a través de nuestro Plan de seguridad para adolescentes.
El lanzamiento de hoy se construye sobre esa base. Ponemos estas políticas de seguridad a disposición de los desarrolladores para apoyarlos en la implementación de protecciones para adolescentes y ayudar a democratizar el acceso en todo el ecosistema de pesos abiertos.
Aunque los clasificadores de seguridad como GPT‑OSS‑safeguard pueden detectar contenido perjudicial, dependen de definiciones claras de lo que esto significa. En la práctica, uno de los mayores desafíos que enfrentan los desarrolladores es definir políticas que reflejen con precisión los riesgos específicos para adolescentes y que puedan aplicarse de manera consistente en sistemas reales.
Incluso los equipos con experiencia suelen tener dificultades para traducir objetivos de seguridad de alto nivel en reglas precisas y operativas, especialmente porque requiere tanto conocimiento especializado como un conocimiento profundo de IA. Esto puede dar lugar a brechas en la protección, una aplicación inconsistente o un filtrado demasiado amplio. Las políticas claras y bien definidas son una base fundamental para los sistemas de seguridad eficaces.
Para abordar este desafío, publicamos un conjunto de políticas de seguridad(se abre en una ventana nueva), adaptadas a los riesgos comunes que enfrentan los adolescentes y basadas en un análisis minucioso de las investigaciones existentes sobre las particularidades del desarrollo de los adolescentes. Estas políticas están estructuradas como prompts que se pueden usar directamente con GPT‑OSS‑safeguard(se abre en una ventana nueva) y otros modelos de razonamiento, lo que facilita a los desarrolladores aplicar estándares de seguridad consistentes en todos sus sistemas.
La versión inicial incluye políticas que abarcan:
- Contenido gráfico violento
- Contenido sexual explícito
- Ideales y comportamientos nocivos relacionados con el cuerpo
- Actividades y retos peligrosos
- Juegos de rol románticos o violentos
- Bienes y servicios restringidos por edad
Las políticas se pueden usar tanto para filtrar contenido en tiempo real como para realizar análisis sin conexión del contenido generado por los usuarios.
Al estructurar las políticas como prompts, los desarrolladores pueden integrarlas más fácilmente en los flujos de trabajo existentes, adaptarlas a sus casos de uso y mejorarlas con el tiempo.

Trabajamos con organizaciones externas, como Common Sense Media(se abre en una ventana nueva) y everyone.AI(se abre en una ventana nueva) para fundamentar la elaboración de estas políticas. Su experiencia ayudó a definir el alcance del contenido que debía abarcarse, reforzar la estructura de los prompts y perfeccionar los casos límite que debían tenerse en cuenta al evaluarlos.
Este trabajo refleja un esfuerzo continuo por colaborar con expertos y con el ecosistema en general para mejorar la forma en que los sistemas de IA apoyan a los jóvenes.
«Una de las mayores brechas en la seguridad de la IA para los adolescentes ha sido la falta de políticas claras y operativas a partir de las cuales los desarrolladores puedan trabajar. Muchas veces, los desarrolladores empiezan desde cero. Estas políticas basadas en prompts ayudan a establecer un nivel mínimo de seguridad significativo en todo el ecosistema y, al ser de código abierto, pueden adaptarse y mejorarse con el tiempo. Nos anima ver que este tipo de infraestructura está disponible de manera amplia y esperamos que impulse la creación de bases comunes para la seguridad de los jóvenes en todo el sector».
— Robbie Torney, director de IA y evaluaciones digitales de Common Sense Media
«Iniciativas como esta, que hacen más operativas las políticas de seguridad para los jóvenes, son valiosas porque ayudan a traducir los conocimientos especializados en directrices que pueden utilizarse en sistemas reales. Las políticas de contenido son un primer paso importante y también abren la puerta a un trabajo más amplio sobre cómo el comportamiento del modelo puede influir con el tiempo en los riesgos relevantes para los jóvenes. Inspirados en este trabajo y en nuestra propia investigación, en everyone.AI(se abre en una ventana nueva) también hemos creado una política de comportamiento inicial centrada en riesgos como la exclusividad y la dependencia excesiva».
— Dra. Mathilde Cerioli, directora científica de everyone.AI
Las políticas están concebidas como un punto de partida, no como una definición exhaustiva o definitiva ni como una garantía de la seguridad de los adolescentes. Cada aplicación conlleva riesgos, públicos y contextos únicos, y los desarrolladores son quienes mejor pueden comprender los riesgos que sus productos e integraciones de IA pueden presentar. Recomendamos encarecidamente a los desarrolladores que adapten y amplíen estas políticas en función de sus necesidades específicas y las combinen con otras medidas de protección, como decisiones de diseño del producto, controles para los usuarios, transparencia adaptada a los adolescentes, sistemas de monitorización y respuestas cuidadosas y apropiadas para su edad.
Creemos que un enfoque de defensa en profundidad por capas es esencial para construir sistemas de IA más seguros. Estas políticas se basan en nuestra experiencia interna, pero no reflejan plenamente el alcance de las políticas internas ni las salvaguardas de OpenAI.
Publicamos estas políticas como código abierto a través de ROOST Model Community(se abre en una ventana nueva) para fomentar la colaboración y la iteración. Para contribuir, enviar comentarios o compartir políticas adicionales de seguridad para adolescentes, visita el repositorio de GitHub de RMC.(se abre en una ventana nueva)
Los desarrolladores y las organizaciones pueden adaptar estas políticas a sus aplicaciones específicas, traducirlas a distintos idiomas y ampliarlas para abarcar áreas de riesgo adicionales. Con el tiempo, esperamos que esto contribuya a una base más sólida y compartida para la implementación de políticas de seguridad en los sistemas de IA.
Para empezar a usar GPT‑OSS‑safeguard, descárgalo de Hugging Face(se abre en una ventana nueva).


