Ajudando desenvolvedores a criar experiências de IA mais seguras para adolescentes
Apresentamos um conjunto de políticas de segurança para adolescentes em formato de prompts para gpt-oss-safeguard
Hoje, estamos lançando políticas de segurança(abre em uma nova janela) baseadas em prompts para ajudar desenvolvedores a criar proteções adequadas à idade para adolescentes. Criadas para funcionar com nosso modelo de segurança de pesos abertos, gpt-oss-safeguard(abre em uma nova janela), essas políticas simplificam como desenvolvedores transformam requisitos de segurança em classificadores aplicáveis a sistemas do mundo real.
Lançamos modelos de pesos abertos para democratizar o acesso a uma IA poderosa e apoiar a inovação em larga escala. Ao mesmo tempo, acreditamos que segurança e inovação caminham juntas, e que desenvolvedores devem ter acesso a modelos capazes, bem como às ferramentas e políticas para implantá-los com segurança e responsabilidade. Desenvolvemos essas políticas para apoiar desenvolvedores em seus esforços de segurança para proteger usuários jovens, com contribuições de organizações externas de confiança, incluindo Common Sense Media(abre em uma nova janela) e everyone.ai(abre em uma nova janela).
Reconhecemos que adolescentes e adultos têm necessidades diferentes, e que adolescentes precisam de proteções adicionais. Essas políticas foram criadas para ajudar desenvolvedores a levar essas diferenças em conta e criar experiências que deem autonomia e sejam adequadas para usuários mais jovens.
Há muito tempo, temos o compromisso de construir IA que amplie oportunidades para jovens, mantendo-os seguros. Como parte desse trabalho, atualizamos a Model Spec(abre em uma nova janela)— as diretrizes que definem o comportamento pretendido dos modelos da OpenAI — para incluir princípios para menores de 18 anos (U18)(abre em uma nova janela) e introduzimos salvaguardas no nível do produto, como controles parentais e estimativa de idade, para proteger melhor usuários mais jovens. Também defendemos proteções para todo o setor por meio do nosso Teen Safety Blueprint.
O lançamento de hoje se baseia nessa fundação. Estamos disponibilizando essas políticas de segurança para apoiar desenvolvedores na implantação de proteções de segurança para adolescentes e ajudar a democratizar o acesso em todo o ecossistema de pesos abertos.
Embora classificadores de segurança como o gpt-oss-safeguard possam detectar conteúdo nocivo, eles dependem de definições claras do que esse conteúdo é. Na prática, um dos maiores desafios que desenvolvedores enfrentam é definir políticas que capturem com precisão riscos específicos para adolescentes e possam ser aplicadas de forma consistente em sistemas reais.
Até equipes experientes muitas vezes têm dificuldade em traduzir objetivos de segurança de alto nível em regras precisas e operacionais, especialmente porque isso exige tanto expertise no tema quanto conhecimento profundo de IA. Isso pode levar a lacunas de proteção, aplicação inconsistente ou filtragem ampla demais. Políticas claras e bem delimitadas são uma base fundamental para sistemas de segurança eficazes.
Para enfrentar esse desafio, estamos lançando um conjunto de políticas de segurança(abre em uma nova janela), adaptadas a riscos comuns enfrentados por adolescentes e embasadas por uma revisão cuidadosa das pesquisas existentes sobre as diferenças de desenvolvimento específicas dos adolescentes. Essas políticas são estruturadas como prompts que podem ser usados diretamente com o gpt-oss-safeguard(abre em uma nova janela) e outros modelos de raciocínio, permitindo que desenvolvedores apliquem com mais facilidade padrões de segurança consistentes em seus sistemas.
A versão inicial inclui políticas que abordam:
- Conteúdo violento gráfico
- Conteúdo sexual gráfico
- Ideais e comportamentos corporais nocivos
- Atividades e desafios perigosos
- Roleplay romântico ou violento
- Produtos e serviços com restrição de idade
Essas políticas podem ser usadas para filtragem de conteúdo em tempo real, assim como para análise offline de conteúdo gerado por usuários.
Ao estruturar políticas como prompts, desenvolvedores podem integrá-las com mais facilidade aos fluxos de trabalho existentes, adaptá-las aos seus casos de uso e iterar ao longo do tempo.

Trabalhamos com organizações externas, incluindo Common Sense Media(abre em uma nova janela) e everyone.ai(abre em uma nova janela), para orientar o desenvolvimento dessas políticas. A expertise dessas organizações ajudou a definir o escopo do conteúdo a ser coberto, fortalecer a estrutura dos prompts e refinar os casos-limite a serem considerados ao avaliá-las.
Este trabalho reflete um esforço contínuo de colaborar com especialistas e com o ecossistema mais amplo para melhorar como sistemas de IA apoiam jovens.
"Uma das maiores lacunas na segurança de IA para adolescentes tem sido a falta de políticas claras e operacionais a partir das quais desenvolvedores possam construir. Muitas vezes, desenvolvedores estão começando do zero. Essas políticas baseadas em prompts ajudam a estabelecer um patamar significativo de segurança em todo o ecossistema e, como são lançadas como código aberto, podem ser adaptadas e aprimoradas ao longo do tempo. Ficamos animados em ver esse tipo de infraestrutura sendo disponibilizada de forma ampla e esperamos que isso catalise mais pontos de partida compartilhados para a segurança de jovens em todo o setor."
—Robbie Torney, Chefe de Avaliações de IA e Digitais, Common Sense Media
"Esforços como este, que tornam políticas de segurança para jovens mais operacionais, são valiosos porque ajudam a traduzir o conhecimento de especialistas em orientações que podem ser usadas em sistemas reais. Políticas de conteúdo são um primeiro passo importante e também abrem caminho para um trabalho mais amplo sobre como o comportamento dos modelos pode moldar riscos relevantes para jovens ao longo do tempo. Inspirada por este trabalho e por nossa própria pesquisa, a everyone.ai(abre em uma nova janela) também criou uma política comportamental inicial focada em riscos como exclusividade e dependência excessiva."
—Dra. Mathilde Cerioli, cientista-chefe na everyone.AI
As políticas têm a intenção de ser um ponto de partida, não uma definição abrangente ou final nem uma garantia de segurança para adolescentes. Cada aplicação tem riscos, públicos e contextos únicos, e desenvolvedores são os mais bem posicionados para entender os riscos que seus produtos e integrações de IA podem apresentar. Incentivamos fortemente desenvolvedores a adaptar e estender essas políticas com base em suas necessidades específicas e combiná-las com outras salvaguardas, como decisões de design do produto, controles do usuário, transparência amigável para adolescentes, sistemas de monitoramento e respostas cuidadosas e adequadas à idade.
Acreditamos que uma abordagem em camadas de defesa em profundidade é essencial para construir sistemas de IA mais seguros. Essas políticas se baseiam em nossa experiência interna, mas não refletem toda a extensão das políticas ou salvaguardas internas da OpenAI.
Estamos lançando essas políticas como código aberto por meio da ROOST Model Community(abre em uma nova janela) para incentivar colaboração e iteração. Para contribuir, enviar feedback ou compartilhar políticas adicionais de segurança para adolescentes, visite o repositório do GitHub da RMC(abre em uma nova janela).
Desenvolvedores e organizações podem adaptar essas políticas às suas aplicações específicas, traduzi-las para diferentes idiomas e estendê-las para cobrir áreas adicionais de risco. Com o tempo, esperamos que isso contribua para uma base mais robusta e compartilhada para implementar políticas de segurança em sistemas de IA.
Para começar com o gpt-oss-safeguard, faça o download no Hugging Face(abre em uma nova janela).


