Ajudar os programadores a criar experiências de IA mais seguras para adolescentes
Apresentamos um conjunto de políticas de segurança para adolescentes sob a forma de prompts para o gpt-oss-safeguard
Hoje, estamos a disponibilizar políticas de segurança(abre numa nova janela) baseadas em prompts para ajudar os programadores a criar proteções adequadas à idade para adolescentes. Concebidas para funcionar com o nosso modelo de segurança com pesos abertos, gpt-oss-safeguard(abre numa nova janela), estas políticas simplificam a forma como os programadores transformam requisitos de segurança em classificadores aplicáveis a sistemas reais.
Lançámos modelos com pesos abertos para democratizar o acesso a uma IA poderosa e apoiar a inovação em larga escala. Ao mesmo tempo, acreditamos que a segurança e a inovação andam de mãos dadas e que os programadores devem ter acesso a modelos capazes, bem como às ferramentas e políticas necessárias para os implementar de forma segura e responsável. Desenvolvemos estas políticas para apoiar os programadores nos seus esforços de segurança destinados a proteger utilizadores jovens, com contributos de organizações externas de confiança, incluindo Common Sense Media(abre numa nova janela) e everyone.ai(abre numa nova janela).
Reconhecemos que adolescentes e adultos têm necessidades diferentes e que os adolescentes precisam de proteções adicionais. Estas políticas foram concebidas para ajudar os programadores a ter em conta essas diferenças e a criar experiências que promovam a autonomia e sejam adequadas para utilizadores mais jovens.
Há muito que estamos empenhados em desenvolver IA que amplie as oportunidades para os jovens, mantendo-os em segurança. Como parte deste trabalho, atualizámos a nossa Especificação do Modelo(abre numa nova janela)— as diretrizes que definem o comportamento pretendido dos modelos da OpenAI — para incluir Princípios para Menores de 18 Anos (U18)(abre numa nova janela) e introduzimos salvaguardas ao nível do produto, como controlos parentais e previsão de idade, para melhor proteger os utilizadores mais jovens. Também apelámos a proteções para toda a indústria através do nosso Roteiro de Segurança para Adolescentes.
O lançamento de hoje assenta nessa base. Estamos a disponibilizar estas políticas de segurança aos programadores para os apoiar na implementação de proteções para adolescentes e, ao mesmo tempo, ajudar a democratizar o acesso em todo o ecossistema dos modelos com pesos abertos.
Embora classificadores de segurança como o gpt-oss-safeguard consigam detetar conteúdo nocivo, dependem de definições claras sobre o que constitui esse conteúdo. Na prática, um dos maiores desafios que os programadores enfrentam é definir políticas que captem com precisão riscos específicos dos adolescentes e possam ser aplicadas de forma consistente em sistemas reais.Mesmo equipas experientes têm frequentemente dificuldade em traduzir objetivos de segurança de alto nível em regras precisas e operacionais, sobretudo porque isso exige tanto conhecimento especializado do domínio como um conhecimento profundo de IA. Isto pode originar lacunas na proteção, aplicação inconsistente ou filtragem excessivamente ampla. Políticas claras e bem delimitadas são uma base essencial para sistemas de segurança eficazes.
Para responder a este desafio, estamos a disponibilizar um conjunto de políticas de segurança(abre numa nova janela), adaptadas aos riscos comuns enfrentados pelos adolescentes e informadas por uma revisão cuidadosa da investigação existente sobre as diferenças específicas do desenvolvimento dos adolescentes. Estas políticas estão estruturadas como prompts que podem ser utilizados diretamente com o gpt-oss-safeguard(abre numa nova janela) e outros modelos de raciocínio, permitindo aos programadores aplicar com mais facilidade normas de segurança consistentes em todos os seus sistemas.
A versão inicial inclui políticas que abrangem:
- Conteúdo violento gráfico
- Conteúdo sexual gráfico
- Ideais corporais e comportamentos nocivos
- Atividades e desafios perigosos
- Roleplay romântico ou violento
- Bens e serviços com restrição etária
Estas políticas podem ser utilizadas para filtrar conteúdo em tempo real, bem como para a análise offline de conteúdo gerado por utilizadores.
Ao estruturar as políticas sob a forma de prompts, os programadores podem integrá-las mais facilmente nos fluxos de trabalho existentes, adaptá-las aos seus casos de utilização e iterar ao longo do tempo.

Trabalhámos com organizações externas, incluindo Common Sense Media(abre numa nova janela) e everyone.ai(abre numa nova janela), para apoiar o desenvolvimento destas políticas. A sua especialização ajudou a definir o âmbito do conteúdo a abranger, a reforçar a estrutura dos prompts e a refinar os casos-limite a considerar na sua avaliação.
Este trabalho reflete um esforço contínuo para colaborar com especialistas e com o ecossistema em geral, de modo a melhorar a forma como os sistemas de IA apoiam os jovens.
«Uma das maiores lacunas na segurança da IA para adolescentes tem sido a falta de políticas claras e operacionais que sirvam de base ao trabalho dos programadores. Muitas vezes, os programadores começam do zero. Estas políticas de segurança baseadas em prompts ajudam a estabelecer um patamar mínimo de segurança sólido em todo o ecossistema e, como são disponibilizadas em código aberto, podem ser adaptadas e melhoradas ao longo do tempo. É encorajador ver este tipo de infraestrutura a ser amplamente disponibilizada, e esperamos que impulsione mais pontos de partida partilhados para a segurança dos jovens em toda a indústria.»
—Robbie Torney, diretor de IA e avaliações digitais, Common Sense Media
«Iniciativas como esta, que tornam as políticas de segurança para adolescentes mais operacionais, são valiosas porque ajudam a traduzir o conhecimento especializado em orientações que podem ser utilizadas em sistemas reais. As políticas de conteúdo são um primeiro passo importante e também abrem a porta a um trabalho mais amplo sobre a forma como o comportamento do modelo pode moldar riscos relevantes para adolescentes ao longo do tempo. Inspirada por este trabalho e pela nossa própria investigação, a everyone.ai(abre numa nova janela) também criou uma política comportamental inicial centrada em riscos como a exclusividade e a dependência excessiva.»
—Dra. Mathilde Cerioli, diretora científica da everyone.AI
As políticas destinam-se a ser um ponto de partida, não uma definição abrangente nem final da segurança dos adolescentes, nem uma garantia dessa segurança. Cada aplicação tem riscos, públicos e contextos próprios, e os programadores estão na melhor posição para compreender os riscos que os seus produtos e integrações de IA podem apresentar. Incentivamos fortemente os programadores a adaptar e alargar estas políticas em função das suas necessidades específicas e a combiná-las com outras salvaguardas, como decisões de design do produto, controlos do utilizador, transparência acessível a adolescentes, sistemas de monitorização e respostas ponderadas e adequadas à idade.
Acreditamos que uma abordagem em várias camadas de defesa em profundidade é essencial para construir sistemas de IA mais seguros. Estas políticas baseiam-se na nossa experiência interna, mas não refletem toda a extensão das políticas ou salvaguardas internas da OpenAI.
Estamos a disponibilizar estas políticas em código aberto através da ROOST Model Community(abre numa nova janela) para incentivar a colaboração e a iteração. Para contribuir, dar feedback ou partilhar políticas adicionais de segurança para adolescentes, visite o repositório GitHub da RMC.(abre numa nova janela)
Os programadores e as organizações podem adaptar estas políticas às suas aplicações específicas, traduzi-las para diferentes línguas e alargá-las para cobrir outras áreas de risco. Ao longo do tempo, esperamos que isto contribua para uma base mais robusta e partilhada para a implementação de políticas de segurança em sistemas de IA.
Para começar a utilizar o gpt-oss-safeguard, descarregue-o do Hugging Face(abre numa nova janela).


