Ajudem els desenvolupadors a crear experiències d’IA més segures per a adolescents
Presentem un conjunt de polítiques de seguretat per a adolescents en format d’indicacions per a gpt-oss-safeguard
Avui publiquem polítiques de seguretat(s'obre en una finestra nova) basades en indicacions per ajudar els desenvolupadors a crear proteccions adequades a l’edat per a adolescents. Dissenyades per funcionar amb el nostre model de seguretat de pes obert, gpt-oss-safeguard(s'obre en una finestra nova), aquestes polítiques simplifiquen la manera com els desenvolupadors converteixen els requisits de seguretat en classificadors útils per a sistemes del món real.
Vam publicar models de pes obert per democratitzar l’accés a una IA potent i donar suport a una innovació àmplia. Alhora, creiem que la seguretat i la innovació van de la mà, i que els desenvolupadors han de tenir accés tant a models capaços com a les eines i polítiques necessàries per desplegar-los de manera segura i responsable. Hem desenvolupat aquestes polítiques per donar suport als desenvolupadors en els seus esforços de seguretat per protegir els usuaris joves, amb aportacions d’organitzacions externes de confiança com Common Sense Media(s'obre en una finestra nova) i everyone.ai(s'obre en una finestra nova).
Reconeixem que els adolescents i els adults tenen necessitats diferents, i que els adolescents necessiten proteccions addicionals. Aquestes polítiques estan dissenyades per ajudar els desenvolupadors a tenir en compte aquestes diferències i crear experiències que siguin alhora enriquidores i adequades per als usuaris més joves.
Fa temps que estem compromesos a crear IA que ampliï les oportunitats per als joves alhora que els manté segurs. Com a part d’aquest treball, vam actualitzar la nostra especificació del model(s'obre en una finestra nova) —les directrius que defineixen el comportament previst dels models d’OpenAI— per incloure els principis per a menors de 18 anys (U18)(s'obre en una finestra nova), i vam introduir proteccions a nivell de producte com el control parental i la predicció d’edat per protegir millor els usuaris més joves. També hem demanat proteccions a escala de tota la indústria mitjançant el nostre Teen Safety Blueprint.
La publicació d’avui es basa en aquests fonaments. Posem aquestes polítiques de seguretat a disposició dels desenvolupadors per ajudar-los a desplegar proteccions de seguretat per a adolescents i contribuir a democratitzar-ne l’accés a tot l’ecosistema dels pesos oberts.
Tot i que classificadors de seguretat com gpt-oss-safeguard poden detectar contingut perjudicial, depenen de definicions clares del que és aquest contingut. A la pràctica, un dels reptes més grans als quals s’enfronten els desenvolupadors és definir polítiques que capturin amb precisió els riscos específics dels adolescents i que es puguin aplicar de manera coherent en sistemes reals.
Fins i tot els equips amb experiència sovint tenen dificultats per traduir objectius de seguretat d’alt nivell en regles precises i operatives, especialment perquè això requereix tant experiència en la matèria com un coneixement profund de la IA. Això pot provocar buits de protecció, aplicació inconsistent o filtratge excessivament ampli. Les polítiques clares i ben delimitades són una base essencial per a sistemes de seguretat eficaços.
Per abordar aquest repte, publiquem un conjunt de polítiques de seguretat(s'obre en una finestra nova), adaptades als riscos habituals als quals s’enfronten els adolescents i informades per una revisió acurada de la recerca existent sobre les diferències evolutives úniques dels adolescents. Aquestes polítiques s’estructuren com a indicacions que es poden utilitzar directament amb gpt-oss-safeguard(s'obre en una finestra nova) i altres models de raonament, cosa que permet als desenvolupadors aplicar amb més facilitat estàndards de seguretat coherents a tots els seus sistemes.
La versió inicial inclou polítiques que cobreixen:
- Contingut violent gràfic
- Contingut sexual gràfic
- Ideals i comportaments corporals perjudicials
- Activitats i reptes perillosos
- Joc de rol romàntic o violent
- Béns i serveis amb restricció d’edat
Aquestes polítiques es poden fer servir per al filtratge de contingut en temps real, així com per a l’anàlisi fora de línia del contingut generat pels usuaris.
En estructurar les polítiques com a indicacions, els desenvolupadors les poden integrar més fàcilment en els fluxos de treball existents, adaptar-les als seus casos d’ús i iterar amb el temps.

Hem treballat amb organitzacions externes com Common Sense Media(s'obre en una finestra nova) i everyone.ai(s'obre en una finestra nova) per orientar el desenvolupament d’aquestes polítiques. La seva expertesa va ajudar a definir l’abast del contingut que cal cobrir, reforçar l’estructura de les indicacions i afinar els casos límit que cal tenir en compte a l’hora d’avaluar-les.
Aquest treball reflecteix un esforç continuat per col·laborar amb experts i amb l’ecosistema en general per millorar la manera com els sistemes d’IA donen suport als joves.
«Una de les mancances més grans en la seguretat de la IA per a adolescents ha estat la falta de polítiques clares i operatives a partir de les quals els desenvolupadors puguin construir. Moltes vegades, els desenvolupadors parteixen de zero. Aquestes polítiques basades en indicacions ajuden a establir un llindar de seguretat significatiu a tot l’ecosistema i, com que es publiquen com a codi obert, es poden adaptar i millorar amb el temps. Ens encoratja veure aquest tipus d’infraestructura posada àmpliament a disposició, i esperem que catalitzi més punts de partida compartits sobre la seguretat juvenil a tot el sector.»
—Robbie Torney, responsable d’IA i avaluacions digitals, Common Sense Media
«Els esforços com aquest, que fan més operatives les polítiques de seguretat juvenil, són valuosos perquè ajuden a traduir el coneixement expert en orientacions que es poden utilitzar en sistemes reals. Les polítiques de contingut són un primer pas important i també obren la porta a un treball més ampli sobre com el comportament del model pot configurar amb el temps riscos rellevants per als joves. Inspirada per aquest treball i per la nostra pròpia recerca, everyone.ai(s'obre en una finestra nova) també ha creat una política inicial de comportament centrada en riscos com l’exclusivitat i la dependència excessiva.»
—Dr. Mathilde Cerioli, científica en cap a everyone.AI
Les polítiques estan pensades com un punt de partida, no com una definició o garantia integral o definitiva de la seguretat adolescent. Cada aplicació té riscos, públics i contextos únics, i els desenvolupadors són els més ben situats per entendre els riscos que poden presentar els seus productes i integracions d’IA. Encoratgem fermament els desenvolupadors a adaptar i ampliar aquestes polítiques segons les seves necessitats específiques i a combinar-les amb altres proteccions, com ara decisions de disseny de producte, controls d’usuari, transparència adaptada als adolescents, sistemes de monitoratge i respostes reflexives adequades a l’edat.
Creiem que un enfocament en capes de defensa en profunditat és essencial per crear sistemes d’IA més segurs. Aquestes polítiques es basen en la nostra experiència interna, però no reflecteixen tota l’extensió de les polítiques o proteccions internes d’OpenAI.
Publiquem aquestes polítiques com a codi obert a través de la ROOST Model Community(s'obre en una finestra nova) per fomentar la col·laboració i la iteració. Per contribuir-hi, fer comentaris o compartir polítiques de seguretat addicionals per a adolescents, visiteu el repositori de GitHub de l’RMC.(s'obre en una finestra nova)
Els desenvolupadors i les organitzacions poden adaptar aquestes polítiques a les seves aplicacions específiques, traduir-les a diferents llengües i ampliar-les perquè cobreixin àrees de risc addicionals. Amb el temps, esperem que això contribueixi a una base més robusta i compartida per implementar polítiques de seguretat en sistemes d’IA.
Per començar amb gpt-oss-safeguard, descarregueu-lo de Hugging Face(s'obre en una finestra nova).


