24 maart 2026

Hoe we helpen met het bouwen van veiligere AI voor tieners

Een reeks veiligheidsbeleidsregels voor tieners in de vorm van prompts voor gpt-oss-safeguard

Bezig met laden...

Vandaag brengen we het prompt-gebaseerde veiligheidsbeleid⁠(opent in een nieuw venster) uit om ontwikkelaars te helpen leeftijdsgebonden beschermingsmaatregelen voor tieners te creëren. Ontworpen om te werken met ons open-weight veiligheidsmodel, gpt-oss-safeguard⁠(opent in een nieuw venster), vereenvoudigen deze beleidsregels hoe ontwikkelaars veiligheidsvereisten omzetten in bruikbare classificatoren voor praktijksystemen.

We hebben open-weight modellen uitgebracht om de toegang tot krachtige AI te democratiseren en brede innovatie te ondersteunen. Tegelijkertijd zijn we van mening dat veiligheid en innovatie hand in hand gaan, en dat ontwikkelaars toegang moeten hebben tot geavanceerde modellen, evenals tot de tools en het beleid om deze veilig en verantwoord in te zetten. We hebben deze beleidsregels ontwikkeld om ontwikkelaars te ondersteunen bij hun inspanningen op het gebied van veiligheid om jonge gebruikers te beschermen, met input van vertrouwde externe organisaties, waaronder Common Sense Media⁠(opent in een nieuw venster) en everyone.ai⁠(opent in een nieuw venster).

We erkennen dat tieners en volwassenen verschillende behoeften hebben en dat tieners extra bescherming nodig hebben. Deze beleidsregels zijn bedoeld om ontwikkelaars te helpen rekening te houden met die verschillen en ervaringen te creëren die zowel versterkend als geschikt zijn voor jongere gebruikers.

Voortbouwend op ons bredere werk om jongeren te beschermen

We zetten ons al lange tijd in voor het bouwen van AI die kansen voor jongeren vergroot en hen tegelijkertijd veilig houdt. Als onderdeel van dit werk hebben we onze modelspecificaties⁠(opent in een nieuw venster)bijgewerkt, de richtlijnen die het beoogde gedrag van OpenAI’s modellen bepalen, om principes voor gebruikers onder de 18 jaar (U18)⁠(opent in een nieuw venster) op te nemen, en productmaatregelen geïntroduceerd zoals ouderlijk toezicht⁠ en leeftijdsvoorspelling⁠ om jongere gebruikers beter te beschermen. We hebben ook opgeroepen tot sectorbrede beschermingsmaatregelen via onze Teen Safety Blueprint⁠.

De release van vandaag bouwt voort op die basis. We maken deze veiligheidsbeleidsregels beschikbaar voor ontwikkelaars om hen te ondersteunen bij het implementeren van veiligheidsmaatregelen voor tieners en om de toegang binnen het open-weights-ecosysteem te democratiseren.

Tienerveiligheid vertalen naar duidelijke, bruikbare beleidsregels

Hoewel veiligheidsclassifiers zoals gpt-oss-safeguard schadelijke inhoud kunnen detecteren, zijn ze afhankelijk van duidelijke definities van wat die inhoud is. In de praktijk is een van de grootste uitdagingen voor ontwikkelaars het definiëren van beleid dat de specifieke risico’s voor tieners nauwkeurig in kaart brengt en consistent kan worden toegepast in echte systemen.

Zelfs ervaren teams hebben er vaak moeite mee om veiligheidsdoelen op hoog niveau te vertalen naar concrete, operationele regels, vooral omdat dit zowel vakkennis als grondige AI-kennis vereist. Dit kan leiden tot gebreken in de bescherming, inconsistente handhaving of te brede filtering. Duidelijke, goed afgebakende beleidsregels vormen een essentiële basis voor effectieve veiligheidssystemen.

Hoe we ontwikkelaars helpen de veiligheid van tieners te waarborgen

Om deze uitdaging aan te pakken, brengen we een reeks veiligheidsbeleidsregels⁠(opent in een nieuw venster) uit, afgestemd op veelvoorkomende risico’s waarmee tieners te maken krijgen en gebaseerd op een zorgvuldige beoordeling van bestaand onderzoek naar de unieke ontwikkelingsverschillen van tieners. Deze beleidsregels zijn opgezet als prompts die direct kunnen worden gebruikt met gpt-oss-safeguard⁠(opent in een nieuw venster) en andere redenerende modellen, zodat ontwikkelaars eenvoudiger consistente veiligheidsnormen in hun systemen kunnen toepassen.

De eerste release omvat beleid voor:

Grafisch gewelddadige inhoud
Grafische seksuele inhoud
Schadelijke lichaamsidealen en gedragingen
Gevaarlijke activiteiten en uitdagingen
Romantisch of gewelddadige rollenspellen
Leeftijdsgebonden goederen en diensten

Deze beleidsregels kunnen worden gebruikt voor realtime contentfiltering, evenals voor offline analyse van door gebruikers gegenereerde inhoud.

Door beleid als prompts te structureren, kunnen ontwikkelaars ze eenvoudiger in bestaande workflows integreren, ze aan hun gebruikssituaties aanpassen en ze in de loop van de tijd verbeteren.

Diagram waarin categorieën van veiligheidsbeleid voor tieners en tienergerelateerde inhoud worden weergegeven die worden ingevoerd in een GPT-OSS-safeguardsysteem, dat beleidsbeslissingen oplevert die worden ondersteund door interne redenering.

Ontwikkeld met inbreng van externe experts

We hebben samengewerkt met externe organisaties, waaronder Common Sense Media⁠(opent in een nieuw venster) en everyone.ai⁠(opent in een nieuw venster), om de ontwikkeling van dit beleid te onderbouwen. Hun expertise heeft geholpen de reikwijdte van de te behandelen inhoud vorm te geven, de structuur van de prompts te versterken en de randgevallen te verfijnen, waarmee rekening moet worden gehouden bij de evaluatie ervan.

Dit werk weerspiegelt een voortdurende inspanning om samen te werken met experts en het bredere ecosysteem om te verbeteren hoe AI-systemen jongeren ondersteunen.

"Een van de grootste gebreken in AI-veiligheid voor tieners is het gebrek aan duidelijke, operationele beleidslijnen waar ontwikkelaars op kunnen voortbouwen. Vaak beginnen ontwikkelaars vanaf nul. Deze promptgebaseerde beleidsregels helpen om in het hele ecosysteem een betekenisvolle minimale veiligheidsbasis vast te stellen, en omdat ze als open source beschikbaar worden gesteld, kunnen ze in de loop van de tijd worden aangepast en verbeterd. Het stemt ons positief om te zien dat dit soort infrastructuur breed beschikbaar wordt gemaakt, en we hopen dat dit bijdraagt aan het ontstaan van meer gedeelde uitgangspunten voor de veiligheid van jongeren binnen de sector."

—Robbie Torney, Head of AI & Digital Assessments bij Common Sense Media

"Inspanningen zoals deze, die beleidsregels voor de veiligheid van jongeren meer operationeel toepasbaar maken, zijn waardevol omdat ze helpen deskundigenkennis om te zetten in richtlijnen die in echte systemen kunnen worden gebruikt. Inhoudsbeleid is een belangrijke eerste stap, en het opent ook de deur naar breder werk rond de manier waarop modelgedrag in de loop van de tijd risico’s die relevant zijn voor jongeren kan vormgeven. Geïnspireerd door dit werk en ons eigen onderzoek heeft everyone.ai⁠(opent in een nieuw venster) ook een eerste gedragsbeleid opgesteld dat is gericht op risico’s zoals exclusiviteit en overmatige afhankelijkheid."

—Dr. Mathilde Cerioli, Chief Scientist bij everyone.AI

Een startpunt, geen volledige oplossing

De beleidsmaatregelen zijn bedoeld als uitgangspunt, niet als een volledige of definitieve definitie of garantie van de veiligheid van tieners. Elke toepassing heeft unieke risico's, doelgroepen en contexten, en ontwikkelaars zijn het best in staat om de risico's te begrijpen die hun producten en AI-integraties met zich mee kunnen brengen. We raden ontwikkelaars nadrukkelijk aan dit beleid aan te passen en uit te breiden op basis van hun specifieke behoeften, en het te combineren met andere waarborgen, zoals beslissingen over productontwerp, gebruikersinstellingen, tienervriendelijke transparantie, monitoringssystemen en doordachte, op de leeftijd afgestemde reacties.

Wij geloven dat een gelaagde verdedigingsstrategie in de diepte⁠ essentieel is voor het bouwen van veiligere AI-systemen. Deze beleidsregels zijn gebaseerd op onze interne ervaring, maar vormen geen volledige weergave van OpenAI’s interne beleidsregels of waarborgen.

De weg vooruit

We geven deze beleidsregels als opensource vrij via de ROOST Model Community⁠(opent in een nieuw venster) om samenwerking en iteratie te stimuleren. Ga naar de RMC GitHub-repository.⁠(opent in een nieuw venster)om bij te dragen, feedback te geven of aanvullend beleid voor tienerveiligheid te delen

Ontwikkelaars en organisaties kunnen deze beleidsregels aanpassen aan hun specifieke toepassingen, ze naar verschillende talen vertalen en ze uitbreiden zodat ze aanvullende risicogebieden bestrijken. In de loop van de tijd hopen we dat dit bijdraagt aan een robuustere en gedeelde basis voor het implementeren van veiligheidsbeleid in AI-systemen.

Om aan de slag te gaan met gpt-oss-safeguard, download je het van Hugging Face⁠(opent in een nieuw venster).

Andere interessante artikelen

Alles weergeven

Veiligheid en afstemming bij modellen met lange tijdshorizon

Veiligheid20 jul 2026

Why teens deserve access to safe AI — card image

Waarom tieners toegang verdienen tot veilige AI

Veiligheid16 jul 2026

GPT-Red: zelfverbetering voor robuustheid ontsluiten

Veiligheid15 jul 2026