Gå direkt till huvudinnehåll
OpenAI

24 mars 2026

Säkerhet

Så skapar man säkrare AI-upplevelser för tonåringar

Här presenterar vi en rad säkerhetspolicyer för tonåringar i form av promptar för gpt-oss-safeguard

Laddar …

Idag lanserar vi promptbaserade säkerhetspolicyer(öppnas i ett nytt fönster) för att hjälpa utvecklare att skapa åldersanpassade skydd för tonåringar. Dessa policyer är byggda för att fungera med vår säkerhetsmodell med öppen vikt, gpt-oss-safeguard(öppnas i ett nytt fönster), och förenklar utvecklarnas arbete med att omvandla säkerhetskrav till klassificerare som kan användas i verkliga system.

Vi lanserade modeller med öppen vikt för att demokratisera tillgången till kraftfull AI och stödja bred innovation. Samtidigt anser vi att säkerhet och innovation går hand i hand och att utvecklare måste ha tillgång till både avancerade modeller och de verktyg och policyer som krävs för att implementera dem på ett säkert och ansvarsfullt sätt. Vi har tagit fram dessa policyer för att stödja utvecklare i deras säkerhetsarbete för att skydda yngre användare, med hjälp av pålitliga externa organisationer som Common Sense Media(öppnas i ett nytt fönster) och everyone.ai(öppnas i ett nytt fönster).

Vi är medvetna om att tonåringar och vuxna har olika behov, och att tonåringar behöver ytterligare skydd. Policyerna är utformade för att hjälpa utvecklare att ta hänsyn till dessa skillnader och skapa upplevelser som både ger användarna inflytande och är anpassade för yngre användare.

Kontinuerligt arbete för att skydda ungdomar

Vi har länge arbetat för att utveckla en AI som ökar möjligheterna för ungdomar, samtidigt som vi värnar om deras säkerhet. Som en del av detta arbete uppdaterade vi våra modellspecifikationer(öppnas i ett nytt fönster) – de riktlinjer som fastställer det förväntade beteendet hos OpenAI:s modeller – för att inkludera principer för personer under 18 år(öppnas i ett nytt fönster), och införde skyddsåtgärder på produktnivå som föräldrainställningar och åldersbedömning för att bättre skydda yngre användare. Vi har också efterlyst branschomfattande skyddsåtgärder genom Teen Safety Blueprint.

Dagens lansering bygger vidare på den grunden. Vi gör dessa säkerhetspolicyer tillgängliga för utvecklare för att hjälpa dem att implementera skyddsåtgärder för tonåringar och bidra till att göra tillgången till det öppna ekosystemet mer tillgänglig för alla.

Omvandla ungdomars säkerhet till tydliga och praktiskt tillämpbara policyer

Även om säkerhetsklassificerare som gpt-oss-safeguard kan upptäcka skadligt innehåll, är de beroende av tydliga definitioner av vad som utgör sådant innehåll. I praktiken är en av de största utmaningarna för utvecklare att utforma riktlinjer som på ett precist sätt identifierar de specifika riskerna för ungdomar och som kan tillämpas på ett konsekvent sätt i verkliga system.

Även erfarna team har ofta svårt att omsätta övergripande säkerhetsmål till konkreta och praktiskt tillämpbara regler, framför allt eftersom detta kräver både specialistkunskaper och djupgående kunskaper om AI. Detta kan leda till luckor i skyddet, en inkonsekvent tillämpning eller en alltför omfattande filtrering. Tydliga och väl definierade policyer är en grundläggande förutsättning för effektiva säkerhetssystem.

Stödja utvecklare i att konkret genomföra säkerhetsåtgärder för tonåringar

För att hantera den här utmaningen publicerar vi en serie säkerhetspolicyer(öppnas i ett nytt fönster) som är utformade för att hantera de vanligaste riskerna som tonåringar utsätts för och som bygger på en noggrann analys av befintlig forskning om de specifika skillnaderna i tonåringars utveckling. Dessa policyer är utformade som prompter som kan användas direkt med gpt-oss-safeguard(öppnas i ett nytt fönster) och andra resonemangsmodeller, vilket gör det enklare för utvecklare att tillämpa enhetliga säkerhetsstandarder i hela sina system.

Den första lanseringen innehåller policyer som omfattar:

  • Grafiskt våldsamt innehåll
  • Grafiskt sexuellt innehåll
  • Skadliga kroppsideal och beteenden
  • Farliga aktiviteter och utmaningar
  • Romantiskt eller våldsamt rollspel
  • Varor och tjänster som omfattas av åldersgränser

Dessa policyer kan användas för innehållsfiltrering i realtid och för offlineanalys av användargenererat innehåll.

Genom att utforma policyerna som promptar kan utvecklare integrera dem enklare i befintliga arbetsflöden, anpassa dem efter sina egna användningsfall och vidareutveckla dem över tid.

Diagram som visar olika kategorier av säkerhetspolicyer för ungdomar och relaterat innehåll, vilka sammanförs i ett GPT-OSS-skyddssystem som fattar policybeslut baserade på interna resonemang.

Utvecklad med input från externa experter

Vi samarbetade med externa organisationer, inklusive Common Sense Media(öppnas i ett nytt fönster) och everyone.ai(öppnas i ett nytt fönster), för att styra utformningen av dessa riktlinjer. Deras expertis har bidragit till att fastställa vilka ämnen som ska behandlas, stärka uppbyggnaden av promptarna och precisera de gränsfall som ska beaktas vid bedömningen. 

Detta arbete speglar ett kontinuerligt engagemang för att samarbeta med experter och det bredare ekosystemet i syfte att förbättra hur AI-system stöder ungdomar.

”En av de största bristerna när det gäller säkerheten kring AI för tonåringar är avsaknaden av tydliga och praktiskt tillämpbara policyer som utvecklare kan utgå ifrån. Många gånger börjar utvecklare från grunden. Dessa policyer, som bygger på promptar, bidrar till att fastställa en meningsfull miniminivå för säkerheten i ekosystemet, och eftersom de släpps som öppen källkod kan de anpassas och förbättras över tid. Vi ser det som ett positivt tecken att denna typ av infrastruktur görs allmänt tillgänglig och hoppas att den ska bidra till att skapa gemensamma riktlinjer för ungdomars säkerhet inom hela branschen.”

Robbie Torney, chef för AI och digitala bedömningar, Common Sense Media

”Insatser som denna, som gör säkerhetspolicyer för ungdomar mer praktiskt tillämpliga, är värdefulla eftersom de bidrar till att omsätta specialistkunskap till riktlinjer som kan användas i verkliga system. Innehållspolicyer är ett viktigt första steg och banar även väg för ett bredare arbete kring hur modellbeteendet kan påverka de risker som är relevanta för ungdomar över tid. Inspirerad av detta arbete och vår forskning har everyone.ai(öppnas i ett nytt fönster) dessutom skapat en inledande beteendepolicy som fokuserar på risker som exkludering och överdriven beroende.”

Dr. Mathilde Cerioli, chefsforskare på everyone.ai

En utgångspunkt, inte en färdig lösning

Policyerna är avsedda att fungera som en utgångspunkt, inte som en fullständig eller slutgiltig definition eller garanti för ungdomars säkerhet. Varje applikation har sina egna risker, målgrupper och sammanhang, och utvecklare är de som bäst kan förstå vilka risker deras produkter och AI-integrationer kan medföra. Vi uppmanar starkt utvecklare att anpassa och utvidga dessa policyer efter sina specifika behov och att kombinera dem med andra skyddsåtgärder, som produktdesignbeslut, användarkontroller, tonårsanpassad transparens, övervakningssystem samt genomtänkta och åldersanpassade åtgärder. 

Vi anser att ett djupgående försvar⁠ i flera nivåer är avgörande för att skapa säkrare AI-system. Dessa policyer baseras på vår interna erfarenhet, men återspeglar inte fullt ut OpenAI:s samlade interna policyer eller skyddsåtgärder.

Vägen framåt

Vi lanserar dessa policyer som öppen källkod via ROOST Modell Community(öppnas i ett nytt fönster) för att uppmuntra samarbete och vidareutveckling. Om du vill bidra, ge feedback eller dela ytterligare policyer för tonårssäkerhet kan du besöka RMC:s GitHub-förvar.(öppnas i ett nytt fönster)

Utvecklare och organisationer kan anpassa dessa policyer till sina specifika applikationer, översätta dem till olika språk och utöka dem så att de täcker ytterligare riskområden. Vi hoppas att detta på sikt kommer att bidra till en mer solid och gemensam grund för genomförandet av säkerhetspolicyer i AI-system.

För att komma igång med gpt-oss-safeguard kan du ladda ner det från Hugging Face(öppnas i ett nytt fönster).