Hjælper udviklere med at bygge mere sikre AI-oplevelser for teens
Vi introducerer et sæt sikkerhedspolitikker for teenagere, formateret som prompts til gpt-oss-safeguard
I dag lancerer vi promptbaserede sikkerhedspolitikker(åbner i et nyt vindue) for at hjælpe udviklere med at skabe alderssvarende beskyttelse for teenagere. Disse politikker er bygget til at fungere med vores åbne sikkerhedsmodel, gpt-oss-safeguard(åbner i et nyt vindue), og de forenkler, hvordan udviklere omdanner sikkerhedskrav til brugbare klassifikatorer til virkelige systemer.
Vi lancerede åbne vægtmodeller for at demokratisere adgangen til kraftfuld AI og understøtte bred innovation. Samtidig mener vi, at sikkerhed og innovation går hånd i hånd, og at udviklere bør have adgang til kompetente modeller samt de værktøjer og politikker, der skal til for at implementere dem sikkert og ansvarligt. Vi har udviklet disse politikker for at støtte udviklere i deres sikkerhedsarbejde med at beskytte unge brugere med input fra betroede eksterne organisationer, herunder Common Sense Media(åbner i et nyt vindue) og everyone.ai(åbner i et nyt vindue).
Vi anerkender, at teenagere og voksne har forskellige behov, og at teenagere har brug for yderligere beskyttelse. Disse politikker er udformet til at hjælpe udviklere med at tage højde for disse forskelle og skabe oplevelser, der både er styrkende og passende for yngre brugere.
Vi har længe været engageret i at udvikle AI, der udvider mulighederne for unge mennesker, samtidig med at de holdes sikre. Som en del af dette arbejde opdaterede vi vores modelspecifikationer(åbner i et nyt vindue)– retningslinjerne, der definerer den tilsigtede adfærd for OpenAI’s modeller – til at omfatte Under-18-principper (U18)(åbner i et nyt vindue) og indførte produktspecifikke sikkerhedsforanstaltninger såsom forældrekontrol og aldersforudsigelse for bedre at beskytte yngre brugere. Vi har også opfordret til beskyttelsesforanstaltninger i hele branchen gennem vores Teen Safety Blueprint.
Dagens lancering bygger videre på det fundament. Vi gør disse sikkerhedspolitikker tilgængelige for udviklere for at støtte dem i at implementere sikkerhedsforanstaltninger for teenagere og bidrage til at demokratisere adgangen på tværs af økosystemet med åben vægt.
Selvom sikkerhedsklassificeringsværktøjer som gpt-oss-safeguard kan opdage skadeligt indhold, er de afhængige af klare definitioner af, hvad dette indhold er. I praksis er en af de største udfordringer, som udviklere står over for, at udarbejde retningslinjer, der præcist afspejler de risici, der er specifikke for teenagere, og som kan anvendes konsekvent i reelle systemer.Selv erfarne teams har ofte svært ved at omsætte overordnede sikkerhedsmål til præcise, operationelle regler, især fordi det kræver både fagekspertise og dyb AI-viden. Dette kan føre til huller i beskyttelsen, inkonsekvent håndhævelse eller alt for bred filtrering. Klare, velafgrænsede politikker er et afgørende fundament for effektive sikkerhedssystemer.
For at imødegå denne udfordring lancerer vi et sæt sikkerhedspolitikker(åbner i et nyt vindue), tilpasset de almindelige risici, som teenagere står over for, og baseret på en omhyggelig gennemgang af eksisterende forskning om teenageres unikke udviklingsmæssige forskelle. Disse politikker er struktureret som prompts, der kan bruges direkte med gpt-oss-safeguard(åbner i et nyt vindue) og andre ræsonneringsmodeller, hvilket gør det lettere for udviklere at anvende ensartede sikkerhedsstandarder på tværs af deres systemer.
Den første udgivelse omfatter politikker, der dækker:
- Grafisk voldeligt indhold
- Grafisk seksuelt indhold
- Skadelige kropsidealer og adfærd
- Farlige aktiviteter og udfordringer
- Romantisk eller voldeligt rollespil
- Aldersbegrænsede varer og tjenester
Disse politikker kan anvendes til indholdsfiltrering i realtid samt til offlineanalyse af brugergenereret indhold.
Ved at strukturere politikker som prompts kan udviklere lettere integrere dem i eksisterende arbejdsgange, tilpasse dem til deres anvendelsestilfælde og iterere over tid.

Vi samarbejdede med eksterne organisationer, herunder Common Sense Media(åbner i et nyt vindue) og everyone.ai(åbner i et nyt vindue), for at bidrage til udformningen af disse politikker. Deres ekspertise var med til at forme omfanget af det indhold, der skulle dækkes, styrke strukturen af prompts og finpudse de grænsetilfælde, der skulle overvejes ved evalueringen af dem.
Dette arbejde afspejler en løbende indsats for at samarbejde med eksperter og det bredere økosystem for at forbedre, hvordan AI-systemer støtter unge mennesker.
“En af de største mangler inden for AI-sikkerhed for teenagere har været fraværet af klare, operationelle politikker, som udviklere kan bygge videre på. Ofte starter udviklere fra bunden. Disse promptbaserede politikker er med til at etablere et meningsfuldt minimumsniveau for sikkerhed på tværs af økosystemet, og fordi de udgives som open source, kan de tilpasses og forbedres over tid. Det er opmuntrende at se denne type infrastruktur blive gjort bredt tilgængelig, og vi håber, at det vil sætte skub i flere fælles udgangspunkter for unges sikkerhed på tværs af branchen.”
—Robbie Torney, chef for AI og digitale evalueringer, Common Sense Media
“Indsatser som denne, der gør sikkerhedspolitikker for unge mere operationelle, er værdifulde, fordi de hjælper med at omsætte ekspertviden til vejledning, der kan bruges i reelle systemer. Indholdspolitikker er et vigtigt første skridt, og de åbner også døren for et bredere arbejde med, hvordan model kan forme risici, der er relevante for unge, over tid. Inspireret af dette arbejde og vores egen forskning har everyone.ai(åbner i et nyt vindue) også udarbejdet en indledende adfærdspolitik med fokus på risici som eksklusivitet og overdreven afhængighed."
—Dr. Mathilde Cerioli, Chefforsker hos everyone.AI
Politikkerne er tænkt som et udgangspunkt og ikke som en udtømmende eller endelig definition eller garanti for teenageres sikkerhed. Hver applikation har unikke risici, målgrupper og kontekster, og udviklere er bedst placeret til at forstå de risici, deres produkter og AI-integrationer kan medføre. Vi opfordrer kraftigt udviklere til at tilpasse og udvide disse politikker ud fra deres specifikke behov og kombinere dem med andre sikkerhedsforanstaltninger som beslutninger om produktdesign, brugerkontroller, gennemsigtighed tilpasset teenagere, overvågningssystemer og velovervejede, alderssvarende reaktioner.
Vi tror på, at en flerstrenget forsvar i dybden-tilgang er afgørende for at opbygge mere sikre AI-systemer. Disse politikker bygger på vores interne erfaring, men de afspejler ikke det fulde omfang af OpenAI’s interne politikker eller sikkerhedsforanstaltninger.
Vi udgiver disse politikker som open source via ROOST Model Community(åbner i et nyt vindue) for at fremme samarbejde og løbende forbedringer. Hvis du vil bidrage, give feedback eller dele yderligere sikkerhedspolitikker for teenagere, kan du besøge RMC GitHub-lager.(åbner i et nyt vindue)
Udviklere og organisationer kan tilpasse disse politikker til deres specifikke applikationer, oversætte dem til forskellige sprog og udvide dem, så de dækker yderligere risikoområder. Med tiden håber vi, at dette bidrager til et mere robust og fælles grundlag for implementering af sikkerhedspolitikker i AI-systemer.
For at komme i gang med gpt-oss-safeguard skal du downloade det fra Hugging Face(åbner i et nyt vindue).


