Hjelper utviklere bygge tryggere AI-opplevelser for tenåringer
Vi introduserer et sett med retningslinjer for tenåringssikkerhet utformet som prompter for gpt-oss-safeguard
I dag lanserer vi prompt-baserte sikkerhetsretningslinjer(åpnes i et nytt vindu) for å hjelpe utviklere med å lage alderstilpasset beskyttelse for tenåringer. Bygget for å fungere med vår sikkerhetsmodell med åpen vekt, gpt-oss-safeguard(åpnes i et nytt vindu), forenkler disse retningslinjene hvordan utviklere kan gjøre sikkerhetskrav om til brukbare klassifiseringsverktøy for systemer i den virkelige verden.
Vi lanserte modeller med åpen vekt for å demokratisere tilgangen til kraftig AI og støtte bred innovasjon. Samtidig mener vi at sikkerhet og innovasjon går hånd i hånd, og at utviklere bør ha tilgang til dyktige modeller samt verktøyene og retningslinjene de trenger for å ta dem i bruk på en trygg og ansvarlig måte. Vi utviklet disse retningslinjene for å støtte utviklere i deres sikkerhetsarbeid for å beskytte unge brukere, med innspill fra pålitelige eksterne organisasjoner, inkludert Common Sense Media(åpnes i et nytt vindu) og everyone.ai(åpnes i et nytt vindu).
Vi erkjenner at tenåringer og voksne har ulike behov, og at tenåringer trenger ekstra beskyttelse. Disse retningslinjene er utformet for å hjelpe utviklere med å ta hensyn til disse forskjellene og utvikle opplevelser som både er styrkende og passende for yngre brukere.
Vi har lenge vært opptatt av å bygge AI som gir unge mennesker flere muligheter, samtidig som vi ivaretar sikkerheten deres. Som en del av dette arbeidet oppdaterte vi våre modellspesifikasjoner(åpnes i et nytt vindu)– retningslinjene som definerer den tiltenkte oppførselen til OpenAIs modeller – for å inkludere prinsipper for barn under 18 år (U18)(åpnes i et nytt vindu), og innførte sikkerhetstiltak på produktnivå, for eksempel foreldrekontroll og aldersforutsigelse for å bedre beskytte yngre brukere. Vi har også bedt om beskyttelsestiltak for hele bransjen gjennom vår Teen Safety Blueprint.
Dagens lansering bygger videre på det grunnlaget. Vi gjør disse sikkerhetsretningslinjene tilgjengelige for utviklere for å hjelpe dem med å bruke sikkerhetstiltak for tenåringer og bidra til å demokratisere tilgangen i hele økosystemet for åpne vekter.
Selv om sikkerhetsklassifiseringsverktøy som gpt-oss-safeguard kan oppdage skadelig innhold, er de avhengige av klare definisjoner av hva dette innholdet er. I praksis er en av utviklernes største utfordringer å definere retningslinjer som fanger opp risikoer spesifikke for tenåringer på en nøyaktig måte, og som kan anvendes konsekvent i virkelige systemer.
Selv erfarne team sliter ofte med å oversette sikkerhetsmål på høyt nivå til presise, operasjonelle regler, spesielt fordi det krever både fagekspertise og dyp kunnskap om AI. Dette kan føre til hull i beskyttelsen, inkonsekvent håndhevelse eller altfor omfattende filtrering. Tydelige og godt definerte retningslinjer er et viktig grunnlag for effektive sikkerhetssystemer.
For å takle denne utfordringen lanserer vi et sett med sikkerhetsretningslinjer(åpnes i et nytt vindu) som er tilpasset vanlige risikoer tenåringer utsettes for, og som er basert på en grundig gjennomgang av eksisterende forskning om tenåringers unike utviklingsmessige forskjeller. Disse retningslinjene er strukturert som prompter som kan brukes direkte med gpt-oss-safeguard(åpnes i et nytt vindu) og andre resonneringsmodeller, slik at utviklere lettere kan bruke konsistente sikkerhetsstandarder på tvers av systemene sine.
Den første utgivelsen inkluderer retningslinjer som dekker:
- Grafisk voldelig innhold
- Grafisk seksuelt innhold
- Skadelige kroppsidealer og handlinger
- Farlige aktiviteter og utfordringer
- Romantisk eller voldelig rollespill
- Aldersbegrensede varer og tjenester
Disse retningslinjene kan brukes til innholdsfiltrering i sanntid, samt frakoblet analyse av brukergenerert innhold.
Ved å strukturere retningslinjer som prompter kan utviklere lettere integrere dem i eksisterende arbeidsflyter, tilpasse dem til sine bruksområder og gjenta dem over tid.

Vi samarbeidet med eksterne organisasjoner, inkludert Common Sense Media(åpnes i et nytt vindu) og everyone.ai(åpnes i et nytt vindu), for å bidra til utviklingen av disse retningslinjene. Deres ekspertise bidro til å avgjøre hvilket innhold som skulle dekkes, styrke strukturen i promptene og avgrense hvilke tilfeller som skulle vurderes ved evalueringen av dem.
Dette arbeidet gjenspeiler en pågående innsats for å samarbeide med eksperter og det bredere økosystemet for å forbedre hvordan AI-systemer støtter unge mennesker.
«Et av de største hullene i AI-sikkerhet for tenåringer har vært mangelen på tydelige, operasjonelle retningslinjer som utviklere kan bygge videre på. Ofte starter utviklere fra bunnen av. Disse prompt-baserte retningslinjene bidrar til å etablere et meningsfullt minimumsnivå for sikkerhet på tvers av økosystemet, og fordi de er utgitt som åpen kildekode, kan de tilpasses og forbedres over tid. Vi er glade for å se at denne typen infrastruktur blir gjort tilgjengelig for alle, og vi håper at den kan bidra til å skape flere felles utgangspunkt for ungdomssikkerhet i hele bransjen.»
–Robbie Torney, leder for AI og digitale vurderinger, Common Sense Media
«Tiltak som dette, som gjør retningslinjer for ungdomssikkerhet mer operasjonelle, er verdifulle fordi de bidrar til å omsette ekspertkunnskap til retningslinjer som kan brukes i virkelige systemer. Innholdsretningslinjer er et viktig første skritt, og de åpner også døren for et bredere arbeid med hvordan modellatferd kan forme ungdomsrelevante risikoer over tid. Inspirert av dette arbeidet og vår egen forskning har everyone.ai(åpnes i et nytt vindu) også laget en innledende atferdsretningslinje med fokus på risikoer som eksklusivitet og overdreven tillit.»
–Dr. Mathilde Cerioli, forskningssjef hos everyone.AI
Retningslinjene er ment som et utgangspunkt, ikke som en omfattende eller endelig definisjon eller garanti for tenåringers sikkerhet. Hver applikasjon har unike risikoer, målgrupper og kontekster, og utviklere er best posisjonert til å forstå risikoene som produktene deres og AI-integrasjoner kan medføre. Vi oppfordrer utviklere til å tilpasse og utvide disse retningslinjene basert på deres spesifikke behov, og kombinere dem med andre sikkerhetstiltak som produktdesign, brukerkontroller, ungdomsvennlig åpenhet, overvåkingssystemer og gjennomtenkte, alderstilpassede svar.
Vi tror at en lagdelt forsvar i dybden-tilnærming er viktig for å bygge tryggere AI-systemer. Disse retningslinjene bygger på vår interne erfaring, men de gjenspeiler ikke hele omfanget av OpenAIs interne retningslinjer eller sikkerhetstiltak.
Vi gjør disse retningslinjene tilgjengelige som åpen kildekode gjennom ROOST Model Community(åpnes i et nytt vindu) for å oppmuntre til samarbeid og iterasjon. Hvis du vil bidra, gi tilbakemelding eller dele flere retningslinjer for tenåringssikkerhet, kan du gå til RMCs GitHub-lageret.(åpnes i et nytt vindu)
Utviklere og organisasjoner kan tilpasse disse retningslinjene til sine spesifikke bruksområder, oversette dem til ulike språk og utvide dem til å dekke flere risikoområder. Over tid håper vi at dette bidrar til et mer robust og felles grunnlag for å implementere sikkerhetsretningslinjer i AI-systemer.
For å komme i gang med gpt-oss-safeguard kan du laste det ned fra Hugging Face(åpnes i et nytt vindu).


