Pomáhame vývojárom vytvárať bezpečnejšie zážitky s umelou inteligenciou pre tínedžerov
Predstavujeme súbor zásad bezpečnosti pre tínedžerov vo formáte príkazov pre gpt-oss-safeguard
Dnes vydávame bezpečnostné zásady(otvorí sa v novom okne) založené na príkazoch, aby sme vývojárom pomohli vytvárať ochranné opatrenia primerané veku pre tínedžerov. Tieto zásady sú navrhnuté tak, aby fungovali s naším bezpečnostným modelom s otvorenými váhami gpt-oss-safeguard(otvorí sa v novom okne) a zjednodušujú, ako vývojári premieňajú bezpečnostné požiadavky na použiteľné klasifikátory pre systémy v reálnom svete.
Sprístupnili sme open-weight modely s cieľom demokratizovať prístup k výkonnej umelej inteligencii a podporiť široké inovácie. Zároveň sme presvedčení, že bezpečnosť a inovácie idú ruka v ruke a že vývojári by mali mať prístup k výkonným modelom, ako aj k nástrojom a politikám na ich bezpečné a zodpovedné nasadzovanie. Tieto zásady sme vyvinuli s cieľom podporiť vývojárov v ich úsilí o bezpečnosť pri ochrane mladých používateľov, s prispením dôveryhodných externých organizácií vrátane Common Sense Media(otvorí sa v novom okne) a everyone.ai(otvorí sa v novom okne).
Uvedomujeme si, že tínedžeri a dospelí majú odlišné potreby a že tínedžeri potrebujú dodatočnú ochranu. Tieto zásady sú navrhnuté tak, aby pomohli vývojárom zohľadniť tieto rozdiely a vytvárať zážitky, ktoré sú pre mladších používateľov posilňujúce aj vhodné.
Dlhodobo sa usilujeme vytvárať umelú inteligenciu, ktorá rozširuje príležitosti pre mladých ľudí a zároveň ich chráni. V rámci tejto práce sme aktualizovali našu špecifikáciu modelu(otvorí sa v novom okne) – usmernenia, ktoré definujú zamýšľané správanie modelov OpenAI – tak, aby zahŕňala princípy pre osoby mladšie ako 18 rokov (U18)(otvorí sa v novom okne), a zaviedli sme ochranné opatrenia na úrovni produktu, ako sú rodičovská kontrola a predikcia veku, aby sme lepšie chránili mladších používateľov. Vyzvali sme aj na ochrany v rámci celého odvetvia prostredníctvom nášho Plánu bezpečnosti tínedžerov.
Dnešné vydanie nadväzuje na tento základ. Tieto bezpečnostné zásady sprístupňujeme vývojárom, aby sme ich podporili pri zavádzaní ochranných opatrení pre tínedžerov a pomohli demokratizovať prístup v rámci ekosystému open weights.
Hoci bezpečnostné klasifikátory, ako je gpt-oss-safeguard, dokážu odhaliť škodlivý obsah, závisia od jasných definícií toho, čo takýto obsah predstavuje. V praxi je jednou z najväčších výziev, ktorým vývojári čelia, definovanie politík, ktoré presne zachytávajú riziká špecifické pre tínedžerov a ktoré možno konzistentne uplatňovať v reálnych systémoch.
Aj skúsené tímy majú často problém premeniť bezpečnostné ciele na vysokej úrovni na presné a vykonateľné pravidlá, najmä preto, že si to vyžaduje odborné znalosti aj hlboké znalosti v oblasti umelej inteligencie. To môže viesť k medzerám v ochrane, nekonzistentnému presadzovaniu alebo príliš širokému filtrovaniu. Jasne formulované a dobre vymedzené politiky sú kľúčovým základom účinných bezpečnostných systémov.
Aby sme túto výzvu riešili, vydávame súbor bezpečnostných zásad(otvorí sa v novom okne), prispôsobených bežným rizikám, ktorým čelia tínedžeri, a vychádzajúcich zo starostlivého preskúmania existujúceho výskumu o jedinečných vývinových odlišnostiach tínedžerov. Tieto politiky sú štruktúrované ako príkazy, ktoré možno priamo používať s gpt-oss-safeguard(otvorí sa v novom okne) a ďalšími uvažovacími modelmi, čo vývojárom umožňuje jednoduchšie uplatňovať konzistentné bezpečnostné štandardy v rámci ich systémov.
Počiatočné vydanie zahŕňa zásady pokrývajúce:
- Zreteľný násilný obsah
- Zreteľný sexuálny obsah
- Škodlivé ideály o tele a škodlivé správanie
- Nebezpečné aktivity a výzvy
- Romantická alebo násilná hra na role
- Tovar a služby s vekovým obmedzením
Tieto zásady možno použiť na filtrovanie obsahu v reálnom čase a aj na offline analýzu obsahu vytvoreného používateľmi.
Štruktúrovaním politík ako príkazov ich môžu vývojári jednoduchšie integrovať do existujúcich pracovných postupov, prispôsobiť ich svojim prípadom použitia a postupne ich vylepšovať.

Spolupracovali sme s externými organizáciami vrátane Common Sense Media(otvorí sa v novom okne) a everyone.ai(otvorí sa v novom okne) s cieľom prispieť k vypracovaniu týchto zásad. Ich odborné znalosti pomohli formovať rozsah obsahu, ktorý treba pokryť, posilniť štruktúru príkazov a spresniť okrajové prípady, ktoré treba zohľadniť pri ich vyhodnocovaní.
Táto práca odráža neustále úsilie spolupracovať s odborníkmi a širším ekosystémom s cieľom zlepšiť spôsob, akým systémy umelej inteligencie podporujú mladých ľudí.
„Jednou z najväčších výziev v bezpečnosti umelej inteligencie pre tínedžerov bol nedostatok jasných a vykonateľných zásad, z ktorých môžu vývojári vychádzať. Vývojári často začínajú od nuly. Tieto politiky založené na príkazoch pomáhajú nastaviť zmysluplnú minimálnu úroveň bezpečnosti v celom ekosystéme a keďže sú uvoľnené ako open source, možno ich priebežne prispôsobovať a zlepšovať. Teší nás, že vidíme, ako sa tento druh infraštruktúry sprístupňuje vo veľkom rozsahu, a dúfame, že to podnieti vznik viacerých spoločných východísk v oblasti bezpečnosti mladých ľudí v celom odvetví.“
– Robbie Torney, vedúci oddelenia umelej inteligencie a digitálneho hodnotenia v spoločnosti Common Sense Media
„Takéto snahy, ktoré pomáhajú praktickejšie uplatňovať politiky bezpečnosti mládeže, sú cenné, pretože pomáhajú pretaviť odborné poznatky do usmernení, ktoré možno použiť v reálnych systémoch. Politiky obsahu sú dôležitým prvým krokom a zároveň otvárajú dvere širšej práci na tom, ako môže správanie modelu v priebehu času formovať riziká relevantné pre mládež. Po inšpirovaní sa touto prácou a naším vlastným výskumom vytvorila organizácia everyone.ai(otvorí sa v novom okne) počiatočnú behaviorálnu politiku zameranú na riziká, ako sú exkluzivita a nadmerné spoliehanie sa."
– Dr. Mathilde Cerioli, hlavná vedkyňa v spoločnosti everyone.AI
Tieto zásady sú určené ako východiskový bod, nie ako komplexná alebo konečná definícia či záruka bezpečnosti tínedžerov. Každá aplikácia má jedinečné riziká, publikum a kontexty a vývojári sú najlepšie pripravení pochopiť riziká, ktoré môžu predstavovať ich produkty a integrácie AI. Dôrazne odporúčame vývojárom, aby tieto zásady prispôsobili a rozšírili podľa svojich konkrétnych potrieb a kombinovali ich s ďalšími ochrannými opatreniami, ako sú rozhodnutia o dizajne produktu, používateľské ovládacie prvky, transparentnosť vhodná pre tínedžerov, monitorovacie systémy a premyslené reakcie primerané veku.
Veríme, že viacvrstvový prístup obrany do hĺbky je nevyhnutný na budovanie bezpečnejších AI systémov. Tieto zásady vychádzajú z našich interných skúseností, ale neodrážajú úplný rozsah interných zásad ani ochranných opatrení spoločnosti OpenAI.
Tieto zásady sprístupňujeme ako open source prostredníctvom komunity ROOST Model Community(otvorí sa v novom okne) s cieľom podporiť spoluprácu a iteráciu. Ak chcete prispieť, poskytnúť pripomienky alebo zdieľať ďalšie zásady bezpečnosti tínedžerov, navštívte repozitár GitHub RMC.(otvorí sa v novom okne)
Tieto zásady si môžeš prispôsobiť svojej aplikácii, preložiť ich do iných jazykov a rozšíriť tak, aby pokrývali ďalšie oblasti rizika. Veríme, že časom aj tvoj prístup prispeje k pevnejšiemu a spoločnému základu pre zavádzanie bezpečnostných zásad v AI systémoch.
Ak chceš začať s gpt-oss-safeguard, stiahni si ho z Hugging Face(otvorí sa v novom okne).


