Pomáháme vývojářům tvořit bezpečnější prostředí AI pro teenagery
Představujeme sadu bezpečnostních zásad pro dospívající ve formě promptů pro příkaz gpt-oss-safeguard
Dnes vydáváme zásady bezpečnosti(otevře se v novém okně) založené na promptech, které vývojářům pomohou vytvářet věkově přiměřenou ochranu pro dospívající. Tyto zásady, vytvořené pro práci s naším otevřeným bezpečnostním modelem gpt-oss-safeguard(otevře se v novém okně), zjednodušují způsob, kterým vývojáři převádějí bezpečnostní požadavky na klasifikátory použitelné pro reálné systémy.
Zveřejnili jsme modely s otevřenými váhami, abychom demokratizovali přístup k výkonné AI a podpořili rozsáhlé inovace. Zároveň věříme, že bezpečnost a inovace jdou ruku v ruce a že vývojáři by měli mít přístup ke efektivním modelům i k nástrojům a zásadám, které jim umožní je bezpečně a odpovědně nasazovat. Tyto zásady jsme vyvinuli s cílem podpořit vývojáře v jejich úsilí o bezpečnost při ochraně mladých uživatelů s přispěním důvěryhodných externích organizací, jako jsou Common Sense Media(otevře se v novém okně) a everyone.ai(otevře se v novém okně).
Uvědomujeme si, že dospívající a dospělí mají odlišné potřeby a že dospívající potřebují dodatečnou ochranu. Tyto zásady jsou navrženy tak, aby vývojářům pomohly zohlednit tyto rozdíly a oni mohli vytvářet prostředí, které je pro mladší uživatele vhodné a inspirující.
Našim dlouhodobým závazkem je vytvářet umělou inteligenci, která rozšiřuje příležitosti pro mladé lidi a zároveň je chrání. V rámci této práce jsme aktualizovali naši specifikaci modelu(otevře se v novém okně) (pokyny, které definují zamýšlené chování modelů OpenAI) tak, aby zahrnovala zásady pro osoby mladší 18 let (U18)(otevře se v novém okně), a zavedli jsme ochranná opatření na úrovni produktu, mezi které patří rodičovská kontrola a odhad věku, abychom lépe chránili mladší uživatele. Také jsme v rámci našeho plánu pro bezpečnost dospívajících vyzvali k ochraně v celém odvětví.
Dnešní vydání navazuje na tento základ. Tyto zásady bezpečnosti zpřístupňujeme vývojářům, abychom je podpořili při zavádění ochranných opatření pro dospívající a rozšířili přístup napříč ekosystémem modelů s otevřenými váhami.
Přestože bezpečnostní klasifikátory, jako je model gpt-oss-safeguard, dokážou detekovat škodlivý obsah, jsou závislé na jasných definicích toho, co tento obsah představuje. Jednou z největších výzev, které vývojáři v praxi čelí, je definovat zásady, které přesně zachycují rizika pro dospívající a které lze konzistentně uplatňovat v reálných systémech.
I zkušené týmy mají často potíže převést vysoké bezpečnostní cíle do přesných a praktických pravidel, zejména proto, že to vyžaduje odborné znalosti i hluboké znalosti AI. Důsledkem může být nedostatečná ochrana, nekonzistentní prosazování nebo příliš široké filtrování. Jasně vymezené zásady jsou zásadním základem účinných bezpečnostních systémů.
Jako řešení této výzvy zveřejňujeme sadu zásad bezpečnosti(otevře se v novém okně), přizpůsobených běžným rizikům, kterým dospívající čelí, a vycházejících z pečlivého přezkoumání stávajících výzkumů o jedinečných vývojových odlišnostech dospívajících. Tyto zásady jsou strukturovány jako prompty, které lze přímo použít v modelu gpt-oss-safeguard(otevře se v novém okně) a v dalších modelech s uvažováním. To vývojářům usnadňuje konzistentní uplatňování bezpečnostních standardů v rámci jejich systémů.
První vydání zahrnuje zásady týkající se:
- grafického násilného obsahu
- explicitního sexuálního obsahu
- škodlivých ideálů vzhledu a chování
- nebezpečných aktivit a výzev
- romantického nebo násilného hraní rolí
- zboží a služeb s věkovým omezením
Tyto zásady lze použít pro filtrování obsahu v reálném čase i pro offline analýzu obsahu vytvářeného uživateli.
Tím, že jsou zásady strukturovány jako prompt, mohou je vývojáři snáze integrovat do stávajících pracovních postupů, přizpůsobit je svým případům použití a postupně je vylepšovat.

Na získání podkladů pro tyto zásady jsme spolupracovali s externími organizacemi, mezi které patří Common Sense Media(otevře se v novém okně) a everyone.ai(otevře se v novém okně). Jejich odborné znalosti pomohly utvářet rozsah obsahu, který je třeba pokrýt, posílit strukturu promptů a doladit mezní případy, které je třeba při jejich vyhodnocování zohlednit.
Tato práce odráží průběžné úsilí spolupracovat s odborníky a širším ekosystémem s cílem zlepšit to, jak systémy umělé inteligence podporují mladé lidi.
„Jedním z největších nedostatků v bezpečnosti umělé inteligence pro dospívající byla absence jasných a prakticky uplatnitelných zásad, na nichž mohou vývojáři stavět. Vývojáři často začínají od nuly. Tyto zásady založené na promptech pomáhají nastavit rozumnou minimální úroveň bezpečnosti v celém ekosystému, a protože jsou zveřejněny jako open source, lze je v průběhu času přizpůsobovat a vylepšovat. Jsme povzbuzeni tím, že se tento druh infrastruktury stává široce dostupným, a doufáme, že podnítí sdílení výchozích bodů pro bezpečnost mladých v celém odvětví.“
–Robbie Torney, vedoucí oddělení AI a digitálního hodnocení ve společnosti Common Sense Media
„Snahy, jako je toto, o praktičtější zásady bezpečnosti pro mládež, jsou cenné, protože pomáhají převádět odborné znalosti do pokynů, které lze použít v reálných systémech. Zásady týkající se obsahu jsou důležitým prvním krokem a zároveň otevírají dveře širším snahám o způsob, jak může chování modelu v průběhu času utvářet rizika relevantní pro mládež. Tato práce a náš vlastní výzkum inspirovaly společnost everyone.ai(otevře se v novém okně) k vytvoření výchozích behaviorálních zásad zaměřených na rizika, jako jsou exkluzivita a nadměrná závislost.“
–Dr. Mathilde Cerioli, hlavní vědecká pracovnice ve společnosti everyone.AI
Tyto zásady pojímáme jako výchozí bod, nikoli jako úplnou nebo konečnou definici či záruku bezpečnosti dospívajících. Každá aplikace má jedinečná rizika, cílové skupiny a kontexty a vývojáři jsou ti, kdo dokážou nejlépe porozumět rizikům, která mohou jejich produkty a integrace s umělou inteligencí představovat. Důrazně doporučujeme, aby vývojáři tyto zásady přizpůsobili a rozšířili na základě svých konkrétních potřeb a kombinovali je s dalšími ochrannými opatřeními, jako jsou rozhodnutí týkající se návrhu produktu, uživatelské ovládací prvky, transparentnost srozumitelná pro dospívající, monitorovací systémy a promyšlené reakce přiměřené věku.
Jsme přesvědčeni, že vícevrstvý přístup hloubkové obrany je klíčový pro vytváření bezpečnějších systémů umělé inteligence. Tyto zásady vycházejí z našich interních zkušeností, ale neodrážejí plný rozsah interních zásad ani ochranných opatření společnosti OpenAI.
S cílem podpořit spolupráci a postupné zlepšování zveřejňujeme tyto zásady jako open source prostřednictvím ROOST Model Community(otevře se v novém okně). Chcete-li přispět, poskytnout zpětnou vazbu nebo sdílet další zásady bezpečnosti dospívajících, navštivte úložiště RMC na GitHubu.(otevře se v novém okně)
Vývojáři a organizace mohou tyto zásady přizpůsobit svým konkrétním aplikacím, přeložit je do různých jazyků a rozšířit je tak, aby pokrývaly další rizikové oblasti. Doufáme, že to časem přispěje k robustnějšímu a sdílenému základu pro zavádění bezpečnostních zásad v systémech AI.
Pokud chcete začít s modelem gpt-oss-safeguard, stáhněte si ho z Hugging Face(otevře se v novém okně).


