24. března 2026

Pomáháme vývojářům tvořit bezpečnější prostředí AI pro teenagery

Představujeme sadu bezpečnostních zásad pro dospívající ve formě promptů pro příkaz gpt-oss-safeguard

Načítání…

Dnes vydáváme zásady bezpečnosti⁠(otevře se v novém okně) založené na promptech, které vývojářům pomohou vytvářet věkově přiměřenou ochranu pro dospívající. Tyto zásady, vytvořené pro práci s naším otevřeným bezpečnostním modelem gpt-oss-safeguard⁠(otevře se v novém okně), zjednodušují způsob, kterým vývojáři převádějí bezpečnostní požadavky na klasifikátory použitelné pro reálné systémy.

Zveřejnili jsme modely s otevřenými váhami, abychom demokratizovali přístup k výkonné AI a podpořili rozsáhlé inovace. Zároveň věříme, že bezpečnost a inovace jdou ruku v ruce a že vývojáři by měli mít přístup ke efektivním modelům i k nástrojům a zásadám, které jim umožní je bezpečně a odpovědně nasazovat. Tyto zásady jsme vyvinuli s cílem podpořit vývojáře v jejich úsilí o bezpečnost při ochraně mladých uživatelů s přispěním důvěryhodných externích organizací, jako jsou Common Sense Media⁠(otevře se v novém okně) a everyone.ai⁠(otevře se v novém okně).

Uvědomujeme si, že dospívající a dospělí mají odlišné potřeby a že dospívající potřebují dodatečnou ochranu. Tyto zásady jsou navrženy tak, aby vývojářům pomohly zohlednit tyto rozdíly a oni mohli vytvářet prostředí, které je pro mladší uživatele vhodné a inspirující.

Stavíme na naší širší práci, abychom lépe chránili mladé lidi

Našim dlouhodobým závazkem je vytvářet umělou inteligenci, která rozšiřuje příležitosti pro mladé lidi a zároveň je chrání. V rámci této práce jsme aktualizovali naši specifikaci modelu⁠(otevře se v novém okně) (pokyny, které definují zamýšlené chování modelů OpenAI) tak, aby zahrnovala zásady pro osoby mladší 18 let (U18)⁠(otevře se v novém okně), a zavedli jsme ochranná opatření na úrovni produktu, mezi které patří rodičovská kontrola⁠ a odhad věku⁠, abychom lépe chránili mladší uživatele. Také jsme v rámci našeho plánu pro bezpečnost dospívajících⁠ vyzvali k ochraně v celém odvětví.

Dnešní vydání navazuje na tento základ. Tyto zásady bezpečnosti zpřístupňujeme vývojářům, abychom je podpořili při zavádění ochranných opatření pro dospívající a rozšířili přístup napříč ekosystémem modelů s otevřenými váhami.

Překládáme bezpečnost dospívajících do jasných a použitelných pravidel

Přestože bezpečnostní klasifikátory, jako je model gpt-oss-safeguard, dokážou detekovat škodlivý obsah, jsou závislé na jasných definicích toho, co tento obsah představuje. Jednou z největších výzev, které vývojáři v praxi čelí, je definovat zásady, které přesně zachycují rizika pro dospívající a které lze konzistentně uplatňovat v reálných systémech.

I zkušené týmy mají často potíže převést vysoké bezpečnostní cíle do přesných a praktických pravidel, zejména proto, že to vyžaduje odborné znalosti i hluboké znalosti AI. Důsledkem může být nedostatečná ochrana, nekonzistentní prosazování nebo příliš široké filtrování. Jasně vymezené zásady jsou zásadním základem účinných bezpečnostních systémů.

Pomáháme vývojářům zavádět ochranu bezpečnosti dospívajících

Jako řešení této výzvy zveřejňujeme sadu zásad bezpečnosti⁠(otevře se v novém okně), přizpůsobených běžným rizikům, kterým dospívající čelí, a vycházejících z pečlivého přezkoumání stávajících výzkumů o jedinečných vývojových odlišnostech dospívajících. Tyto zásady jsou strukturovány jako prompty, které lze přímo použít v modelu gpt-oss-safeguard⁠(otevře se v novém okně) a v dalších modelech s uvažováním. To vývojářům usnadňuje konzistentní uplatňování bezpečnostních standardů v rámci jejich systémů.

První vydání zahrnuje zásady týkající se:

grafického násilného obsahu
explicitního sexuálního obsahu
škodlivých ideálů vzhledu a chování
nebezpečných aktivit a výzev
romantického nebo násilného hraní rolí
zboží a služeb s věkovým omezením

Tyto zásady lze použít pro filtrování obsahu v reálném čase i pro offline analýzu obsahu vytvářeného uživateli.

Tím, že jsou zásady strukturovány jako prompt, mohou je vývojáři snáze integrovat do stávajících pracovních postupů, přizpůsobit je svým případům použití a postupně je vylepšovat.

Schéma znázorňující kategorie bezpečnostních zásad pro dospívající a obsah související s dospívajícími, který vstupuje do systému ochranných opatření GPT-OSS. Tento systém na základě interního uvažování rozhoduje o zásadách.

Vytvořeno s přispěním externích odborníků

Na získání podkladů pro tyto zásady jsme spolupracovali s externími organizacemi, mezi které patří Common Sense Media⁠(otevře se v novém okně) a everyone.ai⁠(otevře se v novém okně). Jejich odborné znalosti pomohly utvářet rozsah obsahu, který je třeba pokrýt, posílit strukturu promptů a doladit mezní případy, které je třeba při jejich vyhodnocování zohlednit.

Tato práce odráží průběžné úsilí spolupracovat s odborníky a širším ekosystémem s cílem zlepšit to, jak systémy umělé inteligence podporují mladé lidi.

„Jedním z největších nedostatků v bezpečnosti umělé inteligence pro dospívající byla absence jasných a prakticky uplatnitelných zásad, na nichž mohou vývojáři stavět. Vývojáři často začínají od nuly. Tyto zásady založené na promptech pomáhají nastavit rozumnou minimální úroveň bezpečnosti v celém ekosystému, a protože jsou zveřejněny jako open source, lze je v průběhu času přizpůsobovat a vylepšovat. Jsme povzbuzeni tím, že se tento druh infrastruktury stává široce dostupným, a doufáme, že podnítí sdílení výchozích bodů pro bezpečnost mladých v celém odvětví.“

–Robbie Torney, vedoucí oddělení AI a digitálního hodnocení ve společnosti Common Sense Media

„Snahy, jako je toto, o praktičtější zásady bezpečnosti pro mládež, jsou cenné, protože pomáhají převádět odborné znalosti do pokynů, které lze použít v reálných systémech. Zásady týkající se obsahu jsou důležitým prvním krokem a zároveň otevírají dveře širším snahám o způsob, jak může chování modelu v průběhu času utvářet rizika relevantní pro mládež. Tato práce a náš vlastní výzkum inspirovaly společnost everyone.ai⁠(otevře se v novém okně) k vytvoření výchozích behaviorálních zásad zaměřených na rizika, jako jsou exkluzivita a nadměrná závislost.“

–Dr. Mathilde Cerioli, hlavní vědecká pracovnice ve společnosti everyone.AI

Výchozí bod, ne kompletní řešení

Tyto zásady pojímáme jako výchozí bod, nikoli jako úplnou nebo konečnou definici či záruku bezpečnosti dospívajících. Každá aplikace má jedinečná rizika, cílové skupiny a kontexty a vývojáři jsou ti, kdo dokážou nejlépe porozumět rizikům, která mohou jejich produkty a integrace s umělou inteligencí představovat. Důrazně doporučujeme, aby vývojáři tyto zásady přizpůsobili a rozšířili na základě svých konkrétních potřeb a kombinovali je s dalšími ochrannými opatřeními, jako jsou rozhodnutí týkající se návrhu produktu, uživatelské ovládací prvky, transparentnost srozumitelná pro dospívající, monitorovací systémy a promyšlené reakce přiměřené věku.

Jsme přesvědčeni, že vícevrstvý přístup hloubkové obrany⁠ je klíčový pro vytváření bezpečnějších systémů umělé inteligence. Tyto zásady vycházejí z našich interních zkušeností, ale neodrážejí plný rozsah interních zásad ani ochranných opatření společnosti OpenAI.

Jak dál?

S cílem podpořit spolupráci a postupné zlepšování zveřejňujeme tyto zásady jako open source prostřednictvím ROOST Model Community⁠(otevře se v novém okně). Chcete-li přispět, poskytnout zpětnou vazbu nebo sdílet další zásady bezpečnosti dospívajících, navštivte úložiště RMC na GitHubu.⁠(otevře se v novém okně)

Vývojáři a organizace mohou tyto zásady přizpůsobit svým konkrétním aplikacím, přeložit je do různých jazyků a rozšířit je tak, aby pokrývaly další rizikové oblasti. Doufáme, že to časem přispěje k robustnějšímu a sdílenému základu pro zavádění bezpečnostních zásad v systémech AI.

Pokud chcete začít s modelem gpt-oss-safeguard, stáhněte si ho z Hugging Face⁠(otevře se v novém okně).

Pokračuj ve čtení

Zobrazit vše

Bezpečnost a sladění v éře modelů s dlouhým horizontem

Bezpečnost20. 7. 2026

Why teens deserve access to safe AI — card image

Proč si dospívající zaslouží přístup k bezpečné AI

Bezpečnost16. 7. 2026

GPT-Red: Sebezlepšování pro robustnost

Bezpečnost15. 7. 2026