24 март 2026 г.

Помагаме за създаването на ИИ, безопасен за тийнейджърите

Представяме ви набор от правила за безопасност на тийнейджърите, форматирани като подкани за gpt-oss-safeguard

Зареждане…

Днес пускаме базирани на подкани политики за безопасност⁠(отваря се в нов прозорец), за да помогнем на разработчиците да създават подходящи за възрастта защити за тийнейджъри. Създадени да работят с нашия модел за безопасност с отворено тегло, gpt-oss-safeguard⁠(отваря се в нов прозорец), тези политики опростяват начина, по който разработчиците превръщат изискванията за безопасност в използваеми класификатори за реални системи.

Пуснахме модели с отворено тегло, за да демократизираме достъпа до мощен ИИ и да подкрепим широките иновации. Същевременно вярваме, че безопасността и иновациите вървят ръка за ръка и че разработчиците трябва да имат достъп до способни модели, както и до инструментите и политиките, необходими, за да ги внедряват безопасно и отговорно. Разработихме тези политики, за да подкрепим разработчиците в усилията им за безопасност с цел защита на младите потребители, с принос от доверени външни организации, включително Common Sense Media⁠(отваря се в нов прозорец) и everyone.ai⁠(отваря се в нов прозорец).

Наясно сме, че тийнейджърите и възрастните имат различни потребности и че тийнейджърите се нуждаят от допълнителни мерки за защита. Тези политики са създадени, за да помогнат на разработчиците да отчитат тези различия и да създават преживявания, които едновременно дават възможности и са подходящи за по-младите потребители.

Градим върху по-широката ни работа за защита на младите хора

Отдавна сме ангажирани с разработването на ИИ, който разширява възможностите за младите хора, като същевременно ги предпазва. Като част от тази работа актуализирахме нашата спецификация на модела⁠(отваря се в нов прозорец)– насоките, които определят предвиденото поведение на моделите на OpenAI – така че да включва принципи за лица под 18 години (U18)⁠(отваря се в нов прозорец), и въведохме предпазни механизми на продуктово ниво, като родителски контрол⁠ и прогнозиране на възрастта⁠, за да защитаваме по-добре по-младите потребители. Също така призовахме за мерки за защита в целия сектор чрез нашия План за безопасност на тийнейджърите⁠.

Днешното пускане стъпва върху тази основа. Предоставяме тези политики за безопасност на разработчиците, за да ги подкрепим при внедряването на мерки за безопасност на тийнейджъри и да спомогнем за демократизирането на достъпа в екосистемата на отворените тегла.

Превръщаме принципите за безопасност на младежите в ясни и приложими политики

Макар че класификатори за безопасност като gpt-oss-safeguard могат да откриват вредно съдържание, те зависят от ясни определения за това какво представлява това съдържание. На практика едно от най-големите предизвикателства, пред които са изправени разработчиците, е да дефинират политики, които точно отразяват рисковете, специфични за тийнейджърите, и които могат да бъдат прилагани последователно в реални системи.

Дори опитните екипи често срещат трудности при превръщането на общите цели за безопасност в точни, приложими на практика правила, най-вече тъй като това изисква както експертиза по темата, така и задълбочени познания в областта на ИИ. Това може да доведе до пропуски в защитата, непоследователно прилагане или прекалено широко филтриране. Ясните, добре дефинирани политики са ключова основа на ефективните системи за безопасност.

Помагаме на разработчиците да прилагат мерки за безопасност на тийнейджърите

За да се справим с това предизвикателство, пускаме набор от правила за безопасност⁠(отваря се в нов прозорец), съобразени с често срещаните рискове, пред които са изправени тийнейджърите, и изготвени въз основа на внимателен преглед на съществуващите изследвания относно уникалните различия в развитието на тийнейджърите. Тези политики са структурирани като подкани, които могат да се използват директно с gpt-oss-safeguard⁠(отваря се в нов прозорец) и други модели със структурирано анализиране, което позволява на разработчиците по-лесно да прилагат последователни стандарти за безопасност в своите системи.

Първоначалната версия включва политики, обхващащи:

Съдържание с графично насилие
Съдържание с графично сексуално поведение
Вредни за тялото идеали и поведение
Опасни дейности и предизвикателства
Романтична или насилствена ролева игра
Стоки и услуги с възрастови ограничения

Тези политики могат да се използват за филтриране на съдържание в реално време, както и за офлайн анализ на съдържание, генерирано от потребителите.

Като структурират политиките като подкани, разработчиците могат по-лесно да ги интегрират в съществуващи работни процеси, да ги адаптират към своите случаи на употреба и да ги усъвършенстват с течение на времето.

Диаграма, която показва категориите от правила за безопасност на тийнейджърите и съдържание, свързано с тях, които постъпват в системата за защита GPT-OSS, генерираща решения по политики въз основа на структурирано анализиране.

Разработено с принос от външни експерти

Работихме с външни организации, включително Common Sense Media⁠(отваря се в нов прозорец) и everyone.ai⁠(отваря се в нов прозорец), за да подпомогнем разработването на тези политики. Техният експертен опит помогна да се оформи обхватът на съдържанието, да се укрепи структурата на подканите и да се прецизират крайните случаи, които да се вземат предвид при оценяването им.

Тази работа отразява текущите усилия за сътрудничество с експерти и по-широката екосистема за подобряване на начина, по който системите с ИИ подкрепят младите хора.

„Един от най-големите пропуски в безопасността на ИИ за тийнейджърите е липсата на ясни, приложими политики, върху които разработчиците да стъпят. Често разработчиците започват от нулата. Тези политики, базирани на подкани, помагат за установяването на смислена основа за безопасност в цялата екосистема, а тъй като са публикувани като отворен код, те могат да бъдат адаптирани и подобрявани с течение на времето. Окуражени сме, че този вид инфраструктура става широко достъпна и се надяваме това да даде тласък на повече споделени отправни точки за безопасността на младежите из цялата индустрия.“

—Роби Торни, ръководител на ИИ и дигиталните оценявания в Common Sense Media

„Усилия като това, които правят политиките за безопасност на младежите по-приложими на практика, са ценни, защото помагат експертните знания да се превърнат в насоки, които могат да се използват в реални системи. Политиките за съдържание са важна първа стъпка и също така отварят вратата за по-широка работа относно това как поведението на модела може с течение на времето да оформя рисковете, свързани с младежите. Вдъхновени от тази работа и от собствените си проучвания, everyone.ai⁠(отваря се в нов прозорец) също създаде първоначална поведенческа политика, фокусирана върху рискове като изключителност и прекомерна зависимост."

—Д-р Матилде Чериоли, главен научен сътрудник в everyone.AI

Отправна точка, а не пълно решение

Политиките са предназначени да служат като отправна точка, а не като изчерпателно или окончателно определение или гаранция за безопасността на тийнейджърите. Всяко приложение има специфични рискове, аудитории и контекст, а разработчиците са в най-добра позиция да разбират рисковете, които техните продукти и интеграциите с изкуствен интелект могат да представляват. Силно насърчаваме разработчиците да адаптират и разширяват тези политики въз основа на своите специфични нужди и да ги комбинират с други предпазни мерки, като например решения за продуктов дизайн, контроли за потребителите, прозрачност, подходяща за тийнейджъри, системи за наблюдение и обмислени отговори, съобразени с възрастта.

Вярваме, че многостепенният подход на защита⁠ е от съществено значение за изграждането на по-безопасни системи с изкуствен интелект. Тези политики се основават на нашия вътрешен опит, но не отразяват в пълна степен вътрешните политики или предпазни мерки на OpenAI.

Какво предстои занапред

Пускаме тези политики като отворен код чрез ROOST Model Community⁠(отваря се в нов прозорец), за да насърчим сътрудничеството и итерацията. За да допринесете, да предоставите обратна връзка или да споделите допълнителни правила за безопасност на тийнейджърите, посетете GitHub хранилището на RMC.⁠(отваря се в нов прозорец)

Разработчиците и организациите могат да адаптират тези правила към своите конкретни приложения, да ги превеждат на различни езици и да ги разширяват, така че да обхващат и допълнителни рискови области. С течение на времето се надяваме, че това ще допринесе за по-стабилна и споделена основа за прилагането на политики за безопасност в системите с ИИ.

За да започнете работа с gpt-oss-safeguard, го изтеглете от Hugging Face⁠(отваря се в нов прозорец).

Продължавайте да четете

Вижте всички

Безопасност и съгласуване при модели с дълъг хоризонт

Безопасност20.07.2026 г.

Why teens deserve access to safe AI — card image

Защо тийнейджърите заслужават достъп до безопасен ИИ

Безопасност16.07.2026 г.

GPT-Red: Самоусъвършенстване за по-голяма устойчивост

Безопасност15.07.2026 г.