24 марта 2026 г.

Создание безопасной ИИ-среды для подростков

Представляем набор политик безопасности для подростков в формате подсказок для gpt-oss-safeguard

Загрузка…

Сегодня мы выпускаем политики безопасности⁠(открывается в новом окне) на основе промптов, чтобы помочь разработчикам создавать механизмы защиты, соответствующие возрасту подростков. Эти политики, разработанные для работы с нашей открытой моделью безопасности gpt-oss-safeguard⁠(открывается в новом окне), упрощают процесс преобразования требований безопасности в готовые классификаторы для реальных систем.

Мы выпустили модели с открытыми весами, чтобы сделать доступ к мощному ИИ более демократичным и поддержать широкие инновации. В то же время мы считаем, что безопасность и инновации идут рука об руку, и что разработчики должны иметь доступ к мощным моделям, а также к инструментам и политикам, необходимым для их безопасного и ответственного развертывания. Мы разработали эти политики, чтобы поддержать разработчиков в их усилиях по обеспечению безопасности и защите молодых пользователей, с учетом рекомендаций авторитетных внешних организаций, включая Common Sense Media⁠(открывается в новом окне) и everyone.ai⁠(открывается в новом окне).

Мы осознаем, что потребности подростков и взрослых различаются, и, что подросткам требуются дополнительные меры защиты. Эти правила призваны помочь разработчикам учитывать эти различия и создавать такие условия взаимодействия, которые расширяют возможности и подходят более юным пользователям.

Развитие наших инициатив по защите молодежи

Мы стремимся создавать ИИ, который расширяет возможности для молодежи, обеспечивая при этом их безопасность. В рамках этой работы мы обновили нашу спецификацию модели OpenAI⁠(открывается в новом окне)— руководство, определяющее предполагаемое поведение моделей OpenAI, — включив в нее принципы взаимодействия для лиц младше 18 лет⁠(открывается в новом окне), а также внедрили меры защиты на уровне продукта, такие как родительский контроль⁠ и определение возраста⁠, чтобы лучше защищать более молодых пользователей. Мы также призвали к внедрению мер защиты в масштабах всей отрасли через наш План по обеспечению безопасности подростков (Teen Safety Blueprint)⁠.

Сегодняшний релиз опирается на этот фундамент. Мы открываем доступ к этим политикам безопасности для разработчиков, чтобы помочь им во внедрении механизмов защиты подростков и способствовать демократизации доступа в экосистеме моделей с открытыми весами.

Адаптация принципов безопасности для подростков в четкие и применимые политики

Хотя классификаторы безопасности, такие как gpt-oss-safeguard, могут обнаруживать вредоносный контент, они зависят от четких определений того, что именно считается таким контентом. На практике одна из самых больших проблем, с которыми сталкиваются разработчики, — определение политик, которые точно отражают риски, характерные для подростков, и которые можно последовательно применять в реальных системах.

Даже опытным командам часто бывает трудно преобразовать высокоуровневые цели в области безопасности в точные, применимые на практике правила, особенно потому, что для этого требуются как глубокие знания в предметной области, так и глубокое понимание ИИ. Это может привести к пробелам в защите, непоследовательному применению или чрезмерно широкой фильтрации. Четко очерченные политики являются критически важным фундаментом для эффективных систем безопасности.

Помощь разработчикам в реализации мер безопасности для подростков

Чтобы решить эту проблему, мы выпускаем набор правил безопасности⁠(открывается в новом окне), разработанных с учетом распространенных рисков, с которыми сталкиваются подростки, и основанных на тщательном анализе существующих исследований, посвященных уникальным особенностям развития подростков. Эти политики структурированы как промпты, которые можно напрямую использовать с gpt-oss-safeguard⁠(открывается в новом окне) и другими моделями рассуждений, что облегчает разработчикам применение единых стандартов безопасности в своих системах.

Первый релиз включает политики, охватывающие:

Графический контент с элементами насилия
Графический контент сексуального характера
Вредные представления о теле и поведении
Опасные действия и испытания
Ролевые игры романтического или насильственного характера
Товары и услуги с возрастными ограничениями

Эти политики можно использовать как для фильтрации контента в реальном времени, так и для офлайн-анализа пользовательского контента.

Благодаря структурированию политик в виде промптов, разработчики могут легче интегрировать их в существующие рабочие процессы, адаптировать под свои сценарии использования и совершенствовать их со временем.

Диаграмма, изображающая категории политик безопасности для подростков и контент, связанный с подростками, поступающий в систему защиты GPT-OSS, которая выносит решения по политике, основанные на внутренних рассуждениях.

Разработано с участием внешних экспертов

Мы работали с внешними организациями, такими как Common Sense Media⁠(открывается в новом окне) и everyone.ai⁠(открывается в новом окне), при разработке этих политик. Их опыт помог определить охват контента, укрепить структуру промптов и уточнить пограничные случаи, которые необходимо учитывать при их оценке.

Эта работа отражает наши постоянные усилия по сотрудничеству с экспертами и всей экосистемой для улучшения того, как системы ИИ поддерживают молодежь.

«Одним из самых больших пробелов в области безопасности ИИ для подростков было отсутствие четких, применимых на практике политик, на основе которых разработчики могли бы строить свою работу. Зачастую им приходится начинать с нуля. Эти политики на основе промптов помогают установить значимый базовый уровень безопасности во всей экосистеме, а поскольку они выпущены как открытый исходный код, их можно адаптировать и улучшать со временем. Мы воодушевлены тем, что подобная инфраструктура становится общедоступной, и надеемся, что это станет катализатором для создания общих стандартов безопасности молодежи в индустрии».

—Робби Торни, руководитель направления ИИ и цифровых оценок, Common Sense Media

«Подобные инициативы, делающие политики безопасности молодежи более прикладными, ценны тем, что они помогают перевести экспертные знания в руководства, которые можно использовать в реальных системах. Политики контента — это важный первый шаг, который также открывает дверь для более широкой работы над тем, как поведение моделей может влиять на риски, актуальные для молодежи, в долгосрочной перспективе. Вдохновившись этой работой и нашими собственными исследованиями, everyone.ai⁠(открывается в новом окне) также создала первоначальную политику поведения, сфокусированную на таких рисках, как эксклюзивность и чрезмерная зависимость».

—д-р Матильда Сериоли, главный научный сотрудник everyone.AI

Отправная точка, а не готовое решение

Данные политики задуманы как отправная точка, а не как всеобъемлющее или окончательное решения или гарантия безопасности подростков. Каждое приложение имеет уникальные риски, аудиторию и контекст, и именно разработчики лучше всего подготовлены к пониманию рисков, которые могут представлять их продукты и интеграции ИИ. Мы настоятельно рекомендуем разработчикам адаптировать и расширять эти политики в соответствии с их конкретными потребностями, а также сочетать их с другими мерами защиты, такими как решения в области дизайна продукта, средства пользовательского контроля, прозрачность, учитывающая потребности подростков, системы мониторинга и продуманные, соответствующие возрасту меры реагирования.

Мы считаем, что многоуровневый подход к защите⁠ необходим для создания более безопасных систем ИИ. Эти политики основаны на нашем внутреннем опыте, однако они не отражают весь объем внутренних политик или защитных механизмов OpenAI.

Что дальше

Мы публикуем эти политики с открытым исходным кодом через сообщество ROOST Model Community⁠(открывается в новом окне), чтобы стимулировать сотрудничество и дальнейшую доработку. Чтобы внести свой вклад, оставить отзыв или поделиться дополнительными политиками безопасности для подростков, посетите репозиторий RMC на GitHub.⁠(открывается в новом окне)

Разработчики и организации могут адаптировать эти политики под свои конкретные приложения, переводить их на разные языки и расширять их, чтобы охватить дополнительные области риска. Со временем мы надеемся, что это будет способствовать созданию более надежной и общей основы для внедрения политик безопасности в системы ИИ.

Чтобы начать работать с gpt-oss-safeguard, скачайте его на Hugging Face⁠(открывается в новом окне).

Читать далее

Просмотреть все

Безопасность и согласование ИИ-моделей с длинным горизонтом задач

Безопасность20 июл. 2026 г.

Why teens deserve access to safe AI — card image

Почему подросткам нужен доступ к безопасному ИИ

Безопасность16 июл. 2026 г.

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.