Перейти до основного вмісту
OpenAI

24 березня 2026 р.

Безпека

Створення безпечніших сценаріїв взаємодії з ШІ для підлітків

Представляємо набір політик безпеки для підлітків, оформлених як запити для gpt-oss-safeguard

Завантаження…

Із метою допомогти розробникам у створенні засобів захисту для підлітків з урахуванням віку сьогодні ми випускаємо політики безпеки(відкривається у новому вікні) на основі запитів. Створені для роботи з нашою моделлю безпеки з відкритими вагами, gpt-oss-safeguard(відкривається у новому вікні), ці політики спрощують перетворення вимог безпеки на класифікатори, придатні для реальних систем.

Ми випустили моделі з відкритими вагами, щоб надавати доступ до потужного ШІ та підтримати масштабні інновації. Водночас ми вважаємо, що безпека та інновації йдуть пліч-о-пліч, і що розробники повинні мати доступ як до спроможних моделей, так і до інструментів та політик для їхнього безпечного й відповідального розгортання. Ми розробили ці політики, щоб підтримати розробників у зусиллях із захисту молодих користувачів, за участю надійних зовнішніх організацій, зокрема Common Sense Media(відкривається у новому вікні) та everyone.ai(відкривається у новому вікні).

Ми визнаємо, що підлітки й дорослі мають різні потреби, і що підлітки потребують додаткового захисту. Ці політики розроблено таким чином, щоб допомогти розробникам враховувати ці відмінності та створювати досвід, який надає більше можливостей і водночас є доречним для молодших користувачів.

Продовження нашої масштабної роботи із захисту молоді

Ми давно прагнемо створювати ШІ, який розширює можливості для молоді, водночас дбаючи про її безпеку. У межах цієї роботи ми оновили нашу специфікацію моделі(відкривається у новому вікні) — рекомендації, які визначають передбачувану поведінку моделей OpenAI, — додавши принципи для осіб віком до 18 років (Under-18 (U18) principles)(відкривається у новому вікні), а також запровадили засоби захисту на рівні продукту, як-от батьківський контроль та прогнозування віку для надійнішого захисту молодших користувачів від потенційно шкідливого вмісту. Ми також закликали до запровадження загальногалузевих заходів захисту в межах нашого Плану безпеки підлітків (Teen Safety Blueprint).

Сьогоднішня публікація ґрунтується на цій основі. Ми робимо ці політики безпеки доступними для розробників, щоб підтримати їх у впровадженні захисту для підлітків і допомогти розширити доступ у всій екосистемі моделей із відкритими вагами.

Перетворюємо безпеку підлітків на чіткі й практичні правила

Хоча класифікатори безпеки, як-от gpt-oss-safeguard, здатні самостійно виявляти шкідливий контент, вони залежать від чітких визначень того, що саме вважається таким контентом. На практиці однією з найбільших проблем, із якими стикаються розробники, є визначення політик, які точно відображають ризики, характерні для підліткової аудиторії, і які можна послідовно застосовувати в реальних системах.

Навіть досвідченим командам часто важко перетворити високорівневі цілі безпеки на чіткі, практичні правила, особливо з огляду на те, що для цього потрібні як предметна експертиза, так і глибокі знання у сфері ШІ. Це може призвести до появи прогалин у захисті, непослідовного застосування або надто широкого фільтрування. Чіткі, належним чином окреслені політики є важливою основою ефективних систем безпеки.

Допомагаємо розробникам впроваджувати безпеку для підлітків

Щоб вирішити цю проблему, ми публікуємо набір політик безпеки(відкривається у новому вікні), розроблених з урахуванням поширених ризиків, із якими стикаються підлітки, і таких, що ґрунтуються на ретельному аналізі наявних досліджень унікальних особливостей розвитку підлітків. Ці політики структуровано як запити, які можна безпосередньо використовувати з gpt-oss-safeguard(відкривається у новому вікні) та іншими моделями міркування, що дає розробникам змогу легше застосовувати узгоджені стандарти безпеки у своїх системах.

Початковий реліз містить політики, що охоплюють:

  • Зображення сцен насильства
  • Відвертий сексуальний контент
  • Ідеалізація шкідливих образів тіла та моделей поведінки
  • Небезпечні дії та челенджі
  • Рольові ігри романтичного чи насильницького характеру
  • Товари та послуги з віковими обмеженнями

Ці політики можна використовувати для фільтрації контенту в реальному часі, а також для офлайн-аналізу контенту, створеного користувачами.

Структуруючи політики як запити, розробники можуть легше інтегрувати їх у наявні робочі процеси, адаптувати до своїх сценаріїв використання та поступово вдосконалювати.

Схема, що ілюструє категорії політик безпеки для підлітків та пов’язаний із ними контент, який надходить до системи захисту GPT-OSS, що формує стратегії прийняття рішень на основі внутрішніх міркувань.

Розроблено за участю зовнішніх експертів

Ми співпрацювали із зовнішніми організаціями, зокрема Common Sense Media(відкривається у новому вікні) та everyone.ai(відкривається у новому вікні), аби врахувати їхню експертизу під час розробки цих політик. Їхній досвід допоміг нам визначити обсяг вмісту, який слід охопити, посилити структуру запитів та уточнити крайні випадки, які слід враховувати під час їх оцінювання. 

Ця робота відображає постійні зусилля, спрямовані на співпрацю з експертами та ширшою екосистемою, щоб удосконалити те, як системи ШІ підтримують молодь.

«Однією з найбільших прогалин у безпеці ШІ для підлітків була відсутність чітких, практичних політик, на основі яких розробники можуть працювати. Часто розробники починають з нуля. Ці політики на основі запитів допомагають встановити змістовний базовий рівень безпеки в усій екосистемі, а оскільки їх опубліковано як відкритий код, їх можна адаптувати й удосконалювати з часом. Нам приємно бачити, що така інфраструктура стає широко доступною, і ми сподіваємося, що вона стане каталізатором більшої кількості спільних відправних точок безпеки молоді в усій галузі».

Роббі Торні (Robbie Torney), керівник відділу ШІ та цифрового оцінювання, Common Sense Media

«Такі зусилля, які роблять політики безпеки для молоді більш практичними для впровадження, є цінними, оскільки вони допомагають перетворювати експертні знання на рекомендації, які можна використовувати в реальних системах. Політики щодо контенту є важливим першим кроком, і вони також відкривають шлях до ширшої роботи над тим, як поведінка моделі може з часом формувати ризики, що стосуються молоді. Натхненна цією роботою та нашими власними дослідженнями, everyone.ai(відкривається у новому вікні) також створила початкову поведінкову політику, зосереджену на таких ризиках, як винятковість та надмірна залежність.»

Доктор Матильда Черіолі (Dr. Mathilde Cerioli), головна наукова співробітниця в everyone.AI

Відправна точка, а не повноцінне рішення

Ці політики не повинні слугувати вичерпним чи остаточним визначенням або гарантією безпеки підлітків, а є радше відправною точкою. Кожна програма має унікальні ризики, аудиторії та контексти, і тільки самі розробники найкраще можуть розуміти ризики, які можуть становити їхні продукти та інтеграції ШІ. Ми наполегливо рекомендуємо розробникам адаптувати й розширювати ці політики відповідно до своїх конкретних потреб і поєднувати їх з іншими заходами захисту, як-от рішеннями щодо дизайну продукту, засобами контролю для користувачів, прозорістю з урахуванням потреб підлітків, системами моніторингу та продуманими, відповідними віку заходами реагування. 

Ми вважаємо, що багаторівневий підхід до глибокого захисту⁠ є важливим для створення безпечніших систем ШІ. Ці політики базуються на нашому внутрішньому досвіді, але не відображають внутрішні політики чи заходи захисту OpenAI повною мірою.

Подальші плани та перспективи

Ми публікуємо ці політики у відкритому доступі через ROOST Model Community(відкривається у новому вікні), аби сприяти подальшій співпраці та ітераціям. Щоб зробити свій внесок, залишити відгук або поділитися додатковими політиками безпеки для підлітків, відвідайте репозиторій GitHub RMC.(відкривається у новому вікні)

Розробники та організації можуть адаптувати ці політики до своїх конкретних застосунків, перекладати їх різними мовами та розширювати їх, щоб охопити додаткові сфери ризику. Ми сподіваємося, що з часом це сприятиме створенню міцнішої спільної основи для впровадження політик безпеки в системах ШІ.

Щоб почати роботу з gpt-oss-safeguard, завантажте її з Hugging Face(відкривається у новому вікні).