Przejdź do treści głównej
OpenAI

24 marca 2026

Bezpieczeństwo

Pomagamy programistom tworzyć bezpieczniejsze AI dla nastolatków

Przedstawiamy zestaw zasad bezpieczeństwa dotyczących nastolatków w postaci poleceń dla gpt-oss-safeguard.

Ładowanie…

Dzisiaj udostępniamy zasady bezpieczeństwa(otwiera nowe okno) oparte na poleceniach pomagających programistom tworzyć zabezpieczenia w kontekście nastolatków dostosowane do ich wieku. Rozwiązania te współpracują z naszym modelem bezpieczeństwa o otwartych wagach, gpt-oss-safeguard(otwiera nowe okno), i upraszczają przekształcanie wymogów dotyczących bezpieczeństwa w użyteczne klasyfikatory dla systemów działających w warunkach rzeczywistych.

Modele z otwartymi wagami opracowaliśmy, aby zdemokratyzować dostęp do zaawansowanej AI i rozwijać innowacyjność. Jednocześnie uważamy, że bezpieczeństwo i innowacje idą w parze, a programiści powinni mieć dostęp do zaawansowanych modeli oraz narzędzi i zasad umożliwiających ich bezpieczne, odpowiedzialne wdrażanie. Niniejsze zasady opracowaliśmy (z pomocą zaufanych organizacji zewnętrznych, w tym Common Sense Media(otwiera nowe okno) i everyone.ai(otwiera nowe okno)), aby programiści mogli stosować zabezpieczenia chroniące młodych użytkowników.

Zdajemy sobie sprawę, że nastolatki i dorośli mają różne potrzeby oraz że nastolatki potrzebują dodatkowej ochrony. Niniejsze zasady mają pomóc programistom uwzględnić te różnice i tworzyć rozwiązania, które są zarówno pomocne, jak i odpowiednie dla młodszych użytkowników.

Zwiększanie poziomu ochrony młodzieży

Od dawna angażujemy się w tworzenie sztucznej inteligencji, która zwiększa szanse młodych ludzi, jednocześnie dbając o ich bezpieczeństwo. W ramach tych działań zaktualizowaliśmy naszą specyfikację modelu(otwiera nowe okno), czyli wytyczne określające pożądane zachowanie modeli OpenAI, o zasady dotyczące osób poniżej 18 roku życia (U18)(otwiera nowe okno), a także wprowadziliśmy zabezpieczenia na poziomie produktu, takie jak kontrola rodzicielska i przewidywanie wieku, aby lepiej chronić młodszych użytkowników. W naszym Planie ochrony nastolatków wezwaliśmy również inne firmy z branży do wprowadzenia własnych zabezpieczeń.

Dzisiejsza premiera opiera się na tych fundamentach. Udostępniamy te zasady bezpieczeństwa programistom, aby ułatwić im wdrażanie zabezpieczeń chroniących nastolatków i pomagać demokratyzować dostęp w ekosystemie otwartych wag.

Bezpieczeństwo nastolatków jako jasne i praktyczne zasady

Klasyfikatory bezpieczeństwa, takie jak gpt-oss-safeguard, mogą wykrywać szkodliwe treści, jednak ich sprawność zależy od jasno określonych definicji „szkodliwych treści”. W praktyce jednym z największych problemów, przed którymi stoją programiści, jest definiowanie zasad trafnie uwzględniających zagrożenia specyficzne dla nastolatków i zapewniających konsekwentnie stosowane w rzeczywistych systemach.

Nawet doświadczone zespoły często mają trudności z przełożeniem ogólnych celów w zakresie bezpieczeństwa na precyzyjne, operacyjne zasady, zwłaszcza że wymaga to zarówno ekspertyzy specjalistycznej, jak i dogłębnej wiedzy z zakresu AI. Z tego względu mogą występować luki w ochronie, niespójne egzekwowanie zasad lub niedostatecznie precyzyjne filtrowanie. Jasne, właściwie określone zasady stanowią kluczowy fundament skutecznych systemów bezpieczeństwa.

Pomagamy programistom chronić nastolatków

Aby sprostać temu wyzwaniu, publikujemy zestaw zasad bezpieczeństwa(otwiera nowe okno), dostosowanych do typowych zagrożeń, z jakimi spotykają się nastolatki, które opracowaliśmy na podstawie uważnej analizy dostępnych badań na temat indywidualnych różnic rozwojowych nastolatków. Zasady są przedstawione w postaci poleceń, które można bezpośrednio stosować z gpt-oss-safeguard(otwiera nowe okno) i innymi modelami rozumującymi, co pozwala na łatwiejsze wdrażanie spójnych standardów bezpieczeństwa w systemach tworzonych przez programistów.

Opublikowana wersja obejmuje następujące zasady:

  • Drastyczne treści zawierające przemoc
  • Treści seksualne o drastycznym charakterze
  • Szkodliwe wzorce dotyczące ciała i zachowania
  • Niebezpieczne aktywności i wyzwania
  • Odgrywanie ról o charakterze romantycznym lub brutalnym
  • Towary i usługi objęte ograniczeniem wiekowym

Zasady te mogą być używane zarówno do filtrowania treści w czasie rzeczywistym, jak i do analizy offline treści generowanych przez użytkowników.

Przekazanie zasad w formie poleceń ułatwia ich integrowanie z istniejącymi przepływami pracy, dopasowanie do odpowiednich zastosowań i dalsze iteracyjne udoskonalanie.

Schemat przedstawiający kategorie zasad bezpieczeństwa dotyczących nastolatków oraz treści związane z nastolatkami trafiające do systemu zabezpieczeń GPT-OSS, który w oparciu o wewnętrzne rozumowanie generuje decyzje dotyczące zasad.

Z pomocą ekspertów zewnętrznych

Zasady opracowaliśmy wspólnie z organizacjami zewnętrznymi, w tym z Common Sense Media(otwiera nowe okno) i everyone.ai(otwiera nowe okno). Ich specjalistyczna pomoc pomogła określić zakres treści do uwzględnienia, usprawniła strukturę poleceń i dopracowanie przypadków brzegowych, których nie można pominąć podczas oceny. 

Ta praca wpisuje się nasze nieustanne starania na rzecz współpracy z ekspertami i szerokim ekosystemem branży AI w celu udoskonalenia sposobu, w jaki systemy AI wspierają młodych ludzi.

„Jedną z największych luk w bezpieczeństwie AI w kontekście nastolatków był brak jasnych zasad, na których deweloperzy mogą bazować. Często programiści zaczynają od podstaw. Niniejsze zasady oparte na poleceniach pomagają ustanowić istotny minimalny poziom bezpieczeństwa w całym ekosystemie, a ponieważ są udostępniane na licencji open source, mogą być z czasem dostosowywane i udoskonalane. Cieszy nas, że tego rodzaju infrastruktura staje się szeroko dostępna, i mamy nadzieję, że przyczyni się to do powstania większej liczby punktów wspólnych w zakresie zapewniania bezpieczeństwa młodzieży w całej branży”,

Robbie Torney, dyrektor ds. AI i ocen cyfrowych, Common Sense Media

„Działania takie jak to nadają zasadom bezpieczeństwa w odniesieniu do młodych użytkowników bardziej praktyczny wymiar i są niezwykle ważne, ponieważ pomagają przełożyć wiedzę ekspercką na wskazówki, które można stosować w rzeczywistych systemach. Zasady dotyczące treści stanowią ważny pierwszy krok, a także otwierają drogę do szerszych prac nad tym, jak zachowanie modelu może z czasem kształtować ryzyka istotne dla młodych użytkowników. Inspirując się tą pracą i naszymi badaniami prowadzonymi w everyone.ai(otwiera nowe okno) również opracowaliśmy wstępne zasady behawioralne koncentrujące się na takich zagrożeniach jak wykluczenie i niedostateczne weryfikowanie”,

Dr. Mathilde Cerioli, dyrektor naukowy w everyone.AI

Punkt wyjścia, a nie pełne rozwiązanie

Zasady te mają stanowić punkt wyjścia, a nie wyczerpującą ani ostateczną definicję czy gwarancję w zakresie zapewniania bezpieczeństwa nastolatkom. Każda aplikacja cechuje się unikalnymi zagrożeniami, odbiorcami i kontekstami, a programiści najlepiej rozumieją ryzyka, jakie mogą stwarzać ich produkty i integracje AI. Zdecydowanie zachęcamy ich do dostosowywania i rozszerzania tych zasad w oparciu o swoje konkretne potrzeby oraz do łączenia ich z innymi zabezpieczeniami, takimi jak decyzje projektowe dotyczące produktu, mechanizmy kontroli użytkownika, przejrzystość ukierunkowana na nastolatków, systemy monitorowania oraz przemyślane reakcje dostosowane do wieku. 

Uważamy, że wielowarstwowe podejście oparte na dogłębnej obronie jest kluczowym aspektem budowania bezpieczniejszych systemów AI. Zasady te opierają się na naszych wewnętrznych doświadczeniach, ale nie odzwierciedlają pełnego zakresu wewnętrznych polityk ani zabezpieczeń OpenAI.

Dalsze działania

Udostępniamy te zasady na licencji open source za pośrednictwem ROOST Model Community(otwiera nowe okno), aby zachęcić wszystkich uczestników w branży do współpracy i rozwoju. Aby przyłączyć się do inicjatywy, przekazać opinię lub podzielić się dodatkowymi zasadami bezpieczeństwa dotyczącymi nastolatków, odwiedź Repozytorium GitHub RMC.(otwiera nowe okno)

Programiści i organizacje mogą dostosowywać te zasady do swoich konkretnych zastosowań, tłumaczyć je na różne języki oraz rozwijać tak, aby obejmowały dodatkowe obszary ryzyka. Z biegiem czasu mamy nadzieję, że przyczynią się one do opracowania bardziej solidnych i uniwersalnych fundamentów wdrażania zasad bezpieczeństwa w systemach AI.

Aby rozpocząć pracę z gpt-oss-safeguard, pobierz model z Hugging Face(otwiera nowe okno).