29 października 2025

Przedstawiamy gpt-oss-safeguard

Nowe, otwarte modele rozumowania w zakresie bezpieczeństwa (120b i 20b), obsługujące niestandardowe zasady bezpieczeństwa.

Ładowanie…

Dziś przedstawiamy omówienie badań dotyczących gpt-oss-safeguard, naszych modeli rozumowania o otwartych wagach, które pozwalają na obsługę zadań klasyfikacji bezpieczeństwa i są dostępne w dwóch rozmiarach: gpt-oss-safeguard-120b oraz gpt-oss-safeguard-20b. Te modele to odpowiednio dostosowane wersje naszych otwartych modeli gpt-oss⁠, dostępne w ramach tej samej liberalnej licencji na oprogramowanie Apache 2.0, umożliwiającej każdemu ich swobodne używanie, modyfikowanie oraz wdrażanie. Oba modele można pobrać już dziś z Hugging Face⁠(otwiera nowe okno).

Modele gpt-oss-safeguard korzystają z rozumowania, aby bezpośrednio interpretować zasady dostarczane przez programistę w czasie wnioskowania – klasyfikując wiadomości użytkownika, odpowiedzi oraz pełne czaty według potrzeb programisty. Programista zawsze decyduje, których zasad użyć, dlatego odpowiedzi są bardziej odpowiednie i dopasowane do danego zastosowania. Model wykorzystuje łańcuch myśli, który programista może sprawdzić w celu zrozumienia sposobu, w jaki model podejmuje decyzje. Dodatkowo zasady są zapewniane podczas wnioskowania, a nie wprowadzane do modelu podczas trenowania, dlatego programiści mogą z łatwością iteracyjnie sprawdzać polityki, aby zwiększyć wydajność. Takie podejście, które początkowo opracowano pod kątem użytku wewnętrznego, jest zdecydowanie bardziej elastyczne niż tradycyjne metody trenowania klasyfikatora w celu pośredniego wyznaczania granicy decyzyjnej z dużej liczby oznaczonych przykładów.

gpt-oss-safeguard umożliwia programistom wyznaczenie linii zasad, które najlepiej pasują do ich zastosowania. Na przykład forum dyskusyjne na temat gier wideo może mieć potrzebę opracowania zasad klasyfikowania postów omawiających oszustwa w grze lub strona z recenzjami produktów może chcieć wykorzystać własną politykę do sprawdzania recenzji, które wydają się być fałszywe.

Model pobiera jednocześnie dwa rodzaje danych wejściowych – zasady i treść do klasyfikacji pod kątem zasad – a następnie podaje konkluzję na temat kategorii, do której należy treść, a także przedstawia swoje rozumowanie. Programiści mogą zdecydować, w jaki sposób, jeśli w ogóle, chcą wykorzystać te konkluzje we własnych zabezpieczeniach. Zauważyliśmy, że to podejście oparte na rozumowaniu sprawdza się szczególnie dobrze w następujących sytuacjach:

Pojawia się lub zmienia potencjalne zagrożenie, a zasady należy szybko dostosować.
Domena jest wysoce zniuansowana i trudniejsza do obsługi dla mniejszych klasyfikatorów.
Programiści nie mają dość próbek do wytrenowania wysokiej jakości klasyfikatorów pod kątem każdego ryzyka na swojej platformie.
Opóźnienia są mniej ważne niż tworzenie wysokiej jakości uzasadnionych etykiet.

Wprowadzamy ten podgląd na gpt-oss-safeguard, aby uzyskać opinie od społeczności zajmującej się badaniami i bezpieczeństwem oraz dalej poprawiać wydajność modelu. Przez wiele miesięcy pracowaliśmy nad tym modelem o otwartych wagach z ROOST⁠(otwiera nowe okno), aby zidentyfikować krytyczne potrzeby programistów, przetestować model oraz stworzyć dokumentację programisty. W ramach tego uruchomienia ROOST utworzy społeczność modeli⁠(otwiera nowe okno), również wprowadzaną już dziś, aby odkryć otwarte modele AI w celu ochrony przestrzeni online. Równocześnie z tą wersją publikujemy krótki raport techniczny⁠, który zawiera szczegóły dotyczące wydajności w zakresie bezpieczeństwa tej wersji poglądowej modelu.

Bezpieczeństwo na poziomie systemu: rola klasyfikatorów bezpieczeństwa

Jeśli chodzi o bezpieczeństwo, wierzymy w dogłębną obronę⁠. Trenujemy nasze modele pod kątem bezpiecznego odpowiadania oraz wdrażamy dodatkowe warstwy ochrony i reagujemy na potencjalnie niebezpieczne dane wejściowe i wyjściowe w ramach naszych zasad. Klasyfikatory bezpieczeństwa, które odróżniają treści bezpieczne od niebezpiecznych w konkretnym obszarze ryzyka, przez długi czas stanowiły podstawową warstwę ochrony dla naszego własnego modelu językowego i innych dużych modeli językowych.

Tradycyjne klasyfikatory bezpieczeństwa, jak te dostępne za pośrednictwem naszego Moderation API⁠(otwiera nowe okno), są tworzone poprzez ręczne opracowywanie tysięcy przykładów bezpiecznych i niebezpiecznych treści, w ramach wcześniej zdefiniowanych zasad w zakresie bezpieczeństwa. Na podstawie tych danych treningowych klasyfikator uczy się odróżniać bezpieczne i niebezpieczne dane wyjściowe. W tym tradycyjnym podejściu klasyfikator nigdy nie widzi polityki bezpieczeństwa. Zamiast tego próbuje wywnioskować obowiązujące zasady, które zostały użyte do oznaczenia przykładów, poprzez wyszukiwanie podobieństw w treściach oznaczonych jako niebezpieczne oraz różnic pomiędzy bezpieczną i niebezpieczną treścią.

Tradycyjne klasyfikatory mogą charakteryzować się wysoką wydajnością, przy niskich opóźnieniach i kosztach operacyjnych. Jednak gromadzenie wystarczającej liczby przykładów szkoleniowych może być czasochłonne i kosztowne, a aktualizowanie lub zmiana zasad wymaga ponownego wytrenowania klasyfikatora.

gpt-oss-safeguard wyróżnia się tym, że jego możliwości rozumowania pozwalają programistom zastosować dowolne zasady, w tym te, które sami napisali lub pobrali z innych źródeł, a rozumowanie pomaga modelom uogólniać nowo napisane zasady. Poza zasadami bezpieczeństwa modelu gpt-oss-safeguard można używać do oznaczania treści na inne sposoby, ważne dla określonych produktów i platform.

Schemat przepływu zatytułowany „Policy-based reasoning with gpt-oss-safeguard”. Zasady zapewniane przez programistę oraz treści zapewniane przez użytkownika trafiają do GPT-OSS-Safeguard. Model generuje łańcuch rozumowania, a następnie podejmuje decyzję dotyczącą zasad, zaś pętla oznaczona jako „iteracja zasad” pozwala cofnąć się w celu udoskonalenia zasad. Legenda wskazuje dane wejściowe programisty, dane wejściowe użytkownika oraz dane wyjściowe modelu.

W jaki sposób wewnętrznie wykorzystujemy rozumowanie w zakresie bezpieczeństwa

Nasze podstawowe modele rozumowania teraz bezpośrednio uczą się naszych zasad bezpieczeństwa i wykorzystują zdolności rozumowania do określania tego, co jest bezpieczne. To podejście, które nazywamy uzgodnieniem deliberatywnym (deliberative alignment)⁠, znacząco poprawia wcześniejsze metody trenowania pod kątem bezpieczeństwa oraz sprawia, że nasze modele rozumowania są bezpieczniejsze pod wieloma względami w stosunku do swoich poprzedników, nawet w miarę wzrostu ich możliwości. Jednak rozumowanie jest przydatne nie tylko do trenowania samych modeli. Tworzy ono również nowe możliwości dogłębnej obrony. Podejścia bazujące na rozumowaniu są bardziej elastyczne i mniej ograniczone przez szczegóły poprzedniego trenowania, co stanowi korzyść, która czasem może uzasadniać dodatkowe koszty obliczeniowe i opóźnienia, jakie mogą się z tym wiązać.

gpt-oss-safeguard to charakteryzujące się otwartymi wagami wdrożenie podejścia, które opracowaliśmy wewnętrznie, w narzędziu Safety Reasoner. Zaczęliśmy od wzmocnienia konfiguracji precyzyjnej w zadaniach związanych z oznaczaniem odnoszącym do zasad, nagradzając model za odzwierciedlenie prawidłowych osądów ze strony ludzkich ekspertów. Dzięki temu model był w stanie zrozumieć, w jaki sposób polityka prowadzi do osądów. Obecnie Safety Reasoner pozwala nam dynamicznie aktualizować nasze zasady bezpieczeństwa w środowisku produkcyjnym, w czasie krótszym niż zajęłoby ponowne wytrenowanie klasyfikatora. To sprawia, że Safety Reasoner staje się kluczowym narzędziem do iteracyjnego wdrażania⁠: gdy wdrażamy nowe modele w środowisku produkcyjnym, często zaczynamy od bardziej surowych zasad i używamy względnie dużej ilości mocy obliczeniowej, gdzie jest to potrzebne do umożliwienia narzędziu Safety Reasoner dokładnego stosowania tych zasad. Następnie dostosowujemy zasady w miarę poprawy zrozumienia zagrożeń w środowisku produkcyjnym. W przypadku niektórych z naszych ostatnich wdrożeń udział całkowitej mocy obliczeniowej poświęconej rozumowaniu w zakresie bezpieczeństwa osiągnął nawet 16%.

Safety Reasoner stał się kluczowym komponentem naszej struktury bezpieczeństwa. W przypadku generowania obrazów i Sora 2 przeprowadza on dynamiczne, etapowe oceny danych wyjściowych, aby identyfikować i blokować niebezpieczne wygenerowane treści w czasie rzeczywistym. W takich obszarach jak biologia i samookaleczenie uruchamiamy modele podobne do używanych w Moderation API, jako małe, szybkie i czujne klasyfikatory, w celu określania treści znajdujących się w obszarze zainteresowania, a następnie używamy narzędzia Safety Reasoner do sprawdzania takich treści. Safety Reasoner klasyfikuje dane wyjściowe modelu w odniesieniu do szczegółowej taksonomii, aby określić najlepszy sposób odpowiedzi, tworząc w ten sposób część naszych wielowarstwowych zabezpieczeń w różnych systemach, takich jak GPT‑5 i Agent ChatGPT. Obecnie dzięki modelom gpt-oss-safeguard takie podejście jest dostępne dla każdego.

Jak radzi sobie gpt-oss-safeguard

Oceniliśmy modele gpt-oss-safeguard w wewnętrznych i zewnętrznych testach ewaluacyjnych.

W ramach oceny wewnętrznej udostępniliśmy modelowi gpt-oss-safeguard wiele zasad jednocześnie w trakcie wnioskowania. W przypadku wszystkich danych wejściowych testu oceniamy, czy gpt-oss-safeguard prawidłowo klasyfikuje tekst w ramach dołączonych zasad. To zadanie stanowi duże wyzwanie. Model jest uznawany za odpowiedni tylko wówczas, gdy dokładnie dopasuje się do wzorcowych etykiet w odniesieniu do wszystkich objętych testem zasad.

Nasze modele gpt-oss-safeguard oraz wewnętrzne narzędzie Safety Reasoner radzi sobie lepiej niż otwarte modele gpt-5-thinking oraz gpt-oss pod względem dokładności przy wielu zasadach. Zaskakujące są zwłaszcza lepsze wyniki gpt-oss-safeguard w stosunku do gpt-5-thinking ze względu na niewielki rozmiar poprzednich modeli.

Przeprowadziliśmy dalszą ocenę tych modeli na podstawie zestawu danych moderacyjnych⁠(otwiera nowe okno) przedstawionego w naszym artykule badawczym z 2022 roku⁠(otwiera nowe okno) oraz w ToxicChat⁠(otwiera nowe okno), publicznym zestawie benchmarkingowym, który oparto na zapytaniach użytkowników skierowanych do chatbota o otwartym kodzie źródłowym.

W moderacyjnym zestawie ewaluacyjnym z 2022 roku oceniliśmy wykorzystanie naszych wewnętrznych polityk bezpieczeństwa (dostosowując jedną politykę pod kątem uwzględnienia kolejnych zmian). Model gpt-oss-safeguard spisał się nieco lepiej od wszystkich innych testowanych modeli, włączając w to nasze wewnętrzne rozwiązania Safety Reasoner oraz gpt-5-thinking, chociaż różnica pomiędzy narzędziem Safety Reasoner a modelem gpt-oss-safeguard nie była istotna statystycznie.

W przypadku ToxicChat oceniliśmy wykorzystanie krótkiego, ręcznie napisanego polecenia, zaadaptowanego z wybranych zasad wewnętrznych. Nasze wewnętrzne narzędzie Safety Reasoner ponownie spisało się lepiej niż gpt-5-thinking, podczas gdy gpt-5-thinking oraz Safety Reasoner nieznacznie przewyższają modele gpt-oss-safeguard-120b i gpt-oss-safeguard-20b. Oczekujemy, że względnie mały rozmiar gpt-oss-safeguard nadal sprawia, że jest to preferowane rozwiązanie przy tego typu zadaniach.

Ograniczenia

Istnieją dwa specyficzne ograniczenia modelu gpt-oss-safeguard. Po pierwsze zaobserwowaliśmy, że klasyfikatory wytrenowane na podstawie dziesiątek tysięcy oznaczonych próbek wysokiej jakości mogą nadal spisywać się lepiej przy klasyfikowaniu treści niż model gpt-oss-safeguard przy rozumowaniu bezpośrednim na podstawie zasad. Poświęcenie czasu na wytrenowanie dedykowanego klasyfikatora może być preferowane w przypadku większej wydajności lub bardziej złożonych ryzyk.

Po drugie skuteczność modelu gpt-oss-safeguard może zależeć od czasu i mocy obliczeniowej, co utrudnia skalowanie na wszystkie treści platformy. Wewnętrznie radzimy sobie z tym przy użyciu rozwiązania Safety Reasoner na kilka sposobów: (1) używamy mniejszych i szybszych klasyfikatorów w celu określenia, jakie treści oceniać, a także (2) w niektórych sytuacjach używamy narzędzia Safety Reasoner asynchronicznie, aby zapewniać użytkownikom niewielkie opóźnienia, jednocześnie utrzymując możliwość podejmowania interwencji, jeśli wykryjemy niebezpieczne treści.

Droga przed nami: kontynuowanie współpracy ze społecznością

gpt-oss-safeguard to pierwszy zestaw charakteryzujących się otwartym kodem modeli rozumowania w zakresie bezpieczeństwa od OpenAI, stworzony we współpracy ze społecznością. Pracujemy nad udoskonalaniem gpt-oss-safeguard z zaufanymi i bezpiecznymi specjalistami z SafetyKit, ROOST, Tomoro, a także platformy Discord w ramach wczesnych testów. Vinay Rao, CTO z ROOST, powiedział: „gpt-oss-safeguard to pierwszy model wnioskowania o otwartym kodzie źródłowym, pozwalający wprowadzić własne zasady i definicje szkód. Organizacje zasługują na możliwość swobodnej nauki, modyfikacji i wykorzystywania technologii bezpieczeństwa o znaczeniu krytycznym oraz wprowadzania innowacji. Podczas naszych testów model wykazał się umiejętnością zrozumienia różnych zasad, wyjaśnienia wnioskowania oraz przedstawienia niuansów w stosowaniu zasad, co naszym zdaniem przyniesie korzyści programistom i zespołom zajmującym się bezpieczeństwem”.

Będziemy dalej usprawniać to rozwiązanie we współpracy ze społecznością, aby udoskonalać narzędzia bezpieczeństwa o otwartym kodzie, włączając w to współpracę poprzez ROOST Model Community (RMC). RMC skupia praktyków z dziedziny bezpieczeństwa oraz naukowców i pozwala dzielić się najlepszymi praktykami w zakresie wdrażania modeli AI o otwartym kodzie źródłowym w ramach procesów z zakresu bezpieczeństwa, w tym oceny wyników oraz zapewniania opinii o modelu. Odwiedź repozytorium RMC na GitHub⁠(otwiera nowe okno), aby dowiedzieć się więcej na temat tego partnerstwa i możliwości udziału w nim.

Aby rozpocząć tworzenie z wykorzystaniem tych modeli, pobierz je z Hugging Face⁠(otwiera nowe okno).

2025

Autor

OpenAI

Przeczytaj więcej

Wyświetl wszystko

Raport techniczny: Oceny działania i podstawowe oceny modeli gpt-oss-safeguard-120b i gpt-oss-safeguard-20b

Bezpieczeństwo29 paź 2025

Przedstawiamy modele gpt-oss

Wersja5 sie 2025

Karta modelu gpt‑oss‑120b & gpt‑oss‑20b

Publikacja5 sie 2025