Przejdź do treści głównej
OpenAI

29 października 2025

BezpieczeństwoWersja

Raport techniczny

Oceny działania i podstawowe oceny modeli gpt-oss-safeguard-120b i gpt-oss-safeguard-20b

Wstęp

gpt-oss-safeguard-120b i gpt-oss-safeguard-20b to dwa modele rozumowania z otwartymi wagami, które zostały stworzone w wyniku przeprowadzenia treningu uzupełniającego modeli gpt-oss i trenowania na potrzeby rozumowania na podstawie danych zasad w celu oznaczania treści przy użyciu tych zasad. Zostały one udostępnione na licencji Apache 2.0. Korzystanie z nich podlega naszym zasadom użytkowania modeli gpt-oss. Modele te zostały stworzone z uwzględnieniem opinii społeczności open-source i są zgodne z naszym interfejsem Responses API. Można je dostosowywać, mają pełny łańcuch myśli (CoT), można ich używać z różnymi wysiłkami związanymi z rozumowaniem (niski, średni, wysoki) i obsługują one ustrukturyzowane dane wyjściowe.

W tym raporcie opisaliśmy zdolności modeli gpt-oss-safeguard i przedstawiliśmy nasze podstawowe oceny dotyczące bezpieczeństwa modeli gpt-oss-safeguard, dla których punktem odniesienia były pierwotne modele gpt-oss. Więcej informacji na temat rozwoju i architektury pierwotnych modeli gpt-oss zawiera wcześniejsza karta modelu gpt-oss.

Zalecamy używanie tych modeli do klasyfikowania treści zgodnie z danymi zasadami. Nie zalecamy używania ich jako podstawowej funkcjonalności dla użytkowników końcowych. Do takich zastosowań lepiej nadają się pierwotne modele gpt-oss. Poniższe metryki bezpieczeństwa opisują działanie modeli gpt-oss-safeguard w kontekście czatu. Modele gpt-oss-safeguard nie są przeznaczone do używania w tym kontekście. Ponieważ jednak są to modele open model, istnieje prawdopodobieństwo, że ktoś użyje ich w ten sposób. Z tego powodu chcieliśmy przetestować, czy spełniają one nasze standardy bezpieczeństwa w przypadku tego kontekstu. Wyniki tych testów zostały przedstawione w tym raporcie. Udostępniamy także początkową ocenę działania w kontekście czatu w przypadku wielu języków. Należy pamiętać, że nie uwzględnia ona bezpośredniej oceny działania podczas klasyfikacji treści przy użyciu danych zasad.

Modele gpt-oss-safeguard powstały w wyniku konfiguracji precyzyjnej ich odpowiedników gpt-oss i zostały wytrenowane bez użycia jakichkolwiek dodatkowych danych dotyczących biologii lub cyberbezpieczeństwa. W rezultacie ustaliliśmy, że poprzednia praca dotycząca szacowania największego zagrożenia w przypadku zdolności modeli gpt-oss ma też zastosowanie do nowych modeli.

Autor

OpenAI