Karta modelu gpt‑oss‑120b & gpt‑oss‑20b
Przedstawiamy gpt-oss-120b i gpt-oss-20b – dwa modele reasoning typu open weight dostępne na licencji Apache 2.0 zgodnie z naszą polityką użytkowania gpt-oss. Opracowane przy udziale społeczności open source, te modele tekstowe są kompatybilne z naszą Responses API i zostały zaprojektowane do wykorzystania w agentycznych przepływach pracy, oferując ścisłe przestrzeganie instrukcji, użycie narzędzi takich jak wyszukiwanie w sieci i wykonywanie kodu Python oraz możliwości wnioskowania — w tym opcję dostosowania nakładu pracy intelektualnej dla zadań niewymagających złożonego rozumowania. Modele są konfigurowalne, oferują pełny Chain‑of‑Thought (CoT) i obsługują strukturalne wyniki.
Bezpieczeństwo jest fundamentem naszych modeli open model. Prezentują inny profil ryzyka niż modele proprietarne: Po ich udostępnieniu zdeterminowani atakujący mogliby je dostroić, aby obejść odmowy bezpieczeństwa lub bezpośrednio zoptymalizować je do wyrządzania szkód, a OpenAI nie miałoby możliwości wdrożenia dodatkowych zabezpieczeń ani odebrania dostępu.
W niektórych kontekstach deweloperzy i przedsiębiorstwa będą musieli wdrożyć dodatkowe zabezpieczenia, aby odtworzyć ochrony na poziomie systemu wbudowane w modele udostępniane za pośrednictwem naszego interfejsu API i produktów. Nazywamy ten dokument kartą modelu, a nie kartą systemu, ponieważ modele gpt-oss będą wykorzystywane jako element szerokiej gamy systemów tworzonych i utrzymywanych przez różnorodnych interesariuszy. Chociaż modele są domyślnie zaprojektowane tak, by przestrzegać polityk bezpieczeństwa OpenAI, inni interesariusze również będą podejmować i wdrażać własne decyzje dotyczące tego, jak utrzymać te systemy w bezpieczeństwie.
Przeprowadziliśmy skalowalne oceny zdolności modelu gpt-oss-120b i potwierdziliśmy, że model domyślny nie osiąga naszych orientacyjnych progów dla poziomu High capability w żadnej z trzech monitorowanych kategorii w ramach naszego Preparedness Framework (Biological and Chemical capability, Cyber capability oraz AI Self-Improvement). Zbadaliśmy również dwa dodatkowe pytania:
- Czy złośliwi aktorzy mogliby dostroić gpt-oss-120b, aby osiągnąć High capability w domenach Biological and Chemical lub Cyber? Symulując potencjalne działania atakującego, dostroiliśmy gpt‑oss‑120b w sposób adversarialny dla tych dwóch kategorii. Safety Advisory Group („SAG”) OpenAI przeanalizowała te testy i stwierdziła, że nawet przy solidnym fine-tuning wykorzystującym wiodący training stack OpenAI, model gpt-oss-120b nie osiągnął poziomu High capability w obszarze Biological and Chemical Risk ani Cyber risk.
- Czy publikacja gpt‑oss‑120b znacząco przesunie granicę możliwości biologicznych w otwartych modelach fundamentowych? Odkryliśmy, że odpowiedź brzmi: nie: W większości ocen domyślna wydajność jednego lub więcej istniejących otwartych modeli niemal dorównuje wydajności gpt-oss-120b po adversarial fine-tuningu.
W ramach tej premiery OpenAI ponownie potwierdza swoje zobowiązanie do rozwijania korzystnej sztucznej inteligencji i podnoszenia standardów bezpieczeństwa w całym ekosystemie.


