29. октобар 2025.

tehnički izveštaj za gpt-oss-safeguard

Performanse i osnovne evaluacije modela gpt-oss-safeguard-120b i gpt-oss-safeguard-20b

Uvod

gpt-oss-safeguard-120b i gpt-oss-safeguard-20b su dva модела резоновања са отвореним тежинама, накнадно обучена na osnovu modela gpt-oss i obučena da rezonuju na osnovu zadate politike kako bi označavala sadržaj prema toj politici. Dostupni su pod licencom Apache 2.0 i našim pravilima korišćenja za gpt-oss. Razvijeni uz povratne informacije zajednice otvorenog koda, ovi modeli samo za tekst kompatibilni su sa našim Responses API-jem. Modeli se mogu prilagođavati, pružaju pun način rezonovanja (CoT), mogu se koristiti uz različite nivoe rezonovanja (niski, srednji, visoki) i podržavaju strukturirane izlaze.

U ovom izveštaju opisujemo mogućnosti gpt-oss-safeguard-a i dajemo naše osnovne bezbednosne evaluacije modela gpt-oss-safeguard, koristeći osnovne modele gpt-oss kao referentnu osnovu. Za više informacija o razvoju i arhitekturi osnovnih modela gpt-oss, pogledajte originalnu картицу модела za gpt-oss⁠.

Preporučujemo upotrebu ovih modela za klasifikaciju sadržaja prema zadatoj politici, a ne kao osnovnu funkcionalnost sa kojom krajnji korisnici komuniciraju; originalni modeli gpt-oss su bolji za te primene. Bezbednosne metrike navedene u nastavku opisuju kako modeli gpt-oss-safeguard funkcionišu u podešavanjima ćaskanja. Modeli gpt-oss-safeguard nisu namenjeni za ovu upotrebu, ali pošto su to otvoreni modeli, moguće je da ih neko koristi na taj način. Zbog te mogućnosti želeli smo da proverimo da li ispunjavaju naše bezbednosne standarde u takvoj upotrebi; ovaj izveštaj deli rezultate tih testova. Takođe delimo početnu evaluaciju višejezičkih performansi u okruženju ćaskanja; imajte u vidu da to ne procenjuje direktno performanse tokom klasifikacije sadržaja prema zadatoj politici.

Modeli gpt-oss-safeguard su fino podešene verzije svojih gpt-oss parnjaka i obučeni su bez ikakvih dodatnih bioloških ili sajberbezbednosnih podataka. Kao rezultat toga, utvrdili smo da se prethodni rad o proceni najgorih mogućih scenarija⁠ iz objave gpt-oss takođe primenjuje na ove nove modele.

2025.

Аутор

OpenAI

Наставите са читањем

Прикажи све

Представљамо gpt-oss-safeguard

Производ29. окт 2025.

Картица модела за gpt-oss-120b и gpt-oss-20b

Публикација5. авг 2025.

Представљамо gpt-oss

Издање5. авг 2025.