tehnički izveštaj za gpt-oss-safeguard
Performanse i osnovne evaluacije modela gpt-oss-safeguard-120b i gpt-oss-safeguard-20b
gpt-oss-safeguard-120b i gpt-oss-safeguard-20b su dva модела резоновања са отвореним тежинама, накнадно обучена na osnovu modela gpt-oss i obučena da rezonuju na osnovu zadate politike kako bi označavala sadržaj prema toj politici. Dostupni su pod licencom Apache 2.0 i našim pravilima korišćenja za gpt-oss. Razvijeni uz povratne informacije zajednice otvorenog koda, ovi modeli samo za tekst kompatibilni su sa našim Responses API-jem. Modeli se mogu prilagođavati, pružaju pun način rezonovanja (CoT), mogu se koristiti uz različite nivoe rezonovanja (niski, srednji, visoki) i podržavaju strukturirane izlaze.
U ovom izveštaju opisujemo mogućnosti gpt-oss-safeguard-a i dajemo naše osnovne bezbednosne evaluacije modela gpt-oss-safeguard, koristeći osnovne modele gpt-oss kao referentnu osnovu. Za više informacija o razvoju i arhitekturi osnovnih modela gpt-oss, pogledajte originalnu картицу модела za gpt-oss.
Preporučujemo upotrebu ovih modela za klasifikaciju sadržaja prema zadatoj politici, a ne kao osnovnu funkcionalnost sa kojom krajnji korisnici komuniciraju; originalni modeli gpt-oss su bolji za te primene. Bezbednosne metrike navedene u nastavku opisuju kako modeli gpt-oss-safeguard funkcionišu u podešavanjima ćaskanja. Modeli gpt-oss-safeguard nisu namenjeni za ovu upotrebu, ali pošto su to otvoreni modeli, moguće je da ih neko koristi na taj način. Zbog te mogućnosti želeli smo da proverimo da li ispunjavaju naše bezbednosne standarde u takvoj upotrebi; ovaj izveštaj deli rezultate tih testova. Takođe delimo početnu evaluaciju višejezičkih performansi u okruženju ćaskanja; imajte u vidu da to ne procenjuje direktno performanse tokom klasifikacije sadržaja prema zadatoj politici.
Modeli gpt-oss-safeguard su fino podešene verzije svojih gpt-oss parnjaka i obučeni su bez ikakvih dodatnih bioloških ili sajberbezbednosnih podataka. Kao rezultat toga, utvrdili smo da se prethodni rad o proceni najgorih mogućih scenarija iz objave gpt-oss takođe primenjuje na ove nove modele.

