გადადით მთავარ შინაარსზე
OpenAI

29 ოქტომბერი, 2025

პროდუქტიგამოშვება

გაცნობთ gpt-oss-safeguard-ს

უსაფრთხოების ახალი open reasoning მოდელები (120b და 20b), რომლებიც მხარს უჭერს მორგებულ უსაფრთხოების პოლიტიკებს.

იტვირთება…

დღეს ვაქვეყნებთ gpt-oss-safeguard-ის კვლევით პრევიუს — ჩვენი open-weight მსჯელობის მოდელების უსაფრთხოების კლასიფიკაციის ამოცანებისთვის, რომლებიც ხელმისაწვდომია ორ ზომაში: gpt-oss-safeguard-120b და gpt-oss-safeguard-20b. ეს მოდელები ჩვენი gpt-oss open model-ების დახვეწილი ვერსიებია და ხელმისაწვდომია იგივე მოქნილი Apache 2.0 ლიცენზიით, რაც ნებისმიერს საშუალებას აძლევს, ისინი თავისუფლად გამოიყენოს, შეცვალოს და განათავსოს. ორივე მოდელის ჩამოტვირთვა უკვე დღეს შეიძლება Hugging Face(იხსნება ახალ ფანჯარაში)-დან.

gpt-oss-safeguard მოდელები იყენებს მსჯელობას, რათა ინფერენსის დროს პირდაპირ განმარტოს დეველერის მიერ მოწოდებული პოლიტიკა — კლასიფიკაცია გაუკეთოს მომხმარებლის შეტყობინებებს, completion-ებს და სრულ ჩატებს დეველერის საჭიროებების შესაბამისად. დეველერი ყოველთვის წყვეტს, რომელი პოლიტიკა გამოიყენოს, ამიტომ პასუხები უფრო რელევანტური და დეველერის გამოყენების შემთხვევაზე მორგებულია. მოდელი იყენებს აზროვნების ჯაჭვს, რომლის გადახედვაც დეველერს შეუძლია, რათა გაიგოს, როგორ მიდის მოდელი თავის გადაწყვეტილებებამდე. გარდა ამისა, პოლიტიკა მიეწოდება ინფერენსის დროს, ნაცვლად იმისა, რომ მოდელში იყოს გაწვრთნილი, ამიტომ დეველერებს მარტივად შეუძლიათ პოლიტიკების განმეორებით გადახედვა ეფექტურობის გასაზრდელად. ეს მიდგომა, რომელიც თავდაპირველად შიდა გამოყენებისთვის შევიმუშავეთ, მნიშვნელოვნად უფრო მოქნილია, ვიდრე ტრადიციული მეთოდი, როცა კლასიფიკატორი იწვრთნება დიდი რაოდენობის მონიშნული მაგალითებიდან გადაწყვეტილების საზღვრის ირიბად გამოსატანად.

gpt-oss-safeguard დეველერებს საშუალებას აძლევს, გაავლონ პოლიტიკის ის ზღვარი, რომელიც საუკეთესოდ შეესაბამება მათ გამოყენების შემთხვევას. მაგალითად, ვიდეოთამაშების დისკუსიის ფორუმს შეიძლება სურდეს ისეთი პოლიტიკის შემუშავება, რომელიც დააკლასიფიცირებს თამაშში თაღლითობაზე მოსაუბრე პოსტებს, ან პროდუქტის მიმოხილვების საიტს შეიძლება უნდოდეს საკუთარი პოლიტიკის გამოყენება იმ მიმოხილვების გასაფილტრად, რომლებიც ყალბად ჩანს.

მოდელი ერთდროულად იღებს ორ შეყვანას — პოლიტიკას და კონტენტს, რომელიც ამ პოლიტიკის მიხედვით უნდა დაკლასიფიცირდეს — და აბრუნებს დასკვნას იმის შესახებ, სად ხვდება კონტენტი, თავის მსჯელობასთან ერთად. დეველერები თავად წყვეტენ, როგორ გამოიყენონ ეს დასკვნები, თუ საერთოდ გამოიყენებენ, საკუთარ უსაფრთხოების pipeline-ებში. ვნახეთ, რომ მსჯელობაზე დაფუძნებული ეს მიდგომა განსაკუთრებით კარგად მუშაობს იმ სიტუაციებში, სადაც:

  • პოტენციური ზიანი ახლად ჩნდება ან ვითარდება და პოლიტიკებს სწრაფად ადაპტირება სჭირდება.
  • დომენი მეტად ნიუანსურია და პატარა კლასიფიკატორებისთვის რთულად დასამუშავებელია.
  • დეველერებს არ აქვთ საკმარისი ნიმუშები, რომ თავიანთ პლატფორმაზე თითოეული რისკისთვის მაღალი ხარისხის კლასიფიკატორი გაწვრთნან.
  • დაყოვნება ნაკლებად მნიშვნელოვანია, ვიდრე მაღალი ხარისხის, ახსნადი ლეიბლების მიღება.

gpt-oss-safeguard-ის ამ პრევიუს ვაქვეყნებთ, რათა მივიღოთ უკუკავშირი კვლევითი და უსაფრთხოების საზოგადოებისგან და კიდევ უფრო დავხვეწოთ მოდელის ეფექტურობა. რამდენიმე თვის განმავლობაში ამ open weight რელიზზე ROOST(იხსნება ახალ ფანჯარაში)-თან ერთად ვმუშაობდით, რათა დაგვედგინა დეველერების კრიტიკული საჭიროებები, გამოგვეტესტა მოდელი და შეგვექმნა დეველერის დოკუმენტაცია. ამ გაშვების ფარგლებში ROOST შექმნის model community(იხსნება ახალ ფანჯარაში)-ს, რომელიც ასევე დღეს გაეშვება, რათა გამოიკვლიოს ღია AI მოდელები ონლაინ სივრცეების დასაცავად. ამ რელიზთან ერთად ვაქვეყნებთ მოკლე technical report-საც, რომელშიც დეტალურადაა აღწერილი ამ პრევიუ მოდელის უსაფრთხოების ეფექტურობა.

სისტემის დონის უსაფრთხოება: უსაფრთხოების კლასიფიკატორების როლი

რაც შეეხება უსაფრთხოებას, ჩვენ გვჯერა ღრმა, მრავალშრიანი დაცვის. ჩვენ ვწვრთნით ჩვენს მოდელებს, რომ უსაფრთხოდ უპასუხონ, და ვნერგავთ დაცვის დამატებით ფენებს, რათა ჩვენი პოლიტიკების შესაბამისად აღმოვაჩინოთ და მოვაგვაროთ პოტენციურად არაუსაფრთხო შეყვანები და გამოსავლები. უსაფრთხოების კლასიფიკატორები, რომლებიც კონკრეტულ რისკის სფეროში უსაფრთხო და არაუსაფრთხო კონტენტს ერთმანეთისგან არჩევენ, დიდი ხანია ჩვენი და სხვა დიდი ენობრივი მოდელების დაცვის ერთ-ერთი ძირითადი ფენაა.

ტრადიციული უსაფრთხოების კლასიფიკატორები, მაგალითად ისინი, რომლებიც ხელმისაწვდომია ჩვენი Moderation API(იხსნება ახალ ფანჯარაში)-ს მეშვეობით, იქმნება წინასწარ განსაზღვრული უსაფრთხოების პოლიტიკების ფარგლებში უსაფრთხო და არაუსაფრთხო კონტენტის ათასობით მაგალითის ხელით შერჩევით. ამ სასწავლო მონაცემებიდან კლასიფიკატორი სწავლობს, როგორ განასხვაოს უსაფრთხო და არაუსაფრთხო გამოსავლები. ამ ტრადიციულ მიდგომაში კლასიფიკატორი რეალურად არასდროს ხედავს უსაფრთხოების პოლიტიკას. ამის ნაცვლად, ის ცდილობს გამოიტანოს ის ძირითადი პოლიტიკა, რომელიც მაგალითების მოსანიშნად გამოიყენეს, არაუსაფრთხოდ მონიშნულ კონტენტში მსგავსებების და უსაფრთხო და არაუსაფრთხო კონტენტს შორის განსხვავებების პოვნით.

ტრადიციულ კლასიფიკატორებს შეიძლება ჰქონდეთ მაღალი ეფექტურობა, დაბალი დაყოვნება და დაბალი ოპერაციული ხარჯი. მაგრამ სასწავლო მაგალითების საკმარისი რაოდენობის შეგროვება შეიძლება იყოს დროში გაწელილი და ძვირი, ხოლო პოლიტიკის განახლება ან შეცვლა კლასიფიკატორის ხელახალ გაწვრთნას მოითხოვს.

gpt-oss-safeguard განსხვავდება, რადგან მისი მსჯელობის შესაძლებლობები დეველერებს საშუალებას აძლევს გამოიყენონ ნებისმიერი პოლიტიკა, მათ შორის ისინიც, რომლებსაც თავად წერენ ან სხვა წყაროებიდან იღებენ, ხოლო მსჯელობა მოდელებს ეხმარება ახლად დაწერილ პოლიტიკებზე განზოგადებაში. უსაფრთხოების პოლიტიკების მიღმა, gpt-oss-safeguard შეიძლება გამოყენებულ იქნეს კონტენტის სხვა გზებით დასანიშნადაც, რაც კონკრეტული პროდუქტებისა და პლატფორმებისთვის მნიშვნელოვანია.

ნაკადის დიაგრამა სათაურით „Policy-based reasoning with gpt-oss-safeguard.“ დეველერის მიერ მოწოდებული პოლიტიკები და მომხმარებლის მიერ მოწოდებული კონტენტი მიეწოდება GPT-OSS-Safeguard-ს. მოდელი ქმნის აზროვნების ჯაჭვს და შემდეგ პოლიტიკის გადაწყვეტილებას, ხოლო მარყუჟი წარწერით „policy iteration“ უკუკავშირით გამოიყენება პოლიტიკების დასახვეწად. ლეგენდა აჩვენებს დეველერის შეყვანას, მომხმარებლის შეყვანას და მოდელის გამოსავალს.

როგორ ვიყენებთ უსაფრთხოების მსჯელობას შიგნით

ჩვენი ძირითადი მსჯელობის მოდელები ახლა პირდაპირ სწავლობენ ჩვენს უსაფრთხოების პოლიტიკებს და საკუთარი მსჯელობის შესაძლებლობებს იყენებენ იმის განსასჯელად, რა არის უსაფრთხო. ეს მიდგომა, რომელსაც ჩვენ გააზრებულ შესაბამისობას ვუწოდებთ, მნიშვნელოვნად აუმჯობესებს უსაფრთხოების წინა სასწავლო მეთოდებს და ჩვენს მსჯელობის მოდელებს რამდენიმე მიმართულებით უფრო უსაფრთხოს ხდის, ვიდრე მათი არამსჯელობითი წინამორბედები, მაშინაც კი, როცა მათი შესაძლებლობები იზრდება. მაგრამ მსჯელობა მხოლოდ თავად მოდელების გაწვრთნისთვის არ არის სასარგებლო. ის ასევე ქმნის ახალ შესაძლებლობებს ღრმა, მრავალშრიანი დაცვისთვის. მსჯელობაზე დაფუძნებული მიდგომები უფრო მოქნილია და ნაკლებად შეზღუდულია მათი წინა სწავლების დეტალებით — უპირატესობები, რომლებიც ზოგჯერ სრულად ამართლებს დამატებით გამოთვლით ღირებულებასა და დაყოვნებას.

gpt-oss-safeguard არის იმ მიდგომის open-weight იმპლემენტაცია, რომელიც შიგნით შევიმუშავეთ ინსტრუმენტში, რომელსაც Safety Reasoner-ს ვუწოდებთ. დავიწყეთ პოლიტიკის მარკირების ამოცანებზე განმტკიცებითი დახვეწით და ვაჯილდოებდით მოდელს იმისთვის, რომ ადამიან ექსპერტთა სწორ შეფასებებს დამსგავსებოდა. ამან მოდელს ასწავლა მსჯელობა იმაზე, თუ როგორ მიჰყავს პოლიტიკას თავისი შეფასებამდე. დღეს Safety Reasoner გვაძლევს საშუალებას, წარმოებაში ჩვენი უსაფრთხოების პოლიტიკები უფრო ნაკლებ დროში დინამიკურად განვაახლოთ, ვიდრე კლასიფიკატორის ხელახლა გაწვრთნას დასჭირდებოდა. ეს Safety Reasoner-ს აქცევს საკვანძო ინსტრუმენტად იტერაციული დანერგვისთვის: როცა ახალ მოდელებს წარმოებაში ვნერგავთ, ხშირად ვიწყებთ უფრო მკაცრი პოლიტიკებით და საჭირო ადგილებში შედარებით დიდ მოცულობის გამოთვლით რესურსს ვიყენებთ, რათა Safety Reasoner-მა ეს პოლიტიკები გულდასმით გამოიყენოს. შემდეგ კი ჩვენს პოლიტიკებს ვასწორებთ, როდესაც წარმოებაში არსებული რისკების გაგება უმჯობესდება. ჩვენს რამდენიმე ბოლო გაშვებაში უსაფრთხოების მსჯელობაზე მიმართული მთლიანი გამოთვლითი რესურსის წილი 16%-მდეც ასულა.

Safety Reasoner ჩვენი უსაფრთხოების სტეკის ბირთვულ კომპონენტად იქცა. სურათის გენერირებისა და Sora 2-ისთვის ის რეალურ დროში ახორციელებს გამოსავლების დინამიკურ, ნაბიჯ-ნაბიჯ შეფასებებს, რათა გამოავლინოს და დაბლოკოს არაუსაფრთხო გენერაციები. ისეთ სფეროებში, როგორიცაა ბიოლოგია და თვითდაზიანება, ჩვენ ვიყენებთ ისეთ მოდელებს, როგორიც Moderation API-ში გამოიყენება, როგორც პატარა, სწრაფ და მაღალი recall-ის მქონე კლასიფიკატორებს, რათა განვსაზღვროთ, რომელი კონტენტი ხვდება ინტერესის სფეროში, შემდეგ კი ამ კონტენტის გადასახედად ვიყენებთ Safety Reasoner-ს. Safety Reasoner მოდელის გამოსავლებს დეტალური ტაქსონომიის მიხედვით აკლასიფიცირებს, რათა განსაზღვროს, როგორ ვუპასუხოთ საუკეთესოდ, და ასე ხდება ჩვენი მრავალშრიანი დაცვის ნაწილი GPT‑5‑ისა და ChatGPT Agent-ის მსგავს სისტემებში. ახლა კი gpt-oss-safeguard მოდელები ამავე მიდგომას ყველასთვის ხელმისაწვდომს ხდის.

როგორ მუშაობს gpt-oss-safeguard

gpt-oss-safeguard მოდელები შევაფასეთ როგორც შიდა, ისე გარე შეფასების ნაკრებებზე.

შიდა შეფასებაში ინფერენსის დროს gpt-oss-safeguard-ს ერთდროულად რამდენიმე პოლიტიკა მივაწოდეთ. თითოეული სატესტო შეყვანისთვის ვაფასებთ, სწორად აკლასიფიცირებს თუ არა gpt-oss-safeguard ტექსტს ყველა ჩართული პოლიტიკის მიხედვით. ეს რთული ამოცანაა — მოდელი ზუსტად მაშინ ითვლება სწორად, თუ ყველა ჩართული პოლიტიკისთვის ზუსტად ემთხვევა ოქროს სტანდარტის ლეიბლებს.

ჩვენი gpt-oss-safeguard მოდელები და შიდა Safety Reasoner მრავალპოლიტიკურ სიზუსტეში სჯობნის gpt-5-thinking-სა და gpt-oss open model-ებს. განსაკუთრებით გასაკვირია, რომ gpt-oss-safeguard მოდელები gpt-5-thinking-ს სჯობნის, თუ გავითვალისწინებთ პირველი მოდელების მცირე ზომას.

ამ მოდელებს დამატებით შევაფასეთ moderation dataset(იხსნება ახალ ფანჯარაში)-ზე, რომელიც გამოვაქვეყნეთ ჩვენს 2022 წლის კვლევით ნაშრომთან(იხსნება ახალ ფანჯარაში) ერთად, და ToxicChat(იხსნება ახალ ფანჯარაში)-ზე, საჯარო ბენჩმარკზე, რომელიც open-source ჩატბოტის მომხმარებლის შეკითხვებს ეფუძნება.

2022 წლის moderation შეფასების ნაკრებზე შევაფასეთ ჩვენი შიდა უსაფრთხოების პოლიტიკების გამოყენებით (ერთი პოლიტიკის ადაპტირებით, შემდგომი ცვლილებების გასათვალისწინებლად). gpt-oss-safeguard-მა ოდნავ აჯობა ყველა სხვა ტესტირებულ მოდელს, მათ შორის ჩვენს შიდა Safety Reasoner-სა და gpt-5-thinking-ს, თუმცა Safety Reasoner-სა და gpt-oss-safeguard-ს შორის ეს განსხვავება სტატისტიკურად მნიშვნელოვანი არ არის.

ToxicChat-ისთვის შეფასება ჩავატარეთ მოკლე, ხელით დაწერილი მოთხოვნის გამოყენებით, რომელიც ჩვენს ზოგიერთ შიდა პოლიტიკას იყო მორგებული. ჩვენმა შიდა Safety Reasoner-მა კვლავ აჯობა gpt-5-thinking-ს, ხოლო gpt-5-thinking და Safety Reasoner ორივე ოდნავ სჯობნის gpt-oss-safeguard-120b-სა და gpt-oss-safeguard-20b-ს. ველით, რომ gpt-oss-safeguard-ის შედარებით მცირე ზომა მას მაინც უფრო სასურველს ხდის ამ ტიპის ამოცანისთვის.

შეზღუდვები

gpt-oss-safeguard-ს ორი კონკრეტული შეზღუდვა აქვს. პირველი, დავაკვირდით, რომ ათიათასობით მაღალი ხარისხის მონიშნულ ნიმუშზე გაწვრთნილი კლასიფიკატორები კვლავ შეიძლება უკეთ კლასიფიცირებდნენ კონტენტს, ვიდრე gpt-oss-safeguard, როცა ის პოლიტიკიდან პირდაპირ მსჯელობს. უფრო რთულ რისკებზე უფრო მაღალი ეფექტურობის მისაღებად შეიძლება უპირატესი იყოს სპეციალიზებული კლასიფიკატორის გაწვრთნისთვის დროის გამოყოფა.

მეორე, gpt-oss-safeguard შეიძლება იყოს დროისა და გამოთვლითი რესურსების მხრივ მძიმე, რაც პლატფორმის მთელ კონტენტზე მასშტაბირებას ართულებს. შიგნით ამას Safety Reasoner-ით რამდენიმე გზით ვუმკლავდებით: (1) ვიყენებთ უფრო პატარა და სწრაფ კლასიფიკატორებს იმის დასადგენად, რომელი კონტენტი უნდა შეფასდეს და (2) ზოგიერთ შემთხვევაში Safety Reasoner-ს ასინქრონულად ვიყენებთ, რათა შევინარჩუნოთ დაბალი დაყოვნების მომხმარებლის გამოცდილება და ამავდროულად შევინარჩუნოთ ჩარევის შესაძლებლობა, თუ არაუსაფრთხო კონტენტს აღმოვაჩენთ.

რაც წინ გველის: საზოგადოებასთან ერთად მშენებლობის გაგრძელება

gpt-oss-safeguard არის OpenAI-ის პირველი ღია უსაფრთხოების მოდელების ნაკრები, რომელიც საზოგადოებასთან ერთად აშენდა. ადრეული ტესტირების ფარგლებში gpt-oss-safeguard-ს ვხვეწავდით SafetyKit-ის, ROOST-ის, Tomoro-ს, და Discord-ის trust and safety სპეციალისტებთან ერთად. ROOST-ის CTO ვინაი რაო ამბობს: „gpt-oss-safeguard არის პირველი ღია კოდის მსჯელობის მოდელი დიზაინით ‘bring your own policies and definitions of harm’. ორგანიზაციებს უნდა ჰქონდეთ შესაძლებლობა, თავისუფლად შეისწავლონ, შეცვალონ და გამოიყენონ კრიტიკული უსაფრთხოების ტექნოლოგიები და შეძლონ ინოვაცია. ჩვენს ტესტირებაში ის ოსტატურად იგებდა სხვადასხვა პოლიტიკას, ხსნიდა საკუთარ მსჯელობას და პოლიტიკების გამოყენებისას ნიუანსს აჩვენებდა, რაც, ჩვენი აზრით, სასარგებლო იქნება შემქმნელებისა და უსაფრთხოების გუნდებისთვის.“

ჩვენ გავაგრძელებთ საზოგადოებასთან ერთად დახვეწას ღია უსაფრთხოების ინსტრუმენტების გასაუმჯობესებლად, მათ შორის ROOST Model Community (RMC)-ის მეშვეობით. RMC აერთიანებს უსაფრთხოების პრაქტიკოსებსა და მკვლევრებს, რათა გააზიარონ საუკეთესო პრაქტიკები open source AI მოდელების უსაფრთხოების სამუშაო პროცესებში დანერგვისთვის, მათ შორის შეფასების შედეგები და მოდელზე უკუკავშირი. ეწვიეთ RMC GitHub repo(იხსნება ახალ ფანჯარაში)-ს, რათა მეტი გაიგოთ ამ პარტნიორობის შესახებ და ჩაერთოთ.

ამ მოდელებით მუშაობის დასაწყებად ჩამოტვირთეთ ისინი Hugging Face(იხსნება ახალ ფანჯარაში)-დან.

ავტორი

OpenAI