Бүгін біз қауіпсіздікті жіктеу тапсырмаларына арналған ашық салмақты ойлайтын модельдеріміз — gpt-oss-safeguard жүйесінің зерттеу preview-н шығарамыз. Ол екі өлшемде қолжетімді: gpt-oss-safeguard-120b және gpt-oss-safeguard-20b. Бұл модельдер біздің gpt-oss ашық модельдеріміздің fine-tuned нұсқалары және дәл сол еркін Apache 2.0 лицензиясымен қолжетімді, сондықтан кез келген адам оларды еркін пайдалана, өзгерте және енгізе алады. Екі модельді де бүгін Hugging Face(жаңа терезеде ашылады) сайтынан жүктеп алуға болады.
gpt-oss-safeguard модельдері inference кезінде әзірлеуші берген саясатты тікелей түсіндіру үшін ой қорыту қолданады — олар пайдаланушы хабарламаларын, completions және толық чаттарды әзірлеушінің қажеттіліктеріне сай жіктейді. Қай саясат қолданылатынын әрқашан әзірлеуші шешеді, сондықтан жауаптар анағұрлым өзекті және нақты қолдану жағдайына бейімделген болады. Модель ойлау тізбегін қолданады, оны әзірлеуші модельдің шешімдерге қалай келетінін түсіну үшін қарай алады. Бұған қоса, саясат модельдің ішіне үйретілмейді, inference кезінде беріледі, сондықтан әзірлеушілерге өнімділікті арттыру үшін саясаттарды итеративті түрде қайта қарап отыру оңай. Біз бастапқыда ішкі қолдануға әзірлеген бұл тәсіл көптеген таңбаланған мысалдардан шешім шекарасын жанама түрде шығаратын классификаторды үйретудің дәстүрлі әдісіне қарағанда әлдеқайда икемдірек.
gpt-oss-safeguard әзірлеушілерге өз қолдану жағдайына ең жақсы сай келетін саясат шекараларын белгілеуге мүмкіндік береді. Мысалы, бейнеойындар талқыланатын форум ойындағы алдауды талқылайтын жазбаларды жіктеуге арналған саясат жасағысы келуі мүмкін немесе өнім пікірлері сайты жалған болуы ықтимал пікірлерді сүзу үшін өз саясатын қолданғысы келуі мүмкін.
Модель бір уақытта екі енгізуді қабылдайды — саясатты және сол саясат бойынша жіктелетін контентті — және ой қорытуымен бірге контенттің қай санатқа жататыны туралы қорытынды шығарады. Әзірлеушілер бұл қорытындыларды өз қауіпсіздік pipeline-дарында қалай қолданатынын немесе мүлде қолданатынын өздері шешеді. Біз бұл ой қорытуға негізделген тәсілдің әсіресе мына жағдайларда жақсы жұмыс істейтінін көрдік:
- Ықтимал зиян жаңадан пайда болып жатыр немесе өзгеріп отырады, ал саясаттар тез бейімделуі керек.
- Сала өте нәзік ерекшеліктерге толы және шағын классификаторларға оны игеру қиын.
- Әзірлеушілердің платформасындағы әр қауіп үшін жоғары сапалы классификатор үйретуге жеткілікті үлгілері жоқ.
- Кідіріс уақыты жоғары сапалы, түсіндірілетін белгілер шығарудан маңызды емес.
Біз gpt-oss-safeguard preview-н зерттеу және қауіпсіздік қауымдастығынан кері байланыс алып, модель өнімділігін одан әрі итерациялау үшін шығарып отырмыз. Бірнеше ай бойы біз бұл ашық салмақты релизді ROOST(жаңа терезеде ашылады) ұйымымен бірге әзірлеушілердің маңызды қажеттіліктерін анықтау, модельді сынау және әзірлеуші құжаттамасын шығару үшін пысықтадық. Осы іске қосудың бір бөлігі ретінде ROOST бүгін іске қосылатын модель қауымдастығын(жаңа терезеде ашылады) құрады, ол онлайн кеңістіктерді қорғауға арналған ашық AI модельдерін зерттейді. Осы релизбен қатар біз осы preview модельдің қауіпсіздік өнімділігін егжей-тегжейлі сипаттайтын қысқа техникалық есепті де жариялап отырмыз.
Қауіпсіздікке келсек, біз көпқабатты қорғанысқа сенеміз. Біз модельдерімізді қауіпсіз жауап беруге үйретеміз және саясаттарымызға сәйкес ықтимал қауіпті енгізулер мен шығыстарды анықтау және өңдеу үшін қосымша қорғаныс қабаттарын енгіземіз. Белгілі бір тәуекел аймағында қауіпсіз және қауіпті контентті ажырататын қауіпсіздік классификаторлары ұзақ уақыт бойы біздің де, басқа ірі тілдік модельдердің де негізгі қорғаныс қабаты болып келді.
Біздің Moderation API(жаңа терезеде ашылады) арқылы қолжетімділер сияқты дәстүрлі қауіпсіздік классификаторлары алдын ала анықталған қауіпсіздік саясаттарына сәйкес қауіпсіз және қауіпті контенттің мыңдаған мысалын қолмен іріктеу арқылы жасалады. Осы оқу деректерінен классификатор қауіпсіз және қауіпті шығыстарды ажыратуды үйренеді. Бұл дәстүрлі тәсілде классификатор қауіпсіздік саясатын ешқашан тікелей көрмейді. Оның орнына ол қауіпті деп белгіленген контенттегі ұқсастықтарды және қауіпті мен қауіпсіз контент арасындағы айырмашылықтарды табу арқылы мысалдарды белгілеуде қолданылған негізгі саясатты жанама түрде шығарып алуға тырысады.
Дәстүрлі классификаторлардың өнімділігі жоғары, кідірісі мен операциялық құны төмен болуы мүмкін. Бірақ жеткілікті көлемде оқу мысалдарын жинау уақыт пен шығынды қажет етеді, ал саясатты жаңарту немесе өзгерту классификаторды қайта үйретуді талап етеді.
gpt-oss-safeguard өзгеше, өйткені оның ой қорыту қабілеттері әзірлеушілерге кез келген саясатты, соның ішінде өздері жазған немесе басқа көздерден алған саясаттарды қолдануға мүмкіндік береді, ал ой қорыту модельдерге жаңадан жазылған саясаттар бойынша жалпылауға көмектеседі. Қауіпсіздік саясаттарынан бөлек, gpt-oss-safeguard белгілі бір өнімдер мен платформалар үшін маңызды басқа тәсілдермен де контентті белгілеу үшін қолданыла алады.
Біздің негізгі ойлайтын модельдеріміз енді қауіпсіздік саясаттарымызды тікелей үйреніп, не қауіпсіз екенін пайымдау үшін өз ой қорыту қабілеттерін қолданады. Біз саналы сәйкестендіру деп атайтын бұл тәсіл қауіпсіздікке үйретудің алдыңғы әдістерін айтарлықтай жақсартады және мүмкіндіктері артқанның өзінде біздің ойлайтын модельдерімізді бірнеше қырынан ойламайтын алдыңғы нұсқаларынан қауіпсіздеу етеді. Бірақ ой қорыту тек модельдердің өзін үйрету үшін ғана пайдалы емес. Ол сонымен қатар көпқабатты қорғаныс үшін жаңа мүмкіндіктер ашады. Ой қорытуға негізделген тәсілдер икемдірек және алдыңғы оқытудың егжей-тегжейлерімен азырақ шектеледі; бұл артықшылықтар кейде қажет ететін қосымша есептеу шығыны мен кідірісті толық ақтайды.
gpt-oss-safeguard — біз ішкі түрде Safety Reasoner деп атайтын құралда әзірлеген тәсілдің ашық салмақты іске асырылуы. Біз саясатты белгілеу тапсырмаларында күшейтпелі баптаудан бастадық, мұнда модель адам сарапшыларының дұрыс пайымдарын қайталағаны үшін марапатталды. Бұл модельге саясаттың оның пайымына қалай әкелетінін ой қорыту арқылы түсінуге үйретті. Бүгінде Safety Reasoner бізге өндірістегі қауіпсіздік саясаттарымызды классификаторды қайта үйретуге кететін уақыттан да қысқа мерзімде динамикалық түрде жаңартуға мүмкіндік береді. Бұл Safety Reasoner-ді итеративті енгізудің негізгі құралына айналдырады: жаңа модельдерді өндіріске енгізгенде, біз жиі қатаңырақ саясаттардан бастаймыз және керек жерлерде көбірек есептеу ресурсын қолданып, Safety Reasoner-ге сол саясаттарды мұқият қолдануға мүмкіндік береміз. Содан кейін өндірістегі тәуекелдерді түсінуіміз жақсарған сайын саясаттарымызды түзетеміз. Соңғы іске қосударымыздың кейбірінде қауіпсіздік ой қорытуына бөлінген жалпы есептеу үлесі 16%-ға дейін жетті.
Safety Reasoner біздің қауіпсіздік стекіміздің негізгі құрамдасына айналды. Суретті генерациялау мен Sora 2 үшін ол қауіпті генерацияларды нақты уақытта анықтап, бұғаттау мақсатында шығыстарды динамикалық, кезең-кезеңімен бағалайды. Биология және өзіне зиян келтіру сияқты салаларда біз Moderation API-де қолданылатын модельдерге ұқсас модельдерді шағын, жылдам және жоғары қамтуды қамтамасыз ететін классификаторлар ретінде іске қосып, қай контент қызығушылық аймағына кіретінін анықтаймыз, содан кейін сол контентті қарау үшін Safety Reasoner қолданамыз. Safety Reasoner қалай дұрыс жауап беру керегін анықтау үшін модель шығыстарын егжей-тегжейлі таксономия бойынша жіктейді, осылайша GPT‑5 және ChatGPT Agent сияқты жүйелердегі көпқабатты қорғанысымыздың бір бөлігіне айналады. Енді gpt-oss-safeguard модельдері осы тәсілді кез келген адамға қолжетімді етеді.
Біз gpt-oss-safeguard модельдерін ішкі де, сыртқы да бағалау жиынтықтарында тексердік.
Ішкі бағалауда inference кезінде gpt-oss-safeguard жүйесіне бір уақытта бірнеше саясат бердік. Әрбір тест енгізуі үшін gpt-oss-safeguard енгізілген саясаттардың барлығы бойынша мәтінді дұрыс жіктей ме, соны бағалаймыз. Бұл күрделі тапсырма — модель енгізілген саясаттардың бәрі бойынша эталон жиынтық белгілерімен дәл сәйкес келген жағдайда ғана дәл деп есептеледі.
Біздің gpt-oss-safeguard модельдеріміз бен ішкі Safety Reasoner көп саясатты дәлдік бойынша gpt-5-thinking және gpt-oss ашық модельдерінен озады. gpt-oss-safeguard модельдерінің gpt-5-thinking-тен озуы, әсіресе олардың шағын көлемін ескерсек, таңғаларлық.
Біз бұл модельдерді әрі қарай moderation деректер жиынтығында(жаңа терезеде ашылады), оны біз 2022 жылғы зерттеу мақаламызбен(жаңа терезеде ашылады) бірге шығарғанбыз, сондай-ақ ашық бастапқы кодты чатботқа пайдаланушы сұрауларына негізделген ашық benchmark — ToxicChat(жаңа терезеде ашылады) бойынша да бағаладық.
2022 жылғы moderation бағалау жиынтығында біз ішкі қауіпсіздік саясаттарымызды пайдаланып бағаладық (кейінгі өзгерістерді ескеру үшін бір саясат бейімделді). gpt-oss-safeguard сыналған басқа барлық модельдерден, соның ішінде ішкі Safety Reasoner мен gpt-5-thinking-тен сәл озып шықты, дегенмен Safety Reasoner мен gpt-oss-safeguard арасындағы бұл айырмашылық статистикалық тұрғыдан мәнді емес.
ToxicChat үшін біз ішкі саясаттарымыздың кейбірінен бейімделген қысқа қолжазба көмексөзді пайдаланып бағаладық. Біздің ішкі Safety Reasoner тағы да gpt-5-thinking-тен озып шықты, ал gpt-5-thinking пен Safety Reasoner екеуі де gpt-oss-safeguard-120b және gpt-oss-safeguard-20b модельдерінен сәл ғана жоғары нәтиже көрсетті. Салыстырмалы түрде шағын өлшемі gpt-oss-safeguard-ты мұндай тапсырма үшін әлі де қолайлы етеді деп күтеміз.
gpt-oss-safeguard жүйесінің екі нақты шектеуі бар. Біріншіден, ондаған мың жоғары сапалы таңбаланған үлгілермен үйретілген классификаторлар кей жағдайларда саясаттан тікелей ой қорыту жасайтын gpt-oss-safeguard-қа қарағанда контентті жақсырақ жіктей алатынын байқадық. Күрделірек тәуекелдер бойынша жоғары өнімділік үшін арнайы классификаторды үйретуге уақыт бөлу қолайлырақ болуы мүмкін.
Екіншіден, gpt-oss-safeguard уақыт пен есептеуді көп қажет етуі мүмкін, сондықтан оны платформаның бүкіл контентіне ауқымдау қиын. Ішкі түрде біз мұны Safety Reasoner арқылы бірнеше жолмен шешеміз: (1) қай контентті бағалау керек екенін анықтау үшін шағынырақ әрі жылдамырақ классификаторларды қолданамыз және (2) кейбір жағдайларда төмен кідірісті пайдаланушы тәжірибесін қамтамасыз ете отырып, қауіпті контент анықталса араласу мүмкіндігін сақтау үшін Safety Reasoner-ді асинхронды түрде қолданамыз.
gpt-oss-safeguard — қауымдастықпен бірге жасалған OpenAI-дің алғашқы ашық қауіпсіздік модельдері жиынтығы. Біз gpt-oss-safeguard-ты ерте тестілеу аясында SafetyKit, ROOST, Tomoro, және Discord ұйымдарындағы сенім мен қауіпсіздік мамандарымен бірге итерацияладық. ROOST CTO-сы Винай Рао былай дейді: «gpt-oss-safeguard — “өз саясатың мен зиян анықтамаларыңды әкел” қағидатына негізделген алғашқы open source ойлайтын модель. Ұйымдар маңызды қауіпсіздік технологияларын еркін зерттеуге, өзгертуге және пайдалануға, сондай-ақ инновация жасауға лайық. Біздің тестілеуде ол әртүрлі саясаттарды түсінуде, өз ой қорытуын түсіндіруде және саясаттарды қолданудағы нәзік реңктерді көрсетуде шебер болды, ал мұның құрастырушылар мен қауіпсіздік командаларына пайдалы болатынына сенеміз».
Біз ашық қауіпсіздік құралдарын жақсарту үшін қауымдастықпен бірге итерациялауды жалғастырамыз, соның ішінде ROOST Model Community (RMC) арқылы. RMC қауіпсіздік практиктері мен зерттеушілерін біріктіріп, open source AI модельдерін қауіпсіздік жұмыс ағындарына енгізудің үздік тәжірибелерін, соның ішінде бағалау нәтижелері мен модель бойынша кері байланысты бөлісуге мүмкіндік береді. Осы серіктестік туралы көбірек білу және қалай қатысуға болатынын көру үшін RMC GitHub репозиторийіне(жаңа терезеде ашылады) кіріңіз.
Осы модельдермен жұмыс істеуді бастау үшін оларды Hugging Face(жаңа терезеде ашылады) сайтынан жүктеп алыңыз.

