Пређите на главни садржај
OpenAI

29. октобар 2025.

ПроизводИздање

Представљамо gpt-oss-safeguard

Нови отворени модели резоновања за безбедност (120b и 20b) који подржавају прилагођене безбедносне политике.

Учитавање…

Данас објављујемо истраживачки преглед gpt-oss-safeguard, наших модела резоновања са отвореним тежинама за задатке класификације безбедности, доступних у две величине: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Ови модели су фино подешене верзије наших gpt-oss отворених модела и доступни су под истом дозволом Apache 2.0, која свакоме омогућава да их слободно користи, мења и примењује. Оба модела могу већ данас да се преузму са Hugging Face(отвара се у новом прозору).

Модели gpt-oss-safeguard користе резоновање да током извршавања директно тумаче политику коју задаје програмер — класификујући корисничке поруке, довршетке и целе разговоре у складу са потребама програмера. Програмер увек одлучује коју политику ће користити, па су одговори релевантнији и боље прилагођени његовом случају употребе. Модел користи начин резоновања, који програмер може да прегледа како би разумео како модел долази до својих одлука. Поред тога, политика се задаје током извршавања, уместо да буде уграђена обуком у модел, па програмери лако могу постепено да ревидирају политике како би побољшали перформансе. Овај приступ, који смо првобитно развили за интерну употребу, знатно је флексибилнији од традиционалног метода обучавања класификатора да посредно изведе границу одлучивања из великог броја означених примера.

gpt-oss-safeguard омогућава програмерима да повуку границе политика које најбоље одговарају њиховом случају употребе. На пример, форум за дискусију о видео-играма можда жели да развије политику за класификацију објава у којима се расправља о варању у игри, или сајт за рецензије производа можда жели да користи сопствену политику за проверу рецензија које делују као да су лажне.

Модел истовремено прима два улаза — политику и садржај који треба класификовати по тој политици — и даје закључак о томе где садржај припада, заједно са својим резоновањем. Програмери одлучују како ће, ако уопште хоће, користити те закључке у сопственим безбедносним токовима. Видели смо да овај приступ заснован на резоновању нарочито добро функционише у ситуацијама у којима:

  • Потенцијална штета настаје или се развија, а политике морају брзо да се прилагођавају.
  • Област је веома нијансирана и тешка за мање класификаторе.
  • Програмери немају довољно примера да обуче висококвалитетан класификатор за сваки ризик на својој платформи.
  • Кашњење је мање важно од добијања висококвалитетних, објашњивих ознака.

Објављујемо овај преглед gpt-oss-safeguard да бисмо добили повратне информације од истраживачке и безбедносне заједнице и даље унапређивали перформансе модела. Током више месеци радили смо на овом издању са отвореним тежинама са ROOST(отвара се у новом прозору)-ом како бисмо утврдили кључне потребе програмера, тестирали модел и припремили документацију за програмере. Као део овог лансирања, ROOST ће успоставити заједницу модела(отвара се у новом прозору), такође покренуту данас, ради истраживања отворених AI модела за заштиту онлајн простора. Уз ово издање, објављујемо и кратак технички извештај који детаљно описује безбедносне перформансе овог прегледног модела.

Безбедност на нивоу система: улога безбедносних класификатора

Када је реч о безбедности, ми верујемо у вишеслојну одбрану. Обучавамо наше моделе да одговарају безбедно и примењујемо додатне слојеве заштите да бисмо открили и решили потенцијално небезбедне улазе и излазе у складу са нашим политикама. Безбедносни класификатори, који разликују безбедан од небезбедног садржаја у одређеној области ризика, дуго су били примарни слој одбране за наше и друге велике језичке моделе.

Традиционални безбедносни класификатори, као што су они доступни преко нашег Moderation API(отвара се у новом прозору)-ја, развијају се ручним прикупљањем хиљада примера безбедног и небезбедног садржаја, према унапред дефинисаним безбедносним политикама. Из тих података за обуку, класификатор учи да разликује безбедне од небезбедних излаза. У овом традиционалном приступу, класификатор заправо никада не види безбедносну политику. Уместо тога, покушава да изведе основну политику која је коришћена за означавање примера проналажењем сличности у садржају означеном као небезбедан и разлика између небезбедног и безбедног садржаја.

Традиционални класификатори могу имати високе перформансе, са малим кашњењем и ниским оперативним трошком. Али прикупљање довољне количине примера за обуку може одузети много времена и бити скупо, а ажурирање или промена политике захтева поновну обуку класификатора.

gpt-oss-safeguard је другачији зато што његове способности резоновања омогућавају програмерима да примене било коју политику, укључујући и оне које сами напишу или преузму из других извора, а резоновање помаже моделима да генерализују на новонаписане политике. Поред безбедносних политика, gpt-oss-safeguard може да се користи и за означавање садржаја на друге начине који су важни за одређене производе и платформе.

Дијаграм тока под називом „Резоновање засновано на политикама уз gpt-oss-safeguard“. Политике које задаје програмер и садржај који задаје корисник улазе у GPT-OSS-Safeguard. Модел производи начин резоновања, а затим одлуку о политици, при чему се петља означена као „итерација политике“ враћа назад ради дораде политика. Легенда означава унос програмера, унос корисника и излаз модела.

Како интерно користимо безбедносно резоновање

Наши примарни модели резоновања сада директно уче наше безбедносне политике и користе своје способности резоновања да расуђују о томе шта је безбедно. Овај приступ, који називамо пажљиво поравнање, значајно унапређује раније методе безбедносне обуке и чини наше моделе резоновања безбеднијим по више основа од њихових претходника без резоновања, чак и како им способности расту. Али резоновање није корисно само за обуку самих модела. Оно такође ствара нове могућности за вишеслојну одбрану. Приступи засновани на резоновању су флексибилнији и мање ограничени детаљима претходне обуке, што су предности које понекад више него оправдавају додатни трошак рачунања и кашњење које подразумевају.

gpt-oss-safeguard је имплементација са отвореним тежинама приступа који смо развили интерно, у алату који називамо Safety Reasoner. Почели смо са подстицајним фино подешавањем на задацима означавања политика, награђујући модел за усклађивање са исправним проценама људских стручњака. То је научило модел да расуђује о томе како политика води до његове процене. Данас нам Safety Reasoner омогућава да динамички ажурирамо наше безбедносне политике у продукцији за мање времена него што би било потребно за поновну обуку класификатора. То чини Safety Reasoner кључним алатом за итеративно увођење: када нове моделе уводимо у продукцију, често почињемо са строжим политикама и користимо релативно велике количине рачунања тамо где је потребно како бисмо омогућили Safety Reasoner-у да пажљиво примени те политике. Затим прилагођавамо наше политике како се побољшава наше разумевање ризика у продукцији. У неким нашим недавним лансирањима, удео укупног рачунања посвећен безбедносном резоновању био је и до 16%.

Safety Reasoner је постао кључна компонента нашег безбедносног стека. За генерисање слика и Sora 2, он врши динамичке, поступне процене излаза како би у реалном времену идентификовао и блокирао небезбедне генерације. У областима као што су биологија и самоповређивање, покрећемо моделе попут оних који се користе у Moderation API-ју као мале, брзе класификаторе са високим одзивом да бисмо утврдили који је садржај у домену интересовања, а затим користимо Safety Reasoner да тај садржај прегледа. Safety Reasoner класификује излазе модела према детаљној таксономији како би одредио како је најбоље одговорити, чинећи део наших вишеслојних заштитних мера у системима као што су GPT‑5 и ChatGPT Agent. А сада модели gpt-oss-safeguard чине овај исти приступ доступним свима.

Како се gpt-oss-safeguard показује

Проценили смо моделе gpt-oss-safeguard и на интерним и на екстерним скуповима за евалуацију.

У интерној евалуацији, током извршавања смо истовремено дали више политика моделу gpt-oss-safeguard. За сваки тест улаз, процењујемо да ли gpt-oss-safeguard исправно класификује текст према свим укљученим политикама. Ово је захтеван задатак — модел се рачуна као тачан само ако се потпуно поклапа са златним скупом ознака за све укључене политике.

Наши модели gpt-oss-safeguard и интерни Safety Reasoner надмашују gpt-5-thinking и отворене моделе gpt-oss по тачности на више политика. То што модели gpt-oss-safeguard надмашују gpt-5-thinking посебно је изненађујуће с обзиром на малу величину првих модела.

Ове моделе смо даље оцењивали на скупу података за модерацију(отвара се у новом прозору) који смо објавили уз наш истраживачки рад из 2022.(отвара се у новом прозору) и на ToxicChat(отвара се у новом прозору)-у, јавном мерилу заснованом на корисничким упитима ка chatbot-у отвореног кода.

На скупу за евалуацију модерације из 2022. вршили смо евалуацију користећи наше интерне безбедносне политике (прилагођавајући једну политику како би узела у обзир накнадне промене). gpt-oss-safeguard је незнатно надмашио све друге тестиране моделе, укључујући наш интерни Safety Reasoner и gpt-5-thinking, иако ова разлика између Safety Reasoner-а и gpt-oss-safeguard-а није статистички значајна.

За ToxicChat смо евалуацију радили користећи кратку ручно написану инструкцију прилагођену из неких наших интерних политика. Наш интерни Safety Reasoner поново је надмашио gpt-5-thinking, док и gpt-5-thinking и Safety Reasoner незнатно надмашују gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Очекујемо да га релативно мала величина gpt-oss-safeguard и даље чини пожељнијим за ову врсту задатка.

Ограничења

Постоје два конкретна ограничења модела gpt-oss-safeguard. Прво, приметили смо да класификатори обучени на десетинама хиљада висококвалитетних означених узорака и даље могу бити бољи у класификацији садржаја него gpt-oss-safeguard када непосредно резонује из политике. Улагање времена у обуку наменског класификатора може бити пожељно ради виших перформанси на сложенијим ризицима.

Друго, gpt-oss-safeguard може бити захтеван по времену и рачунарским ресурсима, што отежава скалирање на сав садржај платформе. Интерно, то решавамо на неколико начина уз Safety Reasoner: (1) користимо мање и брже класификаторе да бисмо утврдили који садржај треба проценити и (2) у неким околностима користимо Safety Reasoner асинхроно да бисмо обезбедили корисничко искуство са малим кашњењем, уз задржавање могућности интервенције ако откријемо небезбедан садржај.

Пут који је пред нама: наставак изградње са заједницом

gpt-oss-safeguard је OpenAI-јев први скуп отворених модела за безбедност изграђен са заједницом. Унапређивали смо gpt-oss-safeguard са стручњацима за поверење и безбедност из SafetyKit-а, ROOST-а, Tomoro-а, и Discord-а као део раног тестирања. CTO компаније ROOST, Vinay Rao, каже: „gpt-oss-safeguard је први open source модел резоновања са дизајном ‘донесите сопствене политике и дефиниције штете’. Организације заслужују да слободно проучавају, мењају и користе кључне безбедносне технологије и да буду у стању да иновирају. У нашем тестирању, вешто је разумео различите политике, објашњавао своје резоновање и показивао нијансе у примени политика, што верујемо да ће бити корисно за градитеље и безбедносне тимове.”

Наставићемо да унапређујемо алате отворене безбедности заједно са заједницом, укључујући и кроз ROOST Model Community (RMC). RMC окупља практичаре и истраживаче у области безбедности како би делили најбоље праксе за увођење open source AI модела у безбедносне токове рада, укључујући исходе евалуације и повратне информације о моделима. Посетите RMC GitHub repo(отвара се у новом прозору) да бисте сазнали више о овом партнерству и како можете да се укључите.

Да бисте почели да градите са овим моделима, преузмите их са Hugging Face(отвара се у новом прозору).

Аутор

OpenAI