gpt-oss-safeguard техникалық есебі
gpt-oss-safeguard-120b және gpt-oss-safeguard-20b модельдерінің өнімділігі мен бастапқы бағалаулары
gpt-oss-safeguard-120b және gpt-oss-safeguard-20b — gpt-oss модельдерінен кейін дайындатылған және берілген саясат бойынша контентті белгілеу үшін сол саясаттан ой қорытуға үйретілген, ашық салмақты екі ойлайтын модель. Олар Apache 2.0 лицензиясы және біздің gpt-oss пайдалану саясатымыз бойынша қолжетімді. Ашық кодты қауымдастықтың кері байланысымен әзірленген бұл тек мәтіндік модельдер біздің Responses API интерфейсімен үйлесімді. Модельдерді баптауға болады, олар толық ойлау тізбегін (CoT) береді, әртүрлі ой қорыту деңгейлерімен (low, medium, high) қолданылуы мүмкін және құрылымдалған нәтижелерді қолдайды.
Осы есепте біз gpt-oss-safeguard мүмкіндіктерін сипаттап, негіз ретінде базалық gpt-oss модельдерін пайдалана отырып, gpt-oss-safeguard модельдері бойынша қауіпсіздікке қатысты бастапқы бағалауларымызды ұсынамыз. Негізгі gpt-oss модельдерінің әзірленуі мен архитектурасы туралы қосымша ақпарат алу үшін түпнұсқа gpt-oss модель модель картасын қараңыз.
Біз бұл модельдерді берілген саясатқа сәйкес контентті жіктеу үшін пайдалануды ұсынамыз, ал соңғы пайдаланушылар тікелей өзара әрекеттесетін негізгі функция ретінде қолданбауды ұсынамыз; ондай қолданбалар үшін бастапқы gpt-oss модельдері жақсырақ. Төменде берілген қауіпсіздік метрикалары gpt-oss-safeguard модельдерінің чат баптауларында қалай жұмыс істейтінін сипаттайды. gpt-oss-safeguard модельдері мұндай пайдалануға арналмаған, бірақ олар ашық модельдер болғандықтан, біреудің оларды осылай пайдалануы мүмкін. Осы мүмкіндікке байланысты біз олардың мұндай қолданыста біздің қауіпсіздік стандарттарымызға сай келетінін тексергіміз келді; бұл есеп сол сынақтардың нәтижелерімен бөліседі. Сондай-ақ, чат жағдайындағы көптілді өнімділіктің бастапқы бағалауын бөлісеміз; бұл берілген саясатпен контентті жіктеу кезіндегі өнімділікті тікелей бағаламайтынын ескеріңіз.
gpt-oss-safeguard модельдері өздерінің gpt-oss баламаларының fine-tune нұсқалары болып табылады және ешқандай қосымша биологиялық немесе киберқауіпсіздік деректерінсіз жаттықтырылған. Соның нәтижесінде, біз gpt-oss шығарылымындағы алдыңғы ең нашар сценарийлерді бағалау жұмысы осы жаңа модельдерге де қолданылатынын анықтадық.

