Әзірлеушілерге жасөспірімдер үшін қауіпсіздеу AI тәжірибелерін құруға көмектесу
gpt-oss-safeguard үшін көмексөз ретінде пішімделген жасөспірімдер қауіпсіздігі саясаттары топтамасымен таныстырамыз
Бүгін біз әзірлеушілерге жасөспірімдер үшін жасына сай қорғаныс шараларын жасауға көмектесу үшін көмексөзге негізделген қауіпсіздік саясаттарын(жаңа терезеде ашылады) ұсынып отырмыз. Біздің ашық салмақты қауіпсіздік моделіміз — gpt-oss-safeguard(жаңа терезеде ашылады) үшін жасалған бұл саясаттар әзірлеушілердің қауіпсіздік талаптарын шынайы жүйелерде қолдануға болатын жіктеуіштерге айналдыруын жеңілдетеді.
Біз қуатты AI-ға қолжетімділікті демократияландыру және кең ауқымды инновацияны қолдау үшін ашық салмақты модельдерді шығардық. Сонымен қатар, біз қауіпсіздік пен инновация қатар жүреді деп сенеміз және әзірлеушілерде қуатты модельдермен бірге оларды қауіпсіз әрі жауапкершілікпен енгізуге қажет құралдар мен саясаттар болуы тиіс деп санаймыз. Біз бұл саясаттарды жас пайдаланушыларды қорғауға бағытталған қауіпсіздік шараларында әзірлеушілерді қолдау үшін әзірледік, оған Common Sense Media(жаңа терезеде ашылады) және everyone.ai(жаңа терезеде ашылады) секілді сенімді сыртқы ұйымдар да үлес қосты.
Біз жасөспірімдер мен ересектердің қажеттіліктері әртүрлі екенін және жасөспірімдерге қосымша қорғаныс қажет екенін мойындаймыз. Бұл саясаттар әзірлеушілерге осы айырмашылықтарды ескеріп, жас пайдаланушылар үшін әрі мүмкіндіктер беретін, әрі орынды тәжірибелер құруға көмектесуге арналған.
Біз жастардың қауіпсіздігін сақтай отырып, олардың мүмкіндіктерін кеңейтетін AI жасауға бұрыннан ұмтыламыз. Осы жұмыстың бір бөлігі ретінде біз OpenAI модельдерінің күтілетін мінез-құлқын айқындайтын нұсқаулықтар — модель сипаттамасын(жаңа терезеде ашылады) жаңартып, оған 18 жасқа дейінгілерге (U18) арналған қағидаларды(жаңа терезеде ашылады) қостық, сондай-ақ жас пайдаланушыларды жақсырақ қорғау үшін ата-ана бақылауы және жасты болжау сияқты өнім деңгейіндегі қорғаныс шараларын енгіздік. Сондай-ақ біз Teen Safety Blueprint арқылы бүкіл салаға ортақ қорғаныс шараларын ұсындық.
Бүгінгі жарияланым сол негізге сүйенеді. Біз бұл қауіпсіздік саясаттарын әзірлеушілерге жасөспірімдер үшін қорғаныс шараларын енгізуге қолдау көрсету және ашық салмақтар экожүйесінде қолжетімділікті демократияландыруға көмектесу үшін ұсынамыз.
gpt-oss-safeguard сияқты қауіпсіздік жіктеуіштері зиянды контентті анықтай алғанымен, олар мұндай контенттің не екенін нақты анықтауға тәуелді. Іс жүзінде әзірлеушілер тап болатын ең үлкен қиындықтардың бірі — жасөспірімдерге тән тәуекелдерді дәл қамтитын және шынайы жүйелерде бірізді қолданылатын саясаттарды анықтау.
Тіпті тәжірибелі командалардың өзі жоғары деңгейлі қауіпсіздік мақсаттарын нақты, операциялық ережелерге аударуда жиі қиналады, әсіресе бұл үшін әрі салалық сараптама, әрі AI туралы терең білім қажет. Соның салдарынан қорғаныста олқылықтар, бірізді емес қолдану немесе шектен тыс кең сүзгілеу пайда болуы мүмкін. Анық, шегі нақты саясаттар — тиімді қауіпсіздік жүйелерінің маңызды негізі.
Бұл қиындықты шешу үшін біз жасөспірімдер жиі ұшырайтын тәуекелдерге бейімделген және олардың дамуындағы ерекше айырмашылықтар туралы бар зерттеулерді мұқият талдауға сүйенген қауіпсіздік саясаттарының(жаңа терезеде ашылады) топтамасын ұсынып отырмыз. Бұл саясаттар gpt-oss-safeguard(жаңа терезеде ашылады) және басқа ойлайтын модельдермен тікелей қолдануға болатын көмексөздер түрінде құрылған, бұл әзірлеушілерге өз жүйелерінде бірізді қауіпсіздік стандарттарын жеңілірек қолдануға мүмкіндік береді.
Бастапқы шығарылымға мына бағыттарды қамтитын саясаттар кіреді:
- Графикалық зорлық-зомбылық контенті
- Графикалық сексуалдық контент
- Зиянды дене идеалдары мен мінез-құлық
- Қауіпті әрекеттер мен челлендждер
- Романтикалық немесе зорлық-зомбылық рөлдік ойындары
- Жасы бойынша шектелген тауарлар мен қызметтер
Бұл саясаттарды нақты уақыттағы контентті сүзгілеу үшін де, пайдаланушы жасаған контентті офлайн талдау үшін де қолдануға болады.
Саясаттарды көмексөздер ретінде құрылымдау арқылы әзірлеушілер оларды бар жұмыс процестеріне оңайырақ кіріктіре алады, өз қолдану жағдайларына бейімдей алады және уақыт өте жетілдіре алады.

Біз бұл саясаттарды әзірлеуге Common Sense Media(жаңа терезеде ашылады) және everyone.ai(жаңа терезеде ашылады) сияқты сыртқы ұйымдармен бірге жұмыс істедік. Олардың сараптамасы қамтылатын контент ауқымын айқындауға, көмексөздердің құрылымын күшейтуге және оларды бағалау кезінде ескерілетін шеткі жағдайларды нақтылауға көмектесті.
Бұл жұмыс AI жүйелерінің жастарды қалай қолдайтынын жақсарту үшін сарапшылармен және кеңірек экожүйемен ынтымақтасуға бағытталған үздіксіз күш-жігердің көрінісі.
«Жасөспірімдерге арналған AI қауіпсіздігіндегі ең үлкен олқылықтардың бірі — әзірлеушілер соған сүйеніп құра алатын анық, операциялық саясаттардың жетіспеуі. Көп жағдайда әзірлеушілер бәрін нөлден бастайды. Көмексөзге негізделген бұл саясаттар экожүйа бойынша мағыналы қауіпсіздік ең төменгі шегін орнатуға көмектеседі, ал олардың ашық бастапқы код ретінде жариялануы уақыт өте оларды бейімдеуге және жетілдіруге мүмкіндік береді. Мұндай инфрақұрылымның кең қолжетімді болуы бізді жігерлендіреді және бұл сала бойынша жастар қауіпсіздігіне ортақ бастапқы нүктелердің көбеюіне түрткі болады деп үміттенеміз.»
—Robbie Torney, AI & Digital Assessments бөлімінің жетекшісі, Common Sense Media
«Жастар қауіпсіздігі саясаттарын анағұрлым операциялық ететін осындай бастамалар құнды, өйткені олар сарапшылық білімді нақты жүйелерде қолдануға болатын нұсқаулыққа айналдыруға көмектеседі. Контент саясаттары — маңызды алғашқы қадам, сонымен бірге олар модель мінез-құлқының уақыт өте жастарға қатысты тәуекелдерді қалай қалыптастыратыны жөніндегі ауқымдырақ жұмысқа жол ашады. Осы жұмыс пен өз зерттеулерімізден шабыт алып, everyone.ai(жаңа терезеде ашылады) эксклюзивтілік пен шамадан тыс тәуелділік сияқты тәуекелдерге бағытталған бастапқы мінез-құлық саясатын да жасады.»
—Dr. Mathilde Cerioli, everyone.AI ұйымының бас ғалымы
Бұл саясаттар жасөспірімдер қауіпсіздігінің жан-жақты не түпкілікті анықтамасы немесе кепілдігі ретінде емес, бастапқы нүкте ретінде ұсынылады. Әр қолданбаның тәуекелдері, аудиториясы және мәнмәтіндері бірегей, сондықтан өз өнімдері мен AI интеграциялары қандай тәуекелдер тудыруы мүмкін екенін ең жақсы түсінетіндер — әзірлеушілердің өзі. Біз әзірлеушілерге бұл саясаттарды өз қажеттіліктеріне қарай бейімдеп, кеңейтуді және оларды өнім дизайны шешімдері, пайдаланушы басқару тетіктері, жасөспірімдерге түсінікті ашықтық, мониторинг жүйелері және жасына сай ойластырылған жауаптар сияқты басқа қорғаныс шараларымен біріктіруді табанды түрде ұсынамыз.
Қауіпсіздеу AI жүйелерін құру үшін көпқабатты терең қорғаныс тәсілі аса маңызды деп санаймыз. Бұл саясаттар біздің ішкі тәжірибемізге сүйенеді, бірақ олар OpenAI-дың ішкі саясаттары мен қорғаныс шараларының толық ауқымын көрсетпейді.
Біз бұл саясаттарды ынтымақтастық пен итерацияны ынталандыру үшін ROOST Model Community(жаңа терезеде ашылады) арқылы ашық бастапқы код ретінде жариялап отырмыз. Үлес қосу, пікір білдіру немесе жасөспірімдер қауіпсіздігіне қатысты қосымша саясаттармен бөлісу үшін RMC GitHub репозиторийіне(жаңа терезеде ашылады) кіріңіз.
Әзірлеушілер мен ұйымдар бұл саясаттарды өз қолданбаларына бейімдей алады, оларды әртүрлі тілдерге аудара алады және қосымша тәуекел аймақтарын қамту үшін кеңейте алады. Уақыт өте бұл AI жүйелерінде қауіпсіздік саясаттарын енгізуге арналған анағұрлым берік әрі ортақ негіздің қалыптасуына үлес қосады деп үміттенеміз.
gpt-oss-safeguard жүйесімен жұмысты бастау үшін оны Hugging Face(жаңа терезеде ашылады) сайтынан жүктеп алыңыз.


