2024 ж. 9 желтоқсан

Sora жүйе картасы

Жүктелуде…

Кіріспе

Sora туралы шолу

Sora — OpenAI-дің мәтін, сурет және бейне кірістерін қабылдап, шығыста жаңа бейне жасауға арналған бейне генерациялау моделі. Пайдаланушылар әртүрлі пішімде 1080p ажыратымдылығына дейінгі (ең көбі 20 секунд) бейнелер жасай алады, мәтіннен жаңа контент тудыра алады немесе өз материалдарын жақсартып, ремикс жасап, біріктіре алады. Пайдаланушылар қауымдастық туындыларын көрсететін әрі жаңа идеяларға шабыт беретін Featured және Recent таспаларын көре алады. Sora DALL-E және GPT модельдерінен алынған сабақтарға сүйенеді және адамдарға әңгімелеу мен шығармашылық білдіруге кеңейтілген құралдар беруге арналған.

Sora — диффузиялық модель; ол бастапқыда статикалық шуға ұқсайтын базалық бейнеден басталып, шуды көптеген қадам арқылы алып тастау арқылы бейне жасайды. Модельге бір уақытта көптеген кадрды алдын ала көру мүмкіндігін беру арқылы біз нысан уақытша көрінбей қалса да, оның бірдей болып қалуын қамтамасыз ететін күрделі мәселені шештік. GPT модельдері сияқты, Sora да трансформер архитектурасын қолданады, бұл ауқымдауды анағұрлым тиімді етеді.

Sora DALL-E 3-тегі recaptioning әдісін қолданады, ол визуалды жаттығу деректері үшін өте сипаттамалы тақырыптамалар жасауды қамтиды. Соның нәтижесінде модель жасалған бейнеде пайдаланушының мәтіндік нұсқауларын дәлірек орындай алады.

Модель тек мәтіндік нұсқаулардан бейне жасай алып қана қоймай, бар статикалық суретті қабылдап, одан бейне жасай алады және сурет мазмұнын дәлдікпен әрі ұсақ бөлшектерге назар аудара отырып жандандырады. Модель бар бейнені қабылдап, оны ұзарта да алады немесе жетіспейтін кадрларды толтыра алады⁠. Sora нақты әлемді түсініп, модельдей алатын модельдер үшін негіз болады; бұл қабілет AGI-ге жетудегі маңызды межелердің бірі болады деп сенеміз.

Sora мүмкіндіктері жаңа тәуекелдер де тудыруы мүмкін, мысалы, біреудің келбетін теріс пайдалану немесе жаңылыстыратын не айқын бейне контент жасау қаупі. Sora-ны өнімде қауіпсіз орналастыру үшін біз DALL-E-ді ChatGPT пен API-де орналастыру кезіндегі қауіпсіздік жұмысынан және ChatGPT секілді басқа OpenAI өнімдеріндегі қауіпсіздік шараларынан алынған сабақтарға сүйендік. Бұл жүйе картасы нәтижесінде қалыптасқан қорғаныс шараларының жиынтығын, сыртқы редтиминг жұмыстарын, бағалауларды және осы сақтық шараларын одан әрі жетілдіруге арналған жалғасып жатқан зерттеулерді сипаттайды.

Модель деректері

2024 жылғы ақпанда жарияланған техникалық есебімізде⁠¹ сипатталғандай, Sora интернет ауқымындағы деректерде үйрету арқылы жалпылама қабілеттерге ие болатын үлкен тілдік модельдерден шабыт алады. LLM (үлкен тілдік модель) парадигмасының табысы ішінара мәтіннің түрлі модальдықтарын — кодты, математиканы және әртүрлі табиғи тілдерді — біріздендіретін токендерді пайдаланумен байланысты. Sora-да біз визуалды деректердің генеративті модельдері осындай артықшылықтарды қалай иелене алатынын қарастырдық. LLM-де мәтін токендері болса, Sora-да визуалды патчтар бар. Бұған дейін патчтардың визуалды деректер модельдері үшін тиімді ұсыну тәсілі екені көрсетілген. Біз патчтардың әртүрлі бейне мен сурет түрлерінде генеративті модельдерді үйрету үшін ауқымды әрі тиімді ұсыну тәсілі екенін анықтадық. Жалпы алғанда, біз алдымен бейнелерді төмен өлшемді жасырын кеңістікке сығып, кейін осы ұсынуды кеңістік-уақыт патчтарына бөлу арқылы оларды патчтарға айналдырамыз.

Sora әртүрлі деректер жиынтықтарында үйретілді, олардың ішінде көпшілікке қолжетімді деректер, серіктестіктер арқылы қол жеткізілген меншікті деректер және ішкі түрде әзірленген арнайы деректер жиынтықтары бар. Оларға мыналар кіреді:

Таңдап алынған көпшілікке қолжетімді деректер, негізінен салалық стандартқа сай машиналық үйрену деректер жиынтықтары мен веб-краулдардан жиналған.
Деректер серіктестіктерінен алынған меншікті деректер. Біз көпшілікке қолжетімсіз деректерге қол жеткізу үшін серіктестік құрамыз. Мысалы, AI жасаған суреттерді жасау және жеткізу бағытында Shutterstock⁠ Pond5-пен серіктестік құрдық. Сондай-ақ қажеттіліктерімізге сай деректер жиынтықтарын тапсырыспен әзірлеу және жасау үшін де серіктестік жасаймыз.
Адам деректері: AI жаттықтырушыларынан, red team мамандарынан және қызметкерлерден алынған кері байланыс.

Алдын ала үйрету сүзгілеуі және деректерді алдын ала өңдеу

Алдын ала үйрету кезеңінен кейін енгізілген қорғаныс шараларына қоса, алдын ала үйретуге дейінгі сүзгілеу шаралары да қосымша қорғаныс қабатын қамтамасыз ете алады; олар басқа қауіпсіздік шараларымен бірге деректер жиынтықтарымыздан қажетсіз және зиянды деректерді алып тастауға көмектеседі. Сондықтан үйрету алдында барлық деректер жиынтықтары осы сүзгілеу үдерісінен өтеді, оның барысында ең айқын, зорлық-зомбылық сипатындағы немесе өзге де сезімтал контент (мысалы, кейбір өшпенділік рәміздері) жойылады; бұл DALL-E 2 және DALL-E 3-ті қоса алғанда, басқа модельдерімізді үйретуге пайдаланылған деректерді сүзгілеу әдістерінің жалғасы болып табылады.

Тәуекелдерді анықтау және орналастыруға дайындық

Біз Sora-ның дизайны мен қауіпсіздік шараларын қалыптастыруға көмектесу үшін ықтимал теріс пайдалануды да, нақты өмірдегі шығармашылық қолдануларды да түсінуге арналған жан-жақты үдеріс жүргіздік. 2024 жылдың ақпанындағы Sora хабарландыруынан кейін біз 60-тан астам елден келген жүздеген визуал суретшілермен, дизайнерлермен және кинематографистермен жұмыс істеп, модельді шығармашылық мамандар үшін барынша пайдалы ету жолдары туралы пікір алдық. Сондай-ақ тәуекелдерді анықтап, бағалау және қауіпсіздік пен тәуекелді азайту шараларымызды итеративті түрде жақсарту үшін бірқатар бағалауды ішкі түрде және сыртқы red team мамандарымен бірге жасадық.

Sora үшін қауіпсіздік жүйеміз осы сабақтарға, сондай-ақ DALL-E және ChatGPT сияқты басқа модельдер мен өнімдерде қолданатын қолданыстағы қауіпсіздік шараларына және бейне өнімімізге арнайы жасалған қорғаныс шараларына сүйенеді. Бұл қуатты құрал болғандықтан, біз қауіпсіздікке итеративті тәсіл қолданамыз, әсіресе контекст маңызды болатын немесе бейнеге байланысты жаңа тәуекелдер туындауы мүмкін аймақтарда. Біздің итеративті тәсілімізге мысал ретінде қолжетімділікті 18 жастан асқан пайдаланушылармен шектеу, ұқсастық/бет жүктеулерін шектеу және іске қосылған кезде кәмелетке толмағандарға қатысты көмексөздер мен жүктеулерге консервативтірек модерация шектерін қолдану жатады. Біз адамдардың Sora-ны қалай пайдаланатынын үйренуді жалғастырып, пайдаланушыларымыздың шығармашылық әлеуетін барынша арттыра отырып, қауіпсіздік тепе-теңдігін ең жақсы сақтау үшін жүйемізді жетілдіре бергіміз келеді.

Сыртқы редтиминг

OpenAI Sora-ны сынау, қауіпсіздік шараларындағы әлсіз тұстарды анықтау және Sora-ның жаңа өнім мүмкіндіктеріне байланысты тәуекелдер туралы пікір беру үшін тоғыз түрлі елде орналасқан сыртқы red team мамандарымен жұмыс істеді. Red team қатысушылары 2024 жылғы қыркүйектен желтоқсанға дейін қауіпсіздік шаралары мен жүйе жетілуінің түрлі нұсқалары бар Sora өніміне қол жеткізіп, 15 000-нан астам генерацияны сынады. Бұл red teaming жұмысы 2024 жылдың басында өндірістік қорғаныс шаралары жоқ Sora моделі сыналған жұмысқа негізделді.

Red team қатысушылары Sora моделі мен өнім құралдарының жаңа ықтимал тәуекелдерін зерттеп, қауіпсіздік шаралары әзірленіп, жетілдіріліп жатқан кезде оларды сынады. Бұл red teaming науқандары бұзушылық болып саналатын және рұқсат етілмеген контенттің әртүрлі түрлерін (сексуалдық және эротикалық контент, зорлық-зомбылық пен қантөгіс, өзіне зиян келтіру, заңсыз контент, жалған/жаңылыстыратын ақпарат және т.б.), қауіпсіздік шараларынан айналып өтуге арналған қарсы тәсілдерді (көмексөздер де, құрал/функцияны пайдалану да), сондай-ақ бұл құралдарды модерация тетіктері мен қорғаныс шараларын біртіндеп әлсірету үшін қалай пайдалануға болатынын қамтыды. Red team қатысушылары Sora туралы қабылдауларына қатысты, соның ішінде бейтараптық пен жалпы өнімділік жөнінде де пікір берді.

Біз жоғарыда аталған барлық контент санаттары бойынша қарапайым көмексөздерді де, қарсы көмексөз беру тәсілдерін де қолданып, мәтіннен бейне жасау мүмкіндігін зерттедік. Медиа жүктеу мүмкіндігі көпшілікке белгілі тұлғаларды қоса алғанда, әртүрлі суреттер мен бейнелердің өте кең ауқымымен және бұзушылық контент жасау қабілетін тексеру үшін түрлі контент санаттарымен сыналды. Сондай-ақ тыйым салынған контент жасауға қаншалықты пайдалы екенін бағалау үшін өзгерту құралдарының (storyboards, recut, remix және blend) әртүрлі қолданылуы мен үйлесімдерін де сынадық.

Red team қатысушылары тыйым салынған контенттің нақты түрлері мен жалпы қарсы тәсілдерге қатысты назар аударарлық байқауларды анықтады. Мысалы, олар медициналық жағдайларды немесе ғылыми фантастика / фэнтези ортасын қамтитын мәтіндік көмексөздерді пайдалану эротикалық және сексуалдық контент жасауға қарсы қорғаныс шараларын қосымша қорғаныс жасалғанға дейін әлсірететінін анықтады. Red team қатысушылары қауіпсіздік жүйесінің элементтерін айналып өту үшін ишаралы көмексөздер мен модельдің қорытынды жасау қабілетін пайдалану үшін метафораларды қоса алғанда, қарсы тәсілдерді қолданды. Көптеген әрекеттен кейін олар қорғаныс тетіктерін іске қосатын көмексөздер мен сөздердің үрдістерін анықтап, бас тартудан айналып өту үшін әртүрлі тіркестер мен сөздерді сынай алды. Ақырында red team қатысушылары бір ғана көмексөз әдістерімен жасау мүмкін емес бұзушылық контентті одан әрі дамыту үшін ең алаңдатарлық генерацияны бастапқы медиа ретінде таңдайтын болды. Jailbreak тәсілдері кейде қауіпсіздік саясаттарын әлсіретуде тиімді болды, бұл бізге бұл қорғаныстарды да жетілдіруге мүмкіндік берді.

Red team қатысушылары сондай-ақ медиа жүктеулер мен Sora құралдарын (storyboards, recut, remix және blend) көпшілікке қолжетімді суреттермен де, AI жасаған медиамен де сынады. Бұл Sora шығарылымына дейін күшейту қажет кіріс және шығыс сүзгілеріндегі олқылықтарды ашты және адамдар бейнеленген медиа жүктеулер үшін қорғанысты нақтылауға көмектесті. Сынақтар сондай-ақ бұзушылық емес медиа жүктеулердің тыйым салынған эротикалық, зорлық-зомбылық немесе deepfake контентке өзгертілу қаупін азайту үшін классификатор сүзгілерін күшейту қажеттігін көрсетті.

Red team қатысушылары жасаған кері байланыс пен деректер қосымша қауіпсіздік шаралары қабаттарын құруға және қолданыстағы қауіпсіздік бағалауларын жақсартуға мүмкіндік берді; бұлар «Нақты тәуекел аймақтары және қорғаныс шаралары»⁠ бөлімдерінде сипатталған. Бұл жұмыстар қауіпсіздік мақсаттарына модель сәйкестігін қамтамасыз ету үшін көмексөз сүзгілеуімізді, блоктізімдерімізді және классификатор шектерін қосымша баптауға жол ашты.

Суретшілерге ерте қолжетімділіктен алынған сабақтар

Соңғы тоғыз айда біз 60-тан астам елден келген 300-ден астам пайдаланушыдан түскен 500 000-нан астам модель сұрауы бойынша пайдаланушы пікірлерін байқадық. Бұл деректер модель мінез-құлқын және модельдің қауіпсіздік хаттамаларына сәйкестігін жақсартуға негіз болды. Мысалы, суретшілердің пікірлері көрінетін сутаңбаның олардың жұмыс үдерістеріне қоятын шектеулерін түсінуге көмектесті, соның нәтижесінде ақылы пайдаланушыларға C2PA деректерін ендіруді сақтай отырып, бейне файлдарын көрінетін сутаңбасыз жүктеп алуға рұқсат беру туралы шешім қабылдадық.

Бұл ерте қолжетімділік бағдарламасы бізге сондай-ақ, егер Sora әңгімелеу мен шығармашылық білдірудің кеңейтілген құралы болуға тиіс болса, ChatGPT сияқты жалпы мақсаттағы құралда басқаша қарастыратын кейбір сезімтал аймақтарда суретшілерге көбірек икемділік ұсыну қажет болатынын үйретті. Біз суретшілер, тәуелсіз кинематографистер, студиялар және ойын-сауық саласындағы басқа ұйымдар Sora-ны өздерінің әзірлеу үдерістерінің маңызды бөлігі ретінде қолданады деп күтеміз. Сонымен қатар, оң қолдану жағдайларын да, ықтимал теріс пайдалануды да анықтау зиян мен теріс пайдалану қаупін азайту үшін өнім деңгейінде қатаңырақ қорғаныс шаралары қажет болатын аймақтарды анықтауға мүмкіндік берді.

Бағалаулар

Біз жалаңаштық, сайлауға қатысты алдамшы контент, өзіне зиян келтіру және зорлық-зомбылық сияқты негізгі бағыттарға арналған ішкі бағалаулар әзірледік. Бұл бағалаулар қорғаныс шараларын жетілдіруді қолдауға және модерация шектерін айқындауға көмектесу үшін жасалды. Бағалау шеңбері бейне генерациялау моделіне берілетін кіріс көмексөздерін және түрлендірілген көмексөздерге не соңғы жасалған бейнелерге қолданылатын кіріс және шығыс классификаторларын біріктіреді.

Бұл бағалауларға арналған кіріс көмексөздері үш негізгі арнадан алынды: ерте alpha кезеңінде жиналған деректер (3.2-бөлімде сипатталған), red-team тестерлері ұсынған қарсы мысалдар (3.1-бөлімде аталған) және GPT‑4 көмегімен жасалған синтетикалық деректер. Alpha кезеңінің деректері нақты өмірдегі пайдалану сценарийлері туралы түсінік берді, red-team қатысушылары қарсы тәсілдер мен шеткі жағдайдағы контентті ашуға көмектесті, ал синтетикалық деректер табиғи түрде кездесетін мысалдар аз болатын күтпеген ересек мазмұн секілді салаларда бағалау жиынтықтарын кеңейтуге мүмкіндік берді.

Дайындық

Дайындық шеңбері озық модель мүмкіндіктері бақыланатын төрт санатта елеулі тәуекелдер туғыза ма, соны бағалауға арналған: иландыру, киберқауіпсіздік, CBRN (химиялық, биологиялық, радиологиялық және ядролық), және модель автономиясы. Бізде Sora-ның киберқауіпсіздікке, CBRN-ға немесе модель автономиясына қатысты қандай да бір елеулі тәуекел туғызатыны жөнінде дәлел жоқ. Бұл тәуекелдер компьютерлік жүйелермен әрекеттесетін, ғылыми біліммен немесе автономды шешім қабылдаумен байланысты модельдерге тығыз қатысты, ал бұлардың бәрі қазіргі уақытта Sora-ның бейне генерациялау құралы ретіндегі аясынан тыс.

Sora-ның бейне генерациялау мүмкіндіктері кейіпке ену, жалған ақпарат немесе әлеуметтік инженерия сияқты иландыруға қатысты ықтимал тәуекелдер туғызуы мүмкін. Бұл тәуекелдерді шешу үшін біз төмендегі бөлімдерде сипатталған бірқатар қорғаныс шараларын әзірледік. Оларға белгілі қоғамдық тұлғалардың ұқсастығын жасаудың алдын алуға арналған қорғаныс шаралары кіреді. Бұған қоса, контекст пен бейненің шынайы не AI жасағанын білу оның қаншалықты иландыра алатынын анықтауда маңызды болуы мүмкін болғандықтан, біз метадеректерді, сутаңбаларды және саусақіздеуді қамтитын көпқабатты шығу тегі тәсілін құруға назар аудардық.

Sora қорғаныс шараларының жиынтығы

Төменде анықталған нақты тәуекелдер мен қорғаныс шараларына қоса, Sora-ны үйрету, өнім дизайны және саясаттардағы таңдаулар зиянды немесе қалаусыз нәтижелер қаупін кең ауқымда азайтуға көмектеседі. Бұларды жалпы түрде жүйе және модель деңгейіндегі техникалық қорғаныс шаралары, сондай-ақ өнім саясаттары мен пайдаланушыны оқыту деп бөлуге болады.

Жүйелік және модельдік қорғаныс шаралары

Төменде пайдаланушыға сұралған нәтижесі көрсетілгенге дейін қолданылатын негізгі қауіпсіздік шараларын сипаттаймыз:

Көпмодальды moderation классификаторы арқылы мәтін мен суретті модерациялау

Сыртқы Moderation API-імізді іске қосатын көпмодальды moderation классификаторы пайдалану саясаттарымызды бұзуы мүмкін мәтін, сурет немесе бейне көмексөздерін кірісте де, шығыста да анықтау үшін қолданылады. Жүйе анықтаған бұзушылық көмексөздер бас тартуға әкеледі. Көпмодальды moderation API туралы толығырақ осы жерден біліңіз⁠.²

Арнайы LLM сүзгілеуі

Бейне генерациялау технологиясының бір артықшылығы — жалпы пайдаланушы тәжірибесіне кідіріс қоспай, асинхронды модерация тексерістерін жүргізу мүмкіндігі. Бейне генерациясы табиғаты бойынша өңдеуге бірнеше секунд алатындықтан, осы уақыт аралығын дәл нысаналанған модерация тексерістерін іске қосуға пайдалануға болады. Біз үшінші тарап контентін, сондай-ақ алдамшы контентті анықтауды қоса алғанда, кейбір нақты тақырыптар бойынша модерацияның жоғары дәлдігіне жету үшін өз GPT нұсқамызды бейімдедік.

Сүзгілер көпмодальды: әрбір LLM шақыруының контексіне сурет/бейне жүктеулері, мәтіндік көмексөздер және шығыстар кіреді. Бұл сурет пен мәтін арасындағы ережебұзушылық комбинацияларды анықтауға мүмкіндік береді.

Сурет шығысының классификаторлары

Шығыстардағы ықтимал зиянды контентті тікелей шешу үшін Sora NSFW контентке, кәмелетке толмағандарға, зорлық-зомбылыққа және ұқсастықты теріс пайдаланудың ықтимал түрлеріне арналған арнайы сүзгілерді қоса алғанда, шығыс классификаторларын пайдаланады. Бұл классификаторлар іске қосылса, Sora бейнелерді пайдаланушымен бөлісерден бұрын бұғаттауы мүмкін.

Блоктізімдер

Біз DALL-E 2 және DALL-E 3 бойынша алдыңғы жұмысымызға, тәуекелдерді белсенді анықтауға және ерте пайдаланушылардан алынған нәтижелерге сүйене отырып, әртүрлі санаттар бойынша мәтіндік блоктізімдерді жүргіземіз.

Өнім саясаттары

Бұзушылық контенттің жасалуын болдырмау үшін модель мен жүйеге енгізген қорғаныс шараларына қоса, біз теріс пайдалану қаупін азайту үшін қосымша қадамдар да жасап жатырмыз. Қазір біз Sora-ны тек 18 жасқа толған пайдаланушыларға ғана ұсынамыз және Explore мен Featured таспаларында көрсетілетін контентке модерация сүзгілерін қолданамыз.

Сондай-ақ өнім ішіндегі және көпшілікке ашық білім беру материалдары арқылы мына мәселелер жөніндегі саясат нұсқаулықтарын анық жеткіземіз:

Басқа адамның келбетін оның рұқсатынсыз пайдалану және нақты кәмелетке толмағандарды бейнелеуге тыйым салу;
Заңсыз контент немесе зияткерлік меншік құқықтарын бұзатын контент жасау;
Келісімсіз интимдік бейнелер, қорқытуға, қудалауға немесе жала жабуға пайдаланылатын контент немесе зорлық-зомбылықты, өшпенділікті не өзгенің азабын насихаттауға арналған контент сияқты айқын және зиянды контентті жасау; және
Басқаларды алдау, алаяқтық жасау немесе жаңылыстыру үшін пайдаланылатын контентті жасау және тарату.

Теріс пайдаланудың осы түрлерінің кейбірі модельдік және жүйелік қорғаныс шараларымыз арқылы шешіледі, бірақ басқалары көбірек контекстке байланысты — наразылық көрінісі заңды шығармашылық мақсатта қолданылуы мүмкін, алайда дәл сол көрініс басқа тұжырымдармен бірге берілсе, нақты ағымдағы оқиға ретінде жалған ақпарат болып таралуы да мүмкін.

Sora адамдарға шығармашылық идеялар мен көзқарастардың кең ауқымын білдіруге мүмкіндік беру үшін жасалған. Контекстке байланысты проблемалы контенттің әрбір түрінің алдын алу іс жүзінде мүмкін де емес, орынды да емес.

Біз автоматтандыру мен адам шолуысын пайдаланып, пайдалану үлгілерін белсенді бақылау арқылы адамдарға нұсқаулықтарымызды бұзуы мүмкін деп санайтын Sora бейнелері туралы хабарлау⁠ мүмкіндігін береміз. Біз бұзушылық бейнелерді жою және пайдаланушыларға жаза қолдану үшін орындау тетіктерін құрдық. Пайдаланушылар нұсқаулықтарымызды бұзған жағдайда, біз оларға хабарлап, әділ деп санайтын көзқарасын айтуға мүмкіндік береміз. Осы қорғаныс шараларының тиімділігін қадағалап, оларды уақыт өте келе жетілдіруді көздейміз.

Нақты тәуекел аймақтары және қорғаныс шаралары

Жоғарыда сипатталған жалпы қауіпсіздік шараларынан бөлек, ерте тестілеу мен бағалау қауіпсіздікке ерекше назар аударуды қажет ететін бірнеше аймақты анықтауға көмектесті.

Балалар қауіпсіздігі

OpenAI балалар қауіпсіздігі тәуекелдерін шешуге терең бейіл⁠³ және біз барлық өнімдерімізде, соның ішінде Sora-да да Child Sexual Abuse Material⁠(жаңа терезеде ашылады) (CSAM (балаларға қатысты заңсыз материалдар)) контентінің алдын алуға, анықтауға және хабарлауға басымдық береміз. Балалар қауіпсіздігі саласындағы OpenAI жұмыстарына деректер жиынтықтарымызды CSAM-тен қорғау үшін жауапкершілікпен іріктеу, балаларға жыныстық зорлық-зомбылықтың алдын алу және балаларды қорғау үшін National Center for Missing & Exploited Children (NCMEC) ұйымымен серіктестік, Thorn ұсынымдарына сәйкес және заңдық шектеулерді сақтай отырып red-teaming жүргізу, сондай-ақ барлық кірістер мен шығыстар бойынша CSAM-ға сенімді сканерлеу кіреді. Бұған клиенттер CSAM сканерлеуін алып тастау үшін қатаң талаптарға сай келмесе, бірінші тарап және үшінші тарап пайдаланушыларын (API және Enterprise) сканерлеу де кіреді. CSAM жасалуын болдырмау үшін біз ChatGPT және DALL-E сияқты басқа өнімдерімізде қолданатын жүйелік қорғаныс шараларын⁴ және Sora үшін арнайы жасаған қосымша тетіктерді пайдалана отырып, сенімді қауіпсіздік жүйесін құрдық.

Кіріс классификаторлары

Балалар қауіпсіздігі үшін біз мәтін, сурет және бейне кірісі бойынша 3 түрлі кіріс қорғаныс шарасын қолданамыз:

Барлық сурет және бейне жүктеулері үшін біз Thorn әзірлеген Safer жүйесімен бірігіп, белгілі CSAM-пен сәйкестіктерді анықтаймыз. Расталған сәйкестіктер қабылданбайды және NCMEC-ке хабарланады. Бұған қоса, біз ықтимал жаңа, хэштелмеген CSAM контентін анықтау үшін Thorn-ның CSAM классификаторын пайдаланамыз.
Біз кәмелетке толмағандар қатысатын кез келген сексуалдық контентті мәтін, сурет және бейне кірісі арқылы анықтау және модерациялау үшін көпмодальды moderation классификаторын пайдаланамыз.
Sora үшін біз мәтін мен суреттерді талдап, онда 18 жасқа толмаған адам бейнеленгенін немесе қоса берілген сипаттамада кәмелетке толмаған адам аталғанын болжайтын классификатор әзірледік. Біз 18-ге толмаған адамдар бар суреттен бейнеге сұрауларды қабылдамаймыз. Егер мәтіннен бейнеге сұрауы 18-ге толмағандарға қатысты деп анықталса, сексуалдық, зорлық-зомбылық немесе өзіне зиян келтіру контентіне қатысты әлдеқайда қатаң модерация шектерін қолданамыз.

Төменде адамдарға арналған under-18 классификаторымыздың бағалауы берілген. Біз классификаторымызды [бала | ересек] және [реалистік | ойдан шығарылған] санаттары бойынша шамамен 5000 суреттен тұратын деректер жиынтығында реалистік түрде бейнеленген 18-ге толмағандарды қабылдамау тұрғысынан бағалаймыз. Біздің саясат ұстанымымыз — реалистік балаларды қабылдамау, ал сексуалдық сипатта болмаса, анимация, мультфильм немесе эскиз стилін қоса алғанда, ойдан шығарылған суреттерге рұқсат беру. Біз кәмелетке толмағандарға қатысты контентке сақтықпен қараймыз және өнімді пайдалану арқылы көбірек үйренген сайын, шығармашылық білдіруге мүмкіндік беру мен қауіпсіздік арасындағы дұрыс теңгерімді табу үшін тәсілімізді бағалауды жалғастырамыз.

Қазір классификаторларымыздың дәлдігі жоғары, бірақ олар кейде ересектердің немесе балалардың реалистік емес суреттерін қателесіп белгілеуі мүмкін. Бұған қоса, зерттеулер мен қолданыстағы әдебиеттер жасты болжау модельдерінде нәсілдік бейтарапсыздық болуы мүмкін екенін көрсететінін мойындаймыз. Мысалы, мұндай модельдер белгілі бір нәсілдік топтардағы адамдардың жасын жүйелі түрде төмен бағалауы мүмкін.⁵ Біз алдағы айларда классификаторымыздың өнімділігін жақсартуға, жалған оң нәтижелерді азайтуға және ықтимал бейтарапсыздықтарды тереңірек түсінуге міндеттенеміз.

	Expected outcome	n_samples	count (is_child)	count (not_child)	Evaluated metrics
Realistic Child	Classify images as “is child”	1589	1555	34	Accuracy: 97.86%
Realistic Adult	Classify images as “not child”	1370	36	1334	Accuracy: 99.28%
Fictitious Adult	Classify images as “not child”	965	7	958	Accuracy: 97.37%
Fictitious Child	Classify images as “not child”	1050	323	727	Accuracy: 69.24%
Total		4974	1921	3053	Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Шығыс

Жоғарыда айтылғандай, мәтіндік кірісте кәмелетке толмағандарға сілтемені under-18 классификаторымыз арқылы анықтағаннан кейін, шығыстағы сексуалдық, зорлық-зомбылық немесе өзіне зиян келтіру контентіне қатысты қатаң модерация шектерін қолданамыз. Төменде бұған қол жеткізу үшін пайдаланатын екі шығыс классификаторы берілген:

Қауіпсіз емес бейне шығыстарын тексеретін көпмодальды moderation классификаторы ерекше сезімтал болуы мүмкін сұрауларды кері қайтарады
Сондай-ақ балалар қауіпсіздігіне қатысты бұзушылықтарды анықтау үшін қолданыстағы DALL-E сурет классификаторымызды пайдаланамыз.

Шығыс классификаторларымыз секундына 2 кадрды тексереді және бейне қауіпті деп танылса, кез келген шығысты бұғаттаймыз.

Классификаторларымыз бен автоматтандырылған модерацияға қоса, балалар қауіпсіздігіне ықтимал бұзушылықтарға қарсы қосымша қорғаныс қабаты ретінде адам шолуысын қолданамыз.

Өнім саясаты

Біздің саясаттар Sora-ны кәмелетке толмағандар қатысатын сексуалдық контент жасау үшін пайдалануға тыйым салады. Балалар қауіпсіздігі саясаттарымызды бұзу контентті жоюға және пайдаланушыны бұғаттауға әкелуі мүмкін.

Жалаңаштық және ишаралы контент

AI бейне генерациялау мүмкіндіктерімен байланысты қалыптасып келе жатқан тәуекел аймақтарының бірі — NSFW (жұмысқа қауіпсіз емес) немесе NCII (келісімсіз интимдік бейнелер) контентін жасау мүмкіндігі. DALL-E тәсіліне ұқсас, Sora айқын контентті бұғаттау үшін көпдеңгейлі модерация стратегиясын қолданады. Оларға көмексөз түрлендірулері, сурет шығысының классификаторлары және блоктізімдер жатады; бұлардың барлығы, әсіресе жасқа сай нәтижелер үшін, ишаралы контентті шектейтін жүйеге үлес қосады. Классификаторларымыздың шектері мәтінге негізделген көмексөздерге қарағанда сурет жүктеулері үшін қатаңырақ.

Explore бөлімінде көрсетілетін бейнелер кең аудиторияға лайық көру тәжірибесін қамтамасыз ету үшін одан да жоғары шектермен қосымша сүзгіден өтеді.

Төменде кірістер мен шығыстар бойынша көпқабатты қорғаныс шараларының тиімділігін бағалауға арналған жалаңаштық пен ишаралы контент бойынша жүргізілген бағалауларымыздың нәтижелері келтірілген. Нәтижелерге сүйене отырып, біз шектерімізді қайта қарап, адамдар қамтылған жүктелген суреттерге қатаңырақ модерация қолдандық.

Санат	*Дәлдік (кірісте)**	*Дәлдік (шығыста, яғни E2E)**
Жалаңаштық және ишаралы контент	97.25%	97.59%

Бағалау түсіндірмесі:

N = бұзушылық үлгілерінің жалпы саны (~әр санатқа 200 шамасында)
I = кіріс модерация тексерістерінен өткен бұзушылық үлгілерінің жалпы саны
O = шығыс модерация тексерістерінен өткен бұзушылық үлгілерінің жалпы саны

Кірістегі дәлдік = (N - I) / N
Шығыстағы дәлдік (E2E) = (N - O) / N

Өнім саясаты

Біздің саясаттар Sora-ны айқын сексуалдық контентті, соның ішінде келісімсіз интимдік бейнелерді жасау үшін пайдалануға тыйым салады. Бұл саясаттарды бұзу контентті жоюға және пайдаланушыға жаза қолдануға әкелуі мүмкін.

Алдамшы контент

Ұқсастықты теріс пайдалану және зиянды deepfake-тер

Sora-ның ұқсастыққа негізделген көмексөздерге арналған модерация бақылауы ықтимал зиянды deepfake контентті белгілеуге арналған; мақсаты — танылатын адамдар қатысатын бейнелердің мұқият қаралуын қамтамасыз ету. Ұқсастықты теріс пайдалану сүзгісі адамдарды ықтимал зиянды немесе жаңылыстыратын жолдармен өзгертуге не бейнелеуге тырысатын көмексөздерді қосымша белгілейді. Sora-ның жалпы көмексөз түрлендірулері біреудің аты бар көмексөз негізінде жеке тұлғаның қалаусыз ұқсастығын Sora жасап қою қаупін одан әрі азайтады.

Алдамшы контент

Sora-ның кіріс және шығыс классификаторлары сайлауға қатысты алаяқ, этикаға сай емес немесе өзге де заңсыз әрекеттерді бейнелейтін алдамшы контенттің жасалуын болдырмауға арналған. Sora-ның бағалау метрикалары сайлау контексінде жаңылыстыратын бейнелер тудыруы мүмкін стильдерді немесе сүзгі тәсілдерін белгілеуге арналған классификаторларды қамтиды, осылайша нақты өмірдегі теріс пайдалану қаупін азайтады.

Төменде әртүрлі кірістерде (мысалы, мәтін және бейне) тыйым салынған контент жасау ниеті болуы мүмкін жағдайларды анықтауға көмектесуге бағытталған алдамшы сайлау контентіне арналған LLM сүзгіміздің бағалаулары келтірілген. Жүйеміз сондай-ақ ықтимал шығыс бұзушылықтарын бағалау үшін шығыс бейненің әр секундына 1 кадрды тексереді.

Классификатор	Қамту	Дәлдік	Белгіленген кездегі нәтиже
Сайлауға қатысты алдамшы контент	98.23%	88.80%	Шығыс генерациясын бұғаттау

N=~500, синтетикалық деректер көмексөздеріне негізделген

Шығу тегіне инвестициялар

Sora-мен байланысты көптеген тәуекелдер, мысалы, зиянды deepfake контент, контекстке қатты тәуелді болғандықтан, біз шығу тегі құралдарымызды жетілдіруге басымдық бердік. Шығу тегіне қатысты бір ғана шешім жоқ екенін түсінеміз, бірақ шығу тегі экожүйесін жақсартуға және Sora арқылы жасалған контентке контекст пен ашықтық қалыптастыруға көмектесуге міндеттенеміз.

Жалпы қолжетімділік үшін шығу тегіне қатысты қауіпсіздік құралдарымыз мыналарды қамтиды:

Барлық материалдарда C2PA метадеректері (тексерілетін шығу тегі, салалық стандарт)
Әдепкі бойынша анимацияланған көрінетін Sora сутаңбалары (көрермендерге мұның ‘AI’ екенін ашық көрсету)
OpenAI-дің Intelligence & Investigation командасы мүшелеріне контенттің Sora арқылы жасалғанын жоғары сеніммен бағалауға көмектесетін ішкі кері бейне іздеу құралы

Өнім саясаты

Біздің саясаттар Sora-ны жалған ақпарат жасау мен таратуды қоса алғанда, басқаларды алдау, алаяқтық жасау немесе жаңылыстыру үшін пайдалануға тыйым салады. Сондай-ақ басқа адамның келбетін оның рұқсатынсыз пайдалануға тыйым салады. Бұл саясаттарды бұзу контентті жоюға және пайдаланушыға жаза қолдануға әкелуі мүмкін.

Суретші стильдері

Пайдаланушы көмексөзде тірі суретшінің атын қолданғанда, модель қандай да бір деңгейде сол суретшінің туындыларының стиліне ұқсайтын бейне жасай алады. Шығармашылықта басқа суретшілердің стиліне сүйенудің өте ұзақ дәстүрі бар, бірақ кейбір авторлардың бұған алаңдауы мүмкін екенін түсінеміз. Шығармашылық қауымдастық Sora-ны қалай қолданатыны туралы көбірек білгенше, біз Sora-ның осы нұсқасына сақтыққа негізделген тәсілді таңдадық. Осыны шешу үшін пайдаланушы тірі суретшінің стилінде бейне жасауға әрекеттенгенде іске қосылуға арналған көмексөзді қайта жазу механизмдерін қостық.

Басқа өнімдеріміздегідей, Sora Editor жіберілген мәтінді Sora-ға тиімдірек көмексөз беру үшін қайта жазуда LLM (үлкен тілдік модель) пайдаланады. Бұл процесс нұсқаулықтарымызға сәйкестікті арттырады, соның ішінде қоғамдық тұлғалардың аттарын алып тастау, адамдарды нақты сипаттармен негіздеу және брендтік нысандарды жалпы түрде сипаттау бар. Біз DALL-E 2 және DALL-E 3 бойынша алдыңғы жұмысымызға, тәуекелдерді белсенді анықтауға және red team мүшелері мен ерте пайдаланушылардың нәтижелеріне сүйене отырып, әртүрлі санаттар бойынша мәтіндік блоктізімдерді жүргіземіз.

Болашақ жұмыс

OpenAI өз өнімдерін жауапкершілікпен және тиімді енгізу үшін итеративті орналастыру стратегиясын қолданады. Бұл тәсіл кезең-кезеңмен енгізуді, үздіксіз тестілеуді және пайдаланушы пікірі мен нақты өмірдегі деректер арқылы тұрақты мониторингті біріктіріп, уақыт өте келе өнімділік пен қауіпсіздік шараларын жетілдіруге бағытталған. Төменде Sora үшін итеративті орналастыру аясында жоспарлап отырған жұмыстар тізбегі берілген.

Ұқсастық пилоты

Нақты адамның жүктелген фотосын не бейнесін «негіз» ретінде пайдаланып бейне жасау мүмкіндігі — теріс пайдаланудың ықтимал жолы, сондықтан біз пайдаланудың бастапқы үлгілерінен үйрену үшін бұған әсіресе кезең-кезеңімен қараймыз. Суретшілерден келген бастапқы пікірлер мұның өздері бағалайтын қуатты шығармашылық құрал екенін көрсетеді, бірақ теріс пайдалану қаупін ескере отырып, біз оны бастапқыда барлық пайдаланушыға қолжетімді етпейміз. Оның орнына, итеративті орналастыру тәжірибемізге сай, адамдардың суреттері мен бейнелерін жүктеу мүмкіндігі пайдаланушылардың бір бөлігіне ғана беріледі, әрі оның Sora қауымдастығы үшін құндылығын түсіну және үйрене келе қауіпсіздік тәсілімізді түзету үшін біз белсенді, терең мониторинг жүргіземіз. Осы сынақ кезінде кәмелетке толмағандардың суреттері бар жүктемелерге рұқсат берілмейді.

Шығу тегі мен ашықтық бастамалары

Sora-ның болашақ нұсқалары кері ендіру іздеу құралдары бойынша зерттеулер және C2PA сияқты ашықтық шараларын әрі қарай енгізу арқылы қадағалану мүмкіндігін күшейтуді жалғастырады. Біз шығу тегі экожүйесін кеңейту мен жақсарту және Sora үшін ішкі кері сурет құралымызды сынау мақсатында ҮЕҰ-лармен және зерттеу ұйымдарымен ықтимал серіктестіктерді зерттеуге қуаныштымыз.

Нәтижелеріміздегі көріністі кеңейту

Біз көмексөздерді жетілдіру, кері байланыс циклдері және тиімді қорғаныс шараларын үздіксіз анықтау арқылы ықтимал шығыс бейтарапсыздығын азайтуға ұмтыламыз әрі шамадан тыс түзетулердің де бірдей зиянды болуы мүмкін екенін мойындаймыз. Біз дене бейнесіне қатысты бейтараптық пен демографиялық көрініс сияқты қиындықтарды мойындаймыз және теңгерімді әрі инклюзивті нәтижелерді қамтамасыз ету үшін тәсілімізді жетілдіруді жалғастырамыз.

Қауіпсіздік, саясат және этикалық сәйкестікті жалғастыру

OpenAI Sora-ны тұрақты түрде бағалауды және Sora-ның OpenAI саясаттары мен қауіпсіздік стандарттарына сәйкестігін одан әрі жақсарту жұмысын жалғастыруды жоспарлап отыр. Ұқсастық қауіпсіздігі мен алдамшы контент сияқты бағыттарда қосымша жақсартулар дамып келе жатқан үздік тәжірибелер мен пайдаланушы пікірлеріне сүйене отырып жоспарланған.

Алғыс

OpenAI компаниясының барлық ішкі командаларына, соның ішінде Comms, Comms Design, Жаһандық мәселелер, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems және User Ops командаларына алғыс айтамыз. Олардың қолдауы Sora үшін қауіпсіздік шараларын әзірлеу мен енгізуде, сондай-ақ осы жүйе картасына үлес қосуда шешуші рөл атқарды.

Кері байланыс беріп, модельдерімізді әзірлеудің ерте кезеңдерінде сынауға көмектескен әрі тәуекелдерді бағалауымыз бен тексерулерімізге ықпал еткен Alpha суретшілер тобы мен сарапшы редтиминг мамандарына ризамыз. Тестілеу процесіне қатысу OpenAI-дің орналастыру жоспарларын немесе OpenAI саясатын қолдау дегенді білдірмейді.

Редтимингке қатысқан тұлғалар (әліпби ретімен): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
Редтимингке қатысқан ұйымдар: ScaleAI

Авторлар

OpenAI

Дереккөздер

1
OpenAI. Әлем симуляторлары ретіндегі бейне генерациялау модельдері.⁠
2
OpenAI. (күні көрсетілмеген). Moderation API-ді жаңа көпмодальды moderation моделімізбен жаңарту⁠. 2024
3
OpenAI. (күні көрсетілмеген). Балалар қауіпсіздігі: SBD қағидаттарын қабылдау⁠. OpenAI. Алынған күні: 2024 жылғы 6 желтоқсан
4
OpenAI. DALL-E 3 жүйе картасы⁠. 2023.
5
Panić, N., Marjanović, M., & Bezdan, T. (2024). Деректер жиынтығының құрамын оңтайландыру арқылы жасты бағалау модельдеріндегі демографиялық бейтараптықты азайту⁠(жаңа терезеде ашылады). Mathematics, 12(15), 2358.