9. децембар 2024.

Системска картица за Sora

Учитавање…

Увод

Преглед модела Sora

Sora је OpenAI модел за генерисање видеа, осмишљен да прима текстуалне, сликовне и видео улазе и као излаз генерише нови видео. Корисници могу да праве видео-записе у резолуцији до 1080p (максимално 20 секунди) у различитим форматима, да генеришу нови садржај из текста или да унапређују, ремиксују и комбинују сопствени материјал. Корисници ће моћи да истражују одељке Featured и Recent, који приказују радове заједнице и нуде инспирацију за нове идеје. Sora се надовезује на сазнања из модела DALL·E и GPT и осмишљена је да људима пружи проширене алате за приповедање и креативно изражавање.

Sora је дифузиони модел који генерише видео тако што почиње од основног видеа који личи на статички шум и постепено га трансформише уклањањем шума кроз много корака. Тиме што моделу дајемо увид у више кадрова истовремено, решили смо тежак проблем обезбеђивања да субјекат остане исти чак и када привремено изађе из видокруга. Слично GPT моделима, Sora користи архитектуру трансформатора, што омогућава супериорне перформансе скалирања.

Sora користи технику поновног описивања из DALL·E 3, која подразумева генерисање веома описних натписа за визуелне податке за обуку. Као резултат тога, модел је у стању да верније прати текстуалне инструкције корисника у генерисаном видеу.

Поред тога што може да генерише видео искључиво на основу текстуалних инструкција, модел може да прими постојећу статичну слику и од ње направи видео, анимирајући садржај слике прецизно и уз пажњу према ситним детаљима. Модел такође може да прими постојећи видео и да га продужи или попуни недостајуће кадрове⁠. Sora служи као основа за моделе који могу да разумеју и симулирају стварни свет, што сматрамо важном прекретницом за достизање AGI.

Могућности модела Sora могу увести и нове ризике, као што су потенцијална злоупотреба сличности или генерисање обмањујућег или експлицитног видео садржаја. Да бисмо безбедно применили Sora у производу, ослонили смо се на искуства из безбедносног рада при примени DALL·E у ChatGPT‑у и API-ју, као и на безбедносне мере за друге OpenAI производе као што је ChatGPT. Ова системска картица описује настали пакет мера ублажавања, спољне напоре црвене команде, евалуације и текућа истраживања ради даљег унапређивања ових заштита.

Подаци модела

Као што је описано у нашем техничком извештају⁠¹ из фебруара 2024, Sora је инспирисана великим језичким моделима који стичу опште способности обуком на подацима размера интернета. Успех парадигме великих језичких модела (LLM) делом је омогућен употребом токена који елегантно уједињују различите модалитете текста — кôд, математику и разне природне језике. Са моделом Sora разматрали смо како генеративни модели визуелних података могу наследити такве предности. Док LLM имају текстуалне токене, Sora има визуелне закрпе. Раније је показано да су закрпе ефикасна репрезентација за моделе визуелних података. Утврдили смо да су закрпе високо скалабилна и ефикасна репрезентација за обуку генеративних модела на разноврсним типовима видеа и слика. На високом нивоу, видео-записе претварамо у закрпе тако што их најпре компресујемо у латентни простор ниже димензије, а затим ту репрезентацију разлажемо на просторно-временске закрпе.

Sora је обучавана на разноврсним скуповима података, укључујући мешавину јавно доступних података, власничких података којима се приступа кроз партнерства и прилагођених скупова података развијених интерно. Они се састоје од:

Одабраних јавно доступних података, углавном прикупљених из индустријски стандардних скупова података за машинско учење и са веб претрага.
Власничких података из партнерстава у области података. Склапамо партнерства ради приступа подацима који нису јавно доступни. На пример, сарађивали смо са Shutterstock⁠ и Pond5 на изградњи и испоруци слика генерисаних вештачком интелигенцијом. Такође сарађујемо на наручивању и креирању скупова података прилагођених нашим потребама.
Људских података: Повратне информације AI тренера, чланова црвене команде и запослених.

Филтрирање предобуке и предобрада података

Поред мера ублажавања примењених након фазе предобуке, мере филтрирања током предобуке могу пружити додатни слој одбране који, заједно са другим безбедносним мерама, помаже да се из наших скупова података искључе нежељени и штетни подаци. Стога сви скупови података пре обуке пролазе кроз овај процес филтрирања, при чему се уклања најексплицитнији, најнасилнији или на други начин осетљив садржај (на пример, неки симболи мржње), што представља проширење метода које смо користили за филтрирање података на којима смо обучавали наше друге моделе, укључујући DALL·E 2 и DALL·E 3.

Идентификација ризика и припрема за примену

Спровели смо темељан процес да бисмо разумели и потенцијалне злоупотребе и креативне употребе у стварном свету, што је помогло у обликовању дизајна модела Sora и његових безбедносних мера ублажавања. После најаве модела Sora у фебруару 2024, сарађивали смо са стотинама визуелних уметника, дизајнера и филмских стваралаца из више од 60 земаља како бисмо добили повратне информације о томе како да модел најбоље унапредимо да би био што кориснији креативним професионалцима. Такође смо интерно и са спољним члановима црвене команде осмислили низ евалуација да бисмо открили и проценили ризике и итеративно побољшали нашу безбедност и мере за ублажавање ризика.

Наш безбедносни пакет за Sora надовезује се на та сазнања и на постојеће безбедносне мере које примењујемо у другим моделима и производима као што су DALL·E и ChatGPT, као и на прилагођене мере посебно изграђене за наш видео производ. Пошто је ово моћан алат, примењујемо итеративан приступ безбедности, нарочито у областима где је контекст важан или где предвиђамо нове ризике повезане са видеом. Примери нашег итеративног приступа укључују ограничење приступа на кориснике од 18 и више година, ограничавање употребе сличности/отпремања лица и конзервативније прагова модерације за инструкције и отпремања која укључују малолетнике приликом лансирања. Желимо да наставимо да учимо како људи користе Sora и да итеративно проналазимо најбољу равнотежу између безбедности и максимизирања креативног потенцијала за наше кориснике.

Спољна црвена команда

OpenAI је сарађивао са спољним члановима црвене команде из девет различитих земаља како би тестирао Sora, идентификовао слабости у безбедносним мерама ублажавања и добио повратне информације о ризицима повезаним са новим могућностима производа Sora. Чланови црвене команде имали су приступ производу Sora са различитим итерацијама безбедносних мера и зрелости система, почев од септембра па све до децембра 2024, тестирајући више од 15.000 генерација. Овај напор црвене команде надовезује се на рад из ране 2024. године, када је тестиран модел Sora без мера ублажавања за продукционо окружење.

Чланови црвене команде истраживали су нове потенцијалне ризике модела Sora и алата производа и тестирали безбедносне мере како су се развијале и унапређивале. Ове кампање црвене команде обухватале су различите врсте недозвољеног и забрањеног садржаја (сексуални и еротски садржај, насиље и експлицитни прикази повреда, самоповређивање, незаконит садржај, погрешне/лажне информације итд.), адверзаријалне тактике (и у формулисању инструкција и у коришћењу алата/функција) за заобилажење безбедносних мера, као и начине на које би ови алати могли бити злоупотребљени за постепено нарушавање алата за модерацију и заштитних механизама. Чланови црвене команде су такође дали повратне информације о свом доживљају модела Sora у областима као што су пристрасност и опште перформансе.

Истраживали смо генерисање видеа из текста користећи и једноставне инструкције и адверзаријалне тактике формулисања у свим горе наведеним категоријама садржаја. Могућност отпремања медија тестирана је са великим бројем различитих слика и видеа, укључујући јавне личности, као и широким спектром категорија садржаја како би се испитала способност генерисања недозвољеног садржаја. Такође смо тестирали различите употребе и комбинације алата за измену (storyboards, recut, remix и blend) како бисмо проценили њихову употребљивост за генерисање забрањеног садржаја.

Чланови црвене команде идентификовали су значајна запажања и за одређене врсте забрањеног садржаја и за опште адверзаријалне тактике. На пример, открили су да употреба текстуалних инструкција са медицинским ситуацијама или окружењима научне фантастике/фантазије слаби заштите од генерисања еротског и сексуалног садржаја, све док нису изграђене додатне мере ублажавања. Чланови црвене команде користили су адверзаријалне тактике да заобиђу елементе безбедносног скупа, укључујући сугестивне инструкције и употребу метафора како би искористили способност модела за закључивање. Кроз бројне покушаје могли су да уоче обрасце инструкција и речи које покрећу заштите и да испробају различите формулације и речи ради избегавања одбијања. На крају би изабрали најзабрињавајућу генерацију као почетни медиј за даљи развој недозвољеног садржаја који није могао бити направљен техникама са једном инструкцијом. Технике jailbreak-а понекад су се показале делотворним у нарушавању безбедносних политика, што нам је омогућило да додатно унапредимо и те заштите.

Чланови црвене команде су такође тестирали отпремање медија и алате Sora (storyboards, recut, remix и blend) и са јавно доступним сликама и са медијима генерисаним вештачком интелигенцијом. То је открило недостатке у филтрирању улаза и излаза које је требало ојачати пре објављивања модела Sora и помогло у усавршавању заштита за отпремање медија који садрже људе. Тестирање је такође показало потребу за снажнијим филтрирањем класификатора ради ублажавања ризика да се недозвољено неутрални отпремљени медији модификују у забрањени еротски, насилан или deepfake садржај.

Повратне информације и подаци које су генерисали чланови црвене команде омогућили су стварање додатних слојева безбедносних мера ублажавања и побољшања постојећих безбедносних евалуација, које су описане у одељцима о специфичним областима ризика и мерама ублажавања⁠. Ови напори омогућили су додатно подешавање нашег филтрирања инструкција, листа блокирања и прагова класификатора како би се обезбедила усклађеност модела са безбедносним циљевима.

Сазнања из раног приступа за уметнике

Током последњих девет месеци пратили смо повратне информације корисника кроз више од 500.000 захтева моделу од више од 300 корисника из више од 60 земаља. Ови подаци су усмерили побољшања понашања модела и усклађености модела са безбедносним протоколима. На пример, повратне информације уметника помогле су нам да разумемо ограничења која видљив водени жиг има за њихове токове рада, што је утицало на нашу одлуку да корисницима који плаћају омогућимо преузимање видео датотека без видљивог воденог жига, уз истовремено уграђивање C2PA података.

Овај програм раног приступа нас је такође научио да, ако је намера да Sora служи као проширени алат за приповедање и креативно изражавање, морамо уметницима понудити већу флексибилност у неким осетљивим областима које бисмо другачије третирали у општенаменском алату као што је ChatGPT. Очекујемо да ће уметници, независни филмски ствараоци, студији и друге организације из индустрије забаве користити Sora као кључни део својих развојних процеса. Истовремено, идентификовање и позитивних случајева употребе и потенцијалних злоупотреба омогућило нам је да одредимо области у којима су потребне рестриктивније мере на нивоу производа ради ублажавања ризика од штете или злоупотребе.

Евалуације

Развили смо интерне евалуације усмерене на кључне области, укључујући голотињу, обмањујући изборни садржај, самоповређивање и насиље. Ове евалуације су осмишљене да подрже унапређивање мера ублажавања и помогну у одређивању наших прагова модерације. Оквир за евалуацију комбинује улазне инструкције дате моделу за генерисање видеа са улазним и излазним класификаторима који се примењују или на трансформисане инструкције или на коначно произведене видео-записе.

Улазне инструкције за ове евалуације потицале су из три главна извора: подаци прикупљени током ране алфа фазе (како је наведено у одељку 3.2), адверзаријални примери које су доставили тестери црвене команде (поменути у одељку 3.1) и синтетички подаци генерисани помоћу GPT‑4. Подаци из алфа фазе пружили су увид у сценарије употребе из стварног света, доприноси чланова црвене команде помогли су да се открију адверзаријални и гранични случајеви садржаја, а синтетички подаци омогућили су проширење скупова за евалуацију у областима као што је ненамерно провокативан садржај, где су природно настали примери ретки.

Приправност

Оквир приправности осмишљен је да процени да ли способности граничних модела уводе значајне ризике у четири праћене категорије: убеђивање, сајбер безбедност, CBRN (хемијски, биолошки, радиолошки и нуклеарни ризици) и аутономија модела. Немамо доказе да Sora представља било какав значајан ризик у погледу сајбер безбедности, CBRN-а или аутономије модела. Ови ризици су тесно повезани са моделима који ступају у интеракцију са рачунарским системима, научним знањем или аутономним доношењем одлука, а све је то тренутно ван домета модела Sora као алата за генерисање видеа.

Могућности генерисања видеа модела Sora могу представљати потенцијалан ризик у домену убеђивања, као што су ризици од лажног представљања, дезинформација или социјалног инжењеринга. Да бисмо се позабавили овим ризицима, развили смо скуп мера ублажавања описаних у наредним одељцима. Оне укључују мере намењене спречавању генерисања сличности познатих јавних личности. Поред тога, с обзиром на то да контекст и знање о томе да ли је видео стваран или генерисан вештачком интелигенцијом могу бити кључни у одређивању његове убедљивости, усредсредили смо се на изградњу вишеслојног приступа пореклу, укључујући метаподатке, водене жигове и отиске.

Пакет мера ублажавања за Sora

Поред специфичних ризика и мера ублажавања наведених у наставку, избори направљени у обуци модела Sora, дизајну производа и политикама помажу да се у ширем смислу ублажи ризик од штетних или нежељених резултата. Они се уопштено могу организовати као техничке мере ублажавања на нивоу система и модела, као и политике производа и едукација корисника.

Системске мере и мере на нивоу модела

У наставку описујемо главне облике безбедносних мера ублажавања које примењујемо пре него што се кориснику прикаже тражени излаз:

Модерација текста и слика путем мултимодалног класификатора за модерацију

Наш мултимодални класификатор за модерацију, који покреће наш спољни Moderation API, примењује се ради идентификовања текстуалних, сликовних или видео инструкција које могу кршити наше политике коришћења, и на улазу и на излазу. Инструкције које систем препозна као недозвољене резултираће одбијањем. Више о нашем мултимодалном API-ју за модерацију можете сазнати овде⁠.²

Прилагођено LLM филтрирање

Једна предност технологије генерисања видеа јесте могућност спровођења асинхроних провера модерације без додавања кашњења укупном корисничком искуству. Пошто генерисање видеа по природи траје неколико секунди, тај временски прозор може се искористити за покретање прецизно усмерених провера модерације. Прилагодили смо сопствени GPT како бисмо постигли високу прецизност у модерацији неких специфичних тема, укључујући идентификовање садржаја трећих страна, као и обмањујућег садржаја.

Филтери су мултимодални: отпремљене слике/видео, текстуалне инструкције и излази укључени су у контекст сваког LLM позива. То нам омогућава да откријемо недозвољене комбинације слике и текста.

Класификатори излаза слике

Да би се потенцијално штетан садржај директно обрадио у излазима, Sora користи излазне класификаторе, укључујући специјализоване филтере за NSFW садржај, малолетнике, насиље и потенцијалну злоупотребу сличности. Sora може блокирати видео-записе пре него што буду подељени са корисником ако се ови класификатори активирају.

Листе блокирања

Одржавамо текстуалне листе блокирања у различитим категоријама, ослањајући се на наш претходни рад на DALL·E 2 и DALL·E 3, проактивно откривање ризика и резултате раних корисника.

Политике производа

Поред заштита које смо уградили у модел и систем ради спречавања генерисања недозвољеног садржаја, предузимамо и додатне кораке да смањимо ризик од злоупотребе. Тренутно Sora нудимо само корисницима који имају 18 или више година и примењујемо филтере модерације на садржај који се приказује у одељцима Explore и Featured.

Такође јасно саопштавамо смернице политика кроз едукацију у производу и јавно доступне материјале о:

употреби сличности друге особе без њене дозволе и забрани приказивања стварних малолетника;
креирању незаконитог садржаја или садржаја који крши права интелектуалне својине;
генерисању експлицитног и штетног садржаја, као што су интимни снимци без пристанка, садржај који се користи за малтретирање, узнемиравање или клевету, или садржај намењен подстицању насиља, мржње или патње других; и
креирању и дистрибуцији садржаја који се користи за превару, обману или довођење других у заблуду.

Неки од ових облика злоупотребе решавају се кроз наше мере на нивоу модела и система, али други су више контекстуални — сцена протеста може се користити за легитимне креативне подухвате, али иста сцена представљена као стварни актуелни догађај може се делити као дезинформација ако је упарена са другим тврдњама.

Sora је осмишљена да људима омогући да изразе широк спектар креативних идеја и ставова. Није ни практично ни препоручљиво спречити сваки облик контекстуално проблематичног садржаја.

Људима нудимо могућност да пријаве⁠ видео-записе Sora за које мисле да можда крше наше смернице, док истовремено користимо аутоматизацију и људски преглед за активно праћење образаца употребе. Успоставили смо механизме спровођења за уклањање недозвољених видео-записа и кажњавање корисника. Када корисници прекрше наше смернице, обавестићемо их и понудити им прилику да нам кажу шта сматрају правичним. Намера нам је да пратимо ефикасност ових мера ублажавања и да их временом унапређујемо.

Специфичне области ризика и мере ублажавања

Поред наведених општих безбедносних мера, рано тестирање и евалуација помогли су да се идентификује неколико области посебног безбедносног фокуса.

Безбедност деце

OpenAI је дубоко посвећен решавању⁠³ ризика по безбедност деце и дајемо приоритет спречавању, откривању и пријављивању материјала са полним злостављањем малолетника (CSAM) у свим нашим производима, укључујући Sora. Напори OpenAI у области безбедности деце укључују одговорно прибављање наших скупова података како би били заштићени од CSAM-а, партнерство са National Center for Missing & Exploited Children (NCMEC) ради спречавања сексуалног злостављања деце и заштите деце, рад црвене команде у складу са препорукама организације Thorn и усклађено са законским ограничењима, као и темељно скенирање на CSAM преко свих улаза и излаза. То укључује скенирање корисника прве и треће стране (API и Enterprise), осим ако корисници не испуне строге критеријуме за уклањање CSAM скенирања. Да бисмо спречили генерисање CSAM-а, изградили смо снажан безбедносни пакет, ослањајући се на системске мере ублажавања које користимо у другим производима као што су ChatGPT и DALL·E⁴ као и на неке додатне механизме које смо изградили посебно за Sora.

Улазни класификатори

За безбедност деце користимо 3 различите улазне мере ублажавања у текстуалном, сликовном и видео улазу:

За сва отпремања слика и видеа интегрисани смо са Safer, који је развио Thorn, ради откривања поклапања са познатим CSAM-ом. Потврђена поклапања се одбијају и пријављују NCMEC-у. Поред тога, користимо Thorn-ов CSAM класификатор за идентификацију потенцијално новог, нехешираног CSAM садржаја.
Користимо мултимодални класификатор за модерацију како бисмо откривали и модерирали сваки сексуални садржај који укључује малолетнике кроз текстуални, сликовни и видео улаз.
За Sora смо развили класификатор који анализира текст и слике како би предвидео да ли је приказана особа млађа од 18 година или пратећи натпис упућује на малолетника. Одбијамо захтеве за претварање слике у видео који садрже особе млађе од 18 година. Ако се утврди да је текст-у-видео за млађе од 18 година, примењујемо много строже прагова модерације за сексуални, насилан или садржај самоповређивања.

Испод је наша евалуација класификатора за млађе од 18 година за људе. Евалуирамо наш класификатор за одбијање реалистичних особа млађих од 18 година на скупу података који садржи близу 5000 слика у категоријама [дете | одрасла особа] и [реалистично | измишљено]. Наш став у политици је да одбијамо реалистичну децу, док дозвољавамо измишљене слике, укључујући анимирани, цртани или скица стил, под условом да нису сексуалне. Заузели смо опрезан приступ садржају који укључује малолетнике и наставићемо да евалуирамо свој приступ како будемо сазнавали више кроз употребу производа и проналазили праву равнотежу између омогућавања креативног изражавања и безбедности.

Тренутно су наши класификатори веома прецизни, али повремено могу грешком означити одрасле особе или нереалистичне слике деце. Поред тога, свесни смо да студије и постојећа литература указују на потенцијал да модели за предвиђање старости показују расне пристрасности. На пример, ови модели могу систематски потцењивати старост појединаца из одређених расних група.⁵ Посвећени смо унапређивању перформанси нашег класификатора, минимизовању лажно позитивних резултата и продубљивању разумевања потенцијалних пристрасности током наредних месеци.

	Expected outcome	n_samples	count (is_child)	count (not_child)	Evaluated metrics
Realistic Child	Classify images as “is child”	1589	1555	34	Accuracy: 97.86%
Realistic Adult	Classify images as “not child”	1370	36	1334	Accuracy: 99.28%
Fictitious Adult	Classify images as “not child”	965	7	958	Accuracy: 97.37%
Fictitious Child	Classify images as “not child”	1050	323	727	Accuracy: 69.24%
Total		4974	1921	3053	Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Излаз

Као што је горе поменуто, када помоћу нашег класификатора за млађе од 18 година идентификујемо упућивање на малолетнике у текстуалном улазу, примењујемо строге прагова модерације за сексуални, насилан садржај или садржај самоповређивања на излазу. Испод су два излазна класификатора која користимо да то постигнемо:

Мултимодални класификатор за модерацију који скенира небезбедне видео излазе и одбацује захтеве који могу бити посебно осетљиви
Такође користимо наш постојећи DALL·E класификатор слика за скенирање прекршаја повезаних са безбедношћу деце.

Наши излазни класификатори скенирају 2 кадра у секунди и када видео процене као небезбедан, блокирамо сваки излаз.

Поред наших класификатора и аутоматизоване модерације, имаћемо и људски преглед као додатни слој заштите од потенцијалних кршења безбедности деце.

Политике производа

Наше политике забрањују коришћење модела Sora за генерисање сексуалног садржаја који укључује малолетнике. Кршење наших политика о безбедности деце може довести до уклањања садржаја и забране корисника.

Голотиња и сугестивни садржај

Једна од новонасталих области ризика повезаних са могућностима генерисања AI видеа јесте потенцијално креирање NSFW (Not Safe for Work) или NCII (Non-Consensual Intimate Imagery) садржаја. Слично приступу модела DALL·E, Sora користи вишеслојну стратегију модерације за блокирање експлицитног садржаја. Она укључује трансформације инструкција, класификаторе излаза слике и листе блокирања, што све доприноси систему који ограничава сугестивни садржај, посебно ради узрасту примерених резултата. Прагова за наше класификаторе су строжи за отпремање слика него за текстуалне инструкције.

Видео-записи приказани у одељку Explore додатно се филтрирају уз повишене прагова како би се обезбедило искуство гледања прикладно широкој публици.

У наставку су резултати наших евалуација о голотињи и сугестивном садржају, усмерених на процену ефикасности вишеслојног ублажавања на улазима и излазима. На основу налаза итеративно смо подешавали прагова и применили строжу модерацију на отпремљене слике које укључују људе.

Категорија	*Тачност (на улазу)**	*Тачност (на излазу, тј. од почетка до краја)**
Голотиња и сугестивни садржај	97.25%	97.59%

Објашњење евалуације:

N = укупан број недозвољених узорака (~200 по категорији)
I = укупан број недозвољених узорака који су прошли провере модерације на улазу
O = укупан број недозвољених узорака који су прошли провере модерације на излазу

Тачност на улазу = (N - I) / N
Тачност на излазу (од почетка до краја) = (N - O) / N

Политике производа

Наше политике забрањују коришћење модела Sora за генерисање експлицитног сексуалног садржаја, укључујући интимне снимке без пристанка. Кршење ових политика може довести до уклањања садржаја и кажњавања корисника.

Обмањујући садржај

Злоупотреба сличности и штетни deepfake садржаји

Модерациони надзор модела Sora за инструкције засноване на сличности намењен је означавању потенцијално штетног deepfake садржаја, са намером да се видео-записи који укључују препознатљиве појединце пажљиво прегледају. Филтер за злоупотребу сличности додатно означава инструкције које покушавају да измене или прикажу појединце на потенцијално штетан или обмањујући начин. Опште трансформације инструкција у систему Sora додатно смањују ризик да Sora генерише нежељену сличност приватне особе на основу инструкције која садржи нечије име.

Обмањујући садржај

Улазни и излазни класификатори модела Sora намењени су спречавању генерисања обмањујућег садржаја у вези са изборима који приказује преварне, неетичке или на други начин незаконите активности. Метрике евалуације за Sora укључују класификаторе за означавање стилова или техника филтрирања које би могле да произведу обмањујуће видео-записе у контексту избора, чиме се смањује ризик од злоупотребе у стварном свету.

У наставку су евалуације за наш LLM филтер за обмањујући изборни садржај, усмерене на помоћ при идентификовању случајева у којима може постојати намера да се креира забрањени садржај кроз различите врсте улаза (нпр. текст и видео). Наш систем такође скенира 1 кадар у секунди излазног видеа како би проценио могућа кршења на излазу.

Класификатор	Одзив	Прецизност	Резултат када је означено
Обмањујући изборни садржај	98.23%	88.80%	Блокирање генерисања излаза

N=~500, на основу инструкција из синтетичких података

Улагања у порекло

С обзиром на то да су многи ризици повезани са моделом Sora, као што је штетан deepfake садржај, у великој мери зависни од контекста, дали смо приоритет унапређивању наших алата за порекло. Препознајемо да не постоји једно јединствено решење за порекло, али смо посвећени побољшању екосистема порекла и помагању у изградњи контекста и транспарентности за садржај креиран помоћу Sora.

За општу доступност, наши алати за безбедност порекла укључиваће:

C2PA метаподатке на свим ресурсима (проверљиво порекло, индустријски стандард)
Анимиране видљиве Sora водене жигове подразумевано (транспарентност за гледаоце да је ово „AI“)
Интерни алат за обрнуту претрагу видеа, који помаже члановима OpenAI тима Intelligence & Investigation да са високим степеном поузданости процене да ли је садржај креиран помоћу Sora

Политике производа

Наше политике забрањују коришћење модела Sora за превару, обману или довођење других у заблуду, укључујући кроз креирање и ширење дезинформација. Такође забрањују коришћење сличности друге особе без њене дозволе. Кршење ових политика може довести до уклањања садржаја и кажњавања корисника.

Стилови уметника

Када корисник у инструкцији употреби име живог уметника, модел може да генерише видео који на неки начин подсећа на стил дела тог уметника. У креативном раду постоји веома дуга традиција надовезивања на стилове других уметника, али разумемо да неки ствараоци могу имати недоумице. Одлучили смо да са овом верзијом модела Sora применимо опрезан приступ док сазнајемо више о томе како креативна заједница користи Sora. Да бисмо се тиме позабавили, додали смо преписивање инструкција које је осмишљено да се активира када корисник покуша да генерише видео у стилу живог уметника.

Слично нашим другим производима, Sora Editor користи велики језички модел (LLM) за преписивање достављеног текста како би се ефикасније формулисале инструкције за Sora. Овај процес подстиче усклађеност са нашим смерницама, укључујући уклањање имена јавних личности, утемељење људи помоћу конкретних атрибута и описивање брендираних предмета на генерички начин. Одржавамо текстуалне листе блокирања у различитим категоријама, ослањајући се на наш претходни рад на DALL·E 2 и DALL·E 3, проактивно откривање ризика и резултате чланова црвене команде и раних корисника.

Будући рад

OpenAI примењује стратегију итеративног увођења како би обезбедио одговорно и ефикасно пуштање својих производа. Овај приступ комбинује фазна увођења, текуће тестирање и континуирано праћење са повратним информацијама корисника и подацима из стварног света како би се временом унапређивале и побољшавале наше перформансе и безбедносне мере ублажавања. У наставку је низ активности које планирамо да спроведемо као део итеративног увођења модела Sora.

Пилот за сличност

Могућност генерисања видеа коришћењем отпремљене фотографије или видеа стварне особе као „почетног материјала“ представља могућност потенцијалне злоупотребе, па јој приступамо посебно постепено како бисмо учили из раних образаца употребе. Ране повратне информације уметника указују да је ово моћан креативни алат који цене, али због потенцијала за злоупотребу у почетку га нећемо учинити доступним свим корисницима. Уместо тога, у складу са нашом праксом итеративног увођења, могућност отпремања слика или видеа људи биће доступна подскупу корисника, а ми ћемо спроводити активно и детаљно праћење како бисмо разумели његову вредност за заједницу Sora и прилагођавали свој приступ безбедности како будемо учили. Отпремања која садрже слике малолетника неће бити дозвољена током овог теста.

Иницијативе за порекло и транспарентност

Будуће итерације модела Sora наставиће да јачају следивост кроз истраживање алата за обрнуту претрагу уграђивања и даљу примену мера транспарентности као што је C2PA. Радујемо се истраживању потенцијалних партнерстава са невладиним организацијама и истраживачким организацијама како бисмо развили и унапредили екосистем порекла и тестирали наш интерни алат за обрнуту претрагу слика за Sora.

Проширивање заступљености у нашим резултатима

Посвећени смо смањењу потенцијалних пристрасности у резултатима кроз дораду инструкција, повратне петље и континуирано препознавање делотворних мера ублажавања — уз свест да и претеране корекције могу бити подједнако штетне. Препознајемо изазове као што су пристрасност у погледу телесног изгледа и демографска заступљеност и наставићемо да унапређујемо свој приступ како бисмо обезбедили уравнотежене и инклузивне резултате.

Континуирана усклађеност безбедности, политика и етике

OpenAI планира да настави са редовним евалуацијама Sora и напорима да додатно унапреди усклађеност Sora са OpenAI политикама и безбедносним стандардима. Планирана су и додатна побољшања у областима као што су безбедност у погледу сличности и обмањујући садржај, вођена развојем најбољих пракси и повратним информацијама корисника.

Захвалнице

Хвала свим OpenAI интерним тимовима, укључујући тимове за комуникације, дизајн комуникација, опште послове, интегритет, Intel & Investigations, правне послове, политике производа, безбедносне системе и корисничке операције, чија је подршка била кључна у развоју и примени безбедносних мера за Sora, као и у изради ове системске картице.

Захвални смо нашој групи алфа уметника и нашим стручним члановима црвене команде, који су дали повратне информације, помогли у тестирању наших модела у раним фазама развоја и допринели нашим проценама ризика и евалуацијама. Учешће у процесу тестирања не представља подршку плановима OpenAI за примену нити политикама OpenAI.

Појединци у црвеној команди (азбучним редом): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
Организације за црвену команду: ScaleAI

Аутори

OpenAI

Референце

1
OpenAI. Модели за генерисање видеа као симулатори света.⁠
2
OpenAI. (б.д.). Унапређење Moderation API-ја нашим новим мултимодалним моделом за модерацију⁠. 2024
3
OpenAI. (б.д.). Безбедност деце: усвајање SBD принципа⁠. OpenAI. Преузето 6. децембра 2024.
4
OpenAI. Системска картица за DALL·E 3⁠. 2023.
5
Panić, N., Marjanović, M., & Bezdan, T. (2024). Решавање демографске пристрасности у моделима за процену старости кроз оптимизован састав скупа података⁠(отвара се у новом прозору). Mathematics, 12(15), 2358.