Submitted: 2. фебруар 2024.

Одговор на NIST извршну уредбу о AI

Захтев за информације Националног института за стандарде и технологију (NIST) у вези са његовим задацима према одељцима 4.1, 4.5 и 11 Извршне уредбе о вештачкој интелигенцији.

OpenAI је основан као непрофитна организација 2015. године како би се осигурало да општа вештачка интелигенција — укратко, AI који је барем паметан као човек — користи целом човечанству. Истражујемо, развијамо и објављујемо најсавременију AI технологију, као и алате и најбоље праксе за безбедност, усклађеност и управљање AI-јем. Поздрављамо ову прилику да допринесемо текућем и критично важном раду NIST-а на AI-ју.

Овде се фокусирамо на три теме покренуте у RFI-ју: (1) евалуацију и ревизију AI способности, (2) спровођење тестова црвене команде ради омогућавања примене безбедних, сигурних и поузданих система и (3) синтетичке медије и порекло.

Евалуација опасних способности у AI системима

Поздрављамо фокус NIST-а на „стварање смерница и мерила за евалуацију способности... путем којих AI може нанети штету.“ OpenAI се обавезао на Оквир спремности⁠(отвара се у новом прозору), свеобухватан приступ за евалуацију, праћење и ублажавање катастрофално опасних ризика од садашњих и будућих AI модела. Оквир спремности тренутно прати четири почетне области ризика: сајбер-безбедност; хемијске, биолошке, нуклеарне и радиолошке претње (CBRN); убеђивање; и аутономију модела. Оквир нас такође обавезује на сталну будност у погледу ризика „непознатих непознаница“ који још нису идентификовани. Као део овог рада, OpenAI је недавно поделио⁠ једну велику евалуацију за CBRN: процену способности GPT‑4 да значајно повећа приступ злонамерних актера опасним информацијама о стварању биолошких претњи, у поређењу са основним нивоом постојећих ресурса (тј. интернета). У до сада највећој евалуацији те врсте, која је укључивала и стручњаке за биологију и студенте, установили смо да GPT‑4 пружа највише благо повећање у информацијама о стварању биолошких претњи. Иако то повећање није довољно велико да би било коначно, надамо се да ће овај налаз послужити као полазна тачка за даља истраживања и разматрање у заједници, за које се надамо да ће их водити NIST и нови Институт за безбедност AI.Овај рад је повећао наше поверење у неколико кључних принципа за евалуацију ризика од AI система:

Допринос AI система ризицима треба мерити у смислу промене у односу на одговарајући основни ниво.Многи ризици које садашњи и будући AI системи могу повећати (као што су у сајбер-безбедности или биобезбедности) постоје на одређеном нивоу и без AI-ја. На пример, интернет претрага већ омогућава значајан степен приступа информацијама релевантним за биобезбедност. При евалуацији доприноса AI система ризицима, важна најбоља пракса је тестирање да ли AI повећава ризик изнад постојећих ресурса. У нашој недавној студији о биоризицима, то смо операционализовали тако што смо насумично распоредили половину учесника у контролну групу којој је било дозвољено да користи само не-AI изворе знања (укључујући онлајн базе података, чланке и интернет претраживаче, као и своје претходно знање), а другу половину у експерименталну групу са пуним приступом и тим ресурсима и моделу GPT‑4.
Рад са стручњацима из области је од виталног значаја за разумевање ризика.Изазовно је да било који појединачни ентитет запосли врхунске стручњаке у свим широким и разноврсним темама које су релевантне за безбедност AI-ја. Да би се приступило стручности највишег стандарда, корисно је партнерство са трећим странама које запошљавају стручњаке у областима релевантним за евалуације опасних способности. Поред тога, укључивање стручњака из области у оцењивање студија помаже да се обезбеди уверење да се евалуације спроводе објективно. На пример, приликом развоја и спровођења евалуације биоризика, тесно смо сарађивали са независним стручњацима за биобезбедност на осмишљавању истраживачких задатака, спровођењу безбедносних обука за учеснике и оцењивању завршених задатака. Било би у интересу безбедности AI-ја да се овај екосистем прошири и диверзификује.
Темељна евалуација такође захтева рад са AI стручњацима како би се делотворно открио пун распон способности модела.Да бисмо разумели пун распон ризика од AI модела, неопходно је, где год је то могуће у евалуацији, открити пуне способности модела. То захтева дубоко разумевање основних AI система и начина на које се они могу ефикасно искористити. Препоручујемо да се евалуације осмишљавају у тесној сарадњи са AI стручњацима. У нашој студији о биоризику, то је укључивало пружање обуке људским учесницима о томе како да постигну боље перформансе применом најбољих пракси за откривање способности језичког модела, као и прилагођене техничке приступе за боље откривање и испитивање способности модела.
Потребно нам је више истраживања о томе како тумачити резултате евалуација ризика.На пример, у случају евалуације повећаног приступа информацијама о биоризику које омогућавају AI модели, још није јасно који ниво повећаног приступа информацијама би се превео у значајно повећан биоризик. Ефекат AI система на биоризик може се мењати како се појављују нове технологије које могу превести онлајн информације у физичке биолошке претње. Док настављамо да операционализујемо наш Оквир спремности, жељни смо да радимо са NIST-ом и Институтом за безбедност AI на изградњи снажнијег разумевања ризика и метрика ризика.
Евалуације људских учесника највишег стандарда су скупе.Спровођење људских евалуација језичких модела захтева значајан буџет за накнаде учесницима, развој софтвера и безбедност. У нашој студији о биоризику истраживали смо различите начине да смањимо те трошкове, али већина тих трошкова била је неопходна због или (1) безбедносних разматрања о којима се не може преговарати, или (2) броја учесника који је потребан и количине времена коју сваки учесник мора да посвети темељном испитивању. То треба узети у обзир при осмишљавању стандарда.

Додатне информације доступне су у нашем блог посту о недавној студији о биоризику: Изградња система раног упозоравања за стварање биолошких претњи уз помоћ LLM-а⁠.

Црвена команда ради омогућавања примене безбедних AI система

Шта је црвена команда?

OpenAI дефинише црвену команду као „структурисан процес испитивања AI система и производа ради идентификације штетних способности, излаза или инфраструктурних претњи.“^A
Постоје разне могуће методе које се развијају под кровним термином црвене команде, укључујући интерну црвену команду (коју спроводе интерни, посвећени тимови у лабораторији или компанији), спољну црвену команду (коју спроводе спољни актери у сарадњи са лабораторијом или компанијом) или аутоматизовану црвену команду (која користи AI моделе за генерисање аутоматизованих напада и класификацију излаза). У контексту овог документа, првенствено мислимо на напоре спољне црвене команде који подразумевају да OpenAI ради са спољним стручњацима из одређених области како би проценио способности и ризике AI модела или система.

OpenAI-јев приступ црвеној команди не посматра супарничке нападе или излазе модела изоловано. Уместо тога, то је метод за откривање ризика на контекстуализован, холистички начин у сарадњи са стручњацима из одређених области.^B Поред злонамерне употребе и метода за заобилажење безбедносних ублажавања, црвена команда разматра и друге ризике: безопасне или очекиване улазе који воде до штетних или ризичних излаза, нова побољшања способности која могу променити пејзаж ризика, и како фактори изван самог система могу деловати у интеракцији са излазима модела и изазвати ризике или штету. Процене ових области често имају користи од укључивања људи у процес ради генерисања потенцијалних примера и валидације добијених излаза у контексту стручности датог члана црвене команде.

За шта је црвена команда корисна?

AI црвена команда помаже да се разумеју потенцијални ризици повезани са новим моделима и системима који:

Захтевају облике интеракције који се могу разликовати од претходних AI система или технологија и нису добро обухваћени програмским евалуацијама (нпр. inpainting у DALL·E-у, GPT‑ови).
Имају значајно унапређене способности које могу увести нове ризике који још нису евалуирани (нпр. научне области, убеђивање или резоновање).
Захтевају контекст или знање специфично за одређену област ради тестирања и верификације (нпр. политички садржај специфичан за регион, културне пристрасности, научне или стручне области као што су право и медицина).
Захтевају разумевање корисничког тока или специфичних случајева употребе, укључујући факторе који могу бити изван самог система (нпр. тестирање GPT‑4(V) за особе са слабим видом).

OpenAI посматра црвену команду као алат за процену и ризика на нивоу модела и ризика на нивоу система. Функције система могу укључивати: класификаторе, филтере инструкција / листе блокирања, интервенције на нивоу корисничког интерфејса, праксе надзора и евалуације и друге механизме спровођења политика. Понекад спроводимо црвену команду за нови производ чак и када није укључен нови модел. На пример, иако GPTs⁠ нису увели нови основни модел, увели су нове системе за начин на који корисници интерагују са моделом.

OpenAI наше напоре у области црвене команде сматра допуном даљим напорима црвене команде специфичним за домен које би требало да спроводе програмери који граде на нашој технологији. На пример, иако наше моделе и системе подвргавамо црвеној команди у одређеним тренуцима и под одређеним условима, програмери који граде на нашем API-ју треба да узму у обзир те увиде и спроведу додатну црвену команду на основу система и контекстуалних услова у којима очекују да ће радити. То је један од разлога зашто OpenAI објављује кључне налазе из напора црвене команде у системским картицама (и другим облицима јавно доступне документације) како би други могли да уче из њих и да на њима даље граде.

Итеративна црвена команда у OpenAI-ју

Документовали смо неколико наших напора у области црвене команде за лансирања граничних модела у системским картицама:

OpenAI је експертским члановима црвене команде омогућио приступ унапред обученим моделима са различитим степенима фино подешавања и пост-тренинга, као и различитим нивоима зрелости безбедносних ублажавања.

Циљеви тога су следећи:

Увиди црвене команде могу информисати развој ублажавања на нивоу пост-тренинга, ублажавања на нивоу система, политика и евалуација.
Увиди црвене команде могу помоћи у доношењу одлука руководства о објављивању одређених функција, како итеративно применити објављивање и колико су безбедносна ублажавања ефикасна.
Резултати црвене команде могу се делити уз материјале за јавно лансирање (као што су системске картице или други формати) како би се потенцијални корисници и други актери информисали о ризицима који су ублажени, преосталим ризицима и могућим будућим ризицима.

Ангажујемо чланове црвене команде што је раније разумно могуће у развојном процесу, како би увиди црвене команде могли директно да се улију у безбедносне напоре и доношење одлука. Такође је важно научити о основним способностима модела пре било каквих додатих безбедносних ублажавања, како би програмери модела могли доносити информисане одлуке о основном нивоу ризика модела, и ради друштвеног разумевања пејзажа ризика повезаног са све моћнијим системима.

Када се безбедносна ублажавања успоставе, напори црвене команде могу усмерити додатне рунде црвене команде на идентификовање празнина и преосталих ризика који нису обухваћени безбедносним ублажавањима, као и на процену робусности тих ублажавања.

Коначно, иако постоје важна безбедносна својства која треба размотрити још узводније у процесима развоја модела, црвена команда настоји да симулира искуство што је могуће ближе ономе што програмери модела објављују јавности.

Ограничења црвене команде

Црвена команда сама по себи није довољна вежба мерења ризика. Сама за себе, црвена команда неће квантификовати вероватноћу или склоност модела да производи штетан садржај или ризике повезане са употребом AI система. Црвена команда такође не пружа довољно информација за квантификовање озбиљности идентификованог ризика или штете.

Иако се већина OpenAI-јевих напора експертске црвене команде одвија пре велике примене модела или производа, модели и системи се у продукцији врло често развијају, и стога је важно то узети у обзир приликом контекстуализације налаза црвене команде. Слично томе, програмери који граде за одређене случајеве употребе на моделима могу доносити дизајнерске одлуке које мењају безбедносни профил модела или система ако то није инхерентно самом моделу или систему (или непроменљиво у односу на њих).

Црвена команда поставља основу за врсте даљег тестирања и евалуације и пружа одређене смернице о векторима напада или проблемима против којих безбедносна ублажавања морају бити робусна.

Испитивање више примера и пермутација неког проблема може помоћи да се улије поверење у начин мерења одређене области ризика. Експертска црвена команда је по дизајну усмерена на ширину, а не на дубину области ризика, и стога сама по себи не би нужно створила евалуацију довољну за мерење специфичних ризика. Уместо тога, црвена команда може генерисати скупове података који би се могли сматрати „семенима“ за темељнију евалуацију. Одатле се резултати могу користити за генерисање више примера одређене проблемске области која је откривена, а „златни скуп“ означених примера (обично од стране стручњака из одређене области) може се користити за евалуацију будућих модела у идентификованој проблемској области.

Састав црвених команди и одређивање приоритета области

AI системи опште намене који ће се користити у многим очекиваним и неочекиваним случајевима употребе и у различитим контекстима широм света захтевају покривање широког спектра тематских области, уз учешће људи који представљају широк распон перспектива и погледа на свет.

OpenAI верује у ангажовање широког спектра стручњака за црвену команду наших модела. Прошле године смо објавили позив за пријаве за Мрежу за црвену команду. Критеријуми за избор укључивали су:

Доказану стручност или искуство у одређеној области релевантној за црвену команду
Посвећеност унапређењу безбедности AI
Одсуство сукоба интереса
Разноврсно порекло и традиционално недовољно заступљене групе
Разноврсну географску заступљеност
Течно знање више од једног језика
Техничку способност (корисно, али није обавезно)

Одређивање приоритета области може бити информисано: очекиваним употребама AI система или модела, нарочито у контекстима са већом двосмисленошћу или могућим ризицима, раном евалуацијом модела код којих програмери модела могу очекивати повећане способности, познатим претходним проблематичним областима политика садржаја и релевантним друштвено-политичким контекстима (нпр. 2024. је велика изборна година на многим местима широм света). Важно је напоменути да сваки модел или систем може захтевати различите скупове стручности и да се нове области могу разматрати на основу напредујућих способности и нових случајева употребе модела или система. Због тога ће се оптималан састав црвених команди временом развијати.

Синтетички медији и порекло

Водени жиг: У овом приступу, сам генерисани аудиовизуелни медиј садржи сигнал свог порекла — суптилан образац који није очигледан гледаоцу или слушаоцу, али који софтвер може да открије. То може бити сигнал који се може открити само уз помоћ тајног кључа, или, алтернативно, софтвер за откривање воденог жига може бити јавно доступан. Због тога би, ако би OpenAI додао водени жиг нашим излазима, била неопходна сарадња дуж читавог AI ланца вредности како би други учесници, као што су платформе друштвених медија које дистрибуирају садржај, могли да учине водени жиг видљивим и корисним корисницима. Ако сам процес откривања није јаван, онда је приступ том процесу сложено политичко питање. Постоје и технички изазови. Иако водене жигове може бити теже уклонити од других метода порекла, означени медиј и даље може изгубити свој водени жиг ако се исече, промени му се величина или се на други начин измени. Из ових разлога, водени жигови се и даље могу заобићи, посебно од стране мотивисаних супарничких актера. Поред тога, утицај воденог жига може бити ограничен с обзиром на то да лоши актери могу приступити моделима који не стављају водени жиг на своје излазе.
Класификатори (обучени модели који разликују AI-генерисани излаз од других медија и могу открити који је модел или услуга генерисала дати излаз): Када су ефикасни, ови приступи су веома привлачни јер не зависе од сарадње особе која дистрибуира слику нити било кога другог. Међутим, могу да греше — и лажно позитивно и лажно негативно — и могу бити рачунски захтевни за примену у великом обиму. Лажно позитивни резултати могли би, на пример, погрешно описати рад људског уметника као AI излаз. Лажно негативни резултати, с друге стране, могли би погрешно означити слику као не-AI генерисану, иако она то заправо јесте.
Приступи засновани на метаподацима(као што је тренутни стандард C2PA⁠(отвара се у новом прозору)): У овим приступима, метаподаци који прате одређени медиј криптографски се потписују како би пружили потврду о пореклу медија.

Ово може оснажити људе који желе да докажу порекло медија, било да је AI-генерисан или не. На пример, C2PA би могао омогућити издавачу вести да покаже, а гледаоцима да потврде, да је издавач заиста објавио одређену слику или видео и да стоји иза тачности те слике или видеа. Слично томе, ако се примени на генеративни AI систем, ова техника би могла помоћи уметнику да покаже да је генерисао одређену синтетичку слику или видео. Ови приступи имају предност, бар наизглед, у томе што потрошачима или јавности пружају увид у порекло садржаја. Поред тога, имају предност што не захтевају значајне ресурсе за примену.

Међутим, метаподаци се могу лако уклонити из основне слике или видеа, тако да ова техника не ствара значајну препреку за лоше актере (на пример оне који се баве кампањама дезинформација) који би могли желети да генерисани садржај представе као стваран.

Да би приступи засновани на метаподацима у великој мери користили јавности, прегледачи и дистрибутивне платформе, као што су платформе друштвених медија, морали би да откривају и приказују метаподатке. Успешна примена приступа заснованих на метаподацима стога захтева сарадњу дуж читавог ланца вредности: није довољно да аудиовизуелни материјали имају криптографски потписане метаподатке, већ дистрибутивне платформе морају бити у стању да открију дате метаподатке и прикажу их крајњем кориснику како би могао да провери порекло медија.

OpenAI-јеви приступи пореклу

Пошто свака метода порекла долази са предностима и ограничењима, OpenAI истражује низ приступа пореклу за AI-генерисане аудиовизуелне медије.

C2PA метаподаци за DALL·E 3 слике

15. јануара ове године, OpenAI је објавио да ћемо применити приступ C2PA метаподатака за слике генерисане помоћу нашег text-to-image модела DALL·E 3. C2PA спецификације су отворени технички стандард који издавачима, креаторима и потрошачима пружа могућност да прате порекло различитих типова медија.

Ове спецификације омогућавају да се метаподаци прикаче датотеци. Ти метаподаци укључују информације о извору слике (у нашем случају, да слика потиче из DALL·E-а) и времену настанка. Чланови јавности могу тестирати присуство ових метаподатака и, ако су присутни, потврдити да је слику генерисао DALL·E 3.

То ће нам помоћи да оснажимо кориснике да назначе порекло слика које генеришу помоћу DALL·E 3. Међутим, ови метаподаци могу се прилично лако уклонити: мотивисани злонамерни актер може уклонити C2PA метаподатке који прате било коју слику. Поред тога, уобичајене платформе за дељење слика, као што су платформе друштвених медија, тренутно их подразумевано уклањају, уместо да их откривају и приказују корисницима. С обзиром на то колико се C2PA лако може уклонити, чланови јавности не могу претпоставити да ће свака DALL·E слика коју виде нужно имати такве податке.

Међутим, C2PA није само за AI слике и могао би имати важне користи ако би био шире усвојен. Такође га усвајају произвођачи камера, новинске организације и други како би потврдили одакле слике потичу. Верујемо да су шире усвајање метода откривања и подстицање корисника да траже ове сигнале важни кораци ка повећању поузданости дигиталних информација.

Експериментални класификатор за DALL·E 3 слике

19. октобра 2023. објавили смо наш текући рад на класификатору порекла, новом интерном алату за откривање слика које је генерисао наш систем DALL·E 3. Тачност класификатора меримо помоћу интерних мерила, која су показала обећавајуће резултате, чак и када су слике биле изложене уобичајеним врстама измена, као што су исецање, промена величине, JPEG компресија, или када су текст или исечци из стварних слика постављени преко малих делова генерисане слике. Упркос овим снажним резултатима на интерном тестирању, класификатор нам може само рећи да је слику вероватно генерисао DALL·E и још нам не омогућава да доносимо коначне закључке.

Настављамо да тестирамо робусност нашег класификатора и у првом кварталу 2024. планирамо да га ставимо на располагање спољним партнерима ради повратних информација. Током наредне године радујемо се томе што ћемо почети да ширимо наше експерименте са класификатором слика, позивајући одабране спољне стране да нам се придруже у процени његових перформанси и корисности.

Класификатор је прилагођен моделу и може само да класификује да ли је слику вероватно генерисао DALL·E, па стога, чак и када би био потпуно тачан у својим класификацијама, не би га било могуће користити за утврђивање да ли је слику генерисао неки други генеративни алат.

Поздрављамо прилику да сарађујемо са вама како се ваш рад у овој области буде настављао.

С поштовањем,

Anna Adeola Makanju
Потпредседница за опште послове
OpenAI

Фусноте

A
Погледајте дефиницију⁠(отвара се у новом прозору) црвене команде Frontier Model Forum-а.
B
Термин „стручњак“ користимо да означимо стручност обликовану различитим доменским знањем и животним искуствима.