Објављено: 27. март 2024.

Коментар OpenAI-а NTIA-у о отвореним тежинама модела

Овај коментар је OpenAI поднео као одговор на NTIA-јев захтев за информације из марта 2024. о foundation моделима двоструке намене са широко доступним тежинама.

Постоји много путева до безбедног и корисног AI-ја.

OpenAI верује⁠(отвара се у новом прозору) да изградња, широка примена и коришћење AI-ја могу да побољшају животе људи и отворе бољу будућност. Напредак зависи од иновација и конкуренције на слободном тржишту. Унутар тих широких смерница, постоји много различитих путева којима људи могу да унапреде обећање AI-ја. OpenAI је био међу првим AI програмерима који су се суочили са питањем како расподелити користи од foundation модела без преседана по способностима, и почињемо пружањем овог историјског контекста како бисмо помогли у информисању разматрања NTIA.

Године 2019. направили смо GPT‑2, који је имао нову способност генерисања кохерентних пасуса текста, и суочили смо се са питањем како да га применимо. С једне стране, модел је деловао веома корисно; с друге стране, нисмо били сигурни⁠ да ли би могао бити користан за злонамерне сврхе као што је генерисање phishing имејлова. Одлучили смо да експериментишемо са „фазним објављивањем”. Као што смо тада написали⁠, „фазно објављивање подразумева постепено објављивање породице модела током времена. Сврха нашег фазног објављивања GPT‑2 је да људима пружи време да процене својства ових модела, разговарају о њиховим друштвеним импликацијама и процене утицаје објављивања после сваке фазе.” Када нисмо уочили значајне ефекте злоупотребе, то нам је дало самопоуздање да отворено објавимо тежине пуног модела⁠.

Године 2020. створили смо GPT‑3, који је био далеко способнији од било ког претходног језичког модела на сваком бенчмарку, и поново смо се суочили са питањем како да га објавимо. Овог пута смо одлучили да га објавимо преко нашег првог производа, OpenAI API-ја (Application Programming Interface, који програмерима омогућава да праве апликације на нашој технологији). Као што смо тада написали⁠, имали смо неколико мотива за ову нову стратегију објављивања: „комерцијализација технологије нам помаже да плаћамо наше текуће напоре у истраживању AI-ја, безбедности и политика” и „API модел нам омогућава да лакше одговоримо на злоупотребу технологије. Пошто је тешко предвидети накнадне случајеве употребе наших модела, суштински делује безбедније да их објављујемо преко API-ја и временом ширимо приступ, уместо да објавимо open source модел код кога приступ не може да се прилагођава ако се испостави да има штетне примене.” Током неколико година, ово API објављивање научило је и нас и заједницу лекцијама о безбедности и обрасцима злоупотребе модела нивоа GPT‑3⁠.

У годинама које су уследиле, наставили смо да подржавамо и верујемо у потенцијал open-source AI екосистема, укључујући и то што смо отворено објавили тежине неких наших најсавременијих модела (као што су CLIP и модел Whisper) и развијали open-source инфраструктуру за друге AI програмере (као што је програмски језик Triton за GPU). Видели смо да отворено објављене тежине доносе низ значајних користи, укључујући олакшавање академских истраживања унутрашњег рада AI модела, омогућавање корисницима и организацијама да покрећу моделе локално на својим edge уређајима и подстицање креативних модификација модела како би одговарали циљевима корисника. Многе AI компаније су одлучиле да значајно улажу у објављивање отворених тежина модела из различитих разлога, укључујући бренд, запошљавање и привлачење екосистема програмера који ће градити на унутрашњим компонентама технологије неке компаније и убрзавати их.

Истовремено, наш приступ објављивању наших водећих AI модела преко API-ја и комерцијалних производа као што је ChatGPT омогућио нам је да наставимо да проучавамо и ублажавамо ризике које смо открили након почетног објављивања, често на начине који не би били могући да су саме тежине биле објављене. На пример, недавно смо сарађивали са Microsoft-ом да откривамо, проучавамо и ометамо⁠ операције одређеног броја сајбер актера претњи повезаних са националним државама који су злоупотребљавали наше моделе GPT‑3.5‑Turbo и GPT‑4 као помоћ у офанзивним сајбер операцијама. Ометање ових актера претњи не би било могуће да су тежине тадашњих граничних модела биле широко објављене, јер би исти актери сајбер претњи могли да хостују модел на сопственом хардверу, без икакве интеракције са оригиналним програмером. Овај приступ нам је омогућио да наставимо да широко расподељујемо користи AI-ја, укључујући и кроз широко доступне бесплатне и јефтине услуге.

Ова искуства су нас уверила да су и објављивање отворених тежина и објављивање преко API-ја и производа алати за постизање корисног AI-ја, и верујемо да ће најбољи амерички AI екосистем обухватати оба.

Комбиновање итеративне примене са Оквиром спремности

Изнова и изнова, и код објављивања производа и код објављивања тежина, видели смо невероватне користи „итеративне примене”: постепеног стављања све способнијег AI-ја у руке људи како би могли да га користе за унапређење свог живота и помагања друштву да се прилагоди овим новим технологијама. Као што смо написали⁠ 2023: „Напорно радимо да спречимо предвидиве ризике пре примене, међутим, постоји граница онога што можемо научити у лабораторији. Упркос обимном истраживању и тестирању, не можемо предвидети све корисне начине на које ће људи користити нашу технологију, нити све начине на које ће је злоупотребљавати. Зато верујемо да је учење из стварне употребе кључна компонента стварања и објављивања временом све безбеднијих AI система.”

Како AI модели постају још моћнији, а користи и ризици њихове примене или објављивања већи, важно је и да будемо све софистициранији у одлучивању да ли и како да применимо модел. Ово је посебно тачно ако AI могућности почну да имају значајне импликације по јавну безбедност или националну безбедност. Будуће присуство таквих „катастрофалних” ризика од напреднијих AI система суштински је неизвесно, а међу научницима постоји неслагање о томе колико су такви ризици вероватни и колико брзо ће се појавити. Не верујемо да још постоји довољно доказа; не можемо их искључити, нити можемо бити сигурни да су непосредни. Као програмери који померају границе AI могућности како би максимизовали њихове користи, сматрамо да је изградња науке о ризицима ове технологије (укључујући прикупљање доказа у вези са тим ризицима) саставни део нашег рада.

Да бисмо се кретали кроз ове неизвесности на емпиријски вођен начин, OpenAI је јавно покренуо наш Оквир спремности⁠(отвара се у новом прозору), приступ заснован на науци за континуирану процену и ублажавање свих катастрофалних ризика које би наши AI модели могли да представљају. Оквир спремности дефинише како процењујемо нивое способности наших AI модела у неколико високоризичних домена, укључујући сајбер безбедност, аутономно деловање, индивидуализовано убеђивање и CBRN (хемијске, биолошке, радиолошке и нуклеарне) претње. За пример овог оквира у пракси, погледајте нашу недавну студију⁠ која тестира способност GPT‑4 да помогне у стварању биолошких претњи и која је закључила да не представља значајан маргинални ризик.

На основу ових процена, нивое ризика модела у свакој категорији оцењујемо као Низак, Средњи, Висок или Критичан. Кључно је да, у оквиру нашег Оквира спремности, нећемо применити AI системе који у нашој таксономији представљају ниво ризика „Висок” или „Критичан” (а нећемо чак ни тренирати „Критичне”, с обзиром на њихов ниво ризика), осим ако наше мере ублажавања могу да смање ризик ових система највише на ниво „Средњи”. Оквир спремности је важан јер нам омогућава да градимо и широко делимо користи све способнијег AI-ја, док нас истовремено припрема да што раније откријемо и заштитимо се од катастрофалних ризика ако се они појаве.

Праксе за програмере веома способног AI-ја

Верујемо да људи и компаније треба да могу да учествују у AI-ју како сами изаберу — што може да укључи развој или коришћење AI-ја који одражава њихове вредности и визију — како би остварили предности AI-ја. Истовремено, веома способни AI системи треба да се граде и користе безбедно, уз одговарајуће ублажавање свих откривених катастрофалних ризика. Ови интереси понекад могу бити у супротности и треба њима промишљено управљати у сваком појединачном случају како би се постигли најбољи исходи за друштво.

У случају веома способних foundation модела за чије је стварање потребно много ресурса (реда величине стотина милиона долара или више), верујемо да AI програмери треба да процене потенцијал свог модела да изазове катастрофалне ризике и, ако се утврди да је ниво ризика модела висок, успоставе одговарајуће мере ублажавања пре него што га примене или објаве. То успоставља одговарајућу равнотежу између управљања ризиком и иновација: за ове моделе се очекује да имају највеће способности⁠(отвара се у новом прозору), док је трошак процене у најгорем случају само мали део трошка њиховог развоја. Такве процене имају смисла без обзира на то да ли је намера да тежине модела буду широко објављене или доступне преко API-ја.

На другом крају спектра, у случају foundation модела који захтевају мање ресурса, равнотежа интереса је другачија. На основу тренутних доказа, изгледа да је много мање вероватно да ће такви модели представљати катастрофалне ризике, чак и уз вероватан напредак у техникама финог подешавања и модификације модела. У међувремену, процене катастрофалног ризика могу да коштају значајан део буџета малих тренинг покретања, што би могло да има обесхрабрујући ефекат на иновације и конкуренцију. Верујемо да се такве процене катастрофалних ризика не би требало очекивати за ове моделе, јер постоји огромна вредност у заштити разноврсности способности програмера да иновирају у узбудљивим новим AI могућностима и у омогућавању да тржиште идеја и производа напредује, а наука указује да је ризик ових модела релативно низак.

Протоколи процене као што је Оквир спремности користан су алат за процену ex ante ризика од било које врсте објављивања модела, укључујући објављивање отворених тежина модела. Постоји неколико разматрања која су посебно релевантна за начин на који се они примењују на објављивања отворених тежина.

Једно од таквих разматрања јесте да би услови тестирања идеално требало да одражавају распон начина на које накнадни актери могу да модификују модел. Једно од најкориснијих својстава отворених модела јесте то што накнадни актери могу да модификују моделе како би проширили њихове почетне способности и прилагодили их специфичним применама програмера. Међутим, то такође значи да би злонамерне стране потенцијално могле да унапреде штетне способности модела. Зато би ригорозна процена ризика објављивања отворених тежина требало да укључи тестирање разумног распона начина на које би злонамерна страна реално могла да модификује модел, укључујући и фино подешавање. OpenAI већ спроводи одређена тестирања модификација као део нашег Оквира спремности (као што смо урадили у нашој процени биолошких ризика⁠).

Још једно кључно разматрање јесте да програмери отворених модела можда неће моћи да се ослоне на системске заштитне мере ради смањења ризика од злоупотребе свог модела, јер злонамерни накнадни корисник који поседује тежине модела често може да уклони заштитне мере. Данас ова разлика у могућности ублажавања има ограничене последице, пошто чак ни наши најспособнији тренутни модели нису оцењени као посебно ризични. Али ако се у будућности научно утврди да неки модел представља озбиљне ризике ако буде објављен, онда би пут за смањење ризика од објављивања отворених тежина могао да се ослања на повећање отпорности спољашњег окружења у које се модел пушта.

Потреба за друштвеном отпорношћу на злоупотребу AI-ја шира је од одлука било које појединачне организације о објављивању. С обзиром на континуирани напредак и ширење AI алгоритама, као и све шири приступ рачунарским ресурсима (укључујући у земљама које изазивају забринутост у Сједињеним Државама), данашње граничне AI могућности — којима у тренутку настанка често приступ има само неколико актера — временом ће се широко проширити. Сједињене Државе, као и земље широм света, такође имају прилику да инвестирају у мере ублажавања и да предводе у њима, како би се ограничиле последице злоупотребе и како би равнотежа исхода била што позитивнија.

На пример, јачање отпорности на ризике од AI-јем убрзаних сајбер напада могло би да укључи омогућавање раног приступа тим истим AI моделима пружаоцима критичне инфраструктуре, како би могли да их користе за унапређење сајбер одбране (као у раним пројектима које смо финансирали у оквиру OpenAI програма грантова за сајбер безбедност⁠). Јачање отпорности на ризике од AI-јем убрзаног стварања биолошких претњи може да укључи решења која уопште нису повезана са AI-јем, као што су унапређење механизама провере синтезе нуклеинских киселина (као што се захтева Извршном наредбом 14110) или побољшање способности система јавног здравља да откривају и идентификују нова избијања патогена. Ако се ригорозно покаже да неки AI модел представља озбиљне ризике по јавну безбедност или националну безбедност, програмер такође може имати важну улогу у подизању свести о новим способностима пре широког објављивања (на пример обавештавањем пружалаца инфраструктуре или ограничавањем примене преко API-ја), како би се створили и време и мотивација за хитно потребне напоре на изградњи отпорности. То одражава норму „одговорног обелодањивања” из сајбер домена, у којој истраживачи безбедности привремено одлажу објављивање рањивости које пронађу како би браниоци имали времена да закрпе своје системе, а да се притом не успорава даље истраживање безбедности.

Потребна нам је боља наука о ризицима од AI

Иако верујемо да је процена ризика најспособнијих модела важна, наука о процени AI ризика још је у зачетку. OpenAI и шира AI заједница и даље граде основе начина на који треба процењивати AI ризике, а ми и даље непрестано унапређујемо многе детаље операционализације у Оквиру спремности. Владе имају важну улогу у помагању AI екосистему да унапреди праксе процене ризика и способности, на пример окупљањем стручњака из офанзивне сајбер безбедности, критичне инфраструктуре и AI света ради договора о скупу приоритетних AI модела сајбер претњи и изградње ригорозних и емпиријских тестних окружења за њихову процену. Снажно подржавамо добровољан приступ наклоњен иновацијама и заснован првенствено на науци који спроводи USAISI.

Још откако се OpenAI 2019. суочио са избором како да објави GPT‑2 — одлучивши да у почетку објави само малу верзију модела — нова сазнања и догађаји непрестано мењају оквир разматрања око отвореног објављивања тежина foundation модела, понекад и на сваких неколико месеци. Очекујемо да ће се овај тренд наставити. Сваки приступ државне политике треба да буде флексибилан и прилагодљив будућим променама.