Published: 26. октобар 2023.

OpenAI приступ граничном ризику

Ажурирање за UK AI Safety Summit

Учитавање…

Дана 21. јула 2023, OpenAI се придружио другим водећим AI лабораторијама у давању скупа добровољних обавеза ради унапређења безбедности, сигурности и поверења у AI. Те обавезе обухватале су низ области ризика, а у средишту су били гранични ризици који су у фокусу предстојећег AI Safety Summit-а.

У овом ажурирању описујемо наш напредак у вези са тим добровољним обавезама и додатно појашњавамо наш развијајући приступ ублажавању граничних ризика, укључујући наш текући рад на развоју Оквира спремности.

Дана 3. октобра 2023. јавно смо објавили системску картицу⁠ за наш модел DALL-E 3 за претварање текста у слику⁠, прво велико јавно објављивање новог граничног модела у оквиру наших добровољних обавеза. У складу и са нашом мисијом и са добровољним обавезама, спровели смо кључни рад на безбедности, укључујући безбедносну евалуацију пре примене и црвену команду. Поред тога, радимо на новим методама које ће људима омогућити да прате порекло медија генерисаних AI-јем, а наставили смо и да улажемо у одговорне праксе кроз увођење могућности анализе гласа и слике у ChatGPT.

Испунили смо и нашу добровољну обавезу⁠ да „успоставимо или се придружимо форуму или механизму преко којег [можемо] да развијамо, унапређујемо и усвајамо заједничке стандарде и најбоље праксе за безбедност граничног AI-ја“, суоснивањем Frontier Model Forum-а. Ово ново индустријско тело, заједнички основано са компанијама Microsoft, Google Deepmind и Anthropic, представља место за унапређење истраживања безбедности AI-ја и промовисање одговорних пракси развоја граничних AI система.

Оквир спремности

Гранични AI модели имају потенцијал да донесу корист целом човечанству, али истовремено носе и све озбиљније ризике. Да бисмо управљали тим ризицима док AI модели настављају да се унапређују, развијамо Оквир спремности, који продубљује наш проактивни приступ одговорном развоју граничних модела заснован на ризику, посебно у вези са катастрофалним ризицима.

Оквир спремности ће детаљно описати наш приступ развоју строгих евалуација способности граничних модела и праћења, као и успостављању структуре управљања за одговорност и надзор током целог процеса развоја. Ризици које планирамо да пратимо у оквиру ове политике обухватају више категорија, укључујући сајбер безбедност, убеђивање, хемијске и биолошке претње и аутономију.

Оквир спремности ће такође предвидети спектар мера за заштиту од катастрофалних исхода. Емпиријско разумевање катастрофалног ризика је још увек у зачетку и брзо се развија. Зато ћемо динамички ажурирати нашу процену тренутних нивоа ризика граничних модела како бисмо одражавали наша најновија сазнања из евалуације и праћења. Формирамо посвећен тим (Preparedness) који предводи овај рад, укључујући спровођење потребних истраживања и праћења.

Оквир спремности је замишљен да допуни и прошири наш постојећи рад на ублажавању ризика, који доприноси безбедности и усклађености нових, веома способних система, и пре и после примене. Ти постојећи напори укључују рад нашег тима Safety Systems на спровођењу истраживања и изградњи систематских решења како би наши најбољи модели могли безбедно да се примене, као и нашег тима Superalignment, који је усмерен на изазове машинског учења у усклађивању суперинтелигентних AI система са људским намерама.

Они такође укључују заједнички Одбор за безбедност примене (DSB) са компанијом Microsoft, који одобрава одлуке било које стране о примени модела изнад одређеног прага способности. DSB је посебно усмерен на одлуке о примени, а не на раније кораке као што је одлучивање да ли треба обучавати моделе одређеног обима или нивоа способности. Он има неке од карактеристика о којима се често говори у контексту политика одговорног скалирања, као што су фокус на најспособније системе, снажан нагласак на адверзаријално тестирање и експлицитно разматрање усклађености. Из DSB-овог прегледа GPT‑4, који је био прва подобна примена, извукли смо вредне поуке и користићемо их за обликовање дизајна и примене Оквира спремности. И DSB и Оквир спремности, као и њихове одговарајуће улоге, могу се временом развијати како будемо сазнавали више о ризицима и мерама ублажавања.

Напомена: Нашу политику називамо Оквир спремности, а не Политика одговорног скалирања, јер можемо доживети драматична повећања способности без значајног повећања обима, на пример путем алгоритамских побољшања. Оквир спремности уређује наш развој све способнијих граничних модела без обзира на то да ли те растуће способности потичу од обима, алгоритамских побољшања или других оптимизација.

Приоритетна истраживања и улагања у друштвене, безбедносне и сигурносне ризике

Потребни су нам научни пробоји, друштвена спремност и напредни безбедносни системи да бисмо контролисали и интегрисали AI системе који су много паметнији од нас. Улажемо у те пробоје оснивањем два нова тима: Superalignment и Preparedness, као и даљим улагањем у наше безбедносне системе.

Наше тренутне технике за усклађивање AI, као што је подстицајно учење из повратних информација од људи, ослањају се на људску способност да надзире AI. Али те технике неће функционисати за суперинтелигенцију, јер људи неће моћи поуздано да надзиру AI системе који су много паметнији од нас. Поставили смо циљ да решимо овај проблем у року од четири године улагањем у нови тим под називом Superalignment⁠, којим заједнички руководе Ilya Sutskever (суоснивач и главни научник у OpenAI) и Jan Leike (шеф усклађивања). Наш циљ је да изградимо аутоматизованог истраживача усклађивања близу људског нивоа и да употребимо велику количину рачунарских ресурса како бисмо проширили наше напоре у усклађивању суперинтелигенције. Планирамо да овом напору посветимо 20% рачунарских ресурса које смо обезбедили до јуна 2023. Тим ће широко делити резултате како би допринео и усклађености и безбедности модела који нису OpenAI.

Поред изазова усклађивања суперинтелигенције, верујемо да све озбиљнији ризици могу проистећи из потенцијалне злоупотребе све способнијих граничних модела. Оснивамо нови посвећени тим под називом Preparedness како бисмо идентификовали, пратили и припремили се за те ризике. Намера нам је да пратимо граничне ризике, укључујући сајбер безбедност, CBRN, убеђивање и аутономну репликацију и адаптацију, и да делимо мере за заштиту од последица катастрофалног ризика. Пошто је емпиријско разумевање катастрофалног ризика још увек у зачетку, итеративно ћемо ажурирати нашу процену тренутних нивоа ризика граничних модела како бисмо одражавали наша најновија сазнања из евалуације и праћења.

Настављамо да улажемо у сајбер безбедност и мере заштите од интерних претњи како бисмо заштитили власничке и још необјављене тежине модела. Покренули смо Cybersecurity Grant Program и OpenAI Bug Bounty Program како бисмо координисали истраживаче сличних ставова који раде на нашој заједничкој безбедности. Cybersecurity Grant Program је иницијатива вредна 1 милион USD која има за циљ да унапреди и квантификује способности сајбер безбедности покретане AI-јем и подстакне стручни дијалог на високом нивоу о AI-ју и сајбер безбедности. Такође позивамо јавност да пријави рањивости, грешке или безбедносне пропусте које открије у нашим системима. OpenAI Bug Bounty Program нам омогућава да препознамо и наградимо вредне увиде појединаца који доприносе безбедности наше технологије и компаније.

Евалуације модела и црвена команда

Сваки нови велики модел који објавимо оцењујемо са становишта безбедности, укључујући и коришћење црвене команде. На пример, пре јавног објављивања GPT‑4, спољни чланови црвене команде тестирали су модел на следеће граничне ризике: (1) помоћ у развоју нуклеарног, радиолошког, биолошког и хемијског оружја (CBRN), (2) повећање сајбер ризика, (3) ризике који произилазе из употребе алата и (4) способности саморепликације. У оквиру наше црвене команде за DALL-E 3, у домету наших добровољних обавеза, тестирали смо способност модела да пружи визуелне информације потребне за развој, набавку или ширење CBRN.

Такође смо објавили јавни позив за OpenAI Red Teaming Network⁠ како бисмо јавно позвали стручњаке из различитих области заинтересоване за унапређење безбедности OpenAI модела да се придруже нашим напорима црвене команде.

CBRN. Одређене способности великих језичких модела (LLM) могу имати потенцијал двоструке намене, што значи да се модели могу користити и у комерцијалне и у војне или пролиферационе сврхе. Подвргли смо GPT‑4 стрес тестирању, граничном тестирању и црвеној команди у четири домена двоструке намене како бисмо испитали да ли наши модели могу да пруже неопходне информације актерима који теже пролиферацији ради развоја, набавке или ширења CBRN. Утврдили смо да сам по себи приступ GPT‑4 није довољан услов за пролиферацију, али да може променити информације које су доступне актерима који теже пролиферацији, нарочито у поређењу са традиционалним алатима за претрагу. Чланови црвене команде одабрали су скуп питања како би дали инструкцију и GPT‑4 и традиционалним претраживачима, и открили да је време потребно за завршетак истраживања било краће када се користио GPT‑4. У неким случајевима, процес истраживања био је скраћен за више сати без жртвовања тачности информација. Зато смо закључили да је кључни покретач ризика способност GPT‑4 да генерише јавно доступне, али тешко проналазиве информације, скраћујући време које корисници проводе у истраживању и састављајући те информације на начин разумљив кориснику који није стручњак. Пре објављивања DALL-E 3, проценили смо како генерисање слике из текста мења профил ризика тестирањем способности модела да генерише дијаграме и визуелна упутства за производњу и прибављање информација повезаних са CBRN ризицима. Слично као код GPT‑4, спровели смо интерно и екстерно тестирање DALL-E 3, при чему смо модел интерно тестирали на ризике и омогућили рани приступ спољним стручњацима из низа индустрија како би помогли у испитивању система ради мапирања и процене ризика. Подвргли смо DALL·E 3 црвеној команди у четири домена двоструке намене како бисмо испитали да ли може да пружи информације потребне за развој, набавку или ширење CBRN. Чланови црвене команде пронашли су минималан ризик у овим областима због комбинације нетачности у овим тематским областима, одбијања и шире потребе за даљим приступом и „састојцима“ неопходним за успешну пролиферацију.

Сајбер способности. Такође смо проценили способност GPT‑4 да се користи за откривање и експлоатацију рањивости, као и за социјални инжењеринг. Да бисмо тестирали способност модела да помогне у откривању, процени и експлоатацији рачунарских рањивости, ангажовали смо спољне стручњаке за сајбер безбедност који су утврдили да GPT‑4 може да објасни неке рањивости ако је изворни код довољно мали да стане у контекстни прозор модела, али да је GPT‑4 био слаб у изради експлоатација за већ идентификоване рањивости. Да би тестирали способности у социјалном инжењерингу, стручни чланови црвене команде испитивали су да ли GPT‑4 представља унапређење у односу на постојеће алате у релевантним задацима као што су идентификација мета, spear-phishing и bait-and-switch phishing. Утврдили су да модел није био спремно унапређење постојећих способности социјалног инжењеринга, јер се мучио са чињеничним задацима као што су набрајање мета и примена недавних информација ради стварања ефикаснијег phishing садржаја. Међутим, уз одговарајуће позадинско знање о мети, GPT‑4 је био ефикасан у састављању реалистичног садржаја за социјални инжењеринг. На основу ових налаза, накнадно смо обучили GPT‑4 да одбија злонамерне захтеве у области сајбер безбедности и проширили наше интерне безбедносне системе, укључујући праћење, откривање и реаговање.

Саморепликација. Пре објављивања GPT‑4, омогућили смо и прелиминарну евалуацију модела од стране Alignment Research Center (ARC) његове способности да предузима радње ради аутономне репликације и прикупљања ресурса. ARC-у смо одобрили рани приступ моделима у оквиру наше црвене команде како би њихов тим могао да процени ризике од понашања усмереног ка стицању моћи. Конкретан облик таквог понашања који је ARC процењивао била је способност модела да се аутономно реплицира и прибавља ресурсе. ARC је утврдио да су ране верзије GPT‑4 биле неефикасне у задатку аутономне репликације у прелиминарним експериментима које су спровели. Зато су закључили да модел вероватно не би био способан да се аутономно реплицира.

Извештавање о моделима и размена информација

Транспарентност је важан елемент изградње одговорних AI система. Кључни део нашег приступа одговорности је објављивање документа који тренутно називамо системска картица, за нове AI системе које примењујемо. Наше системске картице имају за циљ да читаоце информишу о кључним факторима који утичу на понашање система, посебно у областима релевантним за одговорну употребу, и инспирисане су претходним истраживачким радом на картицама модела и система. Пре давања добровољних обавеза, OpenAI је објавио две системске картице: GPT‑4 System Card и DALL-E 2 System Card. Од тада смо објавили System Card пре увођења DALL-E 3 у ChatGPT, што је било наше прво велико јавно објављивање новог модела од потписивања добровољних обавеза. У оквиру сталних напора да одговорно објављујемо нашу технологију, објавили смо и System Card за GPT‑4 способности вида пре него што смо их учинили доступним у ChatGPT.

Структура пријављивања рањивости откривених после објављивања модела

Од тренутка када смо дали добровољне обавезе, покренули смо радну групу у оквиру Frontier Model Forum-а како бисмо створили механизам за одговорно откривање опасних способности међу AI лабораторијама. Тај механизам ће имати за циљ да омогући поверљиво откривање значајних ризика идентификованих у граничним моделима међу граничним лабораторијама и другим AI лабораторијама. Наш почетни фокус обухвата домене повезане са националном безбедношћу, као што су хемијске, биолошке, радиолошке и нуклеарне (CBRN) способности, заједно са другим опасним способностима као што су саморепликација, обмана и манипулација. Методе откривања обухватаће евалуације, увиде из вежби црвене команде и друге доказе о заједничким претњама међу чланицама лабораторија у областима у којима би шире откривање представљало значајне ризике.

Такође смо најавили OpenAI програм награђивања за откривање грешака као начин да признамо и наградимо појединце који пријаве безбедносне рањивости у нашим системима. Наше награде се крећу од 200 USD за налазе ниске озбиљности до 20.000 USD за изузетна открића. Сарађујемо са компанијом Bugcrowd, водећом платформом за програме награђивања за откривање грешака, како бисмо успоставили процес пријаве и награђивања, доступан на страници програма награђивања за откривање грешака⁠(отвара се у новом прозору).

Праћење после примене ради уочавања образаца злоупотребе

Напорно радимо да спречимо предвидиве ризике пре примене. Међутим, постоје и границе онога што било ко може да сазна у лабораторији. Чак и после опсежног истраживања и тестирања, не можемо да предвидимо све корисне начине на које ће људи користити нашу технологију, нити све начине на које је могу злоупотребити. Изградња капацитета за брзо откривање и решавање непредвиђених ризика за нас је високи приоритет, јер је тај капацитет кључна заштитна мера за граничне системе код којих се не могу сви ризици у потпуности предвидети. Градимо интерне мере осмишљене да открију неочекиване врсте злоупотребе, имамо процесе за реаговање на њих и користимо стечена сазнања да унапредимо наше политике коришћења, безбедносне системе и излазе модела. Након објављивања система, проактивно спроводимо истраге, праћење и проверу пристиглих пријава како бисмо открили злоупотребе или непредвиђене ризике. Затим настојимо да брзо и итеративно решавамо уочене проблеме кроз политичка и техничка решења. Настављамо да ширимо наше операције и скраћујемо време реаговања.

Безбедносне контроле, укључујући заштиту тежина модела

Улажемо значајне ресурсе у заштиту OpenAI технологије, интелектуалне својине и података.

Наше најмоћније AI моделе примењујемо као услуге. Не дистрибуирамо тежине таквих модела ван OpenAI и нашег технолошког партнера Microsoft, а приступ нашим најспособнијим моделима трећим странама омогућавамо путем API-ја, тако да тежине модела, изворни код и друге осетљиве информације остану под контролом.

Такође примењујемо комерцијално разумне техничке, административне и организационе мере осмишљене да спрече губитак личних података, злоупотребу и неовлашћени приступ. То укључује и независне ревизије нашег безбедносног програма, укључујући SOC 2 Type 2. Покренули смо и програм награђивања за откривање грешака који позива независне истраживаче да пријаве рањивости у нашим системима у замену за новчане награде. Наш Портал поверења омогућава корисницима и другим заинтересованим странама да прегледају наше безбедносне контроле и ревизорске извештаје. У оквиру наших напора у области сајбер безбедности, редовно спроводимо интерна и независна тестирања продора и ревидирамо примереност и ефикасност наших безбедносних контрола.

Идентификатори материјала генерисаног AI-јем

Развијамо технички приступ пореклу садржаја како бисмо помогли у идентификацији аудиовизуелног садржаја који су креирали наши модели. Када овај приступ буде развијен, применићемо га широко у свим нашим новим граничним системима. Процењујемо низ техника порекла, од којих свака има своје предности и мане, а које у ширем смислу спадају у три групе: водени жигови, класификатори и приступи засновани на метаподацима.

Од давања наших добровољних обавеза, истражујемо и тестирамо класификатор порекла како би нам помогао да утврдимо да ли је слику генерисао DALL·E 3. Тренутно ово процењујемо интерно и дали смо јавно ажурирање у оквиру објављивања DALL·E 3.

Контроле уноса података и ревизија

OpenAI велики језички модели, укључујући моделе који покрећу ChatGPT, развијају се коришћењем три примарна извора информација: (1) информација које су јавно доступне на интернету, (2) информација које лиценцирамо од трећих страна и (3) информација које нам пружају наши корисници или наши људски тренери.

Огромна већина наших података за обуку долази из јавно доступних информација које су слободно и отворено доступне на интернету — на пример, не тражимо информације иза paywall-а или са „deep web“-а. Примењујемо филтере и уклањамо одређене податке из којих не желимо да наши модели уче или да их генеришу, као што су говор мржње, садржај за одрасле, сајтови који првенствено агрегирају личне податке и spam.

Такође смо увели мере које омогућавају креаторима, носиоцима права и операторима веб-сајтова да изразе своје преференције у погледу AI обуке у односу на садржај који поседују или контролишу. На пример, OpenAI је омогућио једноставан начин да оператори веб-сајтова искључе свој садржај из приступа OpenAI „GPTBot“ веб-претраживача, ослањајући се на robots.txt веб-стандард. Слично томе, OpenAI је документовао user-agent-string („ChatGPT‑user“) који ChatGPT и ChatGPT додаци користе за приступ веб-сајтовима, тако да оператори сајтова могу да блокирају приступ и за те сврхе. На интернету пружамо упутства како да онемогућите приступ било ком од ова два бота сајтовима. Такође пружамо образац за самосталну пријаву⁠(отвара се у новом прозору) како би креатори слика могли да искључе свој садржај из обуке наших будућих DALL-E модела за генерисање слика.