Јачање нашег безбедносног екосистема спољним тестирањем
Наш приступ проценама граничне AI од стране трећих лица.
У OpenAI верујемо да независне, поуздане процене трећих страна играју кључну улогу у јачању безбедносног екосистема граничне AI. Процене трећих страна су евалуације спроведене над граничним моделима ради потврђивања или пружања додатних доказа за тврдње о критичним безбедносним способностима и мерама ублажавања. Ове евалуације помажу да се потврде безбедносне тврдње, заштити од слепих тачака и повећа транспарентност у погледу способности и ризика. Позивањем спољних стручњака да тестирају наше граничне моделе, такође настојимо да изградимо поверење у темељност наших евалуација способности и мера заштите, као и да унапредимо шири безбедносни екосистем.
Од лансирања GPT‑4, OpenAI је сарађивао са низом спољних партнера на тестирању и процени наших модела. Уопштено, наше сарадње са трећим странама имају три облика:
- Независне евалуације кључних области граничних способности и ризика, као што су биобезбедност, сајбер-безбедност, самоунапређење AI и сплеткарење
- Прегледи методологије који процењују како евалуирамо и тумачимо ризик
- Испитивање од стране стручњака за одређену област (SME), у којем стручњаци директно евалуирају модел на стварним SME задацима и дају структурисан допринос нашој процени његових способности и повезаних мера заштите1
Овај блог објашњава како користимо сваки од ових облика спољне процене, зашто су важни, како су обликовали одлуке о примени и које принципе користимо да структурирамо ове сарадње. У духу транспарентности, делимо и више информација о условима поверљивости и објављивања који уређују нашу сарадњу са тестерима трећих страна.
Процењивачи трећих страна додају независан слој евалуације уз наш интерни рад, јачајући ригорозност и пружајући додатну заштиту од самопотврђивања. Њихов допринос пружа додатне доказе уз наше сопствене процене, помажући у доношењу одговорних одлука о примени моћних система.
Такође посматрамо процене трећих страна као део изградње отпорног безбедносног екосистема. Наши тимови спроводе опсежна интерна тестирања у областима способности и ризика, али независне организације доносе додатне перспективе и методолошке приступе. Радимо на томе да подржимо разноврсну групу квалификованих организација за процену које могу редовно да евалуирају граничне моделе заједно са нама.
На крају, тежимо да будемо транспарентни у погледу тога како ови доприноси помажу да се обликује наш безбедносни процес. Процене трећих страна редовно чинимо јавним — на пример, укључивањем сажетака евалуација пре примене у системске картице и подршком организацијама за процену у објављивању детаљнијег рада након прегледа поверљивости и тачности. Ова транспарентност гради поверење тиме што показује како спољни допринос обликује наше евалуације способности и мере заштите.
Трајни односи засновани на поузданом приступу, транспарентности и размени знања помажу целом екосистему да остане испред новонастајућих ризика и подстичу прилагодљиве, применљиве процене потребне за јаче стандарде и информисаније управљање граничним AI системима.
Почев од лансирања GPT‑4(отвара се у новом прозору), подржавали смо независне евалуације на раним контролним верзијама модела пре примене. Од тада смо проширили рад са низом организација трећих страна које имају дубоку стручност у евалуацијама кључних области граничних способности и ризика. Рад независних лабораторија дефинишемо као отворено тестирање у којем спољни тимови примењују сопствене методе како би дошли до тврдње или процене у вези са одређеном граничном способношћу.
На пример, за GPT‑5, OpenAI је координисао широк скуп спољних процена способности у кључним областима ризика као што су дугорочна аутономија, сплеткарење, обмана и подривање надзора, изводљивост планирања у wet lab условима и офанзивне сајбер-безбедносне евалуације.
Ове независне евалуације допуњују евалуације спроведене у складу са OpenAI-јевим Оквиром спремности и укључују мерила као што су METR-ова евалуација временског хоризонта(отвара се у новом прозору) или SecureBio-ова евалуација Virology Capabilities Test (VCT)(отвара се у новом прозору).
Да бисмо подржали ове евалуације, обезбедили смо сигуран приступ раним контролним верзијама модела, одабраним резултатима евалуација ради конкретизације побољшања способности која уочавамо, задржавање нула података тамо где је потребно и моделе са мање мера ублажавања. На пример, организације које су тестирале у доменима сајбер-безбедности и биобезбедности тестирале су моделе и са безбедносним мерама ублажавања и без њих како би испитале основне способности. Неколико других организација добило је директан приступ начину резоновања како би могле да прегледају трагове резоновања модела. Овај корак повећане транспарентности омогућио је процењивачима да идентификују случајеве sandbagging-а2 или понашања сплеткарења који би можда били уочљиви само читањем начина резоновања. Приступ је обезбеђен уз успостављене безбедносне контроле, а ми настављамо да те контроле ажурирамо како се способности модела и потребе тестирања развијају.
У одређеним контекстима, спољни процењивачи су у доброј позицији да пруже методолошки преглед, доносећи додатне перспективе оквирима и доказима на које се граничне лабораторије ослањају при процени ризика. На пример, током лансирања gpt-oss, користили смо адверзаријално фино подешавање да бисмо проценили најгори случај способности за моделе јавне тежине, описан у раду Процена најгорих граничних ризика модела јавне тежине. Кључно безбедносно питање било је да ли злонамерни актер може финим подешавањем модела да достигне високу способност у областима као што су био или сајбер, у оквиру нашег Оквира спремности. Пошто је то захтевало ресурсно интензивно адверзаријално фино подешавање, позвали смо процењиваче трећих страна да прегледају и дају препоруке о нашим интерним методама и резултатима уместо да понављају сличан рад.
То је подразумевало вишенедељни процес дељења токова евалуације, детаља о приступу адверзаријалном фином подешавању и прикупљања структурисаних препорука за унапређење методологије и евалуација најгорих граничних ризика. Повратне информације процењивача довеле су до промена у коначном процесу адверзаријалног финог подешавања и показале вредност методолошке потврде. Забележили смо које смо ставке усвојили у раду и системској картици за gpt-oss, а за оне које нисмо усвојили навели смо образложења.
Овде је преглед методологије био прикладнији од независних евалуација: евалуације су подразумевале извођење великих експеримената најгорег случаја, што захтева инфраструктуру и техничку стручност која обично није доступна ван великих AI лабораторија. То је значило да независне евалуације вероватно не би могле директно да доведу до увида у сценарије најгорег случаја, па је било продуктивније усмерити спољне процењиваче на потврђивање тврдњи. Спољни процењивачи су прегледали методе и доказе(отвара се у новом прозору), истичући празнине релевантне за доношење одлука, које су затим адресиране у оквиру повратне спреге препорука. Ово је приступ који се надамо да ћемо проширити и на друге области у којима потребе за приступом или инфраструктуром чине непрактичним да трећа страна сама директно спроводи евалуације, или где спољне евалуације још не постоје.
Још један начин на који ангажујемо спољне стручњаке јесте испитивање од стране стручњака за одређену област (SME), где стручњаци директно евалуирају модел и дају структурисан допринос путем анкета нашој процени његових способности. Ово се разликује од црвене команде, чији је циљ стресно тестирање конкретних мера заштите. То нам омогућава да евалуације Оквира спремности допунимо увидима специфичним за домен који одражавају стручни суд и стварни контекст, што статичке евалуације саме можда не могу да обухвате. На пример, позвали смо панел стручњака за одређену област да користи helpful-only модел3 како би испробали сопствене комплетне био сценарије за ChatGPT Agent и GPT‑5. Они су оцењивали у којој мери модел може да унапреди стручњака попут њих у односу на мање искусног почетника, на основу корисности упутстава које је пружао у њиховим сценаријима. Циљ је био да се прикупи додатни допринос о томе колико добро систем може суштински да приближи мотивисаног почетника компетентном извођењу: SME су стресно тестирали наше тврдње о „унапређењу почетника“ у реалистичним токовима рада које су сами осмислили и дали детаљне повратне информације о томе где је модел пружао суштинску, корак-по-корак помоћ, а где мање корисне сажетке. Ова вежба експертског испитивања била је укључена као део укупне процене за примену ових модела и подељена у системским картицама за оба лансирања.
У духу транспарентности, делимо више информација о томе на шта процењивачи трећих страна пристају када раде са нама и о принципима који воде наше сарадње:
- Транспарентност уз пажљиво постављене границе поверљивости: Процењивачи трећих страна потписују уговоре о неоткривању података како би се омогућило дељење поверљивих, нејавних информација ради подршке њиховим проценама. У Додатку овог текста укључујемо релевантне изводе из уговора са процењивачима трећих страна који описују права у вези са објављивањем и очекивања у погледу прегледа. Радимо по принципу транспарентности и настојимо да омогућимо објављивање које унапређује разумевање безбедности и повезаних евалуација, без угрожавања поверљивих информација или интелектуалне својине. У оквиру тога, прегледамо и одобравамо публикације које произилазе из процена трећих страна како бисмо обезбедили и поверљивост и чињеничну тачност. Током последњих неколико година, више процењивача трећих страна објавило је свој рад упоредо са нашим сопственим објављивањем сажетака процена у системским картицама. Неки примери рада који је објављен након што смо га прегледали у погледу поверљивости и тачности укључују: [METR GPT‑5 извештај (отвара се у новом прозору), Apollo Research извештај о OpenAI o1(отвара се у новом прозору), Irregular GPT‑5 процена(отвара се у новом прозору)]
- Промишљено откривање информација и безбедан, осетљив приступ: Подразумевано, пружамо информације и приступ моделима који су намењени да буду јавни или спремни за продукцију. Када евалуације то захтевају, пружамо дубљи приступ, на пример helpful-only моделима или нејавним информацијама. OpenAI је обезбедио ове облике приступа тамо где су били потребни за критична безбедносна питања за процењиваче трећих страна. Важно је да ове врсте осетљивог приступа захтевају строге безбедносне мере, а ми настављамо да ажурирамо те контроле како се способности модела и потребе тестирања развијају.
- Уравнотежени финансијски подстицаји: Верујемо да је важно обезбедити да екосистем процена трећих страна буде добро финансиран и одржив. Због тога нудимо накнаду свим нашим процењивачима трећих страна, а неки од њих одлучују да је одбију у зависности од организационе филозофије коју по том питању имају. Облици накнаде укључују директно плаћање за рад и/или субвенционисање трошкова коришћења модела путем API кредита или на други начин. Ниједна исплата никада не зависи од резултата процене треће стране.
Заједно, ови фактори помажу да процене трећих страна истовремено штите осетљиве информације и подстичу транспарентност у AI безбедности, као и да стварају начине да процењивачи трећих страна буду плаћени за своје време.
Гледајући унапред, видимо потребу да наставимо да јачамо екосистем организација способних да спроводе веродостојне процене граничних AI система релевантне за доношење одлука. Ефективна процена од стране трећих лица захтева специјализовану стручност, стабилно финансирање и методолошку ригорозност. Континуирана улагања у квалификоване организације за процену, напредак науке о мерењу и безбедност осетљивог приступа биће од суштинског значаја да би се обезбедило да процене могу да прате напредак способности модела.
Процене трећих страна су један од начина на који уносимо спољну перспективу у наш рад на безбедности и функционишу упоредо са другим механизмима. Такође сарађујемо са спољним стручњацима кроз структурисане напоре црвене команде, пројекте колективног усклађивања, рад са U.S. CAISI и UK AISI, као и саветодавне групе као што су наша Global Physician Network и наш Савет стручњака за благостање и AI, како бисмо помогли у усмеравању нашег рада на менталном здрављу и благостању корисника. Ови напори доносе различите облике стручности и подржавају ширу, поузданију основу за процену и управљање напредним AI системима.
Следећи текстови су илустративни изводи из наших споразума са трећим странама које сарађују са нама на проценама пре примене.
Аутор
Фусноте
- 1
Ово се разликује од црвене команде, чија је намера да детаљно стресно тестира мере заштите и обезбеди податке за развој евалуације.
- 2
Када модел намерно ради испод својих могућности или скрива своје стварне способности када открије да се евалуира или тестира.
- 3
Helpful-only модели одговарају на сваки захтев, чак и ако је захтев штетан. Они се стварају методама постобуке које постижу такво понашање.


