19. новембар 2025.

Јачање нашег безбедносног екосистема спољним тестирањем

Наш приступ проценама граничне AI од стране трећих лица.

Учитавање…

У OpenAI верујемо да независне, поуздане процене трећих страна играју кључну улогу у јачању безбедносног екосистема граничне AI. Процене трећих страна су евалуације спроведене над граничним моделима ради потврђивања или пружања додатних доказа за тврдње о критичним безбедносним способностима и мерама ублажавања. Ове евалуације помажу да се потврде безбедносне тврдње, заштити од слепих тачака и повећа транспарентност у погледу способности и ризика. Позивањем спољних стручњака да тестирају наше граничне моделе, такође настојимо да изградимо поверење у темељност наших евалуација способности и мера заштите, као и да унапредимо шири безбедносни екосистем.

Од лансирања GPT‑4, OpenAI је сарађивао са низом спољних партнера на тестирању и процени наших модела. Уопштено, наше сарадње са трећим странама имају три облика:

Независне евалуације кључних области граничних способности и ризика, као што су биобезбедност, сајбер-безбедност, самоунапређење AI и сплеткарење
Прегледи методологије који процењују како евалуирамо и тумачимо ризик
Испитивање од стране стручњака за одређену област (SME), у којем стручњаци директно евалуирају модел на стварним SME задацима и дају структурисан допринос нашој процени његових способности и повезаних мера заштите¹

Овај блог објашњава како користимо сваки од ових облика спољне процене, зашто су важни, како су обликовали одлуке о примени и које принципе користимо да структурирамо ове сарадње. У духу транспарентности, делимо и више информација о условима поверљивости и објављивања који уређују нашу сарадњу са тестерима трећих страна.

Зашто је ово важно?

Процењивачи трећих страна додају независан слој евалуације уз наш интерни рад, јачајући ригорозност и пружајући додатну заштиту од самопотврђивања. Њихов допринос пружа додатне доказе уз наше сопствене процене, помажући у доношењу одговорних одлука о примени моћних система.

Такође посматрамо процене трећих страна као део изградње отпорног безбедносног екосистема⁠. Наши тимови спроводе опсежна интерна тестирања у областима способности и ризика, али независне организације доносе додатне перспективе и методолошке приступе. Радимо на томе да подржимо разноврсну групу квалификованих организација за процену које могу редовно да евалуирају граничне моделе заједно са нама.

На крају, тежимо да будемо транспарентни у погледу тога како ови доприноси помажу да се обликује наш безбедносни процес. Процене трећих страна редовно чинимо јавним — на пример, укључивањем сажетака евалуација пре примене у системске картице и подршком организацијама за процену у објављивању детаљнијег рада након прегледа поверљивости и тачности. Ова транспарентност гради поверење тиме што показује како спољни допринос обликује наше евалуације способности и мере заштите.

Трајни односи засновани на поузданом приступу, транспарентности и размени знања помажу целом екосистему да остане испред новонастајућих ризика и подстичу прилагодљиве, применљиве процене потребне за јаче стандарде и информисаније управљање граничним AI системима.

Независне евалуације спољних лабораторија

Почев од лансирања GPT‑4⁠(отвара се у новом прозору), подржавали смо независне евалуације на раним контролним верзијама модела пре примене. Од тада смо проширили рад са низом организација трећих страна које имају дубоку стручност у евалуацијама кључних области граничних способности и ризика. Рад независних лабораторија дефинишемо као отворено тестирање у којем спољни тимови примењују сопствене методе како би дошли до тврдње или процене у вези са одређеном граничном способношћу.

На пример, за GPT‑5⁠, OpenAI је координисао широк скуп спољних процена способности у кључним областима ризика као што су дугорочна аутономија, сплеткарење, обмана и подривање надзора, изводљивост планирања у wet lab условима и офанзивне сајбер-безбедносне евалуације.

Ове независне евалуације допуњују евалуације спроведене у складу са OpenAI-јевим Оквиром спремности и укључују мерила као што су METR-ова евалуација временског хоризонта⁠(отвара се у новом прозору) или SecureBio-ова евалуација Virology Capabilities Test (VCT)⁠(отвара се у новом прозору).

Да бисмо подржали ове евалуације, обезбедили смо сигуран приступ раним контролним верзијама модела, одабраним резултатима евалуација ради конкретизације побољшања способности која уочавамо, задржавање нула података тамо где је потребно и моделе са мање мера ублажавања. На пример, организације које су тестирале у доменима сајбер-безбедности и биобезбедности тестирале су моделе и са безбедносним мерама ублажавања и без њих како би испитале основне способности. Неколико других организација добило је директан приступ начину резоновања како би могле да прегледају трагове резоновања модела. Овај корак повећане транспарентности омогућио је процењивачима да идентификују случајеве sandbagging-а² или понашања сплеткарења који би можда били уочљиви само читањем начина резоновања. Приступ је обезбеђен уз успостављене безбедносне контроле, а ми настављамо да те контроле ажурирамо како се способности модела и потребе тестирања развијају.

Преглед методологије

У одређеним контекстима, спољни процењивачи су у доброј позицији да пруже методолошки преглед, доносећи додатне перспективе оквирима и доказима на које се граничне лабораторије ослањају при процени ризика. На пример, током лансирања gpt-oss⁠, користили смо адверзаријално фино подешавање да бисмо проценили најгори случај способности за моделе јавне тежине, описан у раду Процена најгорих граничних ризика модела јавне тежине⁠. Кључно безбедносно питање било је да ли злонамерни актер може финим подешавањем модела да достигне високу способност у областима као што су био или сајбер, у оквиру нашег Оквира спремности. Пошто је то захтевало ресурсно интензивно адверзаријално фино подешавање, позвали смо процењиваче трећих страна да прегледају и дају препоруке о нашим интерним методама и резултатима уместо да понављају сличан рад.

То је подразумевало вишенедељни процес дељења токова евалуације, детаља о приступу адверзаријалном фином подешавању и прикупљања структурисаних препорука за унапређење методологије и евалуација најгорих граничних ризика. Повратне информације процењивача довеле су до промена у коначном процесу адверзаријалног финог подешавања и показале вредност методолошке потврде. Забележили смо које смо ставке усвојили у раду и системској картици за gpt-oss, а за оне које нисмо усвојили навели смо образложења.

Овде је преглед методологије био прикладнији од независних евалуација: евалуације су подразумевале извођење великих експеримената најгорег случаја, што захтева инфраструктуру и техничку стручност која обично није доступна ван великих AI лабораторија. То је значило да независне евалуације вероватно не би могле директно да доведу до увида у сценарије најгорег случаја, па је било продуктивније усмерити спољне процењиваче на потврђивање тврдњи. Спољни процењивачи су прегледали методе и доказе⁠(отвара се у новом прозору), истичући празнине релевантне за доношење одлука, које су затим адресиране у оквиру повратне спреге препорука. Ово је приступ који се надамо да ћемо проширити и на друге области у којима потребе за приступом или инфраструктуром чине непрактичним да трећа страна сама директно спроводи евалуације, или где спољне евалуације још не постоје.

Испитивање од стране стручњака за одређену област (SME)

Још један начин на који ангажујемо спољне стручњаке јесте испитивање од стране стручњака за одређену област (SME), где стручњаци директно евалуирају модел и дају структурисан допринос путем анкета нашој процени његових способности. Ово се разликује од црвене команде⁠, чији је циљ стресно тестирање конкретних мера заштите. То нам омогућава да евалуације Оквира спремности допунимо увидима специфичним за домен који одражавају стручни суд и стварни контекст, што статичке евалуације саме можда не могу да обухвате. На пример, позвали смо панел стручњака за одређену област да користи helpful-only модел³ како би испробали сопствене комплетне био сценарије за ChatGPT Agent и GPT‑5. Они су оцењивали у којој мери модел може да унапреди стручњака попут њих у односу на мање искусног почетника, на основу корисности упутстава које је пружао у њиховим сценаријима. Циљ је био да се прикупи додатни допринос о томе колико добро систем може суштински да приближи мотивисаног почетника компетентном извођењу: SME су стресно тестирали наше тврдње о „унапређењу почетника“ у реалистичним токовима рада које су сами осмислили и дали детаљне повратне информације о томе где је модел пружао суштинску, корак-по-корак помоћ, а где мање корисне сажетке. Ова вежба експертског испитивања била је укључена као део укупне процене за примену ових модела и подељена у системским картицама за оба лансирања.

Шта сарадњу на процени од стране трећих лица чини успешном?

У духу транспарентности, делимо више информација о томе на шта процењивачи трећих страна пристају када раде са нама и о принципима који воде наше сарадње:

Транспарентност уз пажљиво постављене границе поверљивости: Процењивачи трећих страна потписују уговоре о неоткривању података како би се омогућило дељење поверљивих, нејавних информација ради подршке њиховим проценама. У Додатку⁠ овог текста укључујемо релевантне изводе из уговора са процењивачима трећих страна који описују права у вези са објављивањем и очекивања у погледу прегледа. Радимо по принципу транспарентности и настојимо да омогућимо објављивање које унапређује разумевање безбедности и повезаних евалуација, без угрожавања поверљивих информација или интелектуалне својине. У оквиру тога, прегледамо и одобравамо публикације које произилазе из процена трећих страна како бисмо обезбедили и поверљивост и чињеничну тачност. Током последњих неколико година, више процењивача трећих страна објавило је свој рад упоредо са нашим сопственим објављивањем сажетака процена у системским картицама. Неки примери рада који је објављен након што смо га прегледали у погледу поверљивости и тачности укључују: [METR GPT‑5 извештај ⁠(отвара се у новом прозору), Apollo Research извештај о OpenAI o1⁠(отвара се у новом прозору), Irregular GPT‑5 процена⁠(отвара се у новом прозору)]
Промишљено откривање информација и безбедан, осетљив приступ: Подразумевано, пружамо информације и приступ моделима који су намењени да буду јавни или спремни за продукцију. Када евалуације то захтевају, пружамо дубљи приступ, на пример helpful-only моделима или нејавним информацијама. OpenAI је обезбедио ове облике приступа тамо где су били потребни за критична безбедносна питања за процењиваче трећих страна. Важно је да ове врсте осетљивог приступа захтевају строге безбедносне мере, а ми настављамо да ажурирамо те контроле како се способности модела и потребе тестирања развијају.
Уравнотежени финансијски подстицаји: Верујемо да је важно обезбедити да екосистем процена трећих страна буде добро финансиран и одржив. Због тога нудимо накнаду свим нашим процењивачима трећих страна, а неки од њих одлучују да је одбију у зависности од организационе филозофије коју по том питању имају. Облици накнаде укључују директно плаћање за рад и/или субвенционисање трошкова коришћења модела путем API кредита или на други начин. Ниједна исплата никада не зависи од резултата процене треће стране.

Заједно, ови фактори помажу да процене трећих страна истовремено штите осетљиве информације и подстичу транспарентност у AI безбедности, као и да стварају начине да процењивачи трећих страна буду плаћени за своје време.

Поглед унапред

Гледајући унапред, видимо потребу да наставимо да јачамо екосистем организација способних да спроводе веродостојне процене граничних AI система релевантне за доношење одлука. Ефективна процена од стране трећих лица захтева специјализовану стручност, стабилно финансирање и методолошку ригорозност. Континуирана улагања у квалификоване организације за процену, напредак науке о мерењу и безбедност осетљивог приступа биће од суштинског значаја да би се обезбедило да процене могу да прате напредак способности модела.

Процене трећих страна су један од начина на који уносимо спољну перспективу у наш рад на безбедности и функционишу упоредо са другим механизмима. Такође сарађујемо са спољним стручњацима кроз структурисане напоре црвене команде, пројекте колективног усклађивања⁠, рад са U.S. CAISI и UK AISI⁠, као и саветодавне групе као што су наша Global Physician Network⁠ и наш Савет стручњака за благостање и AI⁠, како бисмо помогли у усмеравању нашег рада на менталном здрављу и благостању корисника. Ови напори доносе различите облике стручности и подржавају ширу, поузданију основу за процену и управљање напредним AI системима.

Додатак

Следећи текстови су илустративни изводи из наших споразума са трећим странама које сарађују са нама на проценама пре примене.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025.

Аутор

OpenAI

Фусноте

1
Ово се разликује од црвене команде, чија је намера да детаљно стресно тестира мере заштите и обезбеди податке за развој евалуације.
2
Када модел намерно ради испод својих могућности или скрива своје стварне способности када открије да се евалуира или тестира.
3
Helpful-only модели одговарају на сваки захтев, чак и ако је захтев штетан. Они се стварају методама постобуке које постижу такво понашање.

Наставите са читањем

Прикажи све

Safety and alignment in an era of long-horizon models

Безбедност20. јул 2026.

Why teens deserve access to safe AI — card image

Зашто тинејџери заслужују приступ безбедном AI-ју

Безбедност16. јул 2026.

GPT-Red: Откључавање самопобољшања за робусност

Безбедност15. јул 2026.