Insaħħu l-ekosistema tas-sikurezza tagħna b’testjar estern
L-approċċ tagħna għall-valutazzjonijiet minn partijiet terzi għall-IA tal-fruntiera.
F’OpenAI, nemmnu li valutazzjonijiet indipendenti u fdati minn partijiet terzi għandhom rwol kritiku biex isaħħu l-ekosistema tas-sikurezza tal-IA tal-fruntiera. Il-valutazzjonijiet minn partijiet terzi huma evalwazzjonijiet imwettqa fuq mudelli tal-fruntiera biex jikkonfermaw jew jipprovdu evidenza addizzjonali għal dikjarazzjonijiet dwar kapaċitajiet kritiċi ta’ sikurezza u mitigazzjonijiet. Dawn l-evalwazzjonijiet jgħinu jivvalidaw dikjarazzjonijiet dwar is-sikurezza, jipproteġu kontra blind spots, u jżidu t-trasparenza dwar il-kapaċitajiet u r-riskji. Billi nistiednu esperti esterni jittestjaw il-mudelli tal-fruntiera tagħna, irridu wkoll inrawmu fiduċja fil-fond tal-evalwazzjonijiet tagħna tal-kapaċitajiet u tas-salvagwardji, u ngħinu ngħollu l-ekosistema usa’ tas-sikurezza.
Sa mit-tnedija ta’ GPT‑4, OpenAI kkollaborat ma’ firxa ta’ sħab esterni biex tittestja u tevalwa l-mudelli tagħna. B’mod ġenerali, il-kollaborazzjonijiet tagħna ma’ partijiet terzi jieħdu tliet forom:
- Evalwazzjonijiet indipendenti ta’ oqsma ewlenin ta’ kapaċitajiet u riskji tal-fruntiera bħall-bijosigurtà, iċ-ċibersigurtà, it-titjib awtonomu tal-IA, u l-iskeming
- Reviżjonijiet tal-metodoloġija li jivvalutaw kif nevalwaw u ninterpretaw ir-riskju
- Probing minn esperti tas-suġġett (SME), fejn l-esperti jivvalutaw il-mudell direttament fuq kompiti reali tal-SME u jipprovdu input strutturat għall-valutazzjoni tagħna tal-kapaċitajiet tiegħu u tas-salvagwardji assoċjati1
Dan il-blog jispjega kif nużaw kull waħda minn dawn il-forom ta’ valutazzjoni esterna, għaliex huma importanti, kif sawru d-deċiżjonijiet dwar id-deployment, u l-prinċipji li nużaw biex nistrutturaw dawn il-kollaborazzjonijiet. Fl-ispirtu tat-trasparenza, qed naqsmu wkoll aktar dwar it-termini ta’ kunfidenzjalità u pubblikazzjoni li jirregolaw il-kollaborazzjonijiet tagħna ma’ testers minn partijiet terzi.
Il-valutaturi minn partijiet terzi jżidu saff indipendenti ta’ evalwazzjoni flimkien max-xogħol intern tagħna, u b’hekk isaħħu r-rigorożità u jipprovdu protezzjoni addizzjonali kontra l-awtokonferma. L-input tagħhom jipprovdi evidenza addizzjonali flimkien mal-valutazzjonijiet tagħna stess, u jgħin biex jinfurma deċiżjonijiet responsabbli dwar id-deployment ta’ sistemi qawwija.
Naraw ukoll il-valutazzjonijiet minn partijiet terzi bħala parti minn il-bini ta’ ekosistema reżiljenti tas-sikurezza. It-timijiet tagħna jwettqu testjar intern estensiv fuq oqsma ta’ kapaċitajiet u riskji, iżda organizzazzjonijiet indipendenti jġibu perspettivi u approċċi metodoloġiċi addizzjonali. Naħdmu biex nappoġġjaw grupp divers ta’ organizzazzjonijiet ta’ valutaturi kwalifikati li jistgħu jivvalutaw regolarment mudelli tal-fruntiera flimkien magħna.
Fl-aħħar nett, irridu nkunu trasparenti dwar kif dan l-input jgħin isawwar il-proċess tagħna tas-sikurezza. Regolarment nagħmlu l-valutazzjonijiet minn partijiet terzi pubbliċi—pereżempju, billi ninkludu sommarji ta’ evalwazzjonijiet ta’ qabel id-deployment fil-kards tas-sistema, u nappoġġjaw lill-organizzazzjonijiet tal-valutaturi biex jippubblikaw xogħol aktar dettaljat wara reviżjoni tal-kunfidenzjalità u tal-eżattezza. Din it-trasparenza tibni l-fiduċja billi turi kif l-input estern isawwar l-evalwazzjonijiet tagħna tal-kapaċitajiet u s-salvagwardji.
Relazzjonijiet fit-tul mibnija fuq aċċess fdat, trasparenza, u qsim tal-għarfien jgħinu lill-ekosistema kollha tibqa’ quddiem riskji emerġenti u jrawmu valutazzjonijiet adattabbli u azzjonabbli meħtieġa għal standards aktar b’saħħithom u governanza aktar infurmata għas-sistemi tal-IA tal-fruntiera.
Nibdew mit-tnedija ta’ GPT‑4(jinfetaħ f’tieqa ġdida), appoġġjajna evalwazzjonijiet indipendenti fuq checkpoints bikrin tal-mudell qabel id-deployment. Minn dak iż-żmien, espandejna x-xogħol tagħna ma’ firxa ta’ organizzazzjonijiet minn partijiet terzi li għandhom għarfien espert profond f’evalwazzjonijiet għal oqsma ewlenin ta’ kapaċitajiet u riskji tal-fruntiera. Niddefinixxu x-xogħol ta’ laboratorji indipendenti bħala testjar miftuħ fejn timijiet esterni japplikaw il-metodi tagħhom stess biex joħorġu b’dikjarazzjoni jew valutazzjoni relatata ma’ kapaċità partikolari tal-fruntiera.
Bħala eżempju, għal GPT‑5, OpenAI kkoordinat sett wiesa’ ta’ valutazzjonijiet esterni tal-kapaċitajiet fuq oqsma ewlenin ta’ riskju bħall-awtonomija fit-tul, l-iskeming, il-qerq u s-sovverżjoni tas-superviżjoni, il-fattibbiltà tal-ippjanar fil-laboratorju wet lab, u evalwazzjonijiet offensivi taċ-ċibersigurtà.
Dawn l-evalwazzjonijiet indipendenti jissupplimentaw l-evalwazzjonijiet imwettqa skont il-Qafas tat-Tħejjija ta’ OpenAI, u jinkludu benchmarks bħall-time horizon evaluation(jinfetaħ f’tieqa ġdida) ta’ METR jew il-valutazzjoni Virology Capabilities Test (VCT)(jinfetaħ f’tieqa ġdida) ta’ SecureBio.
Biex nappoġġjaw dawn l-evalwazzjonijiet, ipprovdejna aċċess sigur għal checkpoints bikrin tal-mudell, riżultati magħżula ta’ evalwazzjoni biex nikkonkretizzaw it-titjib fil-kapaċitajiet li qed naraw, zero-data retention fejn meħtieġ, u mudelli b’inqas mitigazzjonijiet. Pereżempju, organizzazzjonijiet li ttestjaw fl-oqsma taċ-ċibersigurtà u l-bijosigurtà ttestjaw mudelli kemm bi mitigazzjonijiet tas-sikurezza kif ukoll mingħajrhom biex jesploraw il-kapaċitajiet sottostanti. Diversi organizzazzjonijiet oħra rċevew aċċess dirett għall-katina tal-ħsieb biex ikunu jistgħu jispezzjonaw it-traċċi tar-raġunament tal-mudell. Dan il-pass ta’ trasparenza akbar ippermetta lill-valutaturi jidentifikaw każijiet ta’ sandbagging2 jew imġiba ta’ skeming li setgħu jintgħarfu biss billi tinqara l-katina tal-ħsieb. L-aċċess ingħata b’kontrolli ta’ sigurtà fis-seħħ, u nkomplu naġġornaw dawk il-kontrolli hekk kif jevolvu l-kapaċitajiet tal-mudelli u l-ħtiġijiet tat-testjar.
F’ċerti kuntesti, il-valutaturi esterni huma f’pożizzjoni tajba biex jipprovdu reviżjoni metodoloġika, u joffru perspettivi addizzjonali lill-oqfsa u l-evidenza li l-laboratorji tal-fruntiera jiddependu fuqhom biex jivvalutaw ir-riskju. Pereżempju, matul it-tnedija ta’ gpt-oss, użajna adversarial fine-tuning biex nistmaw kapaċitajiet tal-agħar każ għal mudelli open weight, kif deskritt f’Estimating worst case frontier risks of open weight LLMs. Il-mistoqsija ewlenija dwar is-sikurezza kienet jekk attur malizzjuż setax jagħmel fine-tune tal-mudell biex jilħaq kapaċità High f’oqsma bħall-bijo jew iċ-ċiber taħt il-Qafas tat-Tħejjija tagħna. Minħabba li dan kien jeħtieġ adversarial fine-tuning intensiv fir-riżorsi, stedinna valutaturi minn partijiet terzi jirrevedu u jagħmlu rakkomandazzjonijiet dwar il-metodi u r-riżultati interni tagħna minflok jirrepetu xogħol simili.
Dan kien jinvolvi proċess ta’ diversi ġimgħat ta’ qsim ta’ evaluation rollouts, dettalji dwar l-approċċ għall-adversarial fine tuning, u ġbir ta’ rakkomandazzjonijiet strutturati dwar it-titjib tal-metodoloġija u tal-evalwazzjonijiet għar-riskji tal-fruntiera fl-agħar każ. Feedback mill-valutaturi wassal għal bidliet fil-proċess finali ta’ adversarial fine-tuning u wera l-valur tal-konferma metodoloġika. Irreġistrajna liema punti adottajna fil-paper u fil-kard tas-sistema għal gpt-oss, u pprovdejna raġunijiet għal dawk li ma adottajniex.
Hawnhekk, ir-reviżjoni tal-metodoloġija kienet l-aktar adattata minflok evalwazzjonijiet indipendenti: l-evalwazzjonijiet kienu jinvolvu t-tħaddim ta’ esperimenti fuq skala kbira u fl-agħar każ, li jeħtieġ infrastruttura u għarfien espert tekniku li mhux disponibbli komunement barra laboratorji kbar tal-IA. Dan kien ifisser li evalwazzjonijiet indipendenti x’aktarx ma kinux iwasslu direttament għal għarfien dwar xenarji fl-agħar każ, u kien aktar produttiv li l-valutaturi esterni jiffukaw fuq il-konferma tad-dikjarazzjonijiet. Valutaturi esterni irrevedew il-metodi u l-evidenza(jinfetaħ f’tieqa ġdida), u enfasizzaw lakuni rilevanti għad-deċiżjonijiet li ġew indirizzati bħala parti miċ-ċiklu ta’ feedback tar-rakkomandazzjonijiet. Dan huwa approċċ li nittamaw li nestendu f’oqsma oħra fejn il-ħtiġijiet ta’ aċċess jew infrastruttura jagħmluha imprattikabbli għal parti terza li tmexxi evalwazzjonijiet direttament hija stess, jew fejn evalwazzjonijiet esterni jistgħu jkunu għadhom ma jeżistux.
Mod ieħor kif ninvolvu esperti esterni huwa permezz ta’ probing minn esperti tas-suġġett (SME), fejn l-esperti jivvalutaw il-mudell direttament u jipprovdu input strutturat permezz ta’ surveys għall-valutazzjoni tagħna tal-kapaċitajiet tiegħu. Dan huwa differenti minn red teaming, li għandu l-għan li jagħmel stress test ta’ salvagwardji speċifiċi. Dan jippermettilna nissupplimentaw l-evalwazzjonijiet tal-Qafas tat-Tħejjija b’għarfien speċifiku għad-dominju li jirrifletti l-ġudizzju tal-esperti u kuntest tad-dinja reali li evalwazzjonijiet statiċi waħedhom jistgħu ma jaqbdux. Pereżempju, stedinna panel ta’ esperti tas-suġġett jużaw mudell helpful-only3 biex jippruvaw ix-xenarji tagħhom stess ta’ bijo end-to-end għal ChatGPT Agent u GPT‑5. Huma skurjaw kemm il-mudell seta’ jagħti uplift lil espert bħalhom meta mqabbel ma’ novizz inqas esperjenzat, ibbażat fuq l-utilità tal-gwida li pprovda fix-xenarji tagħhom. L-għan kien li jinġabar input addizzjonali dwar kemm is-sistema setgħet tavviċina materjalment novizz motivat lejn eżekuzzjoni kompetenti: l-SMEs għamlu stress-test tad-dikjarazzjonijiet tagħna dwar “novice uplift” taħt flussi tax-xogħol realistiċi li ħolqu huma stess u taw feedback granulari dwar fejn il-mudell ipprovda għajnuna materjali, pass pass, kontra sommarji inqas utli. Dan l-eżerċizzju ta’ probing minn esperti ġie inkluż bħala parti mill-valutazzjoni ġenerali għad-deployment ta’ dawn il-mudelli, u nqasam fil-kards tas-sistema għaż-żewġ tnedijiet.
Fl-ispirtu tat-trasparenza, qed naqsmu aktar dwar xiex jaqblu miegħu l-valutaturi minn partijiet terzi meta jaħdmu magħna, u l-prinċipji li jiggwidaw il-kollaborazzjonijiet tagħna:
- Trasparenza b’limiti kawti ta’ kunfidenzjalità: Il-valutaturi minn partijiet terzi jiffirmaw ftehimiet ta’ non-disclosure biex jippermettu l-qsim ta’ informazzjoni kunfidenzjali u mhux pubblika b’appoġġ għall-valutazzjonijiet tagħhom. Fl-Appendiċi ta’ din il-kariga, ninkludu siltiet rilevanti minn kuntratti ma’ valutaturi minn partijiet terzi li jiddeskrivu d-drittijiet dwar il-pubblikazzjoni u l-aspettattivi għar-reviżjoni. Naħdmu bil-prinċipju tat-trasparenza u nistinkaw biex nippermettu pubblikazzjoni li tavvanza l-fehim tas-sikurezza u l-evalwazzjonijiet relatati mingħajr ma tikkomprometti informazzjoni kunfidenzjali jew proprjetà intellettwali. Bħala parti minn dan, nirrevedu u napprovaw pubblikazzjonijiet minn valutazzjonijiet ta’ partijiet terzi biex niżguraw kemm il-kunfidenzjalità kif ukoll l-eżattezza fattwali. Matul l-aħħar ftit snin, diversi valutaturi minn partijiet terzi ppubblikaw ix-xogħol tagħhom flimkien mal-pubblikazzjoni tagħna stess ta’ sommarji ta’ valutazzjoni fil-kards tas-sistema. Xi eżempji ta’ xogħol li ġie ppubblikat wara li rrevedejnieh għall-kunfidenzjalità u l-eżattezza jinkludu: [rapport METR GPT‑5 (jinfetaħ f’tieqa ġdida), rapport ta’ Apollo Research dwar OpenAI o1(jinfetaħ f’tieqa ġdida), Valutazzjoni Irregular GPT‑5(jinfetaħ f’tieqa ġdida)]
- Żvelar maħsub sew tal-informazzjoni u aċċess sigur u sensittiv: B’mod awtomatiku, nipprovdu informazzjoni u aċċess għal mudelli li huma maħsuba biex ikunu pubbliċi jew lesti għall-produzzjoni. Meta l-evalwazzjonijiet jeħtieġu dan, nipprovdu aċċess aktar profond, bħal għal mudelli helpful-only jew għal informazzjoni mhux pubblika. OpenAI pprovdiet dawn il-forom ta’ aċċess fejn meħtieġ għal mistoqsijiet kritiċi ta’ sikurezza għall-valutaturi minn partijiet terzi. Importanti, dawn it-tipi ta’ aċċess sensittiv jeħtieġu miżuri stretti ta’ sigurtà, u nkomplu naġġornaw dawk il-kontrolli hekk kif jevolvu l-kapaċitajiet tal-mudelli u l-ħtiġijiet tat-testjar.
- Inċentivi finanzjarji bilanċjati: Nemmnu li huwa importanti li niżguraw li l-ekosistema tal-valutazzjoni minn partijiet terzi tkun iffinanzjata tajjeb u sostenibbli. Għalhekk, noffru kumpens lill-valutaturi kollha tagħna minn partijiet terzi, u xi wħud jagħżlu li jirrifjutaw skont il-filosofija organizzattiva tagħhom dwar dan. Forom ta’ kumpens jinkludu ħlas dirett għax-xogħol u/jew sussidjar tal-ispejjeż tal-użu tal-mudell permezz ta’ krediti API jew mod ieħor. L-ebda ħlas qatt ma jkun kontinġenti fuq ir-riżultati ta’ valutazzjoni minn parti terza.
Flimkien, dawn il-fatturi jgħinu lill-valutazzjonijiet minn partijiet terzi kemm jipproteġu informazzjoni sensittiva kif ukoll irawmu t-trasparenza fis-sikurezza tal-IA, u joħolqu toroq biex il-valutaturi minn partijiet terzi jiġu kkumpensati għall-ħin tagħhom.
Nħarsu ’l quddiem, naraw il-ħtieġa li nkomplu nsaħħu l-ekosistema ta’ organizzazzjonijiet kapaċi jwettqu valutazzjonijiet kredibbli u rilevanti għad-deċiżjonijiet tas-sistemi tal-IA tal-fruntiera. Valutazzjoni effettiva minn parti terza teħtieġ għarfien espert speċjalizzat, finanzjament stabbli, u rigorożità metodoloġika. Investiment kontinwu f’organizzazzjonijiet kwalifikati ta’ valutaturi, l-avvanz tax-xjenza tal-kejl, u s-sigurtà għal aċċess sensittiv se jkunu essenzjali biex jiżguraw li l-valutazzjonijiet ikunu jistgħu jżommu l-pass mal-avvanzi fil-kapaċitajiet tal-mudelli.
Il-valutazzjonijiet minn partijiet terzi huma mod wieħed kif inġibu perspettiva esterna fix-xogħol tagħna tas-sikurezza, u joperaw flimkien ma’ mekkaniżmi oħra. Aħna nikkollaboraw ukoll ma’ esperti esterni permezz ta’ sforzi strutturati ta’ red teaming, proġetti ta’ allinjament kollettiv, xogħol mal-U.S. CAISI u UK AISI, u gruppi konsultattivi bħall-Global Physician Network tagħna u l-Expert Council on Well-Being and AI tagħna biex ngħinu niggwidaw ix-xogħol tagħna dwar is-saħħa mentali u l-benesseri tal-utent. Dawn l-isforzi jikkontribwixxu forom differenti ta’ għarfien espert u jappoġġjaw bażi usa’ u aktar affidabbli għall-valutazzjoni u l-governanza ta’ sistemi avvanzati tal-IA.
Dan li ġej huma siltiet illustrattivi mill-ftehimiet tagħna ma’ partijiet terzi li jikkollaboraw magħna fuq valutazzjonijiet ta’ qabel id-deployment.
Awtur
Noti f’qiegħ il-paġna
- 1
Dan huwa differenti minn red teaming, li għandu l-intenzjoni li jagħmel stress test granulari tas-salvagwardji u jipprovdi data għall-iżvilupp tal-evalwazzjoni.
- 2
Meta mudell intenzjonalment jaħdem agħar milli jista’ jew jaħbi l-kapaċitajiet reali tiegħu meta jinduna li qed jiġi evalwat jew ittestjat.
- 3
Mudelli helpful-only iwieġbu għal kull talba, anki jekk it-talba tkun ta’ ħsara. Dawn jinħolqu permezz ta’ metodi ta’ post-training li jiksbu din l-imġiba.


