19 ta’ Novembru 2025

Insaħħu l-ekosistema tas-sikurezza tagħna b’testjar estern

L-approċċ tagħna għall-valutazzjonijiet minn partijiet terzi għall-IA tal-fruntiera.

Qed jillowdja…

F’OpenAI, nemmnu li valutazzjonijiet indipendenti u fdati minn partijiet terzi għandhom rwol kritiku biex isaħħu l-ekosistema tas-sikurezza tal-IA tal-fruntiera. Il-valutazzjonijiet minn partijiet terzi huma evalwazzjonijiet imwettqa fuq mudelli tal-fruntiera biex jikkonfermaw jew jipprovdu evidenza addizzjonali għal dikjarazzjonijiet dwar kapaċitajiet kritiċi ta’ sikurezza u mitigazzjonijiet. Dawn l-evalwazzjonijiet jgħinu jivvalidaw dikjarazzjonijiet dwar is-sikurezza, jipproteġu kontra blind spots, u jżidu t-trasparenza dwar il-kapaċitajiet u r-riskji. Billi nistiednu esperti esterni jittestjaw il-mudelli tal-fruntiera tagħna, irridu wkoll inrawmu fiduċja fil-fond tal-evalwazzjonijiet tagħna tal-kapaċitajiet u tas-salvagwardji, u ngħinu ngħollu l-ekosistema usa’ tas-sikurezza.

Sa mit-tnedija ta’ GPT‑4, OpenAI kkollaborat ma’ firxa ta’ sħab esterni biex tittestja u tevalwa l-mudelli tagħna. B’mod ġenerali, il-kollaborazzjonijiet tagħna ma’ partijiet terzi jieħdu tliet forom:

Evalwazzjonijiet indipendenti ta’ oqsma ewlenin ta’ kapaċitajiet u riskji tal-fruntiera bħall-bijosigurtà, iċ-ċibersigurtà, it-titjib awtonomu tal-IA, u l-iskeming
Reviżjonijiet tal-metodoloġija li jivvalutaw kif nevalwaw u ninterpretaw ir-riskju
Probing minn esperti tas-suġġett (SME), fejn l-esperti jivvalutaw il-mudell direttament fuq kompiti reali tal-SME u jipprovdu input strutturat għall-valutazzjoni tagħna tal-kapaċitajiet tiegħu u tas-salvagwardji assoċjati¹

Dan il-blog jispjega kif nużaw kull waħda minn dawn il-forom ta’ valutazzjoni esterna, għaliex huma importanti, kif sawru d-deċiżjonijiet dwar id-deployment, u l-prinċipji li nużaw biex nistrutturaw dawn il-kollaborazzjonijiet. Fl-ispirtu tat-trasparenza, qed naqsmu wkoll aktar dwar it-termini ta’ kunfidenzjalità u pubblikazzjoni li jirregolaw il-kollaborazzjonijiet tagħna ma’ testers minn partijiet terzi.

Għaliex dan huwa importanti?

Il-valutaturi minn partijiet terzi jżidu saff indipendenti ta’ evalwazzjoni flimkien max-xogħol intern tagħna, u b’hekk isaħħu r-rigorożità u jipprovdu protezzjoni addizzjonali kontra l-awtokonferma. L-input tagħhom jipprovdi evidenza addizzjonali flimkien mal-valutazzjonijiet tagħna stess, u jgħin biex jinfurma deċiżjonijiet responsabbli dwar id-deployment ta’ sistemi qawwija.

Naraw ukoll il-valutazzjonijiet minn partijiet terzi bħala parti minn il-bini ta’ ekosistema reżiljenti tas-sikurezza⁠. It-timijiet tagħna jwettqu testjar intern estensiv fuq oqsma ta’ kapaċitajiet u riskji, iżda organizzazzjonijiet indipendenti jġibu perspettivi u approċċi metodoloġiċi addizzjonali. Naħdmu biex nappoġġjaw grupp divers ta’ organizzazzjonijiet ta’ valutaturi kwalifikati li jistgħu jivvalutaw regolarment mudelli tal-fruntiera flimkien magħna.

Fl-aħħar nett, irridu nkunu trasparenti dwar kif dan l-input jgħin isawwar il-proċess tagħna tas-sikurezza. Regolarment nagħmlu l-valutazzjonijiet minn partijiet terzi pubbliċi—pereżempju, billi ninkludu sommarji ta’ evalwazzjonijiet ta’ qabel id-deployment fil-kards tas-sistema, u nappoġġjaw lill-organizzazzjonijiet tal-valutaturi biex jippubblikaw xogħol aktar dettaljat wara reviżjoni tal-kunfidenzjalità u tal-eżattezza. Din it-trasparenza tibni l-fiduċja billi turi kif l-input estern isawwar l-evalwazzjonijiet tagħna tal-kapaċitajiet u s-salvagwardji.

Relazzjonijiet fit-tul mibnija fuq aċċess fdat, trasparenza, u qsim tal-għarfien jgħinu lill-ekosistema kollha tibqa’ quddiem riskji emerġenti u jrawmu valutazzjonijiet adattabbli u azzjonabbli meħtieġa għal standards aktar b’saħħithom u governanza aktar infurmata għas-sistemi tal-IA tal-fruntiera.

Evalwazzjonijiet indipendenti minn laboratorji esterni

Nibdew mit-tnedija ta’ GPT‑4⁠(jinfetaħ f’tieqa ġdida), appoġġjajna evalwazzjonijiet indipendenti fuq checkpoints bikrin tal-mudell qabel id-deployment. Minn dak iż-żmien, espandejna x-xogħol tagħna ma’ firxa ta’ organizzazzjonijiet minn partijiet terzi li għandhom għarfien espert profond f’evalwazzjonijiet għal oqsma ewlenin ta’ kapaċitajiet u riskji tal-fruntiera. Niddefinixxu x-xogħol ta’ laboratorji indipendenti bħala testjar miftuħ fejn timijiet esterni japplikaw il-metodi tagħhom stess biex joħorġu b’dikjarazzjoni jew valutazzjoni relatata ma’ kapaċità partikolari tal-fruntiera.

Bħala eżempju, għal GPT‑5⁠, OpenAI kkoordinat sett wiesa’ ta’ valutazzjonijiet esterni tal-kapaċitajiet fuq oqsma ewlenin ta’ riskju bħall-awtonomija fit-tul, l-iskeming, il-qerq u s-sovverżjoni tas-superviżjoni, il-fattibbiltà tal-ippjanar fil-laboratorju wet lab, u evalwazzjonijiet offensivi taċ-ċibersigurtà.

Dawn l-evalwazzjonijiet indipendenti jissupplimentaw l-evalwazzjonijiet imwettqa skont il-Qafas tat-Tħejjija ta’ OpenAI, u jinkludu benchmarks bħall-time horizon evaluation⁠(jinfetaħ f’tieqa ġdida) ta’ METR jew il-valutazzjoni Virology Capabilities Test (VCT)⁠(jinfetaħ f’tieqa ġdida) ta’ SecureBio.

Biex nappoġġjaw dawn l-evalwazzjonijiet, ipprovdejna aċċess sigur għal checkpoints bikrin tal-mudell, riżultati magħżula ta’ evalwazzjoni biex nikkonkretizzaw it-titjib fil-kapaċitajiet li qed naraw, zero-data retention fejn meħtieġ, u mudelli b’inqas mitigazzjonijiet. Pereżempju, organizzazzjonijiet li ttestjaw fl-oqsma taċ-ċibersigurtà u l-bijosigurtà ttestjaw mudelli kemm bi mitigazzjonijiet tas-sikurezza kif ukoll mingħajrhom biex jesploraw il-kapaċitajiet sottostanti. Diversi organizzazzjonijiet oħra rċevew aċċess dirett għall-katina tal-ħsieb biex ikunu jistgħu jispezzjonaw it-traċċi tar-raġunament tal-mudell. Dan il-pass ta’ trasparenza akbar ippermetta lill-valutaturi jidentifikaw każijiet ta’ sandbagging² jew imġiba ta’ skeming li setgħu jintgħarfu biss billi tinqara l-katina tal-ħsieb. L-aċċess ingħata b’kontrolli ta’ sigurtà fis-seħħ, u nkomplu naġġornaw dawk il-kontrolli hekk kif jevolvu l-kapaċitajiet tal-mudelli u l-ħtiġijiet tat-testjar.

Reviżjoni tal-metodoloġija

F’ċerti kuntesti, il-valutaturi esterni huma f’pożizzjoni tajba biex jipprovdu reviżjoni metodoloġika, u joffru perspettivi addizzjonali lill-oqfsa u l-evidenza li l-laboratorji tal-fruntiera jiddependu fuqhom biex jivvalutaw ir-riskju. Pereżempju, matul it-tnedija ta’ gpt-oss⁠, użajna adversarial fine-tuning biex nistmaw kapaċitajiet tal-agħar każ għal mudelli open weight, kif deskritt f’Estimating worst case frontier risks of open weight LLMs⁠. Il-mistoqsija ewlenija dwar is-sikurezza kienet jekk attur malizzjuż setax jagħmel fine-tune tal-mudell biex jilħaq kapaċità High f’oqsma bħall-bijo jew iċ-ċiber taħt il-Qafas tat-Tħejjija tagħna. Minħabba li dan kien jeħtieġ adversarial fine-tuning intensiv fir-riżorsi, stedinna valutaturi minn partijiet terzi jirrevedu u jagħmlu rakkomandazzjonijiet dwar il-metodi u r-riżultati interni tagħna minflok jirrepetu xogħol simili.

Dan kien jinvolvi proċess ta’ diversi ġimgħat ta’ qsim ta’ evaluation rollouts, dettalji dwar l-approċċ għall-adversarial fine tuning, u ġbir ta’ rakkomandazzjonijiet strutturati dwar it-titjib tal-metodoloġija u tal-evalwazzjonijiet għar-riskji tal-fruntiera fl-agħar każ. Feedback mill-valutaturi wassal għal bidliet fil-proċess finali ta’ adversarial fine-tuning u wera l-valur tal-konferma metodoloġika. Irreġistrajna liema punti adottajna fil-paper u fil-kard tas-sistema għal gpt-oss, u pprovdejna raġunijiet għal dawk li ma adottajniex.

Hawnhekk, ir-reviżjoni tal-metodoloġija kienet l-aktar adattata minflok evalwazzjonijiet indipendenti: l-evalwazzjonijiet kienu jinvolvu t-tħaddim ta’ esperimenti fuq skala kbira u fl-agħar każ, li jeħtieġ infrastruttura u għarfien espert tekniku li mhux disponibbli komunement barra laboratorji kbar tal-IA. Dan kien ifisser li evalwazzjonijiet indipendenti x’aktarx ma kinux iwasslu direttament għal għarfien dwar xenarji fl-agħar każ, u kien aktar produttiv li l-valutaturi esterni jiffukaw fuq il-konferma tad-dikjarazzjonijiet. Valutaturi esterni irrevedew il-metodi u l-evidenza⁠(jinfetaħ f’tieqa ġdida), u enfasizzaw lakuni rilevanti għad-deċiżjonijiet li ġew indirizzati bħala parti miċ-ċiklu ta’ feedback tar-rakkomandazzjonijiet. Dan huwa approċċ li nittamaw li nestendu f’oqsma oħra fejn il-ħtiġijiet ta’ aċċess jew infrastruttura jagħmluha imprattikabbli għal parti terza li tmexxi evalwazzjonijiet direttament hija stess, jew fejn evalwazzjonijiet esterni jistgħu jkunu għadhom ma jeżistux.

Probing minn esperti tas-suġġett (SME)

Mod ieħor kif ninvolvu esperti esterni huwa permezz ta’ probing minn esperti tas-suġġett (SME), fejn l-esperti jivvalutaw il-mudell direttament u jipprovdu input strutturat permezz ta’ surveys għall-valutazzjoni tagħna tal-kapaċitajiet tiegħu. Dan huwa differenti minn red teaming⁠, li għandu l-għan li jagħmel stress test ta’ salvagwardji speċifiċi. Dan jippermettilna nissupplimentaw l-evalwazzjonijiet tal-Qafas tat-Tħejjija b’għarfien speċifiku għad-dominju li jirrifletti l-ġudizzju tal-esperti u kuntest tad-dinja reali li evalwazzjonijiet statiċi waħedhom jistgħu ma jaqbdux. Pereżempju, stedinna panel ta’ esperti tas-suġġett jużaw mudell helpful-only³ biex jippruvaw ix-xenarji tagħhom stess ta’ bijo end-to-end għal ChatGPT Agent u GPT‑5. Huma skurjaw kemm il-mudell seta’ jagħti uplift lil espert bħalhom meta mqabbel ma’ novizz inqas esperjenzat, ibbażat fuq l-utilità tal-gwida li pprovda fix-xenarji tagħhom. L-għan kien li jinġabar input addizzjonali dwar kemm is-sistema setgħet tavviċina materjalment novizz motivat lejn eżekuzzjoni kompetenti: l-SMEs għamlu stress-test tad-dikjarazzjonijiet tagħna dwar “novice uplift” taħt flussi tax-xogħol realistiċi li ħolqu huma stess u taw feedback granulari dwar fejn il-mudell ipprovda għajnuna materjali, pass pass, kontra sommarji inqas utli. Dan l-eżerċizzju ta’ probing minn esperti ġie inkluż bħala parti mill-valutazzjoni ġenerali għad-deployment ta’ dawn il-mudelli, u nqasam fil-kards tas-sistema għaż-żewġ tnedijiet.

X’jagħmel kollaborazzjoni ta’ valutazzjoni minn parti terza ta’ suċċess?

Fl-ispirtu tat-trasparenza, qed naqsmu aktar dwar xiex jaqblu miegħu l-valutaturi minn partijiet terzi meta jaħdmu magħna, u l-prinċipji li jiggwidaw il-kollaborazzjonijiet tagħna:

Trasparenza b’limiti kawti ta’ kunfidenzjalità: Il-valutaturi minn partijiet terzi jiffirmaw ftehimiet ta’ non-disclosure biex jippermettu l-qsim ta’ informazzjoni kunfidenzjali u mhux pubblika b’appoġġ għall-valutazzjonijiet tagħhom. Fl-Appendiċi⁠ ta’ din il-kariga, ninkludu siltiet rilevanti minn kuntratti ma’ valutaturi minn partijiet terzi li jiddeskrivu d-drittijiet dwar il-pubblikazzjoni u l-aspettattivi għar-reviżjoni. Naħdmu bil-prinċipju tat-trasparenza u nistinkaw biex nippermettu pubblikazzjoni li tavvanza l-fehim tas-sikurezza u l-evalwazzjonijiet relatati mingħajr ma tikkomprometti informazzjoni kunfidenzjali jew proprjetà intellettwali. Bħala parti minn dan, nirrevedu u napprovaw pubblikazzjonijiet minn valutazzjonijiet ta’ partijiet terzi biex niżguraw kemm il-kunfidenzjalità kif ukoll l-eżattezza fattwali. Matul l-aħħar ftit snin, diversi valutaturi minn partijiet terzi ppubblikaw ix-xogħol tagħhom flimkien mal-pubblikazzjoni tagħna stess ta’ sommarji ta’ valutazzjoni fil-kards tas-sistema. Xi eżempji ta’ xogħol li ġie ppubblikat wara li rrevedejnieh għall-kunfidenzjalità u l-eżattezza jinkludu: [rapport METR GPT‑5 ⁠(jinfetaħ f’tieqa ġdida), rapport ta’ Apollo Research dwar OpenAI o1⁠(jinfetaħ f’tieqa ġdida), Valutazzjoni Irregular GPT‑5⁠(jinfetaħ f’tieqa ġdida)]
Żvelar maħsub sew tal-informazzjoni u aċċess sigur u sensittiv: B’mod awtomatiku, nipprovdu informazzjoni u aċċess għal mudelli li huma maħsuba biex ikunu pubbliċi jew lesti għall-produzzjoni. Meta l-evalwazzjonijiet jeħtieġu dan, nipprovdu aċċess aktar profond, bħal għal mudelli helpful-only jew għal informazzjoni mhux pubblika. OpenAI pprovdiet dawn il-forom ta’ aċċess fejn meħtieġ għal mistoqsijiet kritiċi ta’ sikurezza għall-valutaturi minn partijiet terzi. Importanti, dawn it-tipi ta’ aċċess sensittiv jeħtieġu miżuri stretti ta’ sigurtà, u nkomplu naġġornaw dawk il-kontrolli hekk kif jevolvu l-kapaċitajiet tal-mudelli u l-ħtiġijiet tat-testjar.
Inċentivi finanzjarji bilanċjati: Nemmnu li huwa importanti li niżguraw li l-ekosistema tal-valutazzjoni minn partijiet terzi tkun iffinanzjata tajjeb u sostenibbli. Għalhekk, noffru kumpens lill-valutaturi kollha tagħna minn partijiet terzi, u xi wħud jagħżlu li jirrifjutaw skont il-filosofija organizzattiva tagħhom dwar dan. Forom ta’ kumpens jinkludu ħlas dirett għax-xogħol u/jew sussidjar tal-ispejjeż tal-użu tal-mudell permezz ta’ krediti API jew mod ieħor. L-ebda ħlas qatt ma jkun kontinġenti fuq ir-riżultati ta’ valutazzjoni minn parti terza.

Flimkien, dawn il-fatturi jgħinu lill-valutazzjonijiet minn partijiet terzi kemm jipproteġu informazzjoni sensittiva kif ukoll irawmu t-trasparenza fis-sikurezza tal-IA, u joħolqu toroq biex il-valutaturi minn partijiet terzi jiġu kkumpensati għall-ħin tagħhom.

Nħarsu ’l quddiem

Nħarsu ’l quddiem, naraw il-ħtieġa li nkomplu nsaħħu l-ekosistema ta’ organizzazzjonijiet kapaċi jwettqu valutazzjonijiet kredibbli u rilevanti għad-deċiżjonijiet tas-sistemi tal-IA tal-fruntiera. Valutazzjoni effettiva minn parti terza teħtieġ għarfien espert speċjalizzat, finanzjament stabbli, u rigorożità metodoloġika. Investiment kontinwu f’organizzazzjonijiet kwalifikati ta’ valutaturi, l-avvanz tax-xjenza tal-kejl, u s-sigurtà għal aċċess sensittiv se jkunu essenzjali biex jiżguraw li l-valutazzjonijiet ikunu jistgħu jżommu l-pass mal-avvanzi fil-kapaċitajiet tal-mudelli.

Il-valutazzjonijiet minn partijiet terzi huma mod wieħed kif inġibu perspettiva esterna fix-xogħol tagħna tas-sikurezza, u joperaw flimkien ma’ mekkaniżmi oħra. Aħna nikkollaboraw ukoll ma’ esperti esterni permezz ta’ sforzi strutturati ta’ red teaming, proġetti ta’ allinjament kollettiv⁠, xogħol mal-U.S. CAISI u UK AISI⁠, u gruppi konsultattivi bħall-Global Physician Network⁠ tagħna u l-Expert Council on Well-Being and AI⁠ tagħna biex ngħinu niggwidaw ix-xogħol tagħna dwar is-saħħa mentali u l-benesseri tal-utent. Dawn l-isforzi jikkontribwixxu forom differenti ta’ għarfien espert u jappoġġjaw bażi usa’ u aktar affidabbli għall-valutazzjoni u l-governanza ta’ sistemi avvanzati tal-IA.

Appendiċi

Dan li ġej huma siltiet illustrattivi mill-ftehimiet tagħna ma’ partijiet terzi li jikkollaboraw magħna fuq valutazzjonijiet ta’ qabel id-deployment.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Awtur

OpenAI

Noti f’qiegħ il-paġna

1
Dan huwa differenti minn red teaming, li għandu l-intenzjoni li jagħmel stress test granulari tas-salvagwardji u jipprovdi data għall-iżvilupp tal-evalwazzjoni.
2
Meta mudell intenzjonalment jaħdem agħar milli jista’ jew jaħbi l-kapaċitajiet reali tiegħu meta jinduna li qed jiġi evalwat jew ittestjat.
3
Mudelli helpful-only iwieġbu għal kull talba, anki jekk it-talba tkun ta’ ħsara. Dawn jinħolqu permezz ta’ metodi ta’ post-training li jiksbu din l-imġiba.

Kompli aqra

Ara kollox

Safety and alignment in an era of long-horizon models

Sigurtà20 ta’ Lul, 2026

Why teens deserve access to safe AI — card image

Għaliex l-adoloxxenti jistħoqqilhom IA sikura

Sigurtà16 ta’ Lul, 2026

GPT-Red: Niftħu t-Titjib Awtomatiku għar-Robustezza

Sigurtà15 ta’ Lul, 2026