19 novembre 2025

Rafforziamo il nostro ecosistema di sicurezza con test esterni

Il nostro approccio alle valutazioni di terze parti per l'IA di frontiera.

Caricamento in corso...

Noi di OpenAI crediamo che le valutazioni indipendenti e affidabili di terze parti svolgano un ruolo fondamentale nel rafforzare l'ecosistema di sicurezza dell'IA di frontiera. Le valutazioni di terze parti sono esami condotti su modelli di frontiera per confermare o fornire ulteriori prove sulle affermazioni riguardanti le capacità di sicurezza critiche e le mitigazioni. Queste valutazioni aiutano a convalidare le affermazioni di sicurezza, a proteggere dai punti ciechi e ad aumentare la trasparenza sulle capacità e sui rischi. Invitando esperti esterni a testare i nostri modelli di frontiera, puntiamo inoltre a promuovere la fiducia nella profondità delle nostre valutazioni di capacità e delle nostre salvaguardie, contribuendo al tempo stesso a migliorare l’intero ecosistema della sicurezza.

Dal lancio di GPT‑4, OpenAI ha collaborato con diversi partner esterni per testare e valutare i propri modelli. In generale, le nostre collaborazioni con terzi rientrano in tre categorie:

Valutazioni indipendenti delle principali aree di capacità e rischio di frontiera come biosicurezza, cybersicurezza, auto-miglioramento dell'IA e pianificazione strategica
Revisioni metodologiche che esaminano come valutiamo e interpretiamo il rischio
Indagini di esperti di materia (subject-matter expert, SME), che valutano direttamente il modello su attività reali SME e aggiungono input strutturati alla nostra valutazione delle sue capacità e delle relative salvaguardie¹

Questo blog descrive come usiamo ciascuna di queste forme di valutazione esterna, perché sono importanti, come hanno influenzato le decisioni di implementazione e i principi che usiamo per strutturare tali collaborazioni. Per trasparenza, condividiamo anche ulteriori dettagli sui termini di riservatezza e pubblicazione che regolano le nostre collaborazioni con tester terzi.

Perché è importante?

I valutatori terzi contribuiscono al nostro lavoro interno con una valutazione indipendente, rafforzando il rigore e fornendo ulteriori protezioni contro l'autoconferma. Questo contributo fornisce ulteriori evidenze a supporto delle nostre valutazioni, creando una solida base per decisioni consapevoli sull'implementazione di sistemi avanzati.

Inoltre consideriamo le valutazioni di terze parti un elemento integrante della costruzione di un ecosistema di sicurezza resiliente⁠. I nostri team conducono test interni approfonditi nelle aree di capacità e rischio, ma le organizzazioni indipendenti offrono ulteriori punti di vista e approcci metodologici. Lavoriamo per fornire assistenza a un gruppo diversificato di organizzazioni di valutazione qualificate che possono valutare regolarmente i modelli di frontiera insieme a noi.

Infine, vogliamo essere trasparenti su come questi contributi aiutano a modellare il nostro processo di sicurezza. Rendiamo regolarmente pubbliche le valutazioni di terzi, ad esempio includendo riepiloghi delle valutazioni pre-distribuzione nelle schede di sistema e supportando gli organismi di valutazione nella pubblicazione di lavori più dettagliati dopo le revisioni di riservatezza e accuratezza. Tale trasparenza genera fiducia mostrando come l'input esterno influenza le nostre valutazioni delle capacità e delle salvaguardie.

Relazioni durature basate su accesso fidato, trasparenza e condivisione delle informazioni aiutano l'intero ecosistema a rimanere un passo avanti rispetto ai rischi emergenti e promuovono valutazioni adattabili e attuabili, necessarie per standard più robusti e una governance più informata per i sistemi IA di frontiera.

Valutazioni indipendenti da laboratori esterni

A partire dal lancio di GPT‑4⁠(si apre in una nuova finestra), abbiamo sostenuto valutazioni indipendenti sui primi checkpoint del modello prima della distribuzione. Da allora, abbiamo ampliato il nostro lavoro con una serie di organizzazioni terze che hanno grandi competenze nelle valutazioni delle principali aree di capacità e rischio di frontiera. Definiamo il lavoro di laboratorio indipendente come test aperti, in cui team esterni applicano i propri metodi per formulare una dichiarazione o una valutazione relativamente a una particolare capacità di frontiera.

Ad esempio, per GPT‑5⁠, OpenAI ha coordinato un ampio insieme di valutazioni esterne delle capacità in aree di rischio chiave come autonomia a lungo termine, pianificazione, inganno e sovversione della supervisione, fattibilità della pianificazione di un laboratorio sperimentale e valutazioni offensive di cybersicurezza.

Queste valutazioni indipendenti integrano quelle condotte in conformità con il Framework di preparazione di OpenAI e includono benchmark come la valutazione dell'orizzonte temporale⁠(si apre in una nuova finestra) di METR o la valutazione delle capacità virologiche (VCT)⁠(si apre in una nuova finestra) di SecureBio.

Per supportare queste valutazioni, abbiamo fornito accesso sicuro ai checkpoint dei modelli iniziali, a risultati selezionati delle valutazioni per concretizzare i miglioramenti delle capacità che stiamo osservando, senza conservazione dei dati dove necessario, e a modelli con meno mitigazioni. Ad esempio, le organizzazioni che testano nei domini della sicurezza informatica e della biosicurezza hanno valutato modelli sia con che senza misure di sicurezza per esplorare le capacità di base. Diverse altre organizzazioni hanno avuto accesso diretto alla catena di pensiero affinché potessero ispezionare le tracce di ragionamento del modello. Questo passo verso una maggiore trasparenza ha permesso ai valutatori di individuare casi di sandbagging² o comportamenti subdoli che potrebbero essere rilevati solo leggendo la catena di pensiero. L'accesso è stato fornito con controlli di sicurezza in atto e continuiamo ad aggiornare tali controlli man mano che le capacità del modello e le esigenze di valutazione si evolvono.

Revisione della metodologia

In determinati contesti, i valutatori esterni sono ben posizionati per fornire una verifica metodologica, offrendo ulteriori punti di vista ai framework e alle evidenze su cui i laboratori di frontiera si basano per valutare il rischio. Ad esempio, durante il lancio di gpt-oss⁠, abbiamo utilizzato l'ottimizzazione avversaria per stimare le prestazioni nel peggior scenario per modelli open weight, descritte in Stima dei rischi di frontiera nel peggior scenario per gli LLM open weight⁠. La questione centrale sulla sicurezza era se un attore malevolente potesse perfezionare il modello per raggiungere un'alta capacità in aree come la biologia o la sicurezza informatica secondo il nostro Preparedness Framework. Poiché questo richiedeva un'ottimizzazione avversaria ad alta intensità di risorse, abbiamo invitato valutatori terzi a esaminare e formulare raccomandazioni sui nostri metodi e risultati interni, invece di ripetere un lavoro simile.

Questo ha comportato un processo di diverse settimane di condivisione dei rollout delle valutazioni, dettagli sull'approccio per la messa a punto avversaria, e raccolta di raccomandazioni strutturate per migliorare la metodologia e le valutazioni per i rischi di frontiera peggiori. I riscontri dei valutatori hanno consentito di perfezionare il processo finale di ottimizzazione avversaria, evidenziando al contempo l’importanza della conferma metodologica. Abbiamo registrato gli elementi adottati nel documento e nella scheda di sistema per gpt-oss, e abbiamo fornito le motivazioni per quelli che non abbiamo adottato.

Qui, la revisione della metodologia era la scelta giusta rispetto alle valutazioni indipendenti: le valutazioni comportavano l'esecuzione di esperimenti su larga scala nei peggiori scenari, che richiedono infrastrutture e competenze tecniche non comunemente disponibili al di fuori dei principali laboratori di IA. Pertanto le valutazioni indipendenti probabilmente non avrebbero potuto fornire indicazioni dirette sui peggiori scenari, ed era più produttivo concentrare i valutatori esterni sulla conferma delle affermazioni. I valutatori esterni hanno esaminato i metodi e le evidenze⁠(si apre in una nuova finestra), rilevando lacune significative a fini decisionali che sono state affrontate nel quadro del ciclo di feedback delle raccomandazioni. Questo è il tipo di approccio che vorremmo estendere ad altri ambiti in cui le esigenze di accesso o infrastruttura rendono impraticabile la conduzione diretta delle valutazioni da parte di soggetti terzi, o in cui potrebbero non esistere ancora le valutazioni esterne.

Indagine di esperti in materia (SME)

Un altro metodo è il coinvolgimento di esperti in materia (SME), che valutano direttamente il modello e offrono input strutturati attraverso rilevamenti sulla nostra valutazione delle sue capacità. Questo è diverso dal red teaming⁠, che ha l'obiettivo di mettere alla prova specifiche misure di sicurezza. In questo modo possiamo integrare le valutazioni del Framework di preparazione con approfondimenti specifici del dominio che riflettono il giudizio degli esperti e il contesto reale, elementi che le sole valutazioni statiche potrebbero non cogliere. Ad esempio, abbiamo invitato un gruppo di esperti in materia a utilizzare un modello orientato all'utilità³ per testare i propri scenari biologici end-to-end per l'agente ChatGPT e GPT‑5. Hanno valutato quanto il modello potesse migliorare un esperto come loro rispetto a un principiante meno esperto, basandosi sull'utilità delle indicazioni fornite nei loro scenari. L'obiettivo era raccogliere ulteriori input su come il sistema potesse avvicinare materialmente un principiante motivato a un'esecuzione competente: gli esperti in materia hanno sottoposto a stress test le nostre affermazioni sul "potenziamento per principianti" basandosi su flussi di lavoro realistici da loro elaborati e hanno fornito un feedback dettagliato sui punti in cui il modello offriva un aiuto materiale a livello di singolo passaggio rispetto a riepiloghi meno utili. Questa sessione di valutazione da parte di esperti è stata inclusa nella valutazione complessiva per la distribuzione di questi modelli e condiviso nelle schede di sistema per entrambi i lanci.

Cosa determina il successo di una collaborazione di valutazione con soggetti terzi?

Per trasparenza, condividiamo maggiori dettagli sugli accordi che i valutatori terzi accettano quando collaborano con noi e sui principi alla base delle nostre collaborazioni:

Trasparenza con attenti limiti di riservatezza: i valutatori terzi firmano accordi di non divulgazione per abilitare la condivisione di informazioni riservate e non pubbliche a sostegno delle loro valutazioni. Nell'Appendice⁠ a questo post, includiamo sezioni pertinenti dei contratti con valutatori terzi che delineano i diritti relativi alla pubblicazione e le aspettative per la revisione. Operiamo secondo il principio della trasparenza e ci impegniamo a consentire una pubblicazione che promuova la comprensione della sicurezza e delle valutazioni correlate senza compromettere informazioni riservate o proprietà intellettuale. In questo ambito, esaminiamo e approviamo le pubblicazioni provenienti da valutazioni di terzi per garantire riservatezza e correttezza delle informazione. Negli ultimi anni, diversi valutatori terzi hanno pubblicato il proprio lavoro insieme alla nostra pubblicazione di riepiloghi di valutazione nelle schede di sistema. Ecco alcuni esempi di lavori che sono stati pubblicati dopo che li abbiamo esaminati per confermare il rispetto dei criteri di riservatezza e correttezza: [METR GPT‑5 report ⁠(si apre in una nuova finestra), Apollo Research report on OpenAI o1⁠(si apre in una nuova finestra), Irregular GPT‑5 Assessment⁠(si apre in una nuova finestra)]
Divulgazione attenta delle informazioni e accesso sicuro e sensibile: per impostazione predefinita, forniamo informazioni e accesso a modelli destinati a essere pubblici o pronti per la produzione. Quando le valutazioni lo richiedono, forniamo un accesso più approfondito, ad esempio a modelli orientati all'utilità o a informazioni non pubbliche. OpenAI ha fornito queste forme di accesso dove necessario per questioni critiche di sicurezza per valutatori terzi. È importante sottolineare che questi tipi di accesso sensibile richiedono misure di sicurezza rigorose, e continuiamo ad aggiornare tali controlli man mano che le capacità del modello e le esigenze di test si evolvono.
Incentivi finanziari equilibrati: riteniamo che sia importante garantire che l'ecosistema di valutazione di terzi sia ben finanziato e sostenibile. Per questo motivo, offriamo un compenso a tutti i nostri valutatori terzi, e alcuni scelgono di rifiutare a seconda della loro filosofia organizzativa in merito. Le modalità di compenso includono il pagamento diretto per il lavoro e/o il sovvenzionamento dei costi di utilizzo del modello tramite crediti API o altro. Nessun pagamento è mai subordinato ai risultati della valutazione di terzi.

Combinati, questi fattori aiutano le valutazioni di terzi a proteggere le informazioni sensibili e a promuovere la trasparenza nella sicurezza dell'IA, e creano percorsi affinché i valutatori terzi siano compensati per il loro tempo.

Prospettive future

Guardando al futuro, vediamo la necessità di continuare a rafforzare l'ecosistema di organizzazioni capaci di condurre valutazioni credibili e rilevanti per le decisioni sui sistemi IA di frontiera. Una valutazione efficace da parte di terzi richiede competenze specializzate, finanziamenti stabili e rigore metodologico. Investimenti continui in organizzazioni di valutatori qualificati, il progresso della scienza delle misurazioni e la sicurezza per gli accessi sensibili saranno essenziali per garantire che le valutazioni possano tenere il passo con i progressi delle capacità dei modelli.

Le valutazioni di terze parti sono uno dei modi in cui portiamo un punto di vista esterno nel nostro lavoro sulla sicurezza e operano insieme ad altri meccanismi. Collaboriamo inoltre con esperti esterni attraverso iniziative strutturate di red teaming, progetti di allineamento collettivo⁠, lavoriamo con il CAISI statunitense e l'AISI del Regno Unito⁠, e gruppi consultivi come la nostra Rete globale di medici⁠ e il nostro Consiglio di esperti su benessere e IA⁠ per guidare il nostro lavoro sulla salute mentale e il benessere degli utenti. Queste iniziative apportano competenze variegate e supportano una base più ampia e affidabile per valutare e disciplinare i sistemi IA avanzati.

Appendice

Di seguito sono riportati alcuni estratti esemplificativi dei nostri accordi con soggetti terzi che collaborano con noi per le valutazioni pre-distribuzione.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autore

OpenAI

Note di riferimento

1
Questo si differenzia dal red teaming, che mira a sottoporre a stress test granulari le misure di sicurezza e a fornire dati per lo sviluppo della valutazione.
2
Quando un modello sottoperforma intenzionalmente o nasconde le sue vere capacità perché rileva di essere valutato o testato.
3
I modelli orientati all'utilità rispondono a qualsiasi richiesta, anche se dannosa. Questi sono creati da metodi di post-addestramento che ottengono questo comportamento.

Continua a leggere

Visualizza tutto

Safety and alignment in an era of long-horizon models

Sicurezza20 lug 2026

Why teens deserve access to safe AI — card image

Perché gli adolescenti meritano accesso a un’IA sicura

Sicurezza16 lug 2026

GPT-Red: sbloccare l’auto-miglioramento della robustezza

Sicurezza15 lug 2026