Rafforziamo il nostro ecosistema di sicurezza con test esterni
Il nostro approccio alle valutazioni di terze parti per l'IA di frontiera.
Noi di OpenAI crediamo che le valutazioni indipendenti e affidabili di terze parti svolgano un ruolo fondamentale nel rafforzare l'ecosistema di sicurezza dell'IA di frontiera. Le valutazioni di terze parti sono esami condotti su modelli di frontiera per confermare o fornire ulteriori prove sulle affermazioni riguardanti le capacità di sicurezza critiche e le mitigazioni. Queste valutazioni aiutano a convalidare le affermazioni di sicurezza, a proteggere dai punti ciechi e ad aumentare la trasparenza sulle capacità e sui rischi. Invitando esperti esterni a testare i nostri modelli di frontiera, puntiamo inoltre a promuovere la fiducia nella profondità delle nostre valutazioni di capacità e delle nostre salvaguardie, contribuendo al tempo stesso a migliorare l’intero ecosistema della sicurezza.
Dal lancio di GPT‑4, OpenAI ha collaborato con diversi partner esterni per testare e valutare i propri modelli. In generale, le nostre collaborazioni con terzi rientrano in tre categorie:
- Valutazioni indipendenti delle principali aree di capacità e rischio di frontiera come biosicurezza, cybersicurezza, auto-miglioramento dell'IA e pianificazione strategica
- Revisioni metodologiche che esaminano come valutiamo e interpretiamo il rischio
- Indagini di esperti di materia (subject-matter expert, SME), che valutano direttamente il modello su attività reali SME e aggiungono input strutturati alla nostra valutazione delle sue capacità e delle relative salvaguardie1
Questo blog descrive come usiamo ciascuna di queste forme di valutazione esterna, perché sono importanti, come hanno influenzato le decisioni di implementazione e i principi che usiamo per strutturare tali collaborazioni. Per trasparenza, condividiamo anche ulteriori dettagli sui termini di riservatezza e pubblicazione che regolano le nostre collaborazioni con tester terzi.
I valutatori terzi contribuiscono al nostro lavoro interno con una valutazione indipendente, rafforzando il rigore e fornendo ulteriori protezioni contro l'autoconferma. Questo contributo fornisce ulteriori evidenze a supporto delle nostre valutazioni, creando una solida base per decisioni consapevoli sull'implementazione di sistemi avanzati.
Inoltre consideriamo le valutazioni di terze parti un elemento integrante della costruzione di un ecosistema di sicurezza resiliente. I nostri team conducono test interni approfonditi nelle aree di capacità e rischio, ma le organizzazioni indipendenti offrono ulteriori punti di vista e approcci metodologici. Lavoriamo per fornire assistenza a un gruppo diversificato di organizzazioni di valutazione qualificate che possono valutare regolarmente i modelli di frontiera insieme a noi.
Infine, vogliamo essere trasparenti su come questi contributi aiutano a modellare il nostro processo di sicurezza. Rendiamo regolarmente pubbliche le valutazioni di terzi, ad esempio includendo riepiloghi delle valutazioni pre-distribuzione nelle schede di sistema e supportando gli organismi di valutazione nella pubblicazione di lavori più dettagliati dopo le revisioni di riservatezza e accuratezza. Tale trasparenza genera fiducia mostrando come l'input esterno influenza le nostre valutazioni delle capacità e delle salvaguardie.
Relazioni durature basate su accesso fidato, trasparenza e condivisione delle informazioni aiutano l'intero ecosistema a rimanere un passo avanti rispetto ai rischi emergenti e promuovono valutazioni adattabili e attuabili, necessarie per standard più robusti e una governance più informata per i sistemi IA di frontiera.
A partire dal lancio di GPT‑4(si apre in una nuova finestra), abbiamo sostenuto valutazioni indipendenti sui primi checkpoint del modello prima della distribuzione. Da allora, abbiamo ampliato il nostro lavoro con una serie di organizzazioni terze che hanno grandi competenze nelle valutazioni delle principali aree di capacità e rischio di frontiera. Definiamo il lavoro di laboratorio indipendente come test aperti, in cui team esterni applicano i propri metodi per formulare una dichiarazione o una valutazione relativamente a una particolare capacità di frontiera.
Ad esempio, per GPT‑5, OpenAI ha coordinato un ampio insieme di valutazioni esterne delle capacità in aree di rischio chiave come autonomia a lungo termine, pianificazione, inganno e sovversione della supervisione, fattibilità della pianificazione di un laboratorio sperimentale e valutazioni offensive di cybersicurezza.
Queste valutazioni indipendenti integrano quelle condotte in conformità con il Framework di preparazione di OpenAI e includono benchmark come la valutazione dell'orizzonte temporale(si apre in una nuova finestra) di METR o la valutazione delle capacità virologiche (VCT)(si apre in una nuova finestra) di SecureBio.
Per supportare queste valutazioni, abbiamo fornito accesso sicuro ai checkpoint dei modelli iniziali, a risultati selezionati delle valutazioni per concretizzare i miglioramenti delle capacità che stiamo osservando, senza conservazione dei dati dove necessario, e a modelli con meno mitigazioni. Ad esempio, le organizzazioni che testano nei domini della sicurezza informatica e della biosicurezza hanno valutato modelli sia con che senza misure di sicurezza per esplorare le capacità di base. Diverse altre organizzazioni hanno avuto accesso diretto alla catena di pensiero affinché potessero ispezionare le tracce di ragionamento del modello. Questo passo verso una maggiore trasparenza ha permesso ai valutatori di individuare casi di sandbagging2 o comportamenti subdoli che potrebbero essere rilevati solo leggendo la catena di pensiero. L'accesso è stato fornito con controlli di sicurezza in atto e continuiamo ad aggiornare tali controlli man mano che le capacità del modello e le esigenze di valutazione si evolvono.
In determinati contesti, i valutatori esterni sono ben posizionati per fornire una verifica metodologica, offrendo ulteriori punti di vista ai framework e alle evidenze su cui i laboratori di frontiera si basano per valutare il rischio. Ad esempio, durante il lancio di gpt-oss, abbiamo utilizzato l'ottimizzazione avversaria per stimare le prestazioni nel peggior scenario per modelli open weight, descritte in Stima dei rischi di frontiera nel peggior scenario per gli LLM open weight. La questione centrale sulla sicurezza era se un attore malevolente potesse perfezionare il modello per raggiungere un'alta capacità in aree come la biologia o la sicurezza informatica secondo il nostro Preparedness Framework. Poiché questo richiedeva un'ottimizzazione avversaria ad alta intensità di risorse, abbiamo invitato valutatori terzi a esaminare e formulare raccomandazioni sui nostri metodi e risultati interni, invece di ripetere un lavoro simile.
Questo ha comportato un processo di diverse settimane di condivisione dei rollout delle valutazioni, dettagli sull'approccio per la messa a punto avversaria, e raccolta di raccomandazioni strutturate per migliorare la metodologia e le valutazioni per i rischi di frontiera peggiori. I riscontri dei valutatori hanno consentito di perfezionare il processo finale di ottimizzazione avversaria, evidenziando al contempo l’importanza della conferma metodologica. Abbiamo registrato gli elementi adottati nel documento e nella scheda di sistema per gpt-oss, e abbiamo fornito le motivazioni per quelli che non abbiamo adottato.
Qui, la revisione della metodologia era la scelta giusta rispetto alle valutazioni indipendenti: le valutazioni comportavano l'esecuzione di esperimenti su larga scala nei peggiori scenari, che richiedono infrastrutture e competenze tecniche non comunemente disponibili al di fuori dei principali laboratori di IA. Pertanto le valutazioni indipendenti probabilmente non avrebbero potuto fornire indicazioni dirette sui peggiori scenari, ed era più produttivo concentrare i valutatori esterni sulla conferma delle affermazioni. I valutatori esterni hanno esaminato i metodi e le evidenze(si apre in una nuova finestra), rilevando lacune significative a fini decisionali che sono state affrontate nel quadro del ciclo di feedback delle raccomandazioni. Questo è il tipo di approccio che vorremmo estendere ad altri ambiti in cui le esigenze di accesso o infrastruttura rendono impraticabile la conduzione diretta delle valutazioni da parte di soggetti terzi, o in cui potrebbero non esistere ancora le valutazioni esterne.
Un altro metodo è il coinvolgimento di esperti in materia (SME), che valutano direttamente il modello e offrono input strutturati attraverso rilevamenti sulla nostra valutazione delle sue capacità. Questo è diverso dal red teaming, che ha l'obiettivo di mettere alla prova specifiche misure di sicurezza. In questo modo possiamo integrare le valutazioni del Framework di preparazione con approfondimenti specifici del dominio che riflettono il giudizio degli esperti e il contesto reale, elementi che le sole valutazioni statiche potrebbero non cogliere. Ad esempio, abbiamo invitato un gruppo di esperti in materia a utilizzare un modello orientato all'utilità3 per testare i propri scenari biologici end-to-end per l'agente ChatGPT e GPT‑5. Hanno valutato quanto il modello potesse migliorare un esperto come loro rispetto a un principiante meno esperto, basandosi sull'utilità delle indicazioni fornite nei loro scenari. L'obiettivo era raccogliere ulteriori input su come il sistema potesse avvicinare materialmente un principiante motivato a un'esecuzione competente: gli esperti in materia hanno sottoposto a stress test le nostre affermazioni sul "potenziamento per principianti" basandosi su flussi di lavoro realistici da loro elaborati e hanno fornito un feedback dettagliato sui punti in cui il modello offriva un aiuto materiale a livello di singolo passaggio rispetto a riepiloghi meno utili. Questa sessione di valutazione da parte di esperti è stata inclusa nella valutazione complessiva per la distribuzione di questi modelli e condiviso nelle schede di sistema per entrambi i lanci.
Per trasparenza, condividiamo maggiori dettagli sugli accordi che i valutatori terzi accettano quando collaborano con noi e sui principi alla base delle nostre collaborazioni:
- Trasparenza con attenti limiti di riservatezza: i valutatori terzi firmano accordi di non divulgazione per abilitare la condivisione di informazioni riservate e non pubbliche a sostegno delle loro valutazioni. Nell'Appendice a questo post, includiamo sezioni pertinenti dei contratti con valutatori terzi che delineano i diritti relativi alla pubblicazione e le aspettative per la revisione. Operiamo secondo il principio della trasparenza e ci impegniamo a consentire una pubblicazione che promuova la comprensione della sicurezza e delle valutazioni correlate senza compromettere informazioni riservate o proprietà intellettuale. In questo ambito, esaminiamo e approviamo le pubblicazioni provenienti da valutazioni di terzi per garantire riservatezza e correttezza delle informazione. Negli ultimi anni, diversi valutatori terzi hanno pubblicato il proprio lavoro insieme alla nostra pubblicazione di riepiloghi di valutazione nelle schede di sistema. Ecco alcuni esempi di lavori che sono stati pubblicati dopo che li abbiamo esaminati per confermare il rispetto dei criteri di riservatezza e correttezza: [METR GPT‑5 report (si apre in una nuova finestra), Apollo Research report on OpenAI o1(si apre in una nuova finestra), Irregular GPT‑5 Assessment(si apre in una nuova finestra)]
- Divulgazione attenta delle informazioni e accesso sicuro e sensibile: per impostazione predefinita, forniamo informazioni e accesso a modelli destinati a essere pubblici o pronti per la produzione. Quando le valutazioni lo richiedono, forniamo un accesso più approfondito, ad esempio a modelli orientati all'utilità o a informazioni non pubbliche. OpenAI ha fornito queste forme di accesso dove necessario per questioni critiche di sicurezza per valutatori terzi. È importante sottolineare che questi tipi di accesso sensibile richiedono misure di sicurezza rigorose, e continuiamo ad aggiornare tali controlli man mano che le capacità del modello e le esigenze di test si evolvono.
- Incentivi finanziari equilibrati: riteniamo che sia importante garantire che l'ecosistema di valutazione di terzi sia ben finanziato e sostenibile. Per questo motivo, offriamo un compenso a tutti i nostri valutatori terzi, e alcuni scelgono di rifiutare a seconda della loro filosofia organizzativa in merito. Le modalità di compenso includono il pagamento diretto per il lavoro e/o il sovvenzionamento dei costi di utilizzo del modello tramite crediti API o altro. Nessun pagamento è mai subordinato ai risultati della valutazione di terzi.
Combinati, questi fattori aiutano le valutazioni di terzi a proteggere le informazioni sensibili e a promuovere la trasparenza nella sicurezza dell'IA, e creano percorsi affinché i valutatori terzi siano compensati per il loro tempo.
Guardando al futuro, vediamo la necessità di continuare a rafforzare l'ecosistema di organizzazioni capaci di condurre valutazioni credibili e rilevanti per le decisioni sui sistemi IA di frontiera. Una valutazione efficace da parte di terzi richiede competenze specializzate, finanziamenti stabili e rigore metodologico. Investimenti continui in organizzazioni di valutatori qualificati, il progresso della scienza delle misurazioni e la sicurezza per gli accessi sensibili saranno essenziali per garantire che le valutazioni possano tenere il passo con i progressi delle capacità dei modelli.
Le valutazioni di terze parti sono uno dei modi in cui portiamo un punto di vista esterno nel nostro lavoro sulla sicurezza e operano insieme ad altri meccanismi. Collaboriamo inoltre con esperti esterni attraverso iniziative strutturate di red teaming, progetti di allineamento collettivo, lavoriamo con il CAISI statunitense e l'AISI del Regno Unito, e gruppi consultivi come la nostra Rete globale di medici e il nostro Consiglio di esperti su benessere e IA per guidare il nostro lavoro sulla salute mentale e il benessere degli utenti. Queste iniziative apportano competenze variegate e supportano una base più ampia e affidabile per valutare e disciplinare i sistemi IA avanzati.
Di seguito sono riportati alcuni estratti esemplificativi dei nostri accordi con soggetti terzi che collaborano con noi per le valutazioni pre-distribuzione.
Autore
Note di riferimento
- 1
Questo si differenzia dal red teaming, che mira a sottoporre a stress test granulari le misure di sicurezza e a fornire dati per lo sviluppo della valutazione.
- 2
Quando un modello sottoperforma intenzionalmente o nasconde le sue vere capacità perché rileva di essere valutato o testato.
- 3
I modelli orientati all'utilità rispondono a qualsiasi richiesta, anche se dannosa. Questi sono creati da metodi di post-addestramento che ottengono questo comportamento.


