Oggi pubblichiamo un’anteprima di ricerca di gpt-oss-safeguard, i nostri modelli di ragionamento open-weight per attività di classificazione della sicurezza, disponibili in due dimensioni: gpt-oss-safeguard-120b e gpt-oss-safeguard-20b. Questi modelli sono versioni ottimizzate degli open model gpt-oss e sono disponibili con la stessa licenza permissiva Apache 2.0, che consente a chiunque di utilizzarli, modificarli e implementarli liberamente. Entrambi i modelli possono essere scaricati oggi stesso da Hugging Face(si apre in una nuova finestra).
I modelli gpt-oss-safeguard utilizzano il ragionamento per interpretare direttamente una politica fornita dallo sviluppatore al momento dell’inferenza, classificando i messaggi degli utenti, i completamenti e le chat complete in base alle esigenze dello sviluppatore. È sempre lo sviluppatore a decidere quale politica utilizzare, in modo che le risposte siano più pertinenti e personalizzate in base al suo caso d’uso. Il modello utilizza la catena di pensiero, che lo sviluppatore può esaminare per comprendere come esso giunge alle sue decisioni. La politica viene fornita durante l’inferenza, anziché essere integrata nel modello. Per gli sviluppatori quindi è facile rivedere iterativamente le politiche per aumentare le prestazioni. Questo approccio, inizialmente sviluppato per uso interno, è molto più flessibile rispetto al metodo tradizionale in cui un classificatore viene addestrato per dedurre indirettamente un confine di decisione da un gran numero di esempi etichettati.
Con gpt-oss-safeguard, gli sviluppatori possono definire le linee guida più adatte al proprio caso d’uso. Ad esempio, un forum di discussione sui videogiochi potrebbe voler sviluppare una politica per classificare i post che discutono di comportamenti scorretti nel gioco, oppure un sito di recensioni di prodotti potrebbe voler utilizzare una propria politica per filtrare le recensioni che sembrano false.
Il modello accetta due input contemporaneamente (una politica e il contenuto da classificare in base a tale politica) e fornisce un output sulla classificazione del contenuto, insieme al relativo ragionamento. Gli sviluppatori decidono come utilizzare tali conclusioni, se del caso, nelle proprie procedure di sicurezza. Abbiamo notato che questo approccio basato sul ragionamento funziona particolarmente bene in situazioni in cui:
- Il danno potenziale è emergente o in evoluzione ed è necessario adeguare rapidamente le politiche.
- Il dominio è molto complesso e difficile da gestire per i classificatori più piccoli.
- Gli sviluppatori non dispongono di campioni sufficienti per addestrare un classificatore di qualità per ogni rischio sulla loro piattaforma.
- La latenza è meno importante rispetto alla produzione di etichette di qualità e comprensibili.
Stiamo rilasciando questa anteprima di gpt-oss-safeguard per ricevere feedback dalla comunità di ricerca e sicurezza e poter quindi migliorare ulteriormente le sue prestazioni. Nel corso di diversi mesi abbiamo lavorato su questa versione open source con ROOST(si apre in una nuova finestra) per identificare le esigenze essenziali degli sviluppatori, testare il modello e produrre la documentazione per gli sviluppatori. Nell’ambito di questo lancio, ROOST istituirà una model community(si apre in una nuova finestra), anch’essa lanciata oggi, per esplorare modelli di IA aperti destinati a proteggere gli spazi online. Insieme a questa versione, pubblichiamo un breve report tecnico che descrive in dettaglio le prestazioni di sicurezza di questo modello di anteprima.
Quando si tratta di sicurezza, crediamo nella difesa in profondità. Addestriamo i modelli a rispondere in modo sicuro e implementiamo ulteriori livelli di protezione per rilevare e gestire input e output potenzialmente non sicuri in base alle nostre politiche. I classificatori di sicurezza distinguono i contenuti sicuri da quelli non sicuri in una particolare area di rischio, e sono da tempo uno dei principali livelli di difesa per i nostri modelli linguistici e per altri modelli linguistici di grandi dimensioni.
I classificatori tradizionali, come quelli disponibili tramite la nostra API Moderation(si apre in una nuova finestra), sono sviluppati curando manualmente migliaia di esempi di contenuti sicuri e non sicuri, in base a politiche di sicurezza predefinite. Il classificatore impara a distinguere gli output sicuri da quelli non sicuri a partire da questi dati di addestramento. Nell’approccio tradizionale, il classificatore non vede mai effettivamente la politica di sicurezza. Cerca invece di dedurre la politica sottostante utilizzata per etichettare gli esempi, individuando le somiglianze nei contenuti etichettati come non sicuri e le differenze tra i contenuti non sicuri e quelli sicuri.
I classificatori tradizionali possono avere prestazioni elevate, con bassa latenza e costi operativi contenuti. Ma raccogliere una quantità sufficiente di esempi di addestramento può richiedere molto tempo e denaro, e aggiornare o modificare la politica richiede un nuovo addestramento del classificatore.
gpt-oss-safeguard è diverso. Le sue capacità di ragionamento consentono agli sviluppatori di applicare qualsiasi politica, comprese quelle scritte da loro stessi o tratte da altre fonti, e il ragionamento aiuta i modelli a generalizzare le politiche di nuova creazione. Oltre alle politiche di sicurezza, gpt-oss-safeguard può essere utilizzato per etichettare i contenuti in altri modi che sono rilevanti per prodotti e piattaforme specifici.
I nostri modelli di ragionamento primario ora apprendono direttamente le nostre politiche di sicurezza e utilizzano le loro capacità di ragionamento per determinare cosa è sicuro. Questo approccio, che chiamiamo allineamento deliberativo, migliora significativamente i precedenti metodi di addestramento sulla sicurezza e rende i nostri modelli di ragionamento più sicuri su diversi assi rispetto ai loro predecessori non ragionanti, anche se le loro capacità aumentano. Ma il ragionamento non è utile solo per addestrare i modelli stessi. Crea anche nuove possibilità per una difesa in profondità. Gli approcci basati sul ragionamento sono più flessibili e meno limitati dai dati dell’addestramento precedente, vantaggi che a volte giustificano ampiamente i costi di calcolo aggiuntivi e la latenza che comportano.
gpt-oss-safeguard è un’implementazione open-weight di un approccio che abbiamo sviluppato internamente, in uno strumento che chiamiamo Safety Reasoner. Abbiamo iniziato con un’ottimizzazione del rinforzo nelle attività di etichettatura delle politiche, premiando il modello per aver rispecchiato i giudizi corretti degli esperti umani. Questo ha insegnato al modello a ragionare su come la politica porta al suo giudizio. Attualmente, Safety Reasoner ci consente di aggiornare dinamicamente le politiche di sicurezza in produzione e in un tempo inferiore a quello necessario per riaddestrare un classificatore. Questo rende Safety Reasoner uno strumento fondamentale per l’implementazione iterativa: quando implementiamo nuovi modelli nella produzione, spesso iniziamo con politiche più rigorose e utilizziamo quantità relativamente elevate di risorse di calcolo dove necessario per consentire a Safety Reasoner di applicare con attenzione tali politiche. Quindi modifichiamo le politiche man mano che migliora la nostra comprensione dei rischi nella produzione. In alcuni dei nostri recenti lanci, la percentuale del calcolo totale dedicata al ragionamento sulla sicurezza ha raggiunto il 16%.
Safety Reasoner è diventato una componente fondamentale del nostro sistema di sicurezza. Nella generazione delle immagini e in Sora 2, esegue valutazioni dinamiche e graduali degli output per identificare e bloccare in tempo reale le generazioni non sicure. In ambiti quali la biologia e l’autolesionismo, utilizziamo modelli simili a quelli impiegati nell’API Moderation come classificatori piccoli, veloci e ad alto richiamo per determinare quali contenuti rientrano in un ambito di interesse, quindi utilizziamo Safety Reasoner per esaminare tali contenuti. Safety Reasoner classifica gli output dei modelli in base a una tassonomia dettagliata per determinare la risposta più adeguata, integrandosi nelle nostre misure di sicurezza multilivello su sistemi quali GPT‑5 e ChatGPT Agent. E ora, questo stesso approccio è disponibile per chiunque grazie ai modelli gpt-oss-safeguard.
Abbiamo testato i modelli gpt-oss-safeguard su set di valutazione sia interni che esterni.
Nella valutazione interna, abbiamo fornito più politiche contemporaneamente a gpt-oss-safeguard al momento dell’inferenza. Per ogni input di test, valutiamo se gpt-oss-safeguard classifica correttamente il testo in base a tutte le politiche incluse. Si tratta di un’attività impegnativa: il modello è considerato accurato solo se corrisponde esattamente alle etichette del golden set per tutte le politiche incluse.
I modelli gpt-oss-safeguard e il Safety Reasoner interno superano gpt-5-thinking e gli open model gpt-oss in termini di accuratezza su più politiche. Il fatto che i modelli gpt-oss-safeguard superino gpt-5-thinking è particolarmente sorprendente, data la dimensione ridotta dei primi.
Abbiamo ulteriormente analizzato questi modelli sul set di dati di moderazione(si apre in una nuova finestra) che abbiamo pubblicato con il documento di ricerca del 2022(si apre in una nuova finestra) e su ToxicChat(si apre in una nuova finestra), un benchmark pubblico basato sulle query degli utenti a un chatbot open source.
Sul set di valutazione di moderazione 2022, abbiamo effettuato la valutazione utilizzando le politiche di sicurezza interne (adattando una politica per tenere conto delle modifiche successive). gpt-oss-safeguard ha leggermente superato tutti gli altri modelli testati, compresi il Safety Reasoner interno e gpt-5-thinking, anche se la differenza tra Safety Reasoner e gpt-oss-safeguard non è statisticamente significativa.
Per ToxicChat, abbiamo valutato l’utilizzo di un breve prompt scritto a mano adattato da alcune delle nostre politiche interne. Il Safety Reasoner interno ha nuovamente superato gpt-5-thinking, mentre gpt-5-thinking e Safety Reasoner hanno entrambi superato di poco gpt-oss-safeguard-120b e gpt-oss-safeguard-20b. Prevediamo che le dimensioni relativamente ridotte di gpt-oss-safeguard lo rendano comunque preferibile per questo tipo di attività.
Esistono due limitazioni specifiche di gpt-oss-safeguard. In primo luogo, abbiamo osservato che i classificatori addestrati su decine di migliaia di campioni etichettati di qualità possono comunque ottenere risultati migliori nella classificazione dei contenuti rispetto a gpt-oss-safeguard quando ragionano direttamente sulla base della politica. Per ottenere prestazioni maggiori su rischi più complessi, è preferibile dedicare del tempo all’addestramento di un classificatore dedicato.
In secondo luogo, gpt-oss-safeguard può richiedere molto tempo e risorse di calcolo, il che ostacola la scalabilità su tutti i contenuti della piattaforma. A livello interno, gestiamo questo aspetto in diversi modi con Safety Reasoner: (1) utilizziamo classificatori più piccoli e veloci per determinare quali contenuti valutare e (2) in alcune circostanze, utilizziamo Safety Reasoner in modalità asincrona per garantire un’esperienza utente a bassa latenza, mantenendo al contempo la possibilità di intervenire qualora rilevassimo contenuti non sicuri.
gpt-oss-safeguard è il primo set di modelli di sicurezza aperti di OpenAI realizzato con la comunità. Abbiamo iterato su gpt-oss-safeguard con specialisti di trust & safety presso SafetyKit, ROOST, Tomoro e Discord come parte dei primi test. Il CTO di ROOST, Vinay Rao, afferma: «gpt-oss-safeguard è il primo modello di ragionamento open source con una struttura che consente di applicare “le proprie politiche e definizioni di danno”». Le organizzazioni meritano di poter studiare, modificare e utilizzare liberamente tecnologie fondamentali per la sicurezza e di avere la possibilità di innovare. Nei nostri test, ha dimostrato di saper comprendere diverse politiche, spiegare il proprio ragionamento e mettere in luce le sfumature nell’applicazione delle politiche: caratteristiche che riteniamo saranno vantaggiose per gli sviluppatori e i team addetti alla sicurezza.
Continueremo a collaborare con la comunità per migliorare gli strumenti di sicurezza aperti, anche attraverso la ROOST Model Community (RMC). Questa comunità riunisce professionisti e ricercatori nel campo della sicurezza e condivide le migliori pratiche per l’implementazione di modelli di IA open source nei flussi di lavoro, compresi i risultati delle valutazioni e il feedback sui modelli. Visita il repository GitHub di RMC(si apre in una nuova finestra) per sapere di più su questa partnership e su come partecipare.
Per iniziare a costruire con questi modelli, scaricali da Hugging Face(si apre in una nuova finestra).

