Report tecnico
Valutazioni delle prestazioni e dei parametri di riferimento di gpt-oss-safeguard-120b e gpt-oss-safeguard-20b
gpt-oss-safeguard-120b e gpt-oss-safeguard-20b sono due modelli di ragionamento open-weight, post-addestrati a partire dai modelli gpt-oss e addestrati a ragionare sulla base di un criterio fornito, al fine di etichettare contenuti secondo tale criterio. Sono disponibili con licenza Apache 2.0 e secondo la nostra politica di utilizzo di gpt-oss. Sviluppati con il contributo della community open source, questi modelli testuali sono compatibili con la nostra API Responses. I modelli sono personalizzabili, offrono una catena di pensiero (CoT) completa, possono essere utilizzati con diversi livelli di sforzo di ragionamento (basso, medio, alto) e supportano risultati strutturati.
In questo report descriviamo le capacità di gpt-oss-safeguard e riportiamo le nostre valutazioni di sicurezza di riferimento sui modelli gpt-oss-safeguard, utilizzando i modelli gpt-oss sottostanti come riferimento. Per maggiori informazioni sullo sviluppo e sull’architettura dei modelli gpt-oss sottostanti, consultare la scheda del modello originale gpt-oss.
Consigliamo di utilizzare questi modelli per classificare contenuti in base a un criterio fornito, e non come funzionalità principale con cui interagiscono gli utenti finali; per tali applicazioni, i modelli gpt-oss originali sono più adatti. Le metriche di sicurezza riportate di seguito descrivono il funzionamento dei modelli gpt-oss-safeguard in contesti di chat. I modelli gpt-oss-safeguard non sono pensati per questo utilizzo, ma essendo open model, è comunque possibile che vengano impiegati in questo modo. Per questo motivo, abbiamo verificato che soddisfino i nostri standard di sicurezza anche in tale contesto; questo report condivide i risultati di tali test. Pubblichiamo inoltre una valutazione iniziale delle prestazioni multilingue in contesti di chat; segnaliamo che questa valutazione non rappresenta le prestazioni effettive durante la classificazione dei contenuti secondo un criterio fornito.
I modelli gpt-oss-safeguard sono ottimizzazioni dei rispettivi modelli gpt-oss e sono stati addestrati senza dati aggiuntivi in ambito biologico o di cybersicurezza. Di conseguenza, abbiamo ritenuto che le stime precedenti sui casi peggiori, effettuate per il rilascio di gpt-oss, siano applicabili anche a questi nuovi modelli.

