5 agosto 2025

Scheda modello gpt‑oss‑120b & gpt‑oss‑20b

Introduzione

Presentiamo gpt-oss-120b e gpt-oss-20b, due modelli di ragionamento open-weight disponibili con licenza Apache 2.0 e secondo la nostra policy d’uso gpt-oss. Sviluppati con il feedback della community open source, questi modelli solo testo sono compatibili con la nostra Responses API e pensati per essere utilizzati in workflow agéntici con un forte rispetto delle istruzioni, l’uso di strumenti come la ricerca sul web e l’esecuzione di codice Python, oltre a capacità di ragionamento — inclusa la possibilità di modulare lo sforzo di ragionamento per le attività che non richiedono processi complessi. I modelli sono personalizzabili, offrono una completa Chain‑of‑Thought (CoT) e supportano Output Strutturati.

La sicurezza è fondamentale per il nostro approccio ai modelli open. Presentano un profilo di rischio diverso rispetto ai modelli proprietari: Una volta rilasciati, attaccanti determinati potrebbero effettuarne il fine-tuning per aggirare i rifiuti di sicurezza o ottimizzarli direttamente a fini dannosi, senza che OpenAI possa applicare ulteriori mitigazioni o revocare l’accesso.

In alcuni contesti, gli sviluppatori e le aziende dovranno implementare misure di sicurezza aggiuntive per riprodurre le protezioni a livello di sistema integrate nei modelli erogati tramite la nostra API e i nostri prodotti. Chiamiamo questo documento una model card, e non una system card, perché i modelli gpt-oss verranno utilizzati all’interno di un’ampia gamma di sistemi creati e mantenuti da numerosi stakeholder. Sebbene i modelli siano progettati per seguire di default le politiche di sicurezza di OpenAI, altri stakeholder prenderanno e attueranno comunque le proprie decisioni su come mantenere sicuri quei sistemi.

Abbiamo eseguito valutazioni di capacità scalabili su gpt-oss-120b e confermato che il modello predefinito non raggiunge le nostre soglie indicative di High capability in nessuna delle tre categorie monitorate del nostro Preparedness Framework (Biological and Chemical capability, Cyber capability e AI Self-Improvement). Abbiamo inoltre analizzato due ulteriori domande:

Gli attori avversari potrebbero effettuare il fine-tuning di gpt-oss-120b per raggiungere High capability nei domini Biological and Chemical o Cyber? Simulando le potenziali azioni di un attaccante, abbiamo eseguito fine‑tuning adversarial di gpt‑oss‑120b per queste due categorie. Il Safety Advisory Group (“SAG”) di OpenAI ha esaminato questi test e ha concluso che, anche con un fine-tuning robusto basato sul training stack all’avanguardia di OpenAI, gpt-oss-120b non ha raggiunto l’High capability nei domini Biological and Chemical Risk o Cyber risk.
Il rilascio di gpt‑oss‑120b farebbe avanzare in modo significativo il confine delle capacità biologiche nei modelli foundation aperti? Abbiamo riscontrato che la risposta è no: Nella maggior parte delle valutazioni, le prestazioni di default di uno o più modelli open esistenti si avvicinano a quelle ottenute da gpt-oss-120b dopo un adversarial fine-tuning.

Nell’ambito di questo lancio, OpenAI ribadisce il proprio impegno a far progredire un’AI benefica e ad alzare gli standard di sicurezza in tutto l’ecosistema.

Autore

OpenAI

Continua a leggere

Visualizza tutto

Safety and alignment in an era of long-horizon models

Sicurezza20 lug 2026

Why teens deserve access to safe AI — card image

Perché gli adolescenti meritano accesso a un’IA sicura

Sicurezza16 lug 2026

GPT-Red: sbloccare l’auto-miglioramento della robustezza

Sicurezza15 lug 2026