Come creare esperienze di IA più sicure per gli adolescenti
Presentiamo una serie di politiche di sicurezza per gli adolescenti in formato prompt per gpt-oss-safeguard
Oggi pubblichiamo norme di sicurezza(si apre in una nuova finestra) basate su prompt per aiutare gli sviluppatori a creare protezioni adatte all’età per gli adolescenti. Progettate per funzionare con il nostro modello di sicurezza open-weight, gpt-oss-safeguard(si apre in una nuova finestra), queste politiche semplificano il modo in cui gli sviluppatori trasformano i requisiti di sicurezza in classificatori utilizzabili in sistemi reali.
Abbiamo rilasciato modelli open weight per democratizzare l’accesso a un’IA potente e sostenere un’innovazione diffusa. Allo stesso tempo, riteniamo che sicurezza e innovazione vadano di pari passo e che gli sviluppatori debbano avere accesso sia a modelli avanzati sia agli strumenti e alle politiche necessari per implementarli in modo sicuro e responsabile. Abbiamo sviluppato queste politiche per supportare gli sviluppatori nei loro sforzi di sicurezza volti a proteggere gli utenti più giovani, con il contributo di organizzazioni esterne affidabili tra cui Common Sense Media(si apre in una nuova finestra) e everyone.ai(si apre in una nuova finestra).
Riconosciamo che adolescenti e adulti hanno esigenze diverse e che gli adolescenti necessitano di ulteriori misure di protezione. Queste politiche sono concepite per aiutare gli sviluppatori a tenere conto di tali differenze e a creare esperienze che siano al tempo stesso responsabilizzanti e adeguate agli utenti più giovani.
Da tempo ci impegniamo a sviluppare un’IA che ampli le opportunità per i giovani, garantendone al contempo la sicurezza. Nell’ambito di questo lavoro, abbiamo aggiornato la nostra specifica modello(si apre in una nuova finestra)— le linee guida che definiscono il comportamento previsto dei modelli di OpenAI — per includere i principi per i minori di 18 anni (U18)(si apre in una nuova finestra) e introdotto misure di protezione a livello di prodotto come i controlli parentali e la previsione dell’età per proteggere meglio gli utenti più giovani. Abbiamo inoltre promosso protezioni a livello di settore tramite il nostro Piano per la sicurezza degli adolescenti.
Il rilascio di oggi si basa su queste fondamenta. Stiamo rendendo disponibili queste politiche di sicurezza agli sviluppatori per supportarli nell’implementazione di protezioni per gli adolescenti e contribuire a democratizzare l’accesso nell’ecosistema open weight.
Sebbene i classificatori di sicurezza come gpt-oss-safeguard possano rilevare contenuti dannosi, dipendono da definizioni chiare di cosa costituisca tale contenuto. In pratica, una delle sfide principali per gli sviluppatori è definire politiche che individuino con precisione i rischi specifici per gli adolescenti e che possano essere applicate in modo coerente nei sistemi reali.
Anche i team esperti spesso faticano a tradurre obiettivi di sicurezza di alto livello in regole precise e operative, soprattutto perché ciò richiede sia competenze specialistiche sia una conoscenza approfondita dell’IA. Questo può portare a lacune nella protezione, a un’applicazione incoerente o a un filtraggio eccessivamente ampio. Politiche chiare e ben definite costituiscono una base fondamentale per sistemi di sicurezza efficaci.
Per affrontare questa sfida, pubblichiamo una serie di norme sulla sicurezza(si apre in una nuova finestra), concepite per affrontare i rischi comuni a cui sono esposti gli adolescenti e basate su un’attenta analisi delle ricerche esistenti sulle specifiche differenze nello sviluppo degli adolescenti. Queste politiche sono strutturate come prompt che possono essere utilizzati direttamente con gpt-oss-safeguard(si apre in una nuova finestra) e altri modelli di ragionamento, consentendo agli sviluppatori di applicare più facilmente standard di sicurezza coerenti nei propri sistemi.
La release iniziale include politiche che coprono:
- Contenuti violenti espliciti
- Contenuti sessuali espliciti
- Ideali corporei e comportamenti dannosi
- Attività e sfide pericolose
- Giochi di ruolo romantici o violenti
- Beni e servizi soggetti a restrizioni di età
Queste politiche possono essere utilizzate per il filtraggio dei contenuti in tempo reale e per l’analisi offline dei contenuti generati dagli utenti.
Strutturando le politiche come prompt, gli sviluppatori possono integrarle più facilmente nei flussi di lavoro esistenti, adattarle ai propri casi d’uso e iterare nel tempo.

Abbiamo collaborato con organizzazioni esterne, tra cui Common Sense Media(si apre in una nuova finestra) e everyone.ai(si apre in una nuova finestra), per orientare lo sviluppo di queste politiche. Le loro competenze hanno contribuito a definire l’ambito dei contenuti da trattare, rafforzare la struttura dei prompt e affinare i casi limite da considerare nella valutazione.
Questo lavoro riflette un impegno costante a collaborare con esperti e con l’ecosistema più ampio per migliorare il modo in cui i sistemi di IA supportano i giovani.
“Una delle principali lacune nella sicurezza dell’IA per gli adolescenti è la mancanza di politiche chiare e operative su cui gli sviluppatori possano basarsi. Spesso, gli sviluppatori partono da zero. Queste politiche basate su prompt contribuiscono a stabilire un livello minimo significativo di sicurezza nell’ecosistema e, poiché sono rilasciate come open source, possono essere adattate e migliorate nel tempo. Siamo incoraggiati nel vedere che questo tipo di infrastruttura venga resa ampiamente disponibile e ci auguriamo che favorisca la definizione di basi comuni per la sicurezza dei giovani in tutto il settore.”
—Robbie Torney, Responsabile di IA e valutazioni digitali, Common Sense Media
“Sforzi come questo, che rendono più operative le politiche di sicurezza per i giovani, sono preziosi perché aiutano a tradurre le conoscenze specialistiche in indicazioni utilizzabili in sistemi reali. Le politiche sui contenuti rappresentano un importante primo passo e aprono anche la strada a un lavoro più ampio su come il comportamento del modello possa influenzare nel tempo i rischi rilevanti per i giovani. Ispirata da questo lavoro e dalla nostra ricerca, everyone.ai(si apre in una nuova finestra) ha inoltre creato una politica comportamentale iniziale incentrata su rischi come l'esclusività e l'eccessiva dipendenza."
—Dr. Mathilde Cerioli, Chief Scientist di everyone.AI
Le politiche sono intese come un punto di partenza, non come una definizione o una garanzia completa o definitiva della sicurezza degli adolescenti. Ogni applicazione presenta rischi, destinatari e contesti unici, e gli sviluppatori sono nella posizione migliore per comprendere i rischi che i loro prodotti e le loro integrazioni di IA possono comportare. Incoraggiamo vivamente gli sviluppatori ad adattare ed estendere queste politiche in base alle loro esigenze specifiche e a combinarle con altre misure di tutela, quali decisioni di progettazione del prodotto, controlli utente, trasparenza adatta agli adolescenti, sistemi di monitoraggio e risposte ponderate e adeguate all’età.
Crediamo che un approccio di difesa in profondità a più livelli sia essenziale per costruire sistemi di IA più sicuri. Queste politiche si basano sulla nostra esperienza interna, ma non riflettono pienamente l’insieme delle politiche interne o delle misure di salvaguardia di OpenAI.
Stiamo rilasciando queste politiche come open source attraverso la ROOST Modello Community(si apre in una nuova finestra) per incoraggiare la collaborazione e l’iterazione. Per contribuire, fornire feedback o condividere ulteriori politiche sulla sicurezza degli adolescenti, visita il repository GitHub di RMC.(si apre in una nuova finestra)
Gli sviluppatori e le organizzazioni possono adattare queste politiche alle proprie applicazioni specifiche, tradurle in diverse lingue ed estenderle per coprire ulteriori aree di rischio. Nel tempo, ci auguriamo che ciò contribuisca a una base più solida e condivisa per l’implementazione di politiche di sicurezza nei sistemi di IA.
Per iniziare a usare gpt-oss-safeguard, scaricalo da Hugging Face(si apre in una nuova finestra).


