Vai al contenuto principale
OpenAI

Presentiamo OpenAI Privacy Filter

Il nostro modello all’avanguardia per il mascheramento delle informazioni di identificazione personale (PII) nel testo

Caricamento in corso...

Oggi rilasciamo OpenAI Privacy Filter, un modello open-weight per il rilevamento e l’oscuramento delle informazioni di identificazione personale (PII) nel testo. Questo rilascio fa parte di un impegno più ampio volto a rafforzare la resilienza dell’ecosistema software, fornendo agli sviluppatori un’infrastruttura pratica per sviluppare con l’IA in modo sicuro, inclusi strumenti e modelli che rendono più semplice implementare fin dall’inizio solide misure di tutela della privacy e della sicurezza.

Privacy Filter è un modello compatto con capacità di frontiera nel rilevamento dei dati personali. È progettato per flussi di lavoro ad alta produttività legati alla privacy ed è in grado di rilevare le PII nel testo non strutturato tenendo conto del contesto. Può essere eseguito in locale, consentendo di mascherare o oscurare le PII senza che i dati lascino il dispositivo. Elabora input di grandi dimensioni in modo efficiente, prendendo decisioni di oscuramento in un unico passaggio rapido.

In OpenAI utilizziamo una versione ottimizzata di Privacy Filter nei nostri flussi di lavoro orientati alla tutela della privacy. Abbiamo sviluppato Privacy Filter perché riteniamo che, grazie alle più recenti capacità dell’IA, sia possibile elevare gli standard di protezione della privacy oltre quanto disponibile sul mercato. La versione di Privacy Filter rilasciata oggi raggiunge prestazioni all’avanguardia sul benchmark PII-Masking-300k, una volta corretti i problemi di annotazione identificati durante la valutazione.

Con questa release, gli sviluppatori possono eseguire Privacy Filter nei propri ambienti, adattarlo ai casi d’uso specifici e integrare protezioni della privacy più robuste nelle pipeline di training, indicizzazione, logging e revisione.

Un modello compatto con capacità di frontiera nel rilevamento dei dati personali

La protezione della privacy nei sistemi di IA moderni va oltre il semplice pattern matching. Gli strumenti tradizionali di rilevamento delle PII si basano spesso su regole deterministiche per formati come numeri di telefono e indirizzi email. Possono funzionare bene in casi limitati, ma spesso non intercettano informazioni personali più sottili e faticano a gestire il contesto.

Privacy Filter è progettato con una comprensione più profonda del linguaggio e del contesto, per prestazioni più sofisticate. Combinando una solida comprensione del linguaggio con un sistema di etichettatura specifico per la privacy, è in grado di rilevare una gamma più ampia di PII nel testo non strutturato, inclusi i casi in cui la decisione corretta dipende dal contesto. È in grado di distinguere meglio tra informazioni che devono essere preservate perché pubbliche e informazioni che devono essere mascherate o oscurate perché riferite a un individuo privato.

Il risultato è un modello abbastanza potente da garantire performance nel filtraggio della privacy di livello "frontier". Allo stesso tempo, il modello è sufficientemente leggero da essere eseguito in locale, consentendo ai dati non ancora filtrati di rimanere sul dispositivo con un rischio di esposizione inferiore, senza dover essere inviati a un server per la de-identificazione. 

Panoramica del modello

Privacy Filter è un modello bidirezionale di classificazione dei token con decodifica degli span. Parte da un checkpoint pre-addestrato autoregressivo e viene poi adattato in un classificatore di token su una tassonomia fissa di etichette di privacy. Invece di generare testo token per token, etichetta la sequenza di input in un unico passaggio e decodifica successivamente span coerenti tramite una procedura Viterbi vincolata.

Questa architettura conferisce a Privacy Filter diverse proprietà utili per l’uso in produzione:

  • Veloce ed efficiente: tutti i token vengono etichettati in un unico forward pass.
  • Sensibile al contesto: il prior linguistico consente di rilevare gli span di PII in base al contesto circostante.
  • Contesto esteso: il modello supporta fino a 128.000 token di contesto.
  • Configurabile: gli sviluppatori possono regolare i parametri operativi per bilanciare recall e precision in base al proprio flusso di lavoro.

Il modello rilasciato ha 1,5 miliardi di parametri totali, di cui 50 milioni attivi.

Privacy Filter rileva span in otto categorie:

  • persona_privata
  • indirizzo_privato
  • email_privata
  • telefono_privato
  • url_privato
  • data_privata
  • numero_conto
  • segreto

La categoria account_number consente di mascherare un’ampia varietà di identificativi, incluse informazioni bancarie come numeri di carte di credito e conti correnti, mentre secret copre elementi come password e chiavi API.

Queste etichette vengono decodificate tramite tag BIOES, consentendo confini di mascheramento più puliti e coerenti.

Testo di esempio in input

Oggetto: Follow-up sulla pianificazione Q2

Ciao Jordan,

Grazie ancora per l’incontro di oggi. Ti scrivo per condividere le tempistiche aggiornate del rollout del Q2 e confermare che il lancio del prodotto è previsto per il 18 settembre 2026. Per riferimento, il file del progetto è identificato dal codice 4829-1037-5581. Se dovessero esserci modifiche da parte tua, puoi rispondere all’indirizzo maya.chen@example.com oppure chiamarmi al numero +1 (415) 555-0124.

Cordiali saluti,

Maya Chen

Testo dopo il mascheramento degli identificatori personali

Oggetto: Follow-up sulla pianificazione Q2

Ciao [PRIVATE_PERSON],

Grazie ancora per l’incontro di oggi. Ti scrivo per condividere le tempistiche aggiornate del rollout del secondo trimestre e confermare che il lancio del prodotto è previsto per il [PRIVATE_DATE]. Per riferimento, il file del progetto è associato al codice [ACCOUNT_NUMBER]. Se dovessero esserci modifiche da parte tua, puoi rispondere a questa email all’indirizzo [PRIVATE_EMAIL] oppure chiamarmi al [PRIVATE_PHONE].

Cordiali saluti,

[PRIVATE_PERSON]

Come è stato sviluppato

Abbiamo sviluppato Privacy Filter in diverse fasi.

Innanzitutto, abbiamo definito una tassonomia della privacy che stabilisce i tipi di span che il modello deve rilevare. Include identificativi personali, dati di contatto, indirizzi, date private, diversi tipi di numeri di conto (come dati di carte di credito e informazioni bancarie) e segreti come chiavi API e password.

Successivamente, abbiamo convertito un modello linguistico preaddestrato in un classificatore bidirezionale di token, sostituendo la testa di language modeling con una testa di classificazione e sottoponendolo a post-training con un obiettivo supervisionato. 

Infine, abbiamo addestrato il modello su una combinazione di dati pubblici e sintetici, progettata per rappresentare sia testo realistico sia pattern di privacy complessi. Nelle porzioni di dati pubblici con etichette incomplete, abbiamo utilizzato annotazione e revisione assistite dal modello per migliorare la copertura. Abbiamo inoltre generato esempi sintetici per aumentare la diversità tra formati, contesti e sottotipi di dati sensibili.

In fase di inferenza, le previsioni a livello di token vengono convertite in span coerenti tramite decodifica vincolata della sequenza. Questo approccio mantiene la capacità di comprensione del linguaggio del modello pre-addestrato, specializzandolo nel rilevamento delle PII.

Prestazioni di Privacy Filter

Abbiamo valutato Privacy Filter su benchmark standard e su ulteriori valutazioni sintetiche e in stile chat, progettate per testare casi più complessi e sensibili al contesto.

Nel benchmark PII-Masking-300k(si apre in una nuova finestra), Privacy Filter raggiunge un punteggio F1 del 96% (94,04% di precisione e 98,04% di recall). Su una versione corretta del benchmark, che tiene conto dei problemi di annotazione del dataset identificati durante la revisione, il punteggio F1 è del 97,43% (96,79% di precision e 98,08% di recall).

Abbiamo inoltre riscontrato che il modello può essere adattato in modo efficiente. Il fine-tuning, anche su una quantità limitata di dati, migliora rapidamente l’accuratezza nelle attività specifiche del dominio, aumentando il punteggio F1 dal 54% al 96% e avvicinandosi alla saturazione nel benchmark di adattamento al dominio valutato.

Oltre alle prestazioni nei benchmark, Privacy Filter è progettato per un filtraggio della privacy pratico in testi reali e rumorosi. Ciò include documenti lunghi, riferimenti ambigui, stringhe in formati misti e segreti legati al software. La model card (si apre in una nuova finestra)riporta inoltre valutazioni mirate sul rilevamento di segreti nelle codebase e stress test su esempi multilingue, avversari e dipendenti dal contesto.

Limiti

Privacy Filter non è uno strumento di anonimizzazione, una certificazione di conformità né un sostituto della revisione delle policy in contesti ad alto rischio. È una componente di un sistema più ampio basato sui principi di privacy-by-design.

Il comportamento riflette la tassonomia delle etichette e i confini decisionali su cui è stato addestrato. Organizzazioni diverse possono adottare politiche di rilevamento o mascheramento differenti, che potrebbero richiedere valutazioni specifiche per dominio o ulteriore fine-tuning. Le prestazioni possono variare in base a lingue, sistemi di scrittura, convenzioni di denominazione e domini diversi dalla distribuzione dei dati di addestramento.

Come tutti i modelli, Privacy Filter può commettere errori. Può non rilevare identificatori non comuni o riferimenti privati ambigui e può oscurare le entità in modo eccessivo o insufficiente quando il contesto è limitato, soprattutto nelle sequenze brevi. Negli ambiti ad alta sensibilità, come i flussi di lavoro legali, medici e finanziari, la revisione umana e la valutazione e il fine-tuning specifici del dominio restano fondamentali.

Disponibilità

Rilasciamo OpenAI Privacy Filter per supportare tutele della privacy più solide in tutto l’ecosistema.

Il modello è disponibile da oggi con licenza Apache 2.0 su Hugging Face(si apre in una nuova finestra) e Github(si apre in una nuova finestra). È pensato per la sperimentazione, la personalizzazione e la distribuzione commerciale e può essere sottoposto a fine-tuning per diverse distribuzioni dei dati e policy di privacy.

Insieme al modello, condividiamo documentazione che copre l’architettura, la tassonomia delle etichette, i controlli di decodifica, i casi d’uso previsti, la configurazione della valutazione e le limitazioni note, per aiutare i team a comprendere sia i punti di forza sia i limiti di utilizzo.

Prospettive future

La protezione della privacy nei sistemi di IA è un impegno continuo che coinvolge ricerca, progettazione dei prodotti, valutazione e distribuzione.

Privacy Filter rappresenta una direzione che riteniamo fondamentale: modelli compatti ed efficienti con capacità di frontiera in compiti ben definiti e rilevanti per sistemi di IA reali. Lo rilasciamo perché riteniamo che le infrastrutture orientate alla tutela della privacy debbano essere più facili da analizzare, eseguire, adattare e migliorare.

Il nostro obiettivo è che i modelli apprendano informazioni sul mondo, non sui singoli privati. Privacy Filter contribuisce a rendere questo possibile.

Rilasciamo questa anteprima di Privacy Filter per raccogliere feedback dalla comunità della ricerca e della privacy e continuare a migliorare le prestazioni del modello.