Lumaktaw sa pangunahing content
OpenAI

Ipinapakilala ang OpenAI Privacy Filter

Ang aming makabagong modelo para sa pagma-mask ng personally identifiable information (PII) sa text

Naglo-load…

Ire-release namin ngayon ang OpenAI Privacy Filter, mga open weight na modelo para sa pagtukoy at pag-redact ng personally identifiable information (PII) sa text. Ang release na ito ay bahagi ng aming mas malawak na pagsisikap na suportahan ang mas matatag na software ecosystem sa pamamagitan ng pagbibigay sa mga developer ng praktikal na imprastraktura para ligtas na makabuo gamit ang AI, kabilang ang mga tool at modelo na nagpapadali sa pagpapatupad ng matitibay na proteksyon sa privacy at seguridad mula pa sa simula.

Ang Privacy Filter ay isang maliit na modelo na may kakayahan sa pag-detect ng frontier ng personal na data. Dinisenyo ito para sa mga workflow ng pribasiya na may mataas na throughput, at may kakayahang magsagawa ng kontekstuwal na pagtukoy ng PII sa hindi nakabalangkas na text. Maaari itong tumakbo nang lokal, na nangangahulugang puwedeng ma-mask o ma-redact ang PII nang hindi umaalis sa iyong machine. Mahusay nitong napoproseso ang mahahabang input, kaya nakagagawa ito ng mga desisyon sa pag-redact sa isang mabilis na pagproseso lamang.

Sa OpenAI, ginagamit namin ang pinahusay na bersyon ng Privacy Filter sa aming mga workflow na nagtataguyod ng privacy. Binuo namin ang Privacy Filter dahil naniniwala kami na sa pamamagitan ng mga pinakabagong kakayahan ng AI, maari naming itaas ang pamantayan ng privacy nang higit pa sa dati nang nasa merkado. Nakakamit ng bersyon ng Privacy Filter na inilalabas namin ngayon ang pinakamataas na antas ng pagganap sa PII-Masking-300k benchmark, matapos ang mga pagwawasto sa mga isyu sa anotasyon na natukoy namin sa panahon ng pagsusuri.

Sa release na ito, puwedeng i-run ng mga developer ang Privacy Filter sa kanilang sariling mga environment, i-fine-tune ito para sa sarili nilang mga use case, at makabuo ng mas matitibay na proteksyon sa privacy sa mga pipeline ng pagsasanay, pag-index, pag-log, at pagsusuri.

Isang maliit na modelo na may kakayahan sa pagtukoy ng frontier ng personal data

Ang proteksyon sa privacy sa mga modernong AI system ay nakasalalay sa higit pa sa pagma-match ng pattern. Ang mga tradisyonal na tool sa pag-detect ng PII ay kadalasang umaasa sa mga deterministic na panuntunan para sa mga format gaya ng mga numero ng telepono at email address. Puwede silang gumana nang maayos para sa mga limitadong kaso, pero madalas nilang hindi natutukoy ang mas banayad na personal na impormasyon at nahihirapan sila sa konteksto.

Ang Privacy Filter ay ginawa gamit ang mas malalim na kamalayan sa wika at konteksto para sa mas detalyadong pagganap. Sa pamamagitan ng pagsasama ng malakas na pag-unawa sa wika at ng sistemang paglalabel na partikular sa privacy, kaya nitong matukoy ang mas malawak na hanay ng PII sa di-istrukturang text, kabilang ang mga kasong nakadepende sa konteksto ang tamang pagpapasya. Mas mahusay nitong matutukoy ang pagkakaiba sa pagitan ng impormasyong dapat mapanatili dahil ito ay pampubliko, at impormasyong dapat i-mask o i-redact dahil nauugnay ito sa pribadong indibidwal.

Ang resulta ay isang modelo na sapat ang lakas para makapaghatid ng performance sa pag-filter ng frontier na antas ng privacy. Kasabay nito, maliit ang modelo para patakbuhin nang lokal—ibig sabihin, ang data na hindi pa nasasala ay maaaring manatili sa device na may mas mababang panganib ng pagkakalantad, sa halip na ipadala ito sa server para sa de-identification. 

Pangkalahatang-ideya ng modelo

Ang Privacy Filter ay isang bidirectional na modelo ng token classification na may span decoding. Nagsisimula ito mula sa paunang sinanay na checkpoint na autoregressive at pagkatapos ay iniangkop bilang token classifier sa nakapirming taxonomy ng mga label ng privacy. Sa halip na bumuo ng text nang token sa bawat token, nilalagyan nito ng label ang input sequence sa iisang pasada at pagkatapos ay dini-decode ang magkakaugnay na span gamit ang pamamaraang Viterbi na may limitasyon.

Ang arkitekturang ito ay nagbibigay sa Privacy Filter ng ilang kapaki-pakinabang na katangian para sa paggamit sa produksyon:

  • Mabilis at mahusay: nalalagyan ng label ang lahat ng token sa iisang forward pass.
  • May kamalayan sa konteksto: nagbibigay-daan ang naunang wika na matukoy ang mga span ng PII batay sa nakapaligid na konteksto.
  • Mahabang konteksto: ang inilabas na modelo ay sumusuporta sa hanggang 128,000 token ng konteksto.
  • Nako-configure: maaaring i-tune ng mga developer ang mga operating point para magkaroon ng balanse sa pagitan ng recall at precision depende sa kanilang workflow.

Ang inilabas na modelo ay may kabuuang 1.5B na mga parameter na may 50M na aktibong mga parameter.

Ang Privacy Filter ay naghuhula ng mga span sa walong kategorya:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • lihim

Ang kategoryang account_number ay tumutulong sa pag-mask ng malawak na iba’t ibang uri ng mga account number, kabilang ang impormasyon sa pagbabangko, gaya ng mga numero ng credit card at numero ng bank account, habang ang lihim ay tumutulong sa pag-mask ng mga bagay tulad ng mga password at API key.

Ang mga label na ito ay dini-decode gamit ang mga BIOES span tag, na nakakatulong na makabuo ng mas malinis at mas magkakaugnay na mga hangganan ng pagma-mask.

Halimbawang input text

Paksa: Q2 Follow-up sa Pagpaplano

Hi Jordan,

Salamat muli sa pakikipagkita kanina. Nais kong mag-follow up tungkol sa binagong timeline para sa rollout ng Q2 at kumpirmahin na ang paglulunsad ng produkto ay nakaiskedyul sa Setyembre 18, 2026. Bilang sanggunian, ang file ng proyekto ay nakalista sa ilalim ng 4829-1037-5581. Kung may anumang magbago sa iyong panig, huwag mag-atubiling tumugon dito sa maya.chen@example.com o tumawag sa akin sa +1 (415) 555-0124.

Pinakamabuti,

Maya Chen

Text pagkatapos ng pagma-mask ng mga personal na identifier

Paksa: Q2 Follow-up sa Pagpaplano

Hi [PRIVATE_PERSON],

Salamat muli sa pakikipagkita kanina. Gusto kong mag-follow up tungkol sa binagong timeline para sa rollout ng Q2 at kumpirmahin na ang paglulunsad ng produkto ay nakaiskedyul sa [PRIVATE_DATE]. Bilang sanggunian, ang file ng proyekto ay nakalista sa ilalim ng [ACCOUNT_NUMBER]. Kung may magbago sa panig mo, huwag kang mag-atubiling mag-reply dito sa [PRIVATE_EMAIL] o tumawag sa akin sa [PRIVATE_PHONE].

Pinakamabuti,

[PRIVATE_PERSON]

Paano namin ito binuo

Binuo namin ang Privacy Filter sa ilang yugto.

Una, bumuo kami ng taxonomy ng privacy na tumutukoy sa mga uri ng span na dapat matukoy ng modelo. Kabilang dito ang mga personal na pagkakakilanlan, detalye sa pakikipag-ugnayan, address, pribadong petsa, maraming iba't ibang uri ng account number gaya ng impormasyon sa credit at pagbabangko, at mga sikreto gaya ng API key at password.

Ikalawa, ginawa naming bidirectional na classifier ng token ang paunang sinanay na modelo ng wika sa pamamagitan ng pagpapalit sa head ng pagmomodelo ng wika ng head ng klasipikasyon ng token at pagkatapos ay sinanay pa ito gamit ang may layuning pinangangasiwaang klasipikasyon. 

Pangatlo, nagsanay kami gamit ang pinaghalong pampublikong magagamit na data at sintetikong data na idinisenyo para masaklaw ang parehong makatotohanang text at mahihirap na pattern ng privacy. Sa mga bahagi ng pampublikong data kung saan hindi kumpleto ang mga label, gumamit kami ng anotasyon at pagsusuring tinulungan ng modelo para mapahusay ang saklaw. Bumuo rin kami ng mga sintetikong halimbawa para mapataas ang pagkakaiba-iba sa iba't ibang format, konteksto, at mga subtype ng privacy.

Sa oras ng inference, ang mga prediksyon ng modelo sa antas ng token ay dini-decode bilang magkakaugnay na mga span gamit ang pag-decode ng nilimitahang pagkakasunod-sunod. Pinapanatili ng pamamaraang ito ang malawak na pag-unawa sa wika ng naunang sinanay na modelo habang iniangkop ito para sa pagtukoy ng pagkapribado.

Paano gumagana ang Privacy Filter

Sinuri namin ang Privacy Filter sa mga pamantayang benchmark, pati na rin sa mga karagdagang sintetikong pagsusuri at mga pagsusuring nasa estilong chat na idinisenyo para subukan ang mas mahihirap at mas sensitibo sa konteksto na mga kaso.

Sa PII-Masking-300k(magbubukas sa bagong window) benchmark, nakakamit ang Privacy Filter ng F1 score na 96% (94.04% precision at 98.04% recall). Sa naitamang bersyon ng benchmark na isinasaalang-alang ang mga isyu sa dataset annotation na natukoy sa panahon ng pagsusuri, ang F1 score ay 97.43% (96.79% precision at 98.08% recall).

Nalaman din namin na maaaring maiangkop nang mahusay ang modelo. Ang fine-tuning kahit sa maliit na dami ng data ay mabilis na nagpapahusay ng katumpakan sa mga gawaing partikular sa domain, na nagpapataas ng F1 score mula 54% hanggang 96%, at halos umabot sa saturation sa benchmark ng pag-aangkop sa domain na aming sinuri.

Higit pa sa pagganap sa benchmark, ang Privacy Filter ay idinisenyo para sa praktikal na pag-filter ng privacy sa maingay at totoong-mundong text. Kabilang dito ang mahahabang dokumento, hindi malinaw na sanggunian, string na may halong format, at lihim na may kaugnayan sa software. Ang card ng modelo (magbubukas sa bagong window)ay nag-uulat din ng naka-target na pagsusuri sa lihim na pagtuklas sa mga codebase at stress test sa mga multilingual, adversarial, at mga halimbawang nakadepende sa konteksto.

Mga limitasyon

Ang Privacy Filter ay hindi isang tool sa pag-anonymize, sertipikasyon sa pagsunod, o pamalit sa pagsusuri ng patakaran sa mga setting na may mataas na nakataya. Ito ay isang bahagi sa mas malawak na sistemang nakabatay sa privacy ayon sa disenyo.

Sumasalamin ang paggawi nito sa taxonomy ng label at mga hangganan ng pagpapasya na pinagbatayan ng pagsasanay nito. Maaaring gusto ng magkakaibang organisasyon ang magkakaibang patakaran sa pag-detect o pag-mask, at maaaring mangailangan ang mga patakarang iyon ng pagsusuri sa loob ng domain o karagdagang pag-fine-tune. Maaaring mag-iba rin ang pagganap sa iba't ibang wika, mga sistema ng pagsulat, kumbensiyon sa pagbibigay ng pangalan, at domain na naiiba sa distribusyon ng pagsasanay.

Tulad ng lahat ng modelo, maaaring magkamali ang Privacy Filter. Maaari nitong hindi matukoy ang mga hindi karaniwang identifier o malalabong pribadong sanggunian, at maaari ring sobra o kulang ang pag-redact sa mga entity kapag limitado ang konteksto, lalo na sa maiikling sequence. Sa mga domain na may mataas na sensitivity tulad ng legal, medikal, at pinansyal na workflow, nananatiling mahalaga ang pagsusuri ng tao at ang pagsusuri at pag-fine-tune na partikular sa domain.

Pagiging available

Inilalabas namin ang OpenAI Privacy Filter para suportahan ang mas matitibay na proteksyon sa privacy sa buong ecosystem.

Available ngayon ang modelo sa ilalim ng lisensya ng Apache 2.0 sa Hugging Face(magbubukas sa bagong window) at Github(magbubukas sa bagong window). Idinisenyo ito para sa pag-eeksperimento, pagko-customize, at komersyal na pag-deploy, at puwede itong i-fine-tune para sa iba’t ibang distribusyon ng data at mga patakaran sa privacy.

Kasabay ng modelo, ibinabahagi namin ang dokumentasyong sumasaklaw sa arkitektura ng modelo, taxonomy ng label, mga kontrol sa pagde-decode, mga nilalayong sitwasyon ng paggamit, setup ng pagsusuri, at mga kilalang limitasyon, para maunawaan ng mga team kapwa kung ano ang mahusay na nagagawa ng modelo at kung saan ito dapat gamitin nang may pag-iingat.

Pagtingin sa hinaharap

Ang pagprotekta sa privacy para sa mga AI systems ay patuloy na pagsisikap sa pananaliksik, disenyo ng produkto, pagsusuri, at pagpapatupad.

Sumasalamin ang Privacy Filter sa direksiyong pinaniniwalaan naming mahalaga: maliliit at episyenteng mga modelo na may frontier na kakayahan sa mga gawaing malinaw na tinukoy na mahalaga para sa mga real-world na system ng AI. Inilalabas namin ito dahil sa tingin namin ay dapat mas madaling suriin, patakbuhin, iangkop, at pagbutihin ang imprastrakturang nangangalaga sa privacy.

Layunin namin na matuto ang mga modelo tungkol sa mundo, hindi tungkol sa mga pribadong indibidwal. Tinutulungan ng Privacy Filter na gawing posible iyon.

Inilalabas namin ang preview na ito ng Privacy Filter para makatanggap ng feedback mula sa komunidad ng pananaliksik at privacy at lalo pang mapahusay ang pagganap ng modelo.