Hari ini, kami meluncurkan Filter Privasi OpenAI, sebuah model berbobot terbuka untuk mendeteksi dan menyunting informasi identitas pribadi (PII) dalam teks. Peluncuran ini merupakan bagian dari upaya kami yang lebih luas untuk mendukung ekosistem perangkat lunak yang lebih tangguh dengan menyediakan infrastruktur praktis bagi pengembang untuk membangun menggunakan AI secara aman, termasuk alat dan model yang memudahkan penerapan perlindungan privasi dan keamanan yang kuat sejak awal.
Filter Privasi adalah model kecil dengan kemampuan terdepan untuk mendeteksi data pribadi. Sistem ini dirancang untuk alur kerja privasi dengan throughput tinggi, dan mampu melakukan deteksi PII yang sadar konteks pada teks tidak terstruktur. Model ini dapat berjalan secara lokal, yang berarti PII dapat disembunyikan atau disunting tanpa meninggalkan mesin Anda. Sistem ini memproses input panjang secara efisien, sehingga dapat membuat keputusan penyuntingan dalam satu proses cepat.
Di OpenAI, kami menggunakan versi Filter Privasi yang telah disempurnakan dalam alur kerja kami sendiri yang menjaga privasi. Kami mengembangkan Filter Privasi karena kami percaya bahwa dengan kemampuan AI terbaru, kami dapat meningkatkan standar privasi melampaui apa yang sudah ada di pasar. Versi Filter Privasi yang kami luncurkan hari ini mencapai kinerja mutakhir pada tolok ukur PII-Masking-300k, setelah dikoreksi untuk masalah anotasi yang kami identifikasi selama evaluasi.
Dengan peluncuran ini, pengembang dapat menjalankan Filter Privasi di lingkungan mereka sendiri, menyempurnakannya untuk kasus penggunaan mereka sendiri, dan membangun perlindungan privasi yang lebih kuat ke dalam saluran pelatihan, pengindeksan, pencatatan log, dan peninjauan.
Perlindungan privasi dalam sistem AI modern bergantung pada lebih dari sekadar pencocokan pola. Alat pendeteksian PII tradisional sering kali bergantung pada aturan deterministik untuk format seperti nomor telepon dan alamat email. Alat ini dapat berfungsi dengan baik untuk kasus yang terbatas, tetapi sering kali melewatkan informasi pribadi yang lebih kecil dan kesulitan memahami konteks.
Filter Privasi dibangun dengan pemahaman bahasa dan konteks yang lebih mendalam untuk performa yang lebih bernuansa. Dengan menggabungkan pemahaman bahasa yang kuat dengan sistem pelabelan khusus privasi, sistem ini dapat mendeteksi cakupan PII yang lebih luas dalam teks tidak terstruktur, termasuk kasus ketika keputusan yang tepat bergantung pada konteks. Sistem ini dapat membedakan dengan lebih baik antara informasi yang harus dipertahankan karena bersifat publik, dan informasi yang harus disembunyikan atau disunting karena berkaitan dengan privasi individu.
Hasilnya adalah sebuah model yang cukup kuat untuk menghasilkan kinerja pemfilteran privasi terdepan. Pada saat yang sama, model tersebut cukup kecil untuk dijalankan secara lokal—artinya data yang belum difilter dapat tetap berada di perangkat, dengan risiko keterpaparan yang lebih rendah, alih-alih perlu dikirim ke server untuk de-identifikasi.
Filter Privasi adalah model klasifikasi token dua arah dengan dekode rentang. Model ini dimulai dari titik pemeriksaan prapelatihan autoregresif dan kemudian diadaptasi menjadi pengklasifikasi token berdasarkan taksonomi tetap untuk label privasi. Alih-alih menghasilkan teks token demi token, model ini memberi label pada urutan masukan dalam satu kali proses, lalu mendekode rentang yang koheren dengan prosedur Viterbi yang dibatasi.
Arsitektur ini memberikan Filter Privasi beberapa properti yang berguna untuk penggunaan produksi:
- Cepat dan efisien: semua token diberi label dalam satu forward pass.
- Sadar konteks: prior bahasa memungkinkan rentang PII dideteksi berdasarkan konteks di sekitarnya.
- Konteks panjang: model yang dirilis mendukung hingga 128.000 token konteks.
- Dapat dikonfigurasi: pengembang dapat menyesuaikan titik operasi untuk menyeimbangkan antara recall dan presisi bergantung pada alur kerja mereka.
Model yang dirilis memiliki total 1,5 miliar parameter dengan 50 juta parameter aktif.
Filter Privasi memprediksi rentang dalam delapan kategori:
orang_pribadialamat_pribadiemail_pribaditelepon_pribadiurl_pribaditanggal_pribadinomor_rekeningrahasia
Kategori nomor_rekening membantu menyembunyikan berbagai jenis nomor rekening, termasuk informasi perbankan seperti nomor kartu kredit dan nomor rekening bank, sedangkan rahasia membantu menyembunyikan hal-hal seperti kata sandi dan kunci API.
Label-label ini didekode menggunakan tag span BIOES, yang membantu menghasilkan batas penyembunyian yang lebih rapi dan lebih koheren.
Contoh teks input
Subjek: Tindak Lanjut Perencanaan Kuartal 2
Hai Jordan,
Terima kasih sekali lagi sudah meluangkan waktu untuk bertemu hari ini. Saya ingin menindaklanjuti linimasa yang telah direvisi untuk peluncuran bertahap Kuartal 2 dan mengonfirmasi bahwa peluncuran produk dijadwalkan pada 18 September 2026. Sebagai referensi, file proyek tercantum di bawah 4829-1037-5581. Jika ada perubahan dari pihak Anda, silakan balas di sini di maya.chen@example.com atau hubungi saya di +1 (415) 555-0124.
Salam,
Maya Chen
Teks setelah penyembunyian identitas pribadi
Subjek: Tindak Lanjut Perencanaan Kuartal 2
Halo [ORANG_PRIBADI],
Terima kasih sekali lagi sudah meluangkan waktu untuk bertemu hari ini. Saya ingin menindaklanjuti linimasa yang telah direvisi untuk peluncuran bertahap Kuartal 2 dan mengonfirmasi bahwa peluncuran produk dijadwalkan pada [TANGGAL_PRIBADI]. Sebagai referensi, file proyek tercantum di bawah [NOMOR_REKENING]. Jika ada perubahan dari pihak Anda, silakan balas di sini ke [EMAIL_PRIBADI] atau hubungi saya di [NOMOR_PRIBADI].
Salam,
[ORANG_PRIBADI]
Kami mengembangkan Filter Privasi dalam beberapa tahap.
Pertama, kami membangun taksonomi privasi yang mendefinisikan jenis-jenis rentang yang harus dideteksi oleh model. Ini mencakup pengenal pribadi, detail kontak, alamat, tanggal pribadi, berbagai jenis nomor rekening seperti informasi kartu kredit dan perbankan, serta rahasia seperti kunci API dan kata sandi.
Kedua, kami mengonversi model bahasa yang telah dilatih sebelumnya menjadi pengklasifikasi token dua arah dengan mengganti kepala pemodelan bahasa dengan kepala klasifikasi token dan melakukan pelatihan lanjutan padanya dengan tujuan klasifikasi tersupervisi.
Ketiga, kami melakukan pelatihan menggunakan campuran data yang tersedia untuk umum dan data sintetis, yang dirancang untuk menangkap baik teks yang realistis maupun pola privasi yang sulit. Pada bagian data publik yang labelnya tidak lengkap, kami menggunakan anotasi dan peninjauan berbantuan model untuk meningkatkan cakupan. Kami juga menghasilkan contoh sintetis untuk meningkatkan keragaman di berbagai format, konteks, dan subtipe privasi.
Saat inferensi, prediksi tingkat token dari model didekodekan menjadi rentang yang koheren menggunakan dekode urutan terbatas. Pendekatan ini mempertahankan pemahaman bahasa yang luas dari model yang telah dilatih sebelumnya sekaligus mengkhususkannya untuk deteksi privasi.
Kami mengevaluasi Filter Privasi pada tolok ukur standar dan pada evaluasi sintetis tambahan serta evaluasi bergaya obrolan yang dirancang untuk menguji kasus yang lebih sulit dan lebih sensitif terhadap konteks.
Pada tolok ukur PII-Masking-300k(terbuka di jendela baru), Filter Privasi mencapai skor F1 sebesar 96% (presisi 94,04% dan recall 98,04%). Pada versi tolok ukur yang telah dikoreksi dan memperhitungkan masalah anotasi kumpulan data yang diidentifikasi selama peninjauan, skor F1 adalah 97,43% (96,79% presisi dan 98,08% recall).
Kami juga mendapati bahwa model tersebut dapat disesuaikan secara efisien. Penyempurnaan bahkan pada sejumlah kecil data dengan cepat meningkatkan akurasi pada tugas-tugas spesifik domain, meningkatkan skor F1 dari 54% menjadi 96%, dan mendekati titik jenuh pada tolok ukur adaptasi domain yang kami evaluasi.
Selain kinerja tolok ukur, Filter Privasi dirancang untuk pemfilteran privasi yang praktis pada teks dunia nyata yang penuh noise. Itu mencakup dokumen panjang, rujukan ambigu, string dengan format campuran, dan rahasia terkait perangkat lunak. Kartu model (terbuka di jendela baru)juga melaporkan evaluasi yang ditargetkan terhadap deteksi rahasia dalam basis kode serta uji ketahanan pada contoh multibahasa, adversarial, dan yang bergantung pada konteks.
Filter Privasi bukan alat anonimisasi, sertifikasi kepatuhan, atau pengganti peninjauan kebijakan dalam situasi berisiko tinggi. Ini merupakan salah satu komponen dalam sistem privasi sejak perancangan yang lebih luas.
Perilakunya mencerminkan taksonomi label dan batas keputusan yang digunakan untuk melatihnya. Organisasi yang berbeda mungkin menginginkan kebijakan deteksi atau penyembunyian yang berbeda, dan kebijakan tersebut mungkin memerlukan evaluasi dalam domain atau penyempurnaan lebih lanjut. Kinerja juga dapat bervariasi di berbagai bahasa, aksara, konvensi penamaan, dan domain yang berbeda dari distribusi pelatihan.
Seperti semua model, Filter Privasi dapat membuat kesalahan. Model ini dapat melewatkan pengenal yang tidak umum atau informasi pribadi yang ambigu, dan dapat terlalu banyak atau terlalu sedikit menyunting entitas saat konteks terbatas, terutama dalam urutan pendek. Dalam domain dengan sensitivitas tinggi seperti alur kerja hukum, medis, dan keuangan, peninjauan oleh manusia serta evaluasi dan penyempurnaan yang spesifik untuk domain tetap penting.
Kami meluncurkan Filter Privasi OpenAI untuk mendukung perlindungan privasi yang lebih kuat di seluruh ekosistem.
Model tersebut tersedia hari ini di bawah lisensi Apache 2.0 di Hugging Face(terbuka di jendela baru) dan Github(terbuka di jendela baru). Model ini ditujukan untuk eksperimen, penyesuaian, dan penerapan komersial, serta dapat disesuaikan lebih lanjut untuk berbagai distribusi data dan kebijakan privasi.
Bersamaan dengan model tersebut, kami membagikan dokumentasi yang mencakup arsitektur model, taksonomi label, kontrol dekode, kasus penggunaan yang dimaksudkan, pengaturan evaluasi, dan keterbatasan yang diketahui, agar tim dapat memahami baik hal-hal yang dilakukan model dengan baik maupun area yang memerlukan kehati-hatian dalam penggunaannya.
Perlindungan privasi untuk sistem AI merupakan upaya berkelanjutan di seluruh penelitian, desain produk, evaluasi, dan penerapan.
Filter Privasi mencerminkan salah satu tujuan yang kami yakini penting: model kecil dan efisien dengan kemampuan terdepan dalam tugas yang didefinisikan secara sempit namun penting bagi sistem AI dunia nyata. Kami merilisnya karena kami meyakini bahwa infrastruktur yang menjaga privasi harus lebih mudah untuk diinspeksi, dijalankan, diadaptasi, dan ditingkatkan.
Tujuan kami adalah agar model mempelajari dunia, bukan tentang individu pribadi. Filter Privasi membantu mewujudkan tujuan tersebut.
Kami sedang merilis pratinjau Filter Privasi ini untuk menerima masukan dari komunitas riset dan privasi serta melakukan iterasi lebih lanjut tentang kinerja model.


