Giới thiệu OpenAI Privacy Filter
Mô hình hiện đại của chúng tôi để che giấu thông tin nhận dạng cá nhân (PII) trong văn bản
Hôm nay, chúng tôi ra mắt OpenAI Privacy Filter, một mô hình trọng số mở để phát hiện và biên tập xóa thông tin nhận dạng cá nhân (PII) trong văn bản. Bản phát hành này là một phần trong nỗ lực lớn hơn của chúng tôi nhằm hỗ trợ một hệ sinh thái phần mềm có khả năng phục hồi cao hơn bằng cách cung cấp cho các nhà phát triển cơ sở hạ tầng thiết thực để xây dựng với AI một cách an toàn, bao gồm công cụ và mô hình giúp việc triển khai các biện pháp bảo vệ mạnh mẽ về quyền riêng tư và bảo mật trở nên dễ dàng hơn ngay từ đầu.
Privacy Filter là một mô hình nhỏ gọn với khả năng phát hiện dữ liệu cá nhân tiên phong. Nó được thiết kế cho các quy trình bảo mật có thông lượng cao và có khả năng thực hiện phát hiện thông tin nhận dạng cá nhân (PII) trong văn bản không có cấu trúc dựa trên ngữ cảnh. Nó có thể chạy trên môi trường cục bộ, nghĩa là thông tin cá nhân (PII) có thể được che chắn hoặc biên tập lại mà không rời khỏi máy của bạn. Nó xử lý hiệu quả các dữ liệu đầu vào dài, đưa ra quyết định biên tập chỉ trong một lượt xử lý nhanh.
Tại OpenAI, chúng tôi sử dụng một phiên bản được tinh chỉnh của Privacy Filter trong các quy trình bảo vệ quyền riêng tư của mình. Chúng tôi đã phát triển Privacy Filter vì tin rằng với những khả năng AI mới nhất, chúng tôi có thể nâng tiêu chuẩn về quyền riêng tư lên cao hơn những gì đã có trên thị trường. Phiên bản Privacy Filter mà chúng tôi phát hành hôm nay đạt hiệu năng hàng đầu trên chuẩn PII-Masking-300k, sau khi đã khắc phục các vấn đề về chú thích mà chúng tôi đã xác định trong quá trình đánh giá.
Với bản phát hành này, các nhà phát triển có thể chạy Privacy Filter trong môi trường riêng của họ, tinh chỉnh công cụ này cho các trường hợp sử dụng của riêng mình và tích hợp các biện pháp bảo vệ quyền riêng tư mạnh mẽ hơn vào các quy trình huấn luyện, lập chỉ mục, ghi nhật ký và rà soát.
Việc bảo vệ quyền riêng tư trong các hệ thống AI hiện đại phụ thuộc vào nhiều yếu tố hơn là chỉ so khớp mẫu. Các công cụ phát hiện thông tin cá nhân (PII) truyền thống thường dựa vào các quy tắc xác định để nhận diện các định dạng như số điện thoại và địa chỉ email. Chúng có thể hoạt động tốt trong những trường hợp cụ thể, nhưng thường bỏ sót những thông tin cá nhân tinh tế hơn và gặp khó khăn trong việc nắm bắt ngữ cảnh.
Privacy Filter được xây dựng với khả năng nhận biết ngôn ngữ và ngữ cảnh sâu sắc hơn để mang lại hiệu suất tinh tế hơn. Bằng cách kết hợp khả năng hiểu ngôn ngữ mạnh mẽ với hệ thống gắn nhãn chuyên biệt về quyền riêng tư, nó có thể phát hiện nhiều loại thông tin nhận dạng cá nhân (PII) hơn trong văn bản không có cấu trúc, bao gồm cả những trường hợp mà quyết định đúng phụ thuộc vào ngữ cảnh. Nó có thể phân biệt rõ hơn giữa thông tin cần được bảo lưu vì đó là thông tin công khai và thông tin cần được che giấu hoặc biên tập lại vì nó liên quan đến cá nhân.
Kết quả là một mô hình đủ mạnh để cung cấp hiệu năng lọc quyền riêng tư ở mức tiên phong. Đồng thời, mô hình cũng đủ nhỏ để chạy cục bộ – nghĩa là dữ liệu chưa được lọc có thể vẫn nằm trên thiết bị, với ít nguy cơ bị lộ hơn, thay vì phải gửi đến máy chủ để khử định danh.
Privacy Filter là một mô hình phân loại token hai chiều với giải mã khoảng thời gian. Nó bắt đầu từ một điểm kiểm tra đã được huấn luyện trước theo kiểu tự hồi quy và sau đó được điều chỉnh thành một bộ phân loại token trên một hệ phân loại cố định gồm các nhãn quyền riêng tư. Thay vì tạo sinh văn bản theo từng token, nó gán nhãn cho một chuỗi đầu vào chỉ trong một lượt rồi giải mã các đoạn nhất quán bằng một thủ tục Viterbi có ràng buộc.
Kiến trúc này mang lại cho Privacy-Filter một vài đặc tính hữu ích cho việc sử dụng trong môi trường sản xuất:
- Nhanh chóng và hiệu quả: tất cả các token được gắn nhãn chỉ trong một lượt truyền xuôi.
- Nhận biết ngữ cảnh: ngôn ngữ trước đó cho phép phát hiện các đoạn PII dựa trên ngữ cảnh xung quanh.
- Ngữ cảnh mở rộng: mô hình đã phát hành hỗ trợ tối đa 128.000 token trong ngữ cảnh.
- Có thể cấu hình: Các nhà phát triển có thể điều chỉnh các điểm vận hành để cân bằng giữa khả năng thu hồi và độ chính xác, tùy thuộc vào quy trình làm việc của họ.
Mô hình được phát hành có tổng cộng 1,5 tỷ tham số, trong đó có 50 triệu tham số hoạt động.
Privacy Filter dự đoán các phạm vi trên tám danh mục:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numberbí mật
Danh mục account_number giúp che giấu nhiều loại số tài khoản, bao gồm thông tin ngân hàng như số thẻ tín dụng và số tài khoản ngân hàng, trong khi secret giúp che giấu các thông tin như mật khẩu và khóa API.
Các nhãn này được giải mã bằng các thẻ BIOES dạng span, giúp tạo ra các ranh giới che phủ sạch hơn và mạch lạc hơn.
Văn bản đầu vào mẫu
Chủ đề: Theo dõi việc lập kế hoạch Q2
Chào Jordan,
Cảm ơn bạn một lần nữa vì đã gặp mặt sáng nay. Tôi muốn trao đổi tiếp về mốc thời gian đã điều chỉnh cho đợt triển khai Q2 và xác nhận rằng việc ra mắt sản phẩm được lên lịch vào ngày 18 tháng 9 năm 2026. Để tiện tham khảo, tệp dự án được liệt kê dưới mã số 4829-1037-5581. Nếu có bất kỳ thay đổi nào từ phía bạn, vui lòng trả lời tại đây theo địa chỉ maya.chen@example.com hoặc gọi cho tôi theo số +1 (415) 555-0124.
Trân trọng,
Maya Chen
Văn bản sau khi che thông tin nhận dạng cá nhân
Chủ đề: Theo dõi việc lập kế hoạch Q2
Xin chào [PRIVATE_PERSON],
Cảm ơn bạn một lần nữa vì đã gặp mặt sáng nay. Tôi muốn tiếp tục trao đổi về mốc thời gian đã điều chỉnh cho đợt triển khai Q2 và xác nhận rằng việc ra mắt sản phẩm được lên lịch vào [PRIVATE_DATE]. Để tham khảo, tệp dự án được liệt kê trong [ACCOUNT_NUMBER]. Nếu có bất kỳ thay đổi nào từ phía bạn, bạn cứ phản hồi tại đây qua [PRIVATE_EMAIL] hoặc gọi cho tôi theo số [PRIVATE_PHONE].
Trân trọng,
[PRIVATE_PERSON]
Chúng tôi đã phát triển Privacy Filter qua nhiều giai đoạn.
Đầu tiên, chúng tôi đã xây dựng một phân loại quyền riêng tư xác định các loại phạm vi mà mô hình sẽ phát hiện. Điều này bao gồm số nhận dạng cá nhân, chi tiết liên lạc, địa chỉ, ngày riêng tư, nhiều loại số tài khoản khác nhau như thông tin tín dụng và ngân hàng và bí mật như khóa API và mật khẩu.
Thứ hai, chúng tôi đã chuyển đổi một mô hình ngôn ngữ đã được tiền huấn luyện thành một bộ phân loại token hai chiều bằng cách thay phần đầu mô hình hóa ngôn ngữ bằng phần đầu phân loại token và hậu huấn luyện nó với mục tiêu phân loại có giám sát.
Thứ ba, chúng tôi được huấn luyện trên sự kết hợp giữa dữ liệu có sẵn công khai và dữ liệu tổng hợp, được thiết kế để nắm bắt cả văn bản thực tế lẫn các mẫu quyền riêng tư khó. Trong những phần dữ liệu công khai mà nhãn không đầy đủ, chúng tôi đã sử dụng phương pháp chú thích và xem xét có sự hỗ trợ của mô hình để cải thiện độ bao phủ. Chúng tôi cũng đã tạo ra các ví dụ tổng hợp để tăng tính đa dạng trên nhiều định dạng, ngữ cảnh và phân nhóm quyền riêng tư khác nhau.
Tại thời điểm suy luận, các dự đoán ở cấp độ token của mô hình được giải mã thành các đoạn văn mạch lạc bằng phương pháp giải mã chuỗi có ràng buộc. Cách tiếp cận này bảo toàn khả năng hiểu ngôn ngữ rộng của mô hình đã được huấn luyện trước, đồng thời chuyên biệt hóa mô hình đó để phát hiện quyền riêng tư.
Chúng tôi đã đánh giá Privacy Filter trên các bộ tiêu chuẩn thông thường và trên các bài đánh giá tổng hợp bổ sung cũng như theo kiểu hội thoại, được thiết kế để kiểm tra các trường hợp khó hơn và nhạy cảm với ngữ cảnh hơn.
Trên điểm chuẩn PII-Masking-300k(mở trong cửa sổ mới), Privacy Filter đạt được điểm F1 là 96% (độ chính xác 94,04% và thu hồi 98,04%). Trên phiên bản sửa chữa của điểm chuẩn giải thích các vấn đề chú thích tập dữ liệu được xác định trong quá trình xem xét, điểm F1 là 97,43% (độ chính xác 96,79% và khả năng nhớ lại 98,08%).
Chúng tôi cũng nhận thấy rằng mô hình có thể được điều chỉnh một cách hiệu quả. Việc tinh chỉnh ngay cả một lượng nhỏ dữ liệu nhanh chóng cải thiện độ chính xác cho các tác vụ cụ thể theo miền, tăng điểm F1 từ 54% lên 96% và tiếp cận độ bão hòa trên điểm chuẩn thích ứng miền mà chúng tôi đã đánh giá.
Vượt xa hiệu năng chuẩn mực, Privacy Filter được thiết kế để lọc thông tin cá nhân một cách hiệu quả trong môi trường văn bản nhiễu loạn, thực tế. Điều đó bao gồm các tài liệu dài, các tham chiếu không rõ ràng, các chuỗi ký tự có định dạng hỗn hợp và các bí mật liên quan đến phần mềm. Thẻ mô hình (mở trong cửa sổ mới)cũng báo cáo đánh giá mục tiêu về phát hiện bí mật trong các cơ sở mã và các bài kiểm tra chịu tải trên các ví dụ đa ngôn ngữ, đối kháng và phụ thuộc vào ngữ cảnh.
Privacy Filter không phải là công cụ ẩn danh hóa, chứng nhận tuân thủ hay sự thay thế cho việc rà soát chính sách trong các bối cảnh có mức độ rủi ro cao. Đó là một thành phần trong một hệ thống quyền riêng tư theo thiết kế rộng hơn.
Hành vi của nó phản ánh hệ thống phân loại nhãn và ranh giới quyết định mà nó được huấn luyện. Các tổ chức khác nhau có thể muốn các chính sách phát hiện hoặc che giấu khác nhau, và các chính sách đó có thể cần được đánh giá nội bộ hoặc tinh chỉnh thêm. Hiệu năng cũng có thể khác nhau giữa các ngôn ngữ, hệ chữ viết, quy ước đặt tên và các lĩnh vực khác với phân bố dữ liệu huấn luyện.
Giống như mọi mô hình khác, Privacy Filter cũng có thể mắc lỗi. Nó có thể bỏ sót các mã định danh không phổ biến hoặc các tham chiếu riêng tư mơ hồ, đồng thời có thể ẩn bớt quá nhiều hoặc quá ít đối với các thực thể khi ngữ cảnh có giới hạn, đặc biệt là trong các chuỗi ngắn. Trong các lĩnh vực có độ nhạy cảm cao như quy trình pháp lý, y tế và tài chính, sự rà soát của con người cùng với việc đánh giá và tinh chỉnh theo từng lĩnh vực cụ thể vẫn đóng vai trò quan trọng.
Chúng tôi đang phát hành OpenAI Privacy Filter để hỗ trợ bảo vệ quyền riêng tư mạnh mẽ hơn trên toàn hệ sinh thái.
Mô hình được cung cấp từ hôm nay theo giấy phép Apache 2.0 trên Hugging Face(mở trong cửa sổ mới) và Github(mở trong cửa sổ mới). Nó được thiết kế nhằm phục vụ việc thử nghiệm, tùy chỉnh và triển khai thương mại, đồng thời có thể được tinh chỉnh cho các phân phối dữ liệu và các chính sách quyền riêng tư khác nhau.
Cùng với mô hình, chúng tôi chia sẻ tài liệu bao gồm kiến trúc mô hình, phân loại nhãn, các tuỳ chọn điều khiển quá trình giải mã, các trường hợp sử dụng dự kiến, thiết lập đánh giá và các hạn chế đã biết, để các nhóm có thể hiểu rõ cả những điểm mô hình làm tốt lẫn những trường hợp cần thận trọng khi sử dụng.
Bảo vệ quyền riêng tư cho các hệ thống AI là một nỗ lực liên tục trong suốt quá trình nghiên cứu, thiết kế sản phẩm, đánh giá và triển khai.
Privacy Filter phản ánh một định hướng mà chúng tôi tin là quan trọng: các mô hình nhỏ gọn, hiệu quả với năng lực tiên phong trong các tác vụ được xác định rõ ràng và cụ thể, vốn có ý nghĩa đối với các hệ thống AI trong thế giới thực. Chúng tôi phát hành nó vì chúng tôi cho rằng hạ tầng bảo vệ quyền riêng tư nên dễ kiểm tra, vận hành, điều chỉnh và cải thiện hơn.
Mục tiêu của chúng tôi là để các mô hình tìm hiểu về thế giới, chứ không phải về các cá nhân riêng tư. Privacy Filter giúp biến điều đó thành hiện thực.
Chúng tôi đang phát hành bản xem trước này của Privacy Filter để tiếp nhận ý kiến đóng góp từ cộng đồng nghiên cứu và quyền riêng tư, đồng thời tiếp tục cải thiện hiệu suất của mô hình.


