오늘 OpenAI는 텍스트에서 개인 식별 정보(PII)를 탐지하고 비식별화하는 오픈 웨이트 모델 OpenAI Privacy Filter를 공개합니다. 이번 공개는 개발자가 AI를 안전하게 활용할 수 있도록 실질적인 인프라를 제공하여 보다 견고한 소프트웨어 생태계를 지원하려는 노력의 일환으로, 초기 단계부터 강력한 개인정보 보호와 보안 체계를 쉽게 구현할 수 있도록 돕는 도구와 모델을 함께 제공합니다.
Privacy Filter는 최첨단 개인 데이터 탐지 성능을 갖춘 소형 모델입니다. 대규모 처리가 필요한 개인정보 보호 워크플로를 위해 설계되었으며 비정형 텍스트에서도 문맥을 고려해 개인 식별 정보를 탐지할 수 있습니다. 로컬 환경에서 실행이 가능하여 데이터를 외부로 내보내지 않고도 개인 식별 정보를 마스킹하거나 비식별화할 수 있습니다. 긴 입력도 효율적으로 처리하며 한 번의 빠른 작업으로 비식별화 여부를 결정합니다.
OpenAI 내부에서는 파인튜닝한 Privacy Filter를 개인정보 보호 워크플로에 사용하고 있습니다. OpenAI는 최신 AI 역량을 바탕으로 기존 시장보다 한 차원 높은 개인정보 보호 기준을 제시할 수 있다고 판단해 Privacy Filter를 개발했습니다. 이번에 공개하는 Privacy Filter는 평가 과정에서 확인된 어노테이션 문제를 보정한 후 PII-Masking-300k 벤치마크에서 최고 수준의 성능을 기록했습니다.
새로운 모델을 통해 개발자는 자체 환경에서 Privacy Filter를 실행하고 각자의 사용 사례에 맞게 파인튜닝할 수 있으며, 학습·인덱싱·로깅·검토 파이프라인 전반에서 개인정보 보호를 한층 강화할 수 있습니다.
현대 AI 시스템에서 개인정보 보호는 단순한 패턴 매칭만으로 해결되지 않습니다. 기존 PII 탐지 도구는 전화번호나 이메일 같은 정보를 식별할 때 규칙 기반 방식에 의존하는 경우가 많습니다. 이러한 방식은 제한적인 상황에서는 잘 작동할 수 있지만, 미묘한 개인 정보를 놓치기 쉽고 문맥을 이해하는 데에도 한계가 있습니다.
Privacy Filter는 심층적인 언어 및 문맥 이해를 바탕으로 정밀한 탐지 성능을 제공합니다. 강력한 언어 이해 능력과 개인정보 특화 라벨링 체계를 결합해 비정형 텍스트에서도 폭넓게 개인 식별 정보를 탐지할 수 있습니다. 특히 문맥에 따라 판단이 달라지는 상황에서도 뛰어난 판단 능력을 보이며, 공개 정보로 유지해야 하는 내용과 개인과 관련되어 마스킹하거나 비식별화해야 하는 내용도 정확하게 구분합니다.
Privacy Filter는 프런티어 수준의 개인정보 필터링 성능을 갖추면서도 로컬 환경에서 실행할 수 있을 만큼 작고 가볍습니다. 따라서 필터링되지 않은 데이터를 비식별화하기 위해 서버로 전송할 필요 없이 기기 내에 유지할 수 있어 노출 위험도 줄일 수 있습니다.
Privacy Filter는 스팬 디코딩 방식을 사용하는 양방향 토큰 분류 모델입니다. 이는 자기회귀 방식으로 사전 학습된 모델에서 출발해 고정된 개인정보 라벨 체계를 기반으로 하는 토큰 분류 모델로 재구성되었습니다. 모델은 텍스트를 토큰 단위로 생성하는 대신 입력 시퀀스를 한 번에 라벨링하고, 제약이 적용된 비터비 알고리즘으로 일관된 구간을 디코딩합니다.
이 아키텍처는 프로덕션 환경에 적합한 몇 가지 특성을 제공합니다.
- 빠른 속도와 효율성: 모든 토큰을 한 번의 연산 작업으로 라벨링합니다.
- 컨텍스트 인지: 언어에 대한 사전 지식을 활용해 주변 문맥을 바탕으로 개인 식별 정보 구간을 탐지합니다.
- 긴 컨텍스트: 공개된 모델은 최대 128,000 토큰을 처리할 수 있습니다.
- 조정 기능: 개발자는 워크플로에 따라 재현율과 정밀도 간 균형을 조정할 수 있습니다.
공개된 모델은 총 15억 개의 파라미터를 가지며, 이 중 5천만 개가 활성 파라미터로 사용됩니다.
Privacy Filter는 다음 8개 카테고리에 대한 구간을 예측합니다.
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number 카테고리는 신용카드 번호나 은행 계좌 번호 같은 금융 정보를 포함해 다양한 계좌 번호를 마스킹하는 데 활용되며, secret 카테고리는 비밀번호나 API 키 같은 정보를 마스킹하는 데 사용됩니다.
이러한 라벨은 BIOES 스팬 태그를 사용해 디코딩되며, 이를 통해 더 깔끔하고 일관된 마스킹 경계를 생성할 수 있습니다.
입력 텍스트 예시
제목: 2분기 기획 후속 논의
안녕하세요 Jordan님,
오늘 미팅을 위해 시간 내주셔서 감사합니다. 변경된 2분기 롤아웃 일정과 2026년 9월 18일로 예정된 제품 출시일을 다시 확인하고자 연락드립니다. 참고로 프로젝트 파일 번호는 4829-1037-5581입니다. 변동 사항이 생기면 maya.chen@example.com으로 회신하시거나 +1 (415) 555-0124로 연락 주시기 바랍니다.
감사합니다.
Maya Chen
개인 식별 정보를 마스킹한 텍스트
제목: 2분기 기획 후속 논의
안녕하세요 [PRIVATE_PERSON]님,
오늘 미팅을 위해 시간 내주셔서 감사합니다. 변경된 2분기 롤아웃 일정과 [PRIVATE_DATE]로 예정된 제품 출시일을 다시 확인하고자 연락드립니다. 참고로 프로젝트 파일 번호는 [ACCOUNT_NUMBER]입니다. 변동 사항이 생기면 [PRIVATE_EMAIL]으로 회신하시거나 [PRIVATE_PHONE]로 연락 주시기 바랍니다.
감사합니다.
[PRIVATE_PERSON]
Privacy Filter는 여러 단계에 걸쳐 개발되었습니다.
OpenAI 팀은 먼저 모델이 탐지해야 할 구간 유형을 정의하는 개인정보 라벨 체계를 설계했습니다. 여기에는 개인 식별 정보, 연락처 정보, 주소, 개인과 관련된 날짜, 신용카드나 은행 정보 같은 다양한 계좌 번호, 그리고 API 키와 비밀번호 같은 기밀 정보가 포함됩니다.
다음으로 사전 학습된 언어 모델의 언어 모델링 헤드를 토큰 분류 헤드로 교체하고, 지도 학습 기반의 분류 방식으로 후속 학습을 진행하여 양방향 토큰 분류 모델을 재구성했습니다.
세 번째 단계에서는 실제 텍스트와 까다로운 개인정보 패턴을 모두 반영할 수 있도록 공개 데이터와 합성 데이터를 함께 활용해 모델을 훈련했습니다. 공개 데이터 중 라벨이 불완전한 부분은 모델 보조 어노테이션과 검토를 통해 보완했습니다. 또한 다양한 형식, 문맥, 개인정보 하위 유형을 포괄할 수 있도록 합성 데이터를 추가로 생성했습니다.
추론 시 모델의 토큰 단위 예측 결과는 제약 조건이 적용된 시퀀스 디코딩을 통해 일관된 구간으로 변환됩니다. 이러한 방식은 사전 학습 모델의 폭넓은 언어 이해 능력을 유지하면서 개인정보 탐지에 보다 특화된 성능을 제공할 수 있도록 합니다.
OpenAI는 표준 벤치마크와 함께 더 까다롭고 문맥 의존적인 사례를 평가하는 합성 데이터 및 채팅 형식 평가를 통해 Privacy Filter의 성능을 검증했습니다.
Privacy Filter는 PII-Masking-300k(새 창에서 열기) 벤치마크에서 96%(정밀도 94.04%, 재현율 98.04%)의 F1 점수를 기록했으며, 평가 과정에서 확인된 데이터세트 어노테이션 문제를 보정한 벤치마크에서는 97.43%(정밀도 96.79%, 재현율 98.08%)의 F1 점수를 기록했습니다.
OpenAI는 모델을 효율적으로 조정할 수 있다는 사실 또한 확인할 수 있었습니다. 소량의 데이터를 이용한 파인튜닝만으로도 특정 도메인 작업에서 정확도가 빠르게 증가하여 F1 점수가 54%에서 96%로 향상되었으며, 평가한 도메인 적응 벤치마크에서 포화 수준에 근접하는 성능을 보였습니다.
Privacy Filter는 단순히 벤치마크 성능을 입증하는 데 그치지 않고, 노이즈가 많은 실제 환경의 텍스트에서 개인정보 필터링을 효과적으로 수행하도록 설계되었습니다. 여기에는 긴 문서, 모호한 참조 표현, 다양한 형식이 혼합된 문자열, 소프트웨어 관련 비밀 정보 등이 포함됩니다. 모델 카드 (새 창에서 열기)에서 코드베이스 내 비밀 정보 탐지에 대한 표적 평가와 다국어, 적대적 입력, 문맥 의존적 예시를 포함한 스트레스 테스트 결과를 함께 확인할 수 있습니다.
Privacy Filter는 익명화 도구가 아니며 컴플라이언스 인증과 높은 수준의 판단이 요구되는 환경에 대한 정책 검토를 대신할 수 없습니다. 이 모델은 광범위한 프라이버시 중심 설계 시스템을 구성하는 요소 중 하나일 뿐입니다.
모델의 동작은 학습에 사용된 라벨 체계와 판단 기준을 반영합니다. 조직마다 원하는 탐지 기준이나 마스킹 정책이 다를 수 있으며, 이에 따라 도메인에 특화된 평가나 추가 파인튜닝이 필요할 수도 있습니다. 또한 학습 데이터와 언어, 문자 체계, 이름 규칙, 도메인에 따라서도 성능이 달라질 수 있습니다.
다른 모델과 마찬가지로 Privacy Filter도 실수를 할 수 있습니다. 드물게 사용되는 식별자나 모호한 개인정보 표현을 놓칠 수 있으며, 특히 짧은 텍스트처럼 문맥이 제한된 경우에는 마스킹 범위를 과도하게 혹은 불충분하게 적용할 수 있습니다. 법률, 의료, 금융과 같이 민감도가 높은 분야에서는 사람의 검토와 도메인 특화 평가 및 파인튜닝이 여전히 중요합니다.
OpenAI Privacy Filter는 생태계 전반에서 개인정보 보호를 한층 강화하기 위해 새롭게 출시된 모델입니다.
현재 Hugging Face(새 창에서 열기)와 Github(새 창에서 열기)에서 Apache 2.0 라이선스로 이용이 가능합니다. 모델은 실험과 맞춤 개발, 상용 배포를 목적으로 설계되었으며, 다양한 데이터 분포와 개인정보 보호 정책에 따라 파인튜닝을 할 수 있습니다.
모델의 강점과 주의가 필요한 사용 범위를 함께 이해할 수 있도록 모델 아키텍처와 라벨 체계, 디코딩 설정, 권장 사용 사례, 평가 구성, 알려진 한계를 다룬 문서도 찾아보실 수 있습니다.
AI 시스템에서 개인정보를 보호하기 위한 노력은 연구, 제품 설계, 평가, 배포 전반에 걸쳐 지속적으로 이루어져야 합니다.
현실 세계의 AI 시스템에 필요한 작업에 초점을 맞추면서도 프런티어 수준의 성능과 효율성을 동시에 갖춘 Privacy Filter는 OpenAI가 중요하게 생각하는 방향을 잘 보여주는 모델입니다. OpenAI는 더욱 쉽게 검토, 실행, 조정, 개선할 수 있는 개인정보 보호 인프라가 필요하다고 판단해 새로운 모델을 공개하기로 결정했습니다.
목표는 모델이 개인이 아닌 세상을 이해하도록 만드는 것입니다. Privacy Filter는 이러한 가능성을 한층 앞당깁니다.
이번 Privacy Filter 프리뷰 모델은 연구 및 프라이버시 관련 커뮤니티의 피드백을 바탕으로 향후 성능을 개선하기 위해 공개되었습니다.


