Представляем OpenAI Privacy Filter
Наша передовая модель для маскирования персональных данных (PII) в тексте
Сегодня мы выпускаем OpenAI Privacy Filter — модель с открытыми весами, предназначенную для обнаружения и маскирования персональных данных (PII) в тексте. Этот релиз является частью наших масштабных усилий по поддержке более устойчивой экосистемы программного обеспечения. Мы предоставляем разработчикам практическую инфраструктуру для безопасной работы с ИИ, включая инструменты и модели, которые упрощают внедрение надежной защиты конфиденциальности и безопасности с самого начала разработки.
Privacy Filter — это компактная модель с передовыми возможностями обнаружения персональных данных. Она разработана для высокопроизводительных рабочих процессов обеспечения конфиденциальности и способна выполнять контекстно-зависимое обнаружение PII в неструктурированном тексте. Модель может работать локально, что позволяет маскировать или удалять персональные данные без их передачи за пределы вашего устройства. Она эффективно обрабатывает длинные фрагменты текста, принимая решения о маскировании за один быстрый проход.
В OpenAI мы используем дообученную версию Privacy Filter в наших собственных процессах по защите данных. Мы разработали Privacy Filter, потому что верим, что с помощью новейших возможностей ИИ мы сможем поднять стандарты конфиденциальности выше того, что уже представлено на рынке. Версия Privacy Filter, которую мы выпускаем сегодня, достигает передовых показателей производительности в бенчмарке PII-Masking-300k (с учетом исправлений ошибок аннотации, выявленных нами в ходе оценки).
С этим релизом разработчики получают возможность запускать Privacy Filter в своих собственных средах, дообучать его под конкретные сценарии использования и внедрять более надежные механизмы защиты данных в процессы обучения моделей, индексации, логирования и анализа данных.
Защита конфиденциальности в современных системах ИИ зависит от большего, чем просто сопоставление с шаблонами. Традиционные инструменты обнаружения PII часто полагаются на детерминированные правила для таких форматов, как номера телефонов и адреса электронной почты. Они могут хорошо работать в узких сценариях, но часто упускают более тонкую личную информацию и с трудом справляются с контекстом.
Privacy Filter создан с более глубоким пониманием языка и контекста для более тонкой работы. Сочетая глубокое понимание языка с системой разметки, специально предназначенной для задач конфиденциальности, она может обнаруживать более широкий спектр персональных данных в неструктурированном тексте, в том числе в случаях, когда правильное решение зависит от контекста. Он может лучше различать информацию, которую следует сохранять, поскольку она является общедоступной, и информацию, которую следует маскировать или редактировать, поскольку она относится к частному лицу.
Результатом стала модель, достаточно мощная, чтобы обеспечить передовую эффективность фильтрации конфиденциальности. В то же время она достаточно компактна для локального запуска — это означает, что данные, которые еще не прошли фильтрацию, могут оставаться на устройстве с меньшим риском утечки, без необходимости отправки на сервер для деидентификации.
Privacy Filter представляет собой двунаправленную модель классификации токенов с декодированием фрагментов (span decoding). Она базируется на авторегрессионном предобученном чекпоинте, адаптированном в классификатор токенов по фиксированной таксономии меток конфиденциальности. Вместо генерации текста токен за токеном, модель помечает входную последовательность за один проход, а затем декодирует связные фрагменты с помощью ограниченной процедуры Витерби.
Такая архитектура наделяет Privacy Filter рядом полезных свойств для использования в продакшене:
- Быстро и эффективно: все токены размечаются за один прямой проход.
- С учетом контекста: априорная языковая модель позволяет обнаруживать фрагменты PII на основе окружающего контекста.
- Длинный контекст: выпущенная модель поддерживает контекст до 128 000 токенов.
- Гибкая настройка: разработчики могут настраивать рабочие точки, балансируя между полнотой и точностью в зависимости от своего рабочего процесса.
Выпущенная модель имеет 1,5 млрд общих параметров, из которых 50 млн — активные параметры.
Privacy Filter определяет фрагменты по восьми категориям:
private_person (частное лицо)private_address (адрес)private_email (электронная почта)private_phone (номер телефона)private_url (ссылка/URL)private_date (дата)account_number (номер счета)secret (секретные данные)
Категория account_number помогает маскировать широкий спектр номеров счетов, включая банковскую информацию, такую как номера кредитных карт и банковских счетов, а secret помогает маскировать такие данные, как пароли и API-ключи.
Эти метки декодируются с использованием тегов фрагментов BIOES, что помогает создавать более чистые и логичные границы маскирования.
Пример входного текста
Тема: Последующие действия по планированию на 2-й квартал
Здравствуйте, Джордан!
Еще раз спасибо за сегодняшнюю встречу. Я хотела бы предоставить обновленный график внедрения на 2-й квартал и подтвердить, что запуск продукта запланирован на 18 сентября 2026 года. Для справки: файл проекта числится под номером 4829-1037-5581. Если что-то изменится с вашей стороны, можете написать на: maya.chen@example.com или позвонить мне по номеру +1 (415) 555-0124.
С наилучшими пожеланиями,
Майя Чен
Текст после маскирования персональных данных
Тема: Последующие действия по планированию на 2-й квартал
Здравствуйте, [PRIVATE_PERSON]!
Еще раз спасибо за сегодняшнюю встречу. Я хотел бы предоставить обновленный график внедрения на 2-й квартал и подтвердить, что запуск продукта запланирован на [PRIVATE_DATE]. Для справки: файл проекта числится под номером [ACCOUNT_NUMBER]. Если что-то изменится с вашей стороны, можете написать на: [PRIVATE_EMAIL] или позвонить мне по номеру [PRIVATE_PHONE].
С наилучшими пожеланиями,
[PRIVATE_PERSON]
Мы разрабатывали Privacy Filter в несколько этапов.
Сначала мы разработали классификацию конфиденциальности, определяющую типы фрагментов, которые модель должна обнаруживать. Сюда входят персональные идентификаторы, контактные данные, адреса, личные даты, множество различных видов номеров счетов, включая данные кредитных карт и банковскую информацию, а также секретные данные, такие как API-ключи и пароли.
Во-вторых, мы преобразовали предварительно обученную языковую модель в двунаправленный классификатор токенов, заменив голову языкового моделирования на голову классификации токенов и дообучив её с использованием целевой функции классификации с учителем.
В-третьих, мы использовали для обучения смесь общедоступных и синтетических данных, подобранных так, чтобы охватить как реалистичные тексты, так и сложные паттерны, связанные с конфиденциальностью. В тех частях общедоступных данных, где разметка была неполной, мы использовали аннотацию с помощью модели и проверку, чтобы повысить полноту охвата. Мы также сгенерировали синтетические примеры, чтобы повысить разнообразие в форматах, контекстах и подтипах конфиденциальности.
На этапе логического вывода предсказания модели на уровне токенов декодируются в связные фрагменты с использованием процедуры ограниченного декодирования последовательностей. Этот подход сохраняет широкое понимание языка предобученной модели, специализируя её на задачах обнаружения конфиденциальной информации.
Мы оценили Privacy Filter на стандартных бенчмарках, а также на дополнительных синтетических тестах и сценариях в стиле чата, разработанных для проверки более сложных и контекстно-зависимых случаев.
На бенчмарке PII-Masking-300k(открывается в новом окне) Privacy Filter демонстрирует показатель F1-score 96% (точность/precision — 94,04%, полнота/recall — 98,04%). На исправленной версии бенчмарка, учитывающей ошибки в разметке набора данных, выявленные в ходе анализа, показатель F1-score достигает 97,43% (точность — 96,79%, полнота — 98,08%).
Мы также обнаружили, что модель можно адаптировать. Мы также обнаружили, что модель эффективно адаптируется. Дообучение даже на небольшом количестве данных быстро повышает точность в узкоспециализированных задачах: в одном из наших тестов на адаптацию к домену показатель F1 вырос с 54% до 96%, приближаясь к уровню насыщения.
Помимо синтетических тестов, Privacy Filter разработан для практической фильтрации в «зашумленном» реальном тексте. Это включает в себя длинные документы, неоднозначные отсылки, строки смешанного формата и секреты, связанные с программным обеспечением. В карточке модели (открывается в новом окне)также содержатся сведения о целенаправленной оценке обнаружения секретов в кодовых базах и стресс-тестах на многоязычных, состязательных и контекстно-зависимых примерах.
Privacy Filter не является инструментом анонимизации, сертификацией соответствия или заменой проверки политик в ситуациях с высокими рисками. Это лишь один из компонентов в рамках более широкой системы проектирования с учетом конфиденциальности.
Его поведение отражает таксономию меток и границы принятия решений, на которых модель была обучена. Разным организациям могут требоваться различные политики обнаружения или маскирования, и такие политики могут потребовать внутридоменной оценки или дополнительной тонкой настройки. Производительность также может варьироваться в зависимости от языков, систем письма, конвенций об именовании и предметных областей, отличных от обучающей выборки.
Как и все модели, Privacy Filter может ошибаться. Она может пропускать редкие идентификаторы или неоднозначные закрытые ссылки, а также избыточно или недостаточно скрывать сущности при ограниченном контексте, особенно в коротких последовательностях. В областях с высокой степенью чувствительности, таких как юридические, медицинские и финансовые процессы, проверка человеком, а также оценка и донастройка с учетом конкретной предметной области по-прежнему важны.
Мы выпускаем OpenAI Privacy Filter для усиления защиты конфиденциальности во всей экосистеме.
Модель уже сегодня доступна по лицензии Apache 2.0 на Hugging Face(открывается в новом окне) и Github(открывается в новом окне). Она предназначена для экспериментов, кастомизации и коммерческого использования; её можно дообучать под различные распределения данных и политики конфиденциальности.
Наряду с моделью мы предоставляем документацию, охватывающую архитектуру модели, таксономию меток, элементы управления декодированием, предполагаемые сценарии использования, схему оценки и известные ограничения, чтобы команды могли понять как то, с чем модель хорошо справляется, так и то, где её следует использовать с осторожностью.
Защита конфиденциальности систем ИИ требует постоянных усилий в области исследований, проектирования продуктов, оценки и внедрения.
Privacy Filter отражает одно из направлений, которое мы считаем важным: создание компактных и эффективных моделей с передовыми возможностями в узкоспециализированных задачах, имеющих значение для реальных систем ИИ. Мы выпускаем этот инструмент, так как считаем, что инфраструктуру для обеспечения конфиденциальности должно быть проще инспектировать, запускать, адаптировать и улучшать.
Наша цель — чтобы модели изучали мир, а не частных лиц. Privacy Filter помогает сделать это возможным. Privacy Filter делает это возможным.
Мы выпускаем эту предварительную версию Privacy Filter, чтобы получить обратную связь от исследовательского сообщества и экспертов по безопасности, а также для дальнейшей итеративной работы над производительностью модели.


