Представляємо Фільтр конфіденційності OpenAI
Наша передова модель для маскування персональних даних (PII) у тексті
Сьогодні ми випускаємо OpenAI Privacy Filter — модель з відкритими вагами для виявлення та редагування персональної ідентифікуючої інформації (PII) у тексті. Цей реліз є частиною наших ширших зусиль, спрямованих на підтримку стійкішої екосистеми програмного забезпечення шляхом надання розробникам практичної інфраструктури для безпечного створення рішень із використанням ШІ, зокрема інструментів та моделей, які полегшують впровадження надійних засобів захисту конфіденційності та безпеки від самого початку.
Фільтр конфіденційності — це невелика модель із передовими можливостями виявлення персональних даних. Вона створена для високопродуктивних процесів захисту конфіденційності й здатна виявляти PII у неструктурованому тексті з урахуванням контексту. Вона може працювати локально, а це означає, що PII можна маскувати або редагувати без передавання даних за межі вашого пристрою. Вона ефективно обробляє довгі вхідні дані, швидко ухвалюючи рішення про редагування за один прохід.
В OpenAI ми використовуємо точно налаштовану версію Фільтра конфіденційності у власних процесах із захистом конфіденційності. Ми розробили Фільтр конфіденційності, тому що вважаємо: завдяки новітнім можливостям ШІ ми можемо підвищити стандарт конфіденційності понад те, що вже є на ринку. Версія Фільтра конфіденційності, яку ми випускаємо сьогодні, демонструє передові результати на бенчмарку PII-Masking-300k після виправлення проблем анотування, які ми виявили під час оцінювання.
Завдяки цьому випуску розробники можуть запускати Фільтр конфіденційності у власних середовищах, точно налаштовувати його під свої сценарії використання та вбудовувати надійніший захист конфіденційності в процеси навчання, індексування, журналювання й перевірки.
Захист конфіденційності в сучасних системах ШІ залежить не лише від зіставлення шаблонів. Традиційні інструменти виявлення PII часто спираються на детерміновані правила для таких форматів, як номери телефонів і адреси електронної пошти. Вони можуть добре працювати у вузьких сценаріях, але часто не виявляють тонші форми персональної інформації й погано працюють із контекстом.
Фільтр конфіденційності створено з глибшим розумінням мови й контексту для точнішої роботи у складніших сценаріях. Поєднуючи глибоке розуміння мови зі спеціалізованою системою маркування для захисту конфіденційності, він може виявляти ширший спектр PII у неструктурованому тексті, зокрема в тих випадках, коли правильне рішення залежить від контексту. Він краще розрізняє інформацію, яку слід зберегти, тому що вона є публічною, і інформацію, яку слід маскувати або редагувати, тому що вона стосується приватної особи.
У результаті маємо модель, достатньо потужну, щоб забезпечувати передовий рівень фільтрації конфіденційності. Водночас модель достатньо компактна для локального запуску — а це означає, що дані, які ще не пройшли фільтрацію, можуть залишатися на пристрої з меншим ризиком розкриття, замість того щоб їх потрібно було надсилати на сервер для деперсоналізації.
Фільтр конфіденційності — це двобічна модель класифікації токенів із декодуванням фрагментів тексту. Вона починається з попередньо натренованої авторегресивної контрольної точки, а потім адаптується до класифікатора токенів на основі фіксованої таксономії міток конфіденційності. Замість того щоб генерувати текст токен за токеном, вона за один прохід розмічає вхідну послідовність, а потім декодує цілісні фрагменти тексту за допомогою обмеженої процедури Вітербі.
Ця архітектура надає Фільтру конфіденційності кілька корисних властивостей для використання у виробничому середовищі:
- Швидкість та ефективність: усі токени розмічаються за один прямий прохід.
- Урахування контексту: мовне розуміння моделі дає змогу виявляти фрагменти PII на основі навколишнього контексту.
- Довгий контекст: випущена модель підтримує до 128 000 токенів контексту.
- Гнучке налаштування: розробники можуть налаштовувати робочі точки, щоб досягти потрібного балансу між повнотою та точністю залежно від свого процесу.
Випущена модель має 1,5 млрд загальних параметрів, з яких 50 млн — активні.
Фільтр конфіденційності передбачає охоплення восьми категорій:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
Категорія account_number допомагає маскувати широкий спектр номерів рахунків, включно з банківською інформацією, як-от номери кредитних карток і банківських рахунків. Категорія secret допомагає приховувати такі дані, як паролі та API-ключі.
Ці мітки декодуються за допомогою тегів BIOES для текстових фрагментів, що допомагає точніше й цілісніше визначати межі маскування.
Приклад вхідного тексту
Тема: Подальші дії щодо планування на 2-й квартал
Вітаю, Джордане!
Ще раз дякую за сьогоднішню зустріч. Я хотіла уточнити оновлений графік запуску на 2-й квартал і підтвердити, що запуск продукту заплановано на 18 вересня 2026 року. Для довідки: файл проєкту вказано під номером 4829-1037-5581. Якщо у Вас щось зміниться, можете відповісти тут на адресу maya.chen@example.com або зателефонувати мені за номером +1 (415) 555-0124.
З повагою,
Мая Чен
Текст після маскування персональних ідентифікаторів
Тема: Подальші дії щодо планування на 2-й квартал
Вітаю, [PRIVATE_PERSON]!
Ще раз дякую за сьогоднішню зустріч. Я хотіла уточнити оновлений графік запуску на 2-й квартал і підтвердити, що запуск продукту заплановано на [PRIVATE_DATE]. Для довідки: файл проєкту вказано під номером [ACCOUNT_NUMBER]. Якщо у Вас щось зміниться, можете відповісти тут на адресу [PRIVATE_EMAIL] або зателефонувати мені за номером [PRIVATE_PHONE].
З повагою,
[PRIVATE_PERSON]
Ми розробляли Фільтр конфіденційності в кілька етапів.
Спочатку ми створили таксономію конфіденційності, яка визначає типи текстових фрагментів, що їх має виявляти модель. Це охоплює персональні ідентифікатори, контактні дані, адреси, приватні дати, багато різних типів номерів облікових записів, зокрема кредитні та банківські дані, а також секретні дані, як-от ключі API і паролі.
По-друге, ми перетворили попередньо натреновану мовну модель на двонаправлений класифікатор токенів, замінивши голову мовного моделювання на голову класифікації токенів і донавчивши її із застосуванням контрольованої цільової функції класифікації.
По-третє, ми навчалися на поєднанні загальнодоступних і синтетичних даних, розроблених для охоплення як реалістичних текстів, так і складних шаблонів, пов’язаних із конфіденційністю. У тих частинах публічних даних, де мітки були неповними, ми використовували анотування за допомогою моделі та перевірку, щоб покращити охоплення. Ми також створили синтетичні приклади, щоб збільшити різноманітність у різних форматах, контекстах і підтипах конфіденційності.
Під час виконання моделі передбачення на рівні токенів декодуються у зв’язні фрагменти за допомогою декодування послідовностей з обмеженнями. Цей підхід зберігає широке розуміння мови попередньо навченої моделі, водночас спеціалізуючи її для виявлення порушень конфіденційності.
Ми оцінили Фільтр конфіденційності на стандартних бенчмарках, а також у додаткових синтетичних оцінюваннях і тестах у форматі чату, створених для перевірки складніших і більш чутливих до контексту випадків.
На бенчмарку PII-Masking-300k(відкривається у новому вікні) Фільтр конфіденційності досягає F1-показника 96% (94,04% точності та 98,04% повноти). У виправленій версії бенчмарку, яка враховує проблеми з анотуванням у наборі даних, виявлені під час перевірки, F1-показник становить 97,43% (96,79% точності та 98,08% повноти).
Ми також з’ясували, що модель можна ефективно адаптувати. Додаткове навчання навіть на невеликому обсязі даних швидко підвищує точність у завданнях, специфічних для певної предметної області, збільшуючи F1-показник із 54% до 96%, і майже вичерпує потенціал на бенчмарку адаптації до предметної області, який ми оцінювали.
Окрім результатів на бенчмарках, Фільтр конфіденційності створено для практичного захисту конфіденційності в шумному тексті з реального світу. Це охоплює довгі документи, неоднозначні згадки, рядки зі змішаними форматами та секретні дані, пов’язані з програмним забезпеченням. У картці моделі (відкривається у новому вікні)також наведено результати цільового оцінювання виявлення секретних даних у кодових базах і стрес-тестів на багатомовних, змагальних і контекстно залежних прикладах.
Фільтр конфіденційності — це не інструмент анонімізації, не сертифікація відповідності й не заміна перевірці політик у критично важливих сценаріях. Це лише один із компонентів ширшої системи конфіденційності за проєктуванням.
Її поведінка відображає таксономію міток і межі ухвалення рішень, на яких її було навчено. Різні організації можуть потребувати різних політик виявлення або маскування, і ці політики можуть потребувати оцінювання в межах домену або подальшого донавчання. Продуктивність також може різнитися залежно від мов, систем письма, правил найменування та доменів, які відрізняються від розподілу навчальних даних.
Як і всі моделі, Фільтр конфіденційності може помилятися. Він може не виявити рідкісні ідентифікатори або неоднозначні приватні згадки, а також замаскувати забагато або замало сутностей, коли контексту недостатньо, особливо в коротких послідовностях. У сферах із високою чутливістю, як-от юридичні, медичні та фінансові процеси, людська перевірка, а також оцінювання й додаткове навчання з урахуванням предметної області, як і раніше, залишаються важливими.
Ми випускаємо Фільтр конфіденційності OpenAI, щоб посилити захист конфіденційності в усій екосистемі.
Модель доступна відсьогодні за ліцензією Apache 2.0 на Hugging Face(відкривається у новому вікні) і Github(відкривається у новому вікні). Вона призначена для експериментування, налаштування та комерційного розгортання, і її можна додатково навчати для різних розподілів даних і політик конфіденційності.
Разом із моделлю ми надаємо документацію, що охоплює архітектуру моделі, таксономію міток, елементи керування декодуванням, передбачені сценарії використання, схему оцінювання та відомі обмеження, щоб команди могли зрозуміти як те, що модель робить добре, так і те, де її слід застосовувати з обережністю.
Захист конфіденційності для систем ШІ — це безперервна робота, що охоплює дослідження, проєктування продуктів, оцінювання та розгортання.
Фільтр конфіденційності відображає один із напрямів, які ми вважаємо важливими: невеликі, ефективні моделі з передовими можливостями у вузько визначених завданнях, що мають значення для реальних систем ШІ. Ми випускаємо його, тому що вважаємо: інфраструктура, орієнтована на збереження конфіденційності, має бути простішою для перевірки, запуску, адаптації та вдосконалення.
Наша мета полягає в тому, щоб моделі дізнавалися про світ, а не про приватних осіб. Фільтр конфіденційності допомагає зробити це можливим.
Ми випускаємо цю попередню версію Фільтра конфіденційності, щоб отримати відгуки від дослідницької спільноти та спільноти фахівців із конфіденційності й надалі вдосконалювати роботу моделі.


