Днес пускаме OpenAI Privacy Filter, модел с отворено тегло за откриване и заличаване на лична идентифицираща информация (PII) в текстове. Този модел е част от по-широките ни усилия за подкрепа на по-устойчива софтуерна екосистема, като предоставяме на разработчиците практична инфраструктура за безопасно разработване с изкуствен интелект, включително инструменти и модели, които улесняват прилагането на надеждни мерки за поверителност и сигурност още от самото начало.
Privacy Filter е лек модел с авангардна способност за откриване на лични данни. Той е проектиран за работни процеси за поверителност с висока производителност и е способен да извършва контекстно-ориентирано откриване на PII в неструктуриран текст. Може да работи локално, което означава, че PII може да бъде маскирана или редактирана, без да напуска Вашето устройство. Обработва дълги входни данни ефективно, като взема решения за заличаване с едно бързо преминаване.
В OpenAI използваме прецизно настроена версия на Privacy Filter в нашите собствени работни процеси за запазване на поверителността. Създадохме Privacy Filter, защото вярваме, че с най-новите възможности на изкуствения интелект можем да повишим стандарта за поверителност над това, което вече се предлага на пазара. Версията на Privacy Filter, която пускаме днес, постига най-съвременна производителност по еталона PII-Masking-300k, след като коригирахме проблемите с анотациите, които идентифицирахме по време на оценяването на модела.
С тази версия разработчиците могат да изпълняват Privacy Filter в собствените си среди, да го настройват прецизно за своите случаи на използване и да изграждат по-силни защити на поверителността в процесите по обучение, индексиране, регистриране и преглед.
Защитата на поверителността в съвременните системи с изкуствен интелект вече не зависи само от простото съпоставяне на модели. Традиционните инструменти за откриване на PII често разчитат на детерминистични правила за формати като телефонни номера и имейл адреси. Те могат да работят добре при ограничени случаи, но често пропускат по-фина лична информация и се затрудняват с контекста.
Privacy Filter е създаден с по-задълбочено разбиране на езика и контекста за по-нюансирана работа. Чрез съчетаване на задълбочено разбиране на езика със система за етикетиране, специфична за поверителността, той може да открива по-широк спектър от PII в неструктуриран текст, включително случаи, в които правилното решение зависи от контекста. Той може да различава по-добре публичната информация, която трябва да бъде запазена, от тази, която трябва да бъде маскирана или заличена, защото се отнася до частно лице.
Резултатът е модел, който е достатъчно мощен, за да осигури филтриране на личните данни на най-високо ниво. В същото време моделът е достатъчно компактен, за да се изпълнява локално – което означава, че данните, които все още не са филтрирани, могат да останат на устройството с по-малък риск от разкриване, вместо да се изпращат към сървър за деидентификация.
Privacy Filter е двупосочен модел за класифициране на токени с декодиране на сегменти. Той започва от контролна точка на предварително обучен авторегресивен модел и след това се адаптира като класификатор на токени въз основа на фиксирана таксономия от етикети за поверителност. Вместо да генерира текст токен по токен, той етикетира входящата последователност с едно преминаване и след това декодира съгласувани сегменти чрез ограничена процедура на Витерби.
Тази архитектура предоставя на Privacy Filter няколко полезни свойства за използване в продукционна среда:
- Бърз и ефективен: всички токени се етикетират с едно единствено преминаване напред.
- Съобразен с контекста: езиковият приор позволява откриването на сегменти с PII въз основа на контекста около тях.
- Дълъг контекст: разработеният модел поддържа контекст до 128 000.
- Конфигурируем: разработчиците могат да настройват работните точки, за да балансират между обхват и прецизност в зависимост от работния си процес.
Стартираният модел има общо 1,5 милиарда параметъра, 50 милиона от които са активни.
Privacy Filter предсказва сегменти в осем категории:
private_person (частно лице)private_address (личен адрес)private_email (личен имейл адрес)private_phone (личен телефонен номер)private_url (личен URL адрес)private_date (лична дата)account_number (номер на сметка)secret (секретни данни)
Категорията „account_number“ помага за маскирането на широк набор от номера на сметки, включително банкова информация, като номера на кредитни карти и банкови сметки, докато „secret“ се използва за маскиране на данни, като пароли и API ключове.
Тези етикети се декодират с BIOES тагове на сегменти, което помага за създаването на по-чисти и по-съгласувани граници на маскиране.
Примерен входен текст
Относно: Последващи действия по планирането за второто тримесечие
Здравей, Джордан,
Още веднъж благодаря за срещата ни по-рано днес. Бих искала да изпратя допълнителна информация относно актуализирания график за внедряването през второто тримесечие и да потвърдя, че пускането на продукта е насрочено за 18.09.2026 г. За справка, файлът на проекта е посочен под номер 4829-1037-5581. Ако има някаква промяна от твоя страна, ще помоля за отговор тук на: maya.chen@example.com или по телефона на: (+1) 415 555 0124.
Поздрави,
Мая Чен
Текст след маскиране на личните идентификатори
Относно: Последващи действия по планирането за второто тримесечие
Здравей, [PRIVATE_PERSON],
Още веднъж благодаря за срещата ни по-рано днес. Бих искала да изпратя допълнителна информация относно актуализирания график за внедряването през второто тримесечие и да потвърдя, че пускането на продукта е насрочено за [PRIVATE_DATE]. За справка, файлът на проекта е посочен под номер [ACCOUNT_NUMBER]. Ако има някаква промяна от твоя страна, ще помоля за отговор тук на: [PRIVATE_EMAIL] или по телефона на: [PRIVATE_PHONE].
Поздрави,
[PRIVATE_PERSON]
Разработихме Privacy Filter на няколко етапа.
Първо, създадохме таксономия за поверителност, която дефинира видовете текстови сегменти, които моделът трябва да разпознава. Това включва лични идентификатори, данни за контакт, адреси, лични дати, различни видове номера на сметки, като данни за кредитни карти и банкова информация, както и секретни данни, като API ключове и пароли.
Второ, преобразувахме предварително обучен езиков модел в двупосочен класификатор на токени, като заменихме модула за езиково моделиране с модул за класификация на токени и го обучихме допълнително с целева функция за контролирана класификация.
Трето, обучихме модела върху комбинация от публично достъпни и синтетични данни, предназначени да обхванат както реалистичен текст, така и сложни модели, свързани с поверителността. В части от публичните данни с непълни етикети използвахме анотиране и преглед с помощта на модел , за да подобрим обхвата. Също така генерирахме синтетични примери, за да увеличим разнообразието по отношение на формати, контексти и подтипове на поверителност.
По време на извличането на заключения прогнозите на модела на ниво токен се декодират в съгласувани сегменти чрез декодиране на ограничени последователности. Този подход запазва широкото езиково разбиране на предварително обучения модел, като същевременно го специализира за откриване на нарушения на поверителността.
Оценихме Privacy Filter по стандартни еталони и чрез допълнителни синтетични и чат-стил оценки, предназначени да тестват по-трудни и по-чувствителни към контекста случаи.
В еталона PII-Masking-300k(отваря се в нов прозорец) Privacy Filter постига F1 резултат от 96% (94,04% прецизност и 98,04% пълнота). В коригираната версия на еталона, която отчита проблеми с анотирането на набора от данни, идентифицирани по време на прегледа, F1 резултатът е 97,43% (96,79% прецизност и 98,08% пълнота).
Също така установихме, че моделът може да бъде адаптиран ефективно. Финото настройване дори на малък обем данни бързо подобрява точността при специфични за дадена област задачи, като увеличава F1 резултата от 54% на 96% и се доближава до насищане при еталона за адаптация към областта, който оценихме.
Отвъд производителността по еталонни тестове, Privacy Filter е проектиран за практическо филтриране на лични данни в шумен, реален текст. Това включва дълги документи, двусмислени препратки, низове със смесен формат и секретни ключове, свързани със софтуер. Картата на модела (отваря се в нов прозорец)представя и целенасочена оценка на откриването на секретни данни в кодови бази и стрес тестове в многоезични, противопоставящи се и зависими от контекста примери.
Privacy Filter не е инструмент за анонимизиране, сертификация за съответствие или заместител на прегледа на политики в среди с висок залог. Той е компонент в по-широка система за защита на поверителността още при проектирането.
Поведението му отразява таксономията на етикетите и границите на вземане на решения, върху които е обучен. Различните организации могат да поискат прилагането на различни политики за откриване или маскиране, като тези политики могат да изискват оценка в съответната област или допълнително прецизиране. Производителността също може да варира в зависимост от езиците, азбуките, конвенциите за именуване и домейните, които се различават от разпределението при обучението на модела.
Както всички модели, Privacy Filter може да допуска грешки. Може да пропусне необичайни идентификатори или двусмислени лични препратки и да редактира прекомерно или недостатъчно елементи, когато контекстът е ограничен, особено в кратки последователности. В силно чувствителни области, като правни, медицински и финансови работни процеси, човешкият преглед и специфичното за дадената област оценяване и фина настройка продължават да бъдат важни.
Стартираме OpenAI Privacy Filter, за да подкрепим по-силната защита на поверителността в цялата екосистема.
Моделът е достъпен от днес под лиценза Apache 2.0 на Hugging Face(отваря се в нов прозорец) и Github(отваря се в нов прозорец). Предназначен е за експериментиране, персонализиране и комерсиално внедряване и може да бъде фино настроен за различни разпределения на данни и политики за поверителност.
Заедно с модела споделяме документация, обхващаща архитектурата на модела, таксономията на етикетите, контролите за декодиране, предвидените случаи на използване, настройките за оценяване и известните ограничения, така че екипите да могат да разберат както в какво моделът се справя добре, така и къде трябва да се използва с повишено внимание.
Защитата на поверителността за системите с изкуствен интелект е непрекъснат процес в областта на научните изследвания, продуктовия дизайн, оценката и внедряването.
Privacy Filter отразява важна за нас посока: малки, ефективни модели с авангардни възможности за тясно дефинирани задачи, които са от значение за реалните системи с изкуствен интелект. Пускаме го, защото вярваме, че инфраструктурата за защита на поверителността трябва да бъде по-лесна за проверка, използване, адаптиране и подобряване.
Нашата цел е моделите да научават за света, а не за конкретни лица. Privacy Filter помага това да стане възможно.
Пускаме този версия за предварителен преглед на Privacy Filter, за да получим обратна връзка от научната общност и общността в областта на поверителността и да продължим да усъвършенстваме производителността на модела.


