OpenAI Privacy Filter-пен таныстыру
Мәтіндегі жеке сәйкестендірілетін ақпаратты (PII) жасыруға арналған біздің озық моделіміз
Бүгін біз мәтіндегі жеке сәйкестендірілетін ақпаратты (PII) анықтап, жасыруға арналған ашық салмақты модель — OpenAI Privacy Filter-ді ұсынамыз. Бұл шығарылым AI-ды қауіпсіз қолдануға арналған практикалық инфрақұрылымды әзірлеушілерге ұсыну арқылы неғұрлым төзімді бағдарламалық экожүйені қолдау жөніндегі кеңірек күш-жігеріміздің бір бөлігі, соның ішінде басынан-ақ мықты құпиялылық пен қауіпсіздік қорғанысын енгізуді жеңілдететін құралдар мен модельдерді қамтиды.
Privacy Filter — жеке деректерді анықтаудың озық мүмкіндігі бар шағын модель. Ол жоғары throughput талап етілетін құпиялылық жұмыс үдерістеріне арналған және құрылымдалмаған мәтіндегі PII-ды контексті ескере отырып анықтай алады. Ол жергілікті түрде іске қосыла алады, яғни PII құрылғыңыздан шықпай-ақ жасырылуы немесе өшірілуі мүмкін. Ұзын кірістерді тиімді өңдеп, жасыру туралы шешімді жылдам, бір өтімде қабылдайды.
OpenAI-де біз құпиялылықты сақтайтын өз жұмыс үдерістерімізде Privacy Filter-дің нақты бапталған нұсқасын қолданамыз. Біз Privacy Filter-ді соңғы AI мүмкіндіктерінің арқасында нарықтағы бар деңгейден де жоғары құпиялылық стандартын орната аламыз деп сенгендіктен жасадық. Бүгін шығарып отырған Privacy Filter нұсқасы, бағалау кезінде анықтаған таңбалау мәселелері ескеріліп түзетілгенде, PII-Masking-300k бенчмаркі бойынша озық нәтижеге жетеді.
Осы шығарылым арқылы әзірлеушілер Privacy Filter-ді өз орталарында іске қосып, оны өз қолдану жағдайларына сай нақты баптай алады және оқыту, индекстеу, журналдау және тексеру конвейерлеріне анағұрлым күшті құпиялылық қорғанысын енгізе алады.
Заманауи AI жүйелеріндегі құпиялылықты қорғау тек үлгілерді сәйкестендіруге ғана тәуелді емес. Дәстүрлі PII анықтау құралдары көбіне телефон нөмірлері мен электрондық пошта мекенжайлары сияқты пішімдерге арналған детерминдік ережелерге сүйенеді. Олар тар жағдайларда жақсы жұмыс істеуі мүмкін, бірақ неғұрлым астарлы жеке ақпаратты жиі өткізіп алады және контекстімен жұмыс істеуде қиналады.
Privacy Filter анағұрлым нәзік нәтижеге қол жеткізу үшін тіл мен контексті тереңірек түсінуге негізделіп жасалған. Күшті тілдік түсінуді құпиялылыққа арналған арнайы таңбалау жүйесімен ұштастыра отырып, ол құрылымдалмаған мәтіндегі PII-дың кеңірек ауқымын, соның ішінде дұрыс шешім контекстке тәуелді болатын жағдайларды да анықтай алады. Ол көпшілікке ашық болғандықтан сақталуы тиіс ақпарат пен жеке адамға қатысты болғандықтан жасырылуы немесе өшірілуі тиіс ақпаратты жақсырақ ажырата алады.
Нәтижесінде құпиялылықты сүзудің озық деңгейдегі өнімділігін қамтамасыз етуге жеткілікті күшті модель алынады. Сонымен қатар, модель жергілікті іске қосуға жеткілікті шағын, яғни әлі сүзгіден өтпеген деректер идентификациясыздандыру үшін серверге жіберілудің орнына құрылғыда қала алады және сыртқа шығып кету қаупі азаяды.
Privacy Filter — аралықтарды декодтауы бар екібағытты токендерді сыныптау моделі. Ол авторегрессиялық алдын ала үйретілген чекпойнттан басталып, кейін құпиялылық белгілерінің бекітілген таксономиясы бойынша токен сыныптағышына бейімделеді. Мәтінді токеннен токенге генерациялаудың орнына, ол кіріс тізбегін бір өтімде таңбалайды, содан кейін шектеулі Viterbi процедурасы арқылы тұтас аралықтарды декодтайды.
Бұл архитектура Privacy Filter-ге өндірісте қолдануға пайдалы бірнеше қасиет береді:
- Жылдам және тиімді: барлық токендер бір ғана алға өтімде таңбаланады.
- Контексті ескереді: тілдік априор PII аралықтарын айналадағы контекст негізінде анықтауға мүмкіндік береді.
- Ұзын контекст: шығарылған модель 128 000 токенге дейінгі контексті қолдайды.
- Бапталатын: әзірлеушілер өз жұмыс үдерісіне қарай recall мен precision арасындағы теңгерімді реттеу үшін жұмыс нүктелерін баптай алады.
Шығарылған модельде жалпы 1.5B параметр бар, соның 50M-ы белсенді параметрлер.
Privacy Filter сегіз санат бойынша аралықтарды болжайды:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number санаты несие картасы нөмірлері мен банк шоты нөмірлері сияқты банктік ақпаратты қоса алғанда, шот нөмірлерінің кең түрлерін жасыруға көмектеседі, ал secret құпиясөздер мен API кілттері сияқты нәрселерді жасыруға көмектеседі.
Бұл белгілер BIOES аралық тегтерімен декодталады, бұл жасыру шекараларын тазарақ әрі тұтасырақ етуге көмектеседі.
Кіріс мәтінінің мысалы
Тақырып: Q2 жоспарлау бойынша кейінгі хабарлама
Сәлем, Jordan,
Бүгін ертерек кездескеніңіз үшін тағы да рақмет. Q2 енгізуінің жаңартылған кестесі бойынша хабарласып, өнімнің іске қосылуы 2026 жылғы 18 қыркүйекке жоспарланғанын растағым келді. Анықтама үшін жоба файлы 4829-1037-5581 нөмірімен тіркелген. Егер сіз жақта бірдеңе өзгерсе, осы жерден maya.chen@example.com мекенжайына жауап бере аласыз немесе маған +1 (415) 555-0124 нөмірі арқылы қоңырау шалыңыз.
Құрметпен,
Maya Chen
Жеке идентификаторлар жасырылғаннан кейінгі мәтін
Тақырып: Q2 жоспарлау бойынша кейінгі хабарлама
Сәлем, [PRIVATE_PERSON],
Бүгін ертерек кездескеніңіз үшін тағы да рақмет. Q2 енгізуінің жаңартылған кестесі бойынша хабарласып, өнімнің іске қосылуы [PRIVATE_DATE] күніне жоспарланғанын растағым келді. Анықтама үшін жоба файлы [ACCOUNT_NUMBER] нөмірімен тіркелген. Егер сіз жақта бірдеңе өзгерсе, осы жерден [PRIVATE_EMAIL] мекенжайына жауап бере аласыз немесе маған [PRIVATE_PHONE] нөмірі арқылы қоңырау шалыңыз.
Құрметпен,
[PRIVATE_PERSON]
Біз Privacy Filter-ді бірнеше кезеңде әзірледік.
Алдымен модель анықтауы тиіс аралық түрлерін айқындайтын құпиялылық таксономиясын жасадық. Бұған жеке идентификаторлар, байланыс деректері, мекенжайлар, жеке күндер, несие және банк деректері сияқты әртүрлі шот нөмірлері, сондай-ақ API кілттері мен құпиясөздер сияқты құпиялар кіреді.
Екіншіден, тілдік модельдеу басын токендерді сыныптау басымен ауыстырып, оны қадағаланатын сыныптау мақсаты арқылы кейінгі оқытудан өткізу арқылы алдын ала үйретілген тілдік модельді екібағытты токен сыныптағышына айналдырдық.
Үшіншіден, шынайы мәтінді де, күрделі құпиялылық үлгілерін де қамтуға арналған ашық қолжетімді және синтетикалық деректер қоспасында оқыттық. Ашық деректердің белгілері толық емес бөліктерінде қамтуды жақсарту үшін модель көмегімен аннотациялау мен тексеруді қолдандық. Сондай-ақ пішімдер, контекстер және құпиялылық ішкі түрлері бойынша әртүрлілікті арттыру үшін синтетикалық мысалдар жасадық.
Инференс кезінде модельдің токен деңгейіндегі болжамдары шектеулі тізбекті декодтау арқылы тұтас аралықтарға айналдырылады. Бұл тәсіл алдын ала үйретілген модельдің кең тілдік түсінігін сақтай отырып, оны құпиялылықты анықтауға мамандандырады.
Біз Privacy Filter-ді стандартты бенчмарктерде және неғұрлым қиын, контекстке сезімтал жағдайларды тексеруге арналған қосымша синтетикалық әрі чат стиліндегі бағалауларда бағаладық.
PII-Masking-300k(жаңа терезеде ашылады) бенчмаркі бойынша Privacy Filter F1 көрсеткішінің 96%-ына жетеді (precision 94.04% және recall 98.04%). Тексеру кезінде анықталған деректер жинағын таңбалау мәселелерін ескеретін түзетілген нұсқада F1 көрсеткіші 97.43% болады (precision 96.79% және recall 98.08%).
Сондай-ақ модельді тиімді бейімдеуге болатынын анықтадық. Тіпті аз ғана дерекпен нақты баптау доменге тән тапсырмалардағы дәлдікті жылдам жақсартып, F1 көрсеткішін 54%-дан 96%-ға дейін арттырады және біз бағалаған доменге бейімдеу бенчмаркі бойынша қанығуға жақындайды.
Бенчмарк өнімділігінен бөлек, Privacy Filter шулы, нақты өмірдегі мәтіндегі практикалық құпиялылық сүзгілеуіне арналған. Бұған ұзын құжаттар, екіұшты сілтемелер, аралас пішімді жолдар және бағдарламалық қамтамаға қатысты құпиялар кіреді. модель картасы(жаңа терезеде ашылады) сондай-ақ код қорларындағы құпияларды анықтау бойынша мақсатты бағалауды және көптілді, қарсыластық және контекстке тәуелді мысалдардағы стресс-тесттерді қамтиды.
Privacy Filter — анонимдеу құралы, сәйкестік сертификаты немесе тәуекелі жоғары жағдайларда саясатты шолудың орнын басатын құрал емес. Ол құпиялылықты жобалау кезеңінен ескеретін кеңірек жүйенің бір құрамдасы ғана.
Оның мінез-құлқы өзі оқытылған белгі таксономиясы мен шешім шекараларын көрсетеді. Әртүрлі ұйымдарға әртүрлі анықтау немесе жасыру саясаттары қажет болуы мүмкін, ал ол саясаттар салалық бағалауды немесе қосымша нақты баптауды талап етуі мүмкін. Өнімділік оқыту үлестірімінен ерекшеленетін тілдер, жазулар, атау беру дәстүрлері және домендер бойынша да өзгеруі мүмкін.
Барлық модельдер сияқты, Privacy Filter де қателесуі мүмкін. Ол сирек идентификаторларды немесе екіұшты жеке сілтемелерді өткізіп алуы мүмкін, сондай-ақ контекст шектеулі болғанда, әсіресе қысқа тізбектерде, нысандарды артық не жеткіліксіз жасыруы мүмкін. Құқықтық, медициналық және қаржылық жұмыс үдерістері сияқты жоғары сезімтал домендерде адам тексеруі мен доменге тән бағалау және нақты баптау әлі де маңызды.
Біз экожүйе бойынша құпиялылық қорғанысын күшейтуді қолдау үшін OpenAI Privacy Filter-ді шығарып отырмыз.
Модель бүгін Apache 2.0 лицензиясымен Hugging Face(жаңа терезеде ашылады) және Github(жаңа терезеде ашылады) платформаларында қолжетімді. Ол эксперимент жасауға, бейімдеуге және коммерциялық енгізуге арналған, әрі оны әртүрлі дерек үлестірімдері мен құпиялылық саясаттарына сай нақты баптауға болады.
Модельмен бірге біз модель архитектурасын, белгі таксономиясын, декодтау басқару тетіктерін, мақсатты қолдану жағдайларын, бағалау баптауын және белгілі шектеулерді қамтитын құжаттаманы да бөлісеміз, сондықтан командалар модель нені жақсы орындайтынын да, оны қай жерде абайлап қолдану керегін де түсіне алады.
AI жүйелері үшін құпиялылықты қорғау — зерттеу, өнімді жобалау, бағалау және енгізу бағыттарындағы үздіксіз жұмыс.
Privacy Filter біз маңызды деп санайтын бір бағытты көрсетеді: нақты әлемдегі AI жүйелері үшін маңызды, тар анықталған тапсырмаларда озық мүмкіндігі бар шағын, тиімді модельдер. Біз оны шығарып отырмыз, өйткені құпиялылықты сақтайтын инфрақұрылымды тексеру, іске қосу, бейімдеу және жетілдіру оңайырақ болуы керек деп ойлаймыз.
Біздің мақсатымыз — модельдер әлем туралы үйренсін, жеке адамдар туралы емес. Privacy Filter осыны мүмкін етуге көмектеседі.
Біз Privacy Filter-дің осы алдын ала нұсқасын зерттеу және құпиялылық қауымдастығынан кері байланыс алып, модель өнімділігін одан әрі жетілдіру үшін шығарып отырмыз.


