OpenAI Privacy Filter-ийг танилцуулж байна
Текст дэх хувь хүнийг таних мэдээллийг (PII) халхлах манай өндөр түвшний загвар
Өнөөдөр бид OpenAI Privacy Filter-ийг танилцуулж байна. Энэ нь текст дэх хувь хүнийг таних мэдээллийг (PII) илрүүлж, халхлах нээлттэй жинтэй загвар юм. Энэхүү хувилбар нь AI-г аюулгүй ашиглан бүтээхэд хөгжүүлэгчдэд хэрэгжүүлэхэд хялбар дэд бүтэц өгөх замаар илүү тэсвэртэй програм хангамжийн экосистемийг дэмжих бидний өргөн хүрээний хүчин чармайлтын нэг хэсэг бөгөөд үүнд эхнээс нь хүчтэй нууцлал, аюулгүй байдлын хамгаалалтыг хэрэгжүүлэхэд хялбар болгодог хэрэгслүүд болон загварууд багтана.
Privacy Filter нь хувь хүний өгөгдлийг илрүүлэх хил хязгаар чадвартай жижиг загвар юм. Энэ нь өндөр нэвтрүүлэх чадамжтай нууцлалын урсгалд зориулагдсан бөгөөд бүтэцгүй текст дэх PII-г нөхцөлд тулгуурлан илрүүлэх чадвартай. Үүнийг локал орчинд ажиллуулж болдог тул PII-г таны машинаас гаралгүйгээр халхалж эсвэл дарж болно. Энэ нь урт оролтыг үр ашигтай боловсруулж, халхлах шийдвэрийг хурдан, нэг удаагийн дамжлагаар гаргадаг.
OpenAI-д бид Privacy Filter-ийн нарийн тааруулсан хувилбарыг өөрсдийн нууцлалыг хамгаалсан ажлын урсгалд ашигладаг. Бид хамгийн сүүлийн үеийн AI чадварын тусламжтайгаар зах зээлд байсан түвшнээс давсан нууцлалын стандартыг тогтоож чадна гэж үздэг учраас Privacy Filter-ийг боловсруулсан. Өнөөдөр гаргаж буй Privacy Filter-ийн энэ хувилбар нь үнэлгээний явцад бидний илрүүлсэн тэмдэглэгээний асуудлуудыг засварлан тооцвол PII-Masking-300k жишиг дээр хамгийн өндөр түвшний гүйцэтгэл үзүүлж байна.
Энэхүү хувилбараар хөгжүүлэгчид Privacy Filter-ийг өөрсдийн орчинд ажиллуулж, өөрсдийн хэрэглээний тохиолдолд нарийн тааруулж, сургалт, индексжүүлэлт, лог хөтлөлт болон хяналтын шугамд илүү хүчтэй нууцлалын хамгаалалт бий болгох боломжтой.
Орчин үеийн AI систем дэх нууцлалын хамгаалалт нь зөвхөн хэв шинж тааруулахаас хамаардаггүй. Уламжлалт PII илрүүлэх хэрэгслүүд нь утасны дугаар, и-мэйл хаяг зэрэг форматын тодорхой дүрмүүдэд тулгуурлах нь олонтаа. Тэдгээр нь хязгаарлагдмал тохиолдолд сайн ажиллаж болох ч илүү нарийн хувь хүний мэдээллийг алдах нь элбэг бөгөөд нөхцөл байдлыг ойлгоход бэрхшээлтэй байдаг.
Privacy Filter нь илүү нарийн гүйцэтгэлийн төлөө хэл болон нөхцөл байдлын илүү гүн ойлголттойгоор бүтээгдсэн. Хэлний хүчтэй ойлголтыг нууцлалд тусгайлан зориулсан шошголох системтэй хослуулснаар бүтэцгүй текст дэх илүү өргөн хүрээний PII-г, тэр дундаа зөв шийдвэр нь нөхцөл байдлаас шалтгаалдаг тохиолдлуудыг илрүүлж чадна. Мөн нийтэд нээлттэй тул хадгалах ёстой мэдээлэл болон хувийн хүнд хамаарах тул халхлах эсвэл дарах ёстой мэдээллийг илүү сайн ялгаж чадна.
Үүний үр дүнд хил хязгаар түвшний нууцлалын шүүлтүүрийн гүйцэтгэл үзүүлэхүйц хүчтэй загвар бий болсон. Үүний зэрэгцээ загвар нь локал орчинд ажиллуулахаар хангалттай жижиг тул шүүгдээгүй өгөгдөл нь таних мэдээллийг арилгахын тулд сервер рүү илгээх шаардлагагүйгээр төхөөрөмж дээрээ үлдэж, өртөх эрсдэл багасна.
Privacy Filter нь span decoding-той хоёр чиглэлт токен ангиллын загвар юм. Энэ нь autoregressive урьдчилан сургасан checkpoint-оос эхэлж, дараа нь нууцлалын шошгын тогтмол ангилал дээр токен ангилагч болгон тохируулдаг. Текстийг токен бүрээр үүсгэхийн оронд оролтын дарааллыг нэг дамжлагаар шошголж, дараа нь хязгаарласан Viterbi аргаар уялдаа бүхий span-уудыг тайлдаг.
Энэ архитектур нь үйлдвэрлэлийн хэрэглээнд Privacy Filter-д дараах хэдэн ашигтай шинж өгдөг:
- Хурдан бөгөөд үр ашигтай: бүх токен нэг forward pass-аар шошгологдоно.
- Нөхцөл мэдрэмтгий: хэлний prior нь эргэн тойрны нөхцөлд тулгуурлан PII span-уудыг илрүүлэх боломж олгодог.
- Урт нөхцөл: гаргасан загвар нь 128,000 хүртэл токены нөхцөлийг дэмждэг.
- Тохируулж болохуйц: хөгжүүлэгчид өөрсдийн ажлын урсгалаас хамааран recall ба precision-ийн тэнцвэрийг тааруулахын тулд ажиллагааны цэгүүдийг тохируулж болно.
Гаргасан загвар нь нийт 1.5B параметртэй бөгөөд үүнээс 50M нь идэвхтэй параметр юм.
Privacy Filter нь найман ангилалд span-уудыг таамагладаг:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number ангилал нь кредит картын дугаар, банкны дансны дугаар зэрэг банкны мэдээллийг оролцуулан олон төрлийн дансны дугаарыг халхлахад тусалдаг бол secret нь нууц үг, API key зэрэг зүйлсийг халхлахад тусалдаг.
Эдгээр шошгыг BIOES span tag-аар тайлдаг бөгөөд энэ нь халхлах хил заагийг илүү цэвэр, уялдаатай гаргахад тусалдаг.
Жишээ оролтын текст
Гарчиг: Q2 төлөвлөлтийн дараах тодруулга
Сайн байна уу, Jordan,
Өнөөдөр эрт уулзсанд дахин баярлалаа. Q2 нэвтрүүлэлтийн шинэчилсэн хугацааны хуваарийг дагаж илгээж, бүтээгдэхүүний нээлт 2026 оны 9-р сарын 18-нд товлогдсоныг баталгаажуулахыг хүссэн юм. Лавлагаа болгож, төслийн файл 4829-1037-5581 дугаараар бүртгэлтэй байна. Танай талаас ямар нэг өөрчлөлт гарвал maya.chen@example.com хаягаар энд хариулах эсвэл +1 (415) 555-0124 дугаараар над руу залгаарай.
Хүндэтгэсэн,
Maya Chen
Хувийн таних мэдээллийг халхалсны дараах текст
Гарчиг: Q2 төлөвлөлтийн дараах тодруулга
Сайн байна уу, [PRIVATE_PERSON],
Өнөөдөр эрт уулзсанд дахин баярлалаа. Q2 нэвтрүүлэлтийн шинэчилсэн хугацааны хуваарийг дагаж илгээж, бүтээгдэхүүний нээлт [PRIVATE_DATE]-нд товлогдсоныг баталгаажуулахыг хүссэн юм. Лавлагаа болгож, төслийн файл [ACCOUNT_NUMBER] дугаараар бүртгэлтэй байна. Танай талаас ямар нэг өөрчлөлт гарвал [PRIVATE_EMAIL] хаягаар энд хариулах эсвэл [PRIVATE_PHONE] дугаараар над руу залгаарай.
Хүндэтгэсэн,
[PRIVATE_PERSON]
Бид Privacy Filter-ийг хэд хэдэн үе шаттайгаар боловсруулсан.
Эхлээд загвар ямар төрлийн span-уудыг илрүүлэх ёстойг тодорхойлсон нууцлалын ангиллын тогтолцоог боловсруулсан. Үүнд хувийн танигч, холбоо барих мэдээлэл, хаяг, хувийн огноо, кредит болон банкны мэдээлэл зэрэг олон төрлийн дансны дугаар, мөн API key, нууц үг зэрэг нууцууд багтана.
Хоёрдугаарт, хэлний загварчлалын толгойг токен ангиллын толгойгоор сольж, хяналттай ангиллын зорилтоор post-training хийснээр урьдчилан сургасан хэлний загварыг хоёр чиглэлт токен ангилагч болгон хөрвүүлсэн.
Гуравдугаарт, бодит текст болон хүнд нууцлалын хэв шинжийг хоёуланг нь хамрахаар бүтээгдсэн нийтэд нээлттэй болон синтетик өгөгдлийн холимог дээр сургасан. Нийтийн өгөгдлийн шошго дутуу хэсгүүдэд хамрах хүрээг сайжруулахын тулд загварын тусламжтай тэмдэглэгээ болон хяналтыг ашигласан. Мөн формат, нөхцөл, нууцлалын дэд төрлүүдийн олон янз байдлыг нэмэгдүүлэхийн тулд синтетик жишээнүүд үүсгэсэн.
Inference хийх үед загварын токен түвшний таамаглалуудыг хязгаарласан дараалал тайлалтын аргаар уялдаа бүхий span-ууд болгон тайлдаг. Энэ арга нь урьдчилан сургасан загварын өргөн хэлний ойлголтыг хадгалахын зэрэгцээ түүнийг нууцлал илрүүлэхэд тусгайлан чиглүүлдэг.
Бид Privacy Filter-ийг стандарт жишгүүд дээр, мөн илүү хэцүү, нөхцөлд илүү мэдрэмтгий тохиолдлуудыг шалгахаар боловсруулсан нэмэлт синтетик болон чат хэлбэрийн үнэлгээнүүд дээр үнэлсэн.
PII-Masking-300k(шинэ цонхонд нээгдэнэ) жишиг дээр Privacy Filter нь 96%-ийн F1 оноо (94.04% precision, 98.04% recall) үзүүлдэг. Хяналтын явцад илэрсэн өгөгдлийн тэмдэглэгээний асуудлуудыг тооцсон засварласан хувилбар дээр F1 оноо нь 97.43% (96.79% precision, 98.08% recall) байна.
Мөн загварыг үр ашигтайгаар тохируулж болдгийг бид тогтоосон. Бага хэмжээний өгөгдөл дээр нарийн тааруулахад ч домэйнд тусгай даалгаврын нарийвчлал хурдан сайжирч, F1 оноо 54%-иас 96% хүртэл өссөн бөгөөд бидний үнэлсэн домэйн дасан зохицох жишиг дээр ханалтын түвшинд ойртдог.
Жишиг гүйцэтгэлээс цааш Privacy Filter нь бодит ертөнцийн шуугиантай текстэд практик нууцлалын шүүлт хийхээр бүтээгдсэн. Үүнд урт баримт бичиг, хоёрдмол утгатай ишлэл, холимог форматтай мөрүүд, програм хангамжтай холбоотой нууцууд орно. загварын карт (шинэ цонхонд нээгдэнэ)нь мөн кодын сан дахь secret илрүүлэлт болон олон хэл, дайсагнасан, нөхцөлөөс хамаарах жишээнүүд дээрх stress test-ийн зорилтот үнэлгээг тайлагнадаг.
Privacy Filter нь нэргүйжүүлэх хэрэгсэл, нийцлийн гэрчилгээ, эсвэл өндөр эрсдэлтэй нөхцөл дэх бодлогын хяналтын орлуулагч биш. Энэ нь нууцлалыг анхнаас нь тусгасан илүү өргөн системийн нэг бүрэлдэхүүн хэсэг юм.
Түүний үйлдэл нь сургасан шошгын ангилал болон шийдвэрийн хил заагийг тусгадаг. Өөр өөр байгууллагад өөр өөр илрүүлэх эсвэл халхлах бодлого хэрэгтэй байж болох ба тэдгээр бодлогод тухайн домэйн доторх үнэлгээ эсвэл нэмэлт нарийн тааруулалт шаардлагатай байж болно. Сургалтын тархалтаас ялгаатай хэл, бичиг үсэг, нэрлэх хэв маяг, домэйнуудаар гүйцэтгэл мөн өөр байж болно.
Бүх загварын адил Privacy Filter алдаа гаргаж болно. Энэ нь ховор танигч эсвэл хоёрдмол утгатай хувийн ишлэлийг алдаж болохоос гадна нөхцөл хязгаарлагдмал үед, ялангуяа богино дараалалд, entity-үүдийг хэт их эсвэл дутуу дарж болно. Хууль, эрүүл мэнд, санхүүгийн ажлын урсгал зэрэг өндөр мэдрэмтгий салбарт хүний хяналт, домэйнд тусгай үнэлгээ болон нарийн тааруулалт чухал хэвээр байна.
Бид экосистем даяар илүү хүчтэй нууцлалын хамгаалалтыг дэмжихийн тулд OpenAI Privacy Filter-ийг гаргаж байна.
Загвар нь өнөөдрөөс Hugging Face(шинэ цонхонд нээгдэнэ) болон Github(шинэ цонхонд нээгдэнэ) дээр Apache 2.0 лицензийн дагуу нээлттэй байна. Энэ нь туршилт, өөрчлөн тохируулалт, арилжааны нэвтрүүлэлтэд зориулагдсан бөгөөд өөр өөр өгөгдлийн тархалт, нууцлалын бодлогод тааруулан нарийн тохируулж болно.
Загвартай хамт бид загварын архитектур, шошгын ангилал, тайлалтын удирдлага, зориулагдсан хэрэглээний тохиолдлууд, үнэлгээний тохиргоо, мэдэгдэж буй хязгаарлалтуудыг хамарсан баримтжуулалтыг хуваалцаж байгаа тул багууд загвар юуг сайн хийдэг, мөн хаана болгоомжтой ашиглах ёстойг хоёуланг нь ойлгох боломжтой.
AI системийн нууцлалын хамгаалалт нь судалгаа, бүтээгдэхүүний дизайн, үнэлгээ, нэвтрүүлэлт даяарх тасралтгүй хүчин чармайлт юм.
Privacy Filter нь бидний чухал гэж үздэг нэг чиглэлийг илэрхийлдэг: бодит ертөнцийн AI системд чухал, нарийн тодорхойлогдсон даалгавруудад хил хязгаар чадвартай, жижиг, үр ашигтай загварууд. Бид нууцлалыг хамгаалсан дэд бүтцийг шалгах, ажиллуулах, өөрчлөх, сайжруулахад илүү хялбар байх ёстой гэж үздэг учраас үүнийг гаргаж байна.
Бидний зорилго бол загварууд дэлхийн тухай суралцахаас биш, хувийн хүмүүсийн тухай суралцахаас зайлсхийх явдал юм. Privacy Filter үүнийг боломжтой болгоход тусална.
Бид Privacy Filter-ийн энэ preview-г судалгааны болон нууцлалын нийгэмлэгээс санал хүсэлт авч, загварын гүйцэтгэлийг цаашид сайжруулахын тулд гаргаж байна.


