OpenAI ప్రైవసీ ఫిల్టర్ను పరిచయం చేస్తున్నాం
టెక్స్ట్లో వ్యక్తిగత గుర్తింపు సమాచారం (PII)ను మాస్క్ చేయడానికి మా స్టేట్-ఆఫ్-ది-ఆర్ట్ మోడల్
టెక్స్ట్లోని వ్యక్తిగత గుర్తింపు సమాచారాన్ని (PII) గుర్తించి, దానిని తొలగించడానికి (లేదా దాచడానికి) ఉపయోగపడే 'OpenAI Privacy Filter' అనే ఓపెన్-వెయిట్ మోడల్ను ఈరోజు మేము విడుదల చేస్తున్నాము. ఈ విడుదల, సాధనాలు మరియు మోడల్లు సహా, AIతో సురక్షితంగా నిర్మించడానికి డెవలపర్లకు ఆచరణాత్మక మౌలిక సదుపాయాలను అందించడం ద్వారా, మొదటి నుంచే బలమైన ప్రైవసీ మరియు సెక్యూరిటీ రక్షణలను అమలు చేయడం సులభం చేసే మరింత స్థితిస్థాపకమైన సాఫ్ట్వేర్ ఎకోసిస్టమ్కు మద్దతు ఇవ్వాలనే మా విస్తృత ప్రయత్నంలో భాగం.
Privacy Filter వ్యక్తిగత డేటాను గుర్తించే అత్యాధునిక సామర్థ్యం కలిగిన ఒక చిన్న మోడల్. ఇది అధిక-థ్రూపుట్ గోప్యతా వర్క్ఫ్లోల కోసం రూపొందించబడింది మరియు అసంఘటిత టెక్స్ట్లో PIIని సందర్భానుసారంగా గుర్తించగల సామర్థ్యాన్ని కలిగి ఉంటుంది. ఇది లోకల్గా రన్ అవుతుంది, అంటే మీ డివైస్ నుండి బయటకు వెళ్లకుండా PIIను మాస్క్ చేయవచ్చు లేదా తొలగించవచ్చు. ఇది పొడవైన ఇన్పుట్లను సమర్థవంతంగా ప్రాసెస్ చేస్తూ, ఒకే వేగవంతమైన పాస్లో రిడాక్షన్ నిర్ణయాలను తీసుకుంటుంది.
OpenAI వద్ద, మేము మా స్వంత గోప్యతను పరిరక్షించే వర్క్ఫ్లోలలో Privacy Filter యొక్క ఫైన్-ట్యూన్ చేసిన వెర్షన్ను ఉపయోగిస్తాము. తాజా AI సామర్థ్యాలతో, మార్కెట్లో ఇప్పటికే ఉన్నదానికంటే గోప్యతకు మరింత ఉన్నత ప్రమాణాన్ని నెలకొల్పగలమని మేము నమ్ముతున్నందున మేము Privacy Filterను అభివృద్ధి చేశాము. ఈ రోజు మేము విడుదల చేస్తున్న Privacy Filter వెర్షన్, మూల్యాంకనం సమయంలో మేము గుర్తించిన అనోటేషన్ సమస్యలను సరిదిద్దినప్పుడు, PII-Masking-300k బెంచ్మార్క్పై అత్యాధునిక పనితీరును సాధించింది.
ఈ విడుదలతో, డెవలపర్లు తమ స్వంత ఎన్విరాన్మెంట్స్లో Privacy Filterను రన్ చేయవచ్చు, తమ యూజ్కేస్లకు అనుగుణంగా దాన్ని ఫైన్-ట్యూన్ చేయవచ్చు, అలాగే ట్రైనింగ్, ఇండెక్సింగ్, లాగింగ్, మరియు రివ్యూ పైప్లైన్లలో మరింత బలమైన గోప్యతా రక్షణలను నిర్మించవచ్చు.
ఆధునిక AI వ్యవస్థల్లో గోప్యత రక్షణ కేవలం ప్యాటర్న్ మ్యాచింగ్పైనే ఆధారపడదు. సాంప్రదాయ PII గుర్తింపు పరికరాలు తరచుగా ఫోన్ నంబర్లు మరియు ఇమెయిల్ అడ్రస్ల వంటి ఫార్మాట్ల కోసం నిర్దిష్ట నియమాలపైన ఆధారపడతాయి. అవి పరిమిత సందర్భాల్లో బాగా పనిచేయగలవు, కానీ తరచుగా మరింత సూక్ష్మమైన వ్యక్తిగత సమాచారాన్ని గుర్తించడంలో విఫలమవుతాయి మరియు సందర్భాన్ని అర్థం చేసుకోవడంలో ఇబ్బంది పడతాయి.
ప్రైవసీ ఫిల్టర్ మరింత సూక్ష్మమైన పనితీరు కోసం లోతైన భాషా మరియు సందర్భ అవగాహనతో రూపొందించబడింది. బలమైన భాషా అవగాహనను గోప్యత-నిర్దిష్ట లేబెలింగ్ సిస్టమ్తో కలిపి, ఇది అన్స్ట్రక్చర్డ్ టెక్స్ట్లో విస్తృత శ్రేణి PIIని గుర్తించగలదు, అందులో సరైన నిర్ణయం సందర్భంపైన ఆధారపడే సందర్భాలు కూడా ఉన్నాయి. ఇది పబ్లిక్ సమాచారం కాబట్టి భద్రపరచాల్సిన వివరాలకు, మరియు ఒక వ్యక్తిగత వ్యక్తికి సంబంధించినవి కాబట్టి మాస్కింగ్ (లేదా తొలగించాల్సిన) చేయవలసిన వివరాలకు మధ్య ఉన్న తేడాను మరింత మెరుగ్గా గుర్తించగలదు.
ఫలితంగా, అత్యాధునిక స్థాయి గోప్యతా ఫిల్టరింగ్ పనితీరును అందించగలిగేంత బలంగా ఉన్న ఒక మోడల్ లభించింది. అదే సమయంలో, ఈ మోడల్ లోకల్లీ రన్ చేయగలిగేంత చిన్నదిగా కూడా ఉంటుంది—అంటే, ఇంకా ఫిల్టర్ చేయబడని డేటాను గుర్తింపును తొలగించడానికి సర్వర్కు పంపాల్సిన అవసరం లేకుండా, అది బహిర్గతమయ్యే ప్రమాదం తక్కువగా ఉండేలా డివైస్పైనే ఉంచవచ్చు.
Privacy Filter అనేది స్పాన్ డీకోడింగ్తో కూడిన ద్విదిశాత్మక టోకెన్-వర్గీకరణ మోడల్. ఇది ఆటోరెగ్రెసివ్ ప్రీట్రెయిన్ చేసిన చెక్పాయింట్తో ప్రారంభమై, ఆపై గోప్యతా లేబుల్ల స్థిర వర్గీకరణపై టోకెన్ క్లాసిఫైయర్గా అనుకూలీకరించబడుతుంది. టెక్స్ట్ను టోకెన్ వారీగా రూపొందించడం బదులుగా, ఇది ఒకే పాస్లో ఇన్పుట్ సీక్వెన్స్కు లేబుల్లు కేటాయించి, తరువాత పరిమిత Viterbi విధానంతో పొందికైన స్పాన్లను డీకోడ్ చేస్తుంది.
ఈ ఆర్కిటెక్చర్ ప్రొడక్షన్లో ఉపయోగించడానికి Privacy Filter కు కొన్ని ఉపయోగకరమైన లక్షణాలను అందిస్తుంది:
- వేగవంతమైన మరియు సమర్థవంతమైన: అన్ని టోకెన్లు ఒకే ఫార్వర్డ్ పాస్లో లేబుల్ చేయబడతాయి.
- సందర్భాన్ని గుర్తించగలదు: భాషా ప్రైయర్ వల్ల PII స్పాన్లను చుట్టుపక్కల సందర్భాన్ని బట్టి గుర్తించవచ్చు.
- లాంగ్-కాంటెక్స్ట్: విడుదల చేసిన మోడల్ 128,000 టోకెన్ వరకు కాంటెక్స్ట్కు మద్దతు ఇస్తుంది.
- కాన్ఫిగర్ చేయదగినది: డెవలపర్లు తమ వర్క్ఫ్లోను బట్టి రీకాల్ మరియు ప్రెసిషన్ మధ్య సమతుల్యం చేసుకునేలా ఆపరేటింగ్ పాయింట్లను సర్దుబాటు చేయవచ్చు.
విడుదల చేసిన మోడల్లో మొత్తం 1.5B పారామీటర్లు ఉన్నాయి, వాటిలో 50M యాక్టివ్ పారామీటర్లు.
ప్రైవసీ ఫిల్టర్ ఎనిమిది వర్గాల్లోని విభాగాలను అంచనా వేస్తుంది:
ప్రైవేట్_వ్యక్తివ్యక్తిగత_చిరునామాprivate_emailవ్యక్తిగత_ఫోన్private_urlprivate_dateఖాతా_సంఖ్యరహస్యం
account_number కేటగిరీ విస్తృత శ్రేణి ఖాతా సంఖ్యలను మాస్క్ చేయడంలో సహాయపడుతుంది, ఇందులో బ్యాంకింగ్ సమాచారం, క్రెడిట్ కార్డ్ నంబర్లు మరియు బ్యాంక్ ఖాతా నంబర్లు కూడా ఉన్నాయి, secret పాస్వర్డ్లు మరియు API కీలు వంటి వాటిని మాస్క్ చేయడంలో సహాయపడుతుంది.
ఈ లేబల్స్ BIOES స్పాన్ ట్యాగ్లను ఉపయోగించి డీకోడ్ చేయబడతాయి, ఇది మరింత శుభ్రమైన మరియు సుసంబద్ధమైన మాస్కింగ్ సరిహద్దులను ఉత్పత్తి చేయడంలో సహాయపడుతుంది.
ఉదాహరణ ఇన్పుట్ పాఠ్యం
విషయం: Q2 ప్రణాళిక తదుపరి చర్య
హాయ్ జోర్డాన్,
ఈ రోజు ముందుగానే కలిసినందుకు మళ్లీ ధన్యవాదాలు. Q2 రోల్అవుట్ కోసం సవరించిన టైమ్లైన్ను పంచుకోవాలని అనుకున్నాను మరియు ప్రోడక్ట్ లాంచ్ సెప్టెంబర్ 18, 2026కి షెడ్యూల్ చేయబడిందని నిర్ధారించడానికి. సూచన కోసం, ప్రాజెక్ట్ ఫైల్ 4829-1037-5581 కింద జాబితా చేయబడింది. మీ వైపు ఏదైనా మారితే, స్వేచ్ఛగా ఇక్కడే maya.chen@example.com కు ప్రత్యుత్తరం ఇవ్వండి లేదా +1 (415) 555-0124 కు నాకు కాల్ చేయండి.
ఉత్తమంగా,
మాయా చెన్
వ్యక్తిగత గుర్తింపు వివరాలను మాస్కింగ్ (దాచిపెట్టిన) చేసిన తర్వాత పాఠ్యం.
విషయం: Q2 ప్రణాళిక తదుపరి చర్య
హాయ్ [PRIVATE_PERSON],
ఈ రోజు ముందుగా కలిసినందుకు మళ్లీ ధన్యవాదాలు. Q2 విడుదల ప్రక్రియకు సంబంధించిన సవరించిన టైమ్లైన్పై తదుపరి సమాచారం అందించాలనుకున్నాను, అలాగే ప్రోడక్ట్ లాంచ్ [PRIVATE_DATE]కు షెడ్యూల్ చేయబడిందని నిర్ధారించాలనుకుంటున్నాను. సూచన కోసం, ప్రాజెక్ట్ ఫైల్ [ACCOUNT_NUMBER] కింద జాబితా చేయబడింది. మీ వైపు ఏమైనా మారితే, ఇక్కడ [PRIVATE_EMAIL] కు స్వేచ్ఛగా ప్రత్యుత్తరం ఇవ్వండి లేదా నాకు [PRIVATE_PHONE] వద్ద కాల్ చేయండి.
శుభాకాంక్షలతో,
[వ్యక్తిగత వ్యక్తి]
మేము ప్రైవసీ ఫిల్టర్ను అనేక దశల్లో అభివృద్ధి చేసాము.
మొదట, మోడల్ గుర్తించాల్సిన స్పాన్ల రకాలను నిర్వచించే ప్రైవసీ వర్గీకరణను మేము రూపొందించాము. ఇందులో వ్యక్తిగత గుర్తింపు వివరాలు, సంప్రదింపు వివరాలు, చిరునామాలు, వ్యక్తిగత తేదీలు, క్రెడిట్ మరియు బ్యాంకింగ్ సమాచారంలాంటి అనేక రకాల ఖాతా సంఖ్యలు, అలాగే API కీలు మరియు పాస్వర్డ్ల వంటి రహస్యాలు ఉన్నాయి.
రెండవదిగా, లాంగ్వేజ్ మోడలింగ్ హెడ్ను టోకెన్-క్లాసిఫికేషన్ హెడ్తో భర్తీ చేసి, పర్యవేక్షిత వర్గీకరణ లక్ష్యంతో దానికి పోస్ట్-ట్రైనింగ్ ఇవ్వడం ద్వారా, ముందుగా శిక్షణ పొందిన లాంగ్వేజ్ మోడల్ను మేము ద్విముఖ టోకెన్ క్లాసిఫైయర్గా మార్చాము.
మూడవదిగా, వాస్తవిక టెక్ట్స్తో పాటు క్లిష్టమైన ప్రైవసీ ప్యాటర్న్లను కూడా ప్రతిబింబించేలా రూపొందించిన పబ్లిక్గా అందుబాటులో ఉన్న మరియు సింథటిక్ డేటా మిశ్రమంపై మేము శిక్షణ ఇచ్చాము. పబ్లిక్ డేటాలో లేబుళ్లు అసంపూర్ణంగా ఉన్న భాగాల్లో, కవరేజ్ను మెరుగుపరచడానికి మేము మోడల్-సహాయంతో చేసిన అనోటేషన్ మరియు సమీక్షను ఉపయోగించాము. ఫార్మాట్లు, సందర్భాలు, మరియు గోప్యత ఉపరకాలు అంతటా వైవిధ్యాన్ని పెంచడానికి మేము సింథటిక్ ఉదాహరణలను కూడా రూపొందించాము.
ఇన్ఫరెన్స్ సమయంలో, మోడల్ యొక్క టోకెన్-స్థాయి అంచనాలు నియంత్రిత సీక్వెన్స్ డీకోడింగ్ను ఉపయోగించి సుసంబద్ధమైన స్పాన్లుగా డీకోడ్ చేయబడతాయి. ఈ విధానం ముందుగా శిక్షణ పొందిన మోడల్ యొక్క విస్తృతమైన భాషా అవగాహనను నిలుపుకుంటూనే, దాన్ని గోప్యత గుర్తింపుకు ప్రత్యేకంగా తీర్చిదిద్దుతుంది.
మేము Privacy Filterను ప్రామాణిక బెంచ్మార్క్లపై మరియు మరింత క్లిష్టమైన, సందర్భానికి మరింత సున్నితమైన సందర్భాలను పరీక్షించడానికి రూపొందించిన అదనపు సింథటిక్ మరియు చాట్-శైలి మూల్యాంకనాలపై మూల్యాంకనం చేశాము.
PII-Masking-300k(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్మార్క్లో, Privacy Filter 96% F1 స్కోర్ను సాధించింది (94.04% ప్రెసిషన్ మరియు 98.04% రీకాల్). సమీక్ష సమయంలో గుర్తించిన డేటాసెట్ అనోటేషన్ సమస్యలను పరిగణనలోకి తీసుకున్న బెంచ్మార్క్ యొక్క సరిచేసిన వెర్షన్లో, F1 స్కోర్ 97.43% (96.79% ప్రెసిషన్ మరియు 98.08% రీకాల్).
మోడల్ను సమర్థవంతంగా అనుకూలీకరించవచ్చని కూడా మేము కనుగొన్నాము. చిన్న పరిమాణంలోని డేటాపై కూడా ఫైన్-ట్యూనింగ్ చేయడం వల్ల డొమైన్-నిర్దిష్ట పనులపై ఖచ్చితత్వం త్వరగా మెరుగుపడుతుంది, F1 స్కోర్ను 54% నుండి 96% వరకు పెంచుతుంది, మరియు మేము మూల్యాంకనం చేసిన డొమైన్-అడాప్షన్ బెంచ్మార్క్పై సంతృప్తి స్థాయికి చేరువవుతుంది.
బెంచ్మార్క్ పనితీరుకు మించి, నాయిస్తో కూడిన వాస్తవ ప్రపంచ టెక్స్ట్లో ఆచరణాత్మక గోప్యతా ఫిల్టరింగ్ కోసం Privacy Filter రూపొందించబడింది. అందులో పొడవైన డాక్యుమెంట్లు, అస్పష్టమైన రిఫరెన్స్లు, మిశ్రమ-ఫార్మాట్ స్ట్రింగ్లు, మరియు సాఫ్ట్వేర్కు సంబంధించిన సీక్రెట్లు ఉన్నాయి. మోడల్ కార్డ్ (కొత్త విండోలో తెరుచుకుంటుంది)కూడా కోడ్బేస్లలో రహస్య గుర్తింపుపై లక్ష్యిత మూల్యాంకనం మరియు బహుభాషా, అడ్వెర్సేరియల్, మరియు సందర్భానుసార ఉదాహరణలపై స్ట్రెస్ టెస్టులను నివేదిస్తుంది.
Privacy Filter అనేది అనామకీకరణ సాధనం కాదు, కంప్లయెన్స్ సర్టిఫికేషన్ కాదు, లేదా అత్యంత ప్రాముఖ్యత కలిగిన సందర్భాల్లో పాలసీ సమీక్షకు ప్రత్యామ్నాయం కాదు. ఇది విస్తృతమైన డిజైన్ ద్వారా గోప్యతా వ్యవస్థలో ఒక భాగం.
దాని ప్రవర్తన దీనికి శిక్షణ ఇచ్చిన లేబుల్ వర్గీకరణ మరియు నిర్ణయ సరిహద్దులను ప్రతిబింబిస్తుంది. వేర్వేరు సంస్థలు వేర్వేరు గుర్తింపు లేదా మాస్కింగ్ విధానాలను కోరుకోవచ్చు, మరియు ఆ విధానాలకు డొమైన్-నిర్దిష్ట మూల్యాంకనం లేదా మరింత ఫైన్-ట్యూనింగ్ అవసరం కావచ్చు. శిక్షణ పంపిణికి భిన్నంగా ఉండే భాషలు, లిపులు, పేరుపెట్టే సంప్రదాయాలు మరియు డొమైన్ల అంతటా కూడా పనితీరు మారవచ్చు.
అన్ని మోడల్ మాదిరిగానే, Privacy Filter తప్పులు చేయగలదు. ఇది అసాధారణమైన గుర్తింపుదారులు లేదా అస్పష్టమైన ప్రైవేట్ సూచనలను గుర్తించకుండా మిస్ కావచ్చు, అలాగే సందర్భం పరిమితంగా ఉన్నప్పుడు, ముఖ్యంగా చిన్న సీక్వెన్స్లలో, ఎంటిటీలను అవసరానికి మించి లేదా తక్కువగా దాచవచ్చు. చట్టపరమైన, వైద్య మరియు ఆర్థిక రంగాల వంటి అత్యంత సున్నితమైన విభాగాలలో, మానవ పర్యవేక్షణ తో పాటు ఆయా రంగాలకు అనుగుణంగా విశ్లేషించడం మరియు మోడల్ను మెరుగుపరచడం (Fine-tuning) ఇప్పటికీ చాలా ముఖ్యం.
మొత్తం ఎకోసిస్టమ్ అంతటా మరింత బలమైన గోప్యతా రక్షణలకు మద్దతు ఇవ్వడానికి మేము OpenAI ప్రైవసీ ఫిల్టర్ను విడుదల చేస్తున్నాము.
మోడల్ ఈరోజు Apache 2.0 లైసెన్స్ కింద Hugging Face(కొత్త విండోలో తెరుచుకుంటుంది) మరియు Github(కొత్త విండోలో తెరుచుకుంటుంది)లో అందుబాటులో ఉంది. ఇది ప్రయోగాలు, అనుకూలీకరణ, మరియు వాణిజ్య వినియోగం కోసం అమలు చేయడానికి ఉద్దేశించబడింది, అలాగే వివిధ డేటా పంపిణీలు మరియు ప్రైవసీ పాలసీల కోసం దీనిని ఫైన్-ట్యూన్ చేయవచ్చు.
మోడల్తో పాటు, మోడల్ ఆర్కిటెక్చర్, లేబుల్ టాక్సానమీ, డీకోడింగ్ నియంత్రణలు, ఉద్దేశించిన వినియోగ సందర్భాలు, మూల్యాంకన సెటప్, మరియు తెలిసిన పరిమితులను కవర్ చేసే డాక్యుమెంటేషన్ను కూడా మేము పంచుకుంటున్నాము, తద్వారా టీమ్లు మోడల్ ఏ విషయాల్లో బాగా పనిచేస్తుందో మరియు ఎక్కడ దాన్ని జాగ్రత్తగా ఉపయోగించాలో రెండింటినీ అర్థం చేసుకోగలుగుతాయి.
AI వ్యవస్థల కోసం గోప్యత పరిరక్షణ అనేది పరిశోధన, ఉత్పత్తి రూపకల్పన, మూల్యాంకనం మరియు అమలు అంతటా కొనసాగుతున్న ప్రయత్నం.
ప్రైవసీ ఫిల్టర్ ఒక దిశగా మేము నమ్ముతున్న ఒక ముఖ్యమైన దిశను ప్రతిబింబిస్తుంది: రియల్-వరల్డ్ AI సిస్టమ్స్కు అవసరమైన కొన్ని నిర్దిష్ట పనుల్లో అత్యాధునిక సామర్థ్యం కలిగిన చిన్న మరియు సమర్థవంతమైన మోడళ్లను రూపొందించడం ముఖ్యం. గోప్యతను పరిరక్షించే ఇన్ఫ్రాస్ట్రక్చర్ను పరిశీలించడం, నడపడం, అనుకూలీకరించడం, మరియు మెరుగుపరచడం సులభంగా ఉండాలని మేము భావిస్తున్నందున దీనిని విడుదల చేస్తున్నాము.
మోడల్ ప్రపంచం గురించి నేర్చుకోవడం మా లక్ష్యం, ప్రైవేట్ వ్యక్తుల గురించి కాదు. ప్రైవసీ ఫిల్టర్ అది సాధ్యమయ్యేలా చేయడంలో సహాయపడుతుంది.
మేము Privacy Filter యొక్క ఈ ప్రివ్యూ విడుదల చేస్తున్నాము, రీసెర్చ్ మరియు ప్రైవసీ కమ్యూనిటీ నుంచి ఫీడ్బ్యాక్ పొందేందుకు, అలాగే మోడల్ పనితీరును ఇంకా మెరుగుపరచడానికి.


