ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

OpenAI ప్రైవసీ ఫిల్టర్‌ను పరిచయం చేస్తున్నాం

టెక్స్ట్‌లో వ్యక్తిగత గుర్తింపు సమాచారం (PII)ను మాస్క్ చేయడానికి మా స్టేట్-ఆఫ్-ది-ఆర్ట్ మోడల్

లోడ్ అవుతోంది…

టెక్స్ట్‌లోని వ్యక్తిగత గుర్తింపు సమాచారాన్ని (PII) గుర్తించి, దానిని తొలగించడానికి (లేదా దాచడానికి) ఉపయోగపడే 'OpenAI Privacy Filter' అనే ఓపెన్-వెయిట్ మోడల్‌ను ఈరోజు మేము విడుదల చేస్తున్నాము. ఈ విడుదల, సాధనాలు మరియు మోడల్‌లు సహా, AIతో సురక్షితంగా నిర్మించడానికి డెవలపర్‌లకు ఆచరణాత్మక మౌలిక సదుపాయాలను అందించడం ద్వారా, మొదటి నుంచే బలమైన ప్రైవసీ మరియు సెక్యూరిటీ రక్షణలను అమలు చేయడం సులభం చేసే మరింత స్థితిస్థాపకమైన సాఫ్ట్‌వేర్ ఎకోసిస్టమ్‌కు మద్దతు ఇవ్వాలనే మా విస్తృత ప్రయత్నంలో భాగం.

Privacy Filter వ్యక్తిగత డేటాను గుర్తించే అత్యాధునిక సామర్థ్యం కలిగిన ఒక చిన్న మోడల్. ఇది అధిక-థ్రూపుట్ గోప్యతా వర్క్‌ఫ్లోల కోసం రూపొందించబడింది మరియు అసంఘటిత టెక్స్ట్‌లో PIIని సందర్భానుసారంగా గుర్తించగల సామర్థ్యాన్ని కలిగి ఉంటుంది. ఇది లోకల్‌గా రన్ అవుతుంది, అంటే మీ డివైస్ నుండి బయటకు వెళ్లకుండా PIIను మాస్క్ చేయవచ్చు లేదా తొలగించవచ్చు. ఇది పొడవైన ఇన్‌పుట్‌లను సమర్థవంతంగా ప్రాసెస్ చేస్తూ, ఒకే వేగవంతమైన పాస్‌లో రిడాక్షన్ నిర్ణయాలను తీసుకుంటుంది.

OpenAI వద్ద, మేము మా స్వంత గోప్యతను పరిరక్షించే వర్క్‌ఫ్లోలలో Privacy Filter యొక్క ఫైన్-ట్యూన్ చేసిన వెర్షన్‌ను ఉపయోగిస్తాము. తాజా AI సామర్థ్యాలతో, మార్కెట్‌లో ఇప్పటికే ఉన్నదానికంటే గోప్యతకు మరింత ఉన్నత ప్రమాణాన్ని నెలకొల్పగలమని మేము నమ్ముతున్నందున మేము Privacy Filter‌ను అభివృద్ధి చేశాము. ఈ రోజు మేము విడుదల చేస్తున్న Privacy Filter వెర్షన్, మూల్యాంకనం సమయంలో మేము గుర్తించిన అనోటేషన్ సమస్యలను సరిదిద్దినప్పుడు, PII-Masking-300k బెంచ్‌మార్క్‌పై అత్యాధునిక పనితీరును సాధించింది.

ఈ విడుదలతో, డెవలపర్లు తమ స్వంత ఎన్విరాన్‌మెంట్స్‌లో Privacy Filter‌ను రన్ చేయవచ్చు, తమ యూజ్‌కేస్‌లకు అనుగుణంగా దాన్ని ఫైన్-ట్యూన్ చేయవచ్చు, అలాగే ట్రైనింగ్, ఇండెక్సింగ్, లాగింగ్, మరియు రివ్యూ పైప్లైన్లలో మరింత బలమైన గోప్యతా రక్షణలను నిర్మించవచ్చు.

అత్యాధునిక వ్యక్తిగత డేటాను గుర్తించే సామర్థ్యం కలిగిన ఒక చిన్న మోడల్.

ఆధునిక AI వ్యవస్థల్లో గోప్యత రక్షణ కేవలం ప్యాటర్న్ మ్యాచింగ్‌పైనే ఆధారపడదు. సాంప్రదాయ PII గుర్తింపు పరికరాలు తరచుగా ఫోన్ నంబర్లు మరియు ఇమెయిల్ అడ్రస్‌ల వంటి ఫార్మాట్‌ల కోసం నిర్దిష్ట నియమాలపైన ఆధారపడతాయి. అవి పరిమిత సందర్భాల్లో బాగా పనిచేయగలవు, కానీ తరచుగా మరింత సూక్ష్మమైన వ్యక్తిగత సమాచారాన్ని గుర్తించడంలో విఫలమవుతాయి మరియు సందర్భాన్ని అర్థం చేసుకోవడంలో ఇబ్బంది పడతాయి.

ప్రైవసీ ఫిల్టర్ మరింత సూక్ష్మమైన పనితీరు కోసం లోతైన భాషా మరియు సందర్భ అవగాహనతో రూపొందించబడింది. బలమైన భాషా అవగాహనను గోప్యత-నిర్దిష్ట లేబెలింగ్ సిస్టమ్‌తో కలిపి, ఇది అన్‌స్ట్రక్చర్డ్ టెక్స్ట్‌లో విస్తృత శ్రేణి PIIని గుర్తించగలదు, అందులో సరైన నిర్ణయం సందర్భంపైన ఆధారపడే సందర్భాలు కూడా ఉన్నాయి. ఇది పబ్లిక్ సమాచారం కాబట్టి భద్రపరచాల్సిన వివరాలకు, మరియు ఒక వ్యక్తిగత వ్యక్తికి సంబంధించినవి కాబట్టి మాస్కింగ్ (లేదా తొలగించాల్సిన) చేయవలసిన వివరాలకు మధ్య ఉన్న తేడాను మరింత మెరుగ్గా గుర్తించగలదు.

ఫలితంగా, అత్యాధునిక స్థాయి గోప్యతా ఫిల్టరింగ్ పనితీరును అందించగలిగేంత బలంగా ఉన్న ఒక మోడల్ లభించింది. అదే సమయంలో, ఈ మోడల్ లోకల్లీ రన్ చేయగలిగేంత చిన్నదిగా కూడా ఉంటుంది—అంటే, ఇంకా ఫిల్టర్ చేయబడని డేటాను గుర్తింపును తొలగించడానికి సర్వర్‌కు పంపాల్సిన అవసరం లేకుండా, అది బహిర్గతమయ్యే ప్రమాదం తక్కువగా ఉండేలా డివైస్‌పైనే ఉంచవచ్చు. 

మోడల్ సమగ్ర అవలోకనం

Privacy Filter అనేది స్పాన్ డీకోడింగ్‌తో కూడిన ద్విదిశాత్మక టోకెన్-వర్గీకరణ మోడల్. ఇది ఆటోరెగ్రెసివ్ ప్రీట్రెయిన్ చేసిన చెక్‌పాయింట్‌తో ప్రారంభమై, ఆపై గోప్యతా లేబుల్‌ల స్థిర వర్గీకరణపై టోకెన్ క్లాసిఫైయర్‌గా అనుకూలీకరించబడుతుంది. టెక్స్ట్‌ను టోకెన్ వారీగా రూపొందించడం బదులుగా, ఇది ఒకే పాస్‌లో ఇన్‌పుట్ సీక్వెన్స్‌కు లేబుల్‌లు కేటాయించి, తరువాత పరిమిత Viterbi విధానంతో పొందికైన స్పాన్‌లను డీకోడ్ చేస్తుంది.

ఈ ఆర్కిటెక్చర్ ప్రొడక్షన్‌లో ఉపయోగించడానికి Privacy Filter కు కొన్ని ఉపయోగకరమైన లక్షణాలను అందిస్తుంది:

  • వేగవంతమైన మరియు సమర్థవంతమైన: అన్ని టోకెన్‌లు ఒకే ఫార్వర్డ్ పాస్‌లో లేబుల్ చేయబడతాయి.
  • సందర్భాన్ని గుర్తించగలదు: భాషా ప్రైయర్ వల్ల PII స్పాన్‌లను చుట్టుపక్కల సందర్భాన్ని బట్టి గుర్తించవచ్చు.
  • లాంగ్-కాంటెక్స్ట్: విడుదల చేసిన మోడల్ 128,000 టోకెన్ వరకు కాంటెక్స్ట్‌కు మద్దతు ఇస్తుంది.
  • కాన్ఫిగర్ చేయదగినది: డెవలపర్లు తమ వర్క్‌ఫ్లోను బట్టి రీకాల్ మరియు ప్రెసిషన్ మధ్య సమతుల్యం చేసుకునేలా ఆపరేటింగ్ పాయింట్లను సర్దుబాటు చేయవచ్చు.

విడుదల చేసిన మోడల్‌లో మొత్తం 1.5B పారామీటర్లు ఉన్నాయి, వాటిలో 50M యాక్టివ్ పారామీటర్లు.

ప్రైవసీ ఫిల్టర్ ఎనిమిది వర్గాల్లోని విభాగాలను అంచనా వేస్తుంది:

  • ప్రైవేట్_వ్యక్తి
  • వ్యక్తిగత_చిరునామా
  • private_email
  • వ్యక్తిగత_ఫోన్
  • private_url
  • private_date
  • ఖాతా_సంఖ్య
  • రహస్యం

account_number కేటగిరీ విస్తృత శ్రేణి ఖాతా సంఖ్యలను మాస్క్ చేయడంలో సహాయపడుతుంది, ఇందులో బ్యాంకింగ్ సమాచారం, క్రెడిట్ కార్డ్ నంబర్లు మరియు బ్యాంక్ ఖాతా నంబర్లు కూడా ఉన్నాయి, secret పాస్‌వర్డ్‌లు మరియు API కీలు వంటి వాటిని మాస్క్ చేయడంలో సహాయపడుతుంది.

ఈ లేబల్స్ BIOES స్పాన్ ట్యాగ్‌లను ఉపయోగించి డీకోడ్ చేయబడతాయి, ఇది మరింత శుభ్రమైన మరియు సుసంబద్ధమైన మాస్కింగ్ సరిహద్దులను ఉత్పత్తి చేయడంలో సహాయపడుతుంది.

ఉదాహరణ ఇన్‌పుట్ పాఠ్యం

విషయం: Q2 ప్రణాళిక తదుపరి చర్య

హాయ్ జోర్డాన్,

ఈ రోజు ముందుగానే కలిసినందుకు మళ్లీ ధన్యవాదాలు. Q2 రోల్‌అవుట్ కోసం సవరించిన టైమ్‌లైన్‌ను పంచుకోవాలని అనుకున్నాను మరియు ప్రోడక్ట్ లాంచ్ సెప్టెంబర్ 18, 2026కి షెడ్యూల్ చేయబడిందని నిర్ధారించడానికి. సూచన కోసం, ప్రాజెక్ట్ ఫైల్ 4829-1037-5581 కింద జాబితా చేయబడింది. మీ వైపు ఏదైనా మారితే, స్వేచ్ఛగా ఇక్కడే maya.chen@example.com కు ప్రత్యుత్తరం ఇవ్వండి లేదా +1 (415) 555-0124 కు నాకు కాల్ చేయండి.

ఉత్తమంగా,

మాయా చెన్

వ్యక్తిగత గుర్తింపు వివరాలను మాస్కింగ్ (దాచిపెట్టిన) చేసిన తర్వాత పాఠ్యం.

విషయం: Q2 ప్రణాళిక తదుపరి చర్య

హాయ్ [PRIVATE_PERSON],

ఈ రోజు ముందుగా కలిసినందుకు మళ్లీ ధన్యవాదాలు. Q2 విడుదల ప్రక్రియకు సంబంధించిన సవరించిన టైమ్‌లైన్‌పై తదుపరి సమాచారం అందించాలనుకున్నాను, అలాగే ప్రోడక్ట్ లాంచ్ [PRIVATE_DATE]కు షెడ్యూల్ చేయబడిందని నిర్ధారించాలనుకుంటున్నాను. సూచన కోసం, ప్రాజెక్ట్ ఫైల్ [ACCOUNT_NUMBER] కింద జాబితా చేయబడింది. మీ వైపు ఏమైనా మారితే, ఇక్కడ [PRIVATE_EMAIL] కు స్వేచ్ఛగా ప్రత్యుత్తరం ఇవ్వండి లేదా నాకు [PRIVATE_PHONE] వద్ద కాల్ చేయండి.

శుభాకాంక్షలతో,

[వ్యక్తిగత వ్యక్తి]

మేము దాన్ని ఎలా నిర్మించాము

మేము ప్రైవసీ ఫిల్టర్‌ను అనేక దశల్లో అభివృద్ధి చేసాము.

మొదట, మోడల్ గుర్తించాల్సిన స్పాన్‌ల రకాలను నిర్వచించే ప్రైవసీ వర్గీకరణను మేము రూపొందించాము. ఇందులో వ్యక్తిగత గుర్తింపు వివరాలు, సంప్రదింపు వివరాలు, చిరునామాలు, వ్యక్తిగత తేదీలు, క్రెడిట్ మరియు బ్యాంకింగ్ సమాచారంలాంటి అనేక రకాల ఖాతా సంఖ్యలు, అలాగే API కీలు మరియు పాస్‌వర్డ్‌ల వంటి రహస్యాలు ఉన్నాయి.

రెండవదిగా, లాంగ్వేజ్ మోడలింగ్ హెడ్‌ను టోకెన్-క్లాసిఫికేషన్ హెడ్‌తో భర్తీ చేసి, పర్యవేక్షిత వర్గీకరణ లక్ష్యంతో దానికి పోస్ట్-ట్రైనింగ్ ఇవ్వడం ద్వారా, ముందుగా శిక్షణ పొందిన లాంగ్వేజ్ మోడల్‌ను మేము ద్విముఖ టోకెన్ క్లాసిఫైయర్‌గా మార్చాము. 

మూడవదిగా, వాస్తవిక టెక్ట్స్‌తో పాటు క్లిష్టమైన ప్రైవసీ ప్యాటర్న్‌లను కూడా ప్రతిబింబించేలా రూపొందించిన పబ్లిక్‌గా అందుబాటులో ఉన్న మరియు సింథటిక్ డేటా మిశ్రమంపై మేము శిక్షణ ఇచ్చాము. పబ్లిక్ డేటాలో లేబుళ్లు అసంపూర్ణంగా ఉన్న భాగాల్లో, కవరేజ్‌ను మెరుగుపరచడానికి మేము మోడల్-సహాయంతో చేసిన అనోటేషన్ మరియు సమీక్షను ఉపయోగించాము. ఫార్మాట్‌లు, సందర్భాలు, మరియు గోప్యత ఉపరకాలు అంతటా వైవిధ్యాన్ని పెంచడానికి మేము సింథటిక్ ఉదాహరణలను కూడా రూపొందించాము.

ఇన్‌ఫరెన్స్ సమయంలో, మోడల్ యొక్క టోకెన్-స్థాయి అంచనాలు నియంత్రిత సీక్వెన్స్ డీకోడింగ్‌ను ఉపయోగించి సుసంబద్ధమైన స్పాన్‌లుగా డీకోడ్ చేయబడతాయి. ఈ విధానం ముందుగా శిక్షణ పొందిన మోడల్ యొక్క విస్తృతమైన భాషా అవగాహనను నిలుపుకుంటూనే, దాన్ని గోప్యత గుర్తింపుకు ప్రత్యేకంగా తీర్చిదిద్దుతుంది.

ప్రైవసీ ఫిల్టర్ ఎలా పనిచేస్తుంది

మేము Privacy Filterను ప్రామాణిక బెంచ్‌మార్క్‌లపై మరియు మరింత క్లిష్టమైన, సందర్భానికి మరింత సున్నితమైన సందర్భాలను పరీక్షించడానికి రూపొందించిన అదనపు సింథటిక్ మరియు చాట్-శైలి మూల్యాంకనాలపై మూల్యాంకనం చేశాము.

PII-Masking-300k(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్‌మార్క్‌లో, Privacy Filter 96% F1 స్కోర్‌ను సాధించింది (94.04% ప్రెసిషన్ మరియు 98.04% రీకాల్). సమీక్ష సమయంలో గుర్తించిన డేటాసెట్ అనోటేషన్ సమస్యలను పరిగణనలోకి తీసుకున్న బెంచ్‌మార్క్ యొక్క సరిచేసిన వెర్షన్‌లో, F1 స్కోర్ 97.43% (96.79% ప్రెసిషన్ మరియు 98.08% రీకాల్).

మోడల్‌ను సమర్థవంతంగా అనుకూలీకరించవచ్చని కూడా మేము కనుగొన్నాము. చిన్న పరిమాణంలోని డేటాపై కూడా ఫైన్-ట్యూనింగ్ చేయడం వల్ల డొమైన్-నిర్దిష్ట పనులపై ఖచ్చితత్వం త్వరగా మెరుగుపడుతుంది, F1 స్కోర్‌ను 54% నుండి 96% వరకు పెంచుతుంది, మరియు మేము మూల్యాంకనం చేసిన డొమైన్-అడాప్షన్ బెంచ్‌మార్క్‌పై సంతృప్తి స్థాయికి చేరువవుతుంది.

బెంచ్‌మార్క్ పనితీరుకు మించి, నాయిస్‌తో కూడిన వాస్తవ ప్రపంచ టెక్స్ట్‌లో ఆచరణాత్మక గోప్యతా ఫిల్టరింగ్ కోసం Privacy Filter రూపొందించబడింది. అందులో పొడవైన డాక్యుమెంట్లు, అస్పష్టమైన రిఫరెన్స్‌లు, మిశ్రమ-ఫార్మాట్ స్ట్రింగ్‌లు, మరియు సాఫ్ట్‌వేర్‌కు సంబంధించిన సీక్రెట్లు ఉన్నాయి. మోడల్ కార్డ్ (కొత్త విండోలో తెరుచుకుంటుంది)కూడా కోడ్‌బేస్‌లలో రహస్య గుర్తింపుపై లక్ష్యిత మూల్యాంకనం మరియు బహుభాషా, అడ్వెర్సేరియల్, మరియు సందర్భానుసార ఉదాహరణలపై స్ట్రెస్ టెస్టులను నివేదిస్తుంది.

పరిమితులు

Privacy Filter అనేది అనామకీకరణ సాధనం కాదు, కంప్లయెన్స్ సర్టిఫికేషన్ కాదు, లేదా అత్యంత ప్రాముఖ్యత కలిగిన సందర్భాల్లో పాలసీ సమీక్షకు ప్రత్యామ్నాయం కాదు. ఇది విస్తృతమైన డిజైన్ ద్వారా గోప్యతా వ్యవస్థలో ఒక భాగం.

దాని ప్రవర్తన దీనికి శిక్షణ ఇచ్చిన లేబుల్ వర్గీకరణ మరియు నిర్ణయ సరిహద్దులను ప్రతిబింబిస్తుంది. వేర్వేరు సంస్థలు వేర్వేరు గుర్తింపు లేదా మాస్కింగ్ విధానాలను కోరుకోవచ్చు, మరియు ఆ విధానాలకు డొమైన్-నిర్దిష్ట మూల్యాంకనం లేదా మరింత ఫైన్-ట్యూనింగ్ అవసరం కావచ్చు. శిక్షణ పంపిణికి భిన్నంగా ఉండే భాషలు, లిపులు, పేరుపెట్టే సంప్రదాయాలు మరియు డొమైన్‌ల అంతటా కూడా పనితీరు మారవచ్చు.

అన్ని మోడల్ మాదిరిగానే, Privacy Filter తప్పులు చేయగలదు. ఇది అసాధారణమైన గుర్తింపుదారులు లేదా అస్పష్టమైన ప్రైవేట్ సూచనలను గుర్తించకుండా మిస్ కావచ్చు, అలాగే సందర్భం పరిమితంగా ఉన్నప్పుడు, ముఖ్యంగా చిన్న సీక్వెన్స్‌లలో, ఎంటిటీలను అవసరానికి మించి లేదా తక్కువగా దాచవచ్చు. చట్టపరమైన, వైద్య మరియు ఆర్థిక రంగాల వంటి అత్యంత సున్నితమైన విభాగాలలో, మానవ పర్యవేక్షణ తో పాటు ఆయా రంగాలకు అనుగుణంగా విశ్లేషించడం మరియు మోడల్‌ను మెరుగుపరచడం (Fine-tuning) ఇప్పటికీ చాలా ముఖ్యం.

లభ్యత

మొత్తం ఎకోసిస్టమ్ అంతటా మరింత బలమైన గోప్యతా రక్షణలకు మద్దతు ఇవ్వడానికి మేము OpenAI ప్రైవసీ ఫిల్టర్‌ను విడుదల చేస్తున్నాము.

మోడల్ ఈరోజు Apache 2.0 లైసెన్స్ కింద Hugging Face(కొత్త విండోలో తెరుచుకుంటుంది) మరియు Github(కొత్త విండోలో తెరుచుకుంటుంది)లో అందుబాటులో ఉంది. ఇది ప్రయోగాలు, అనుకూలీకరణ, మరియు వాణిజ్య వినియోగం కోసం అమలు చేయడానికి ఉద్దేశించబడింది, అలాగే వివిధ డేటా పంపిణీలు మరియు ప్రైవసీ పాలసీల కోసం దీనిని ఫైన్-ట్యూన్ చేయవచ్చు.

మోడల్‌తో పాటు, మోడల్ ఆర్కిటెక్చర్, లేబుల్ టాక్సానమీ, డీకోడింగ్ నియంత్రణలు, ఉద్దేశించిన వినియోగ సందర్భాలు, మూల్యాంకన సెటప్, మరియు తెలిసిన పరిమితులను కవర్ చేసే డాక్యుమెంటేషన్‌ను కూడా మేము పంచుకుంటున్నాము, తద్వారా టీమ్‌లు మోడల్ ఏ విషయాల్లో బాగా పనిచేస్తుందో మరియు ఎక్కడ దాన్ని జాగ్రత్తగా ఉపయోగించాలో రెండింటినీ అర్థం చేసుకోగలుగుతాయి.

భవిష్యత్తుకి దృష్టి

AI వ్యవస్థల కోసం గోప్యత పరిరక్షణ అనేది పరిశోధన, ఉత్పత్తి రూపకల్పన, మూల్యాంకనం మరియు అమలు అంతటా కొనసాగుతున్న ప్రయత్నం.

ప్రైవసీ ఫిల్టర్ ఒక దిశగా మేము నమ్ముతున్న ఒక ముఖ్యమైన దిశను ప్రతిబింబిస్తుంది: రియల్-వరల్డ్ AI సిస్టమ్స్‌కు అవసరమైన కొన్ని నిర్దిష్ట పనుల్లో అత్యాధునిక సామర్థ్యం కలిగిన చిన్న మరియు సమర్థవంతమైన మోడళ్లను రూపొందించడం ముఖ్యం. గోప్యతను పరిరక్షించే ఇన్‌ఫ్రాస్ట్రక్చర్‌ను పరిశీలించడం, నడపడం, అనుకూలీకరించడం, మరియు మెరుగుపరచడం సులభంగా ఉండాలని మేము భావిస్తున్నందున దీనిని విడుదల చేస్తున్నాము.

మోడల్ ప్రపంచం గురించి నేర్చుకోవడం మా లక్ష్యం, ప్రైవేట్ వ్యక్తుల గురించి కాదు. ప్రైవసీ ఫిల్టర్ అది సాధ్యమయ్యేలా చేయడంలో సహాయపడుతుంది.

మేము Privacy Filter యొక్క ఈ ప్రివ్యూ విడుదల చేస్తున్నాము, రీసెర్చ్ మరియు ప్రైవసీ కమ్యూనిటీ నుంచి ఫీడ్బ్యాక్ పొందేందుకు, అలాగే మోడల్ పనితీరును ఇంకా మెరుగుపరచడానికి.