ዛሬ በጽሑፍ ውስጥ የግል መለያ መረጃን ለመለየት እና ለመሰረዝ የሚያስችል የክፍት ክብደት ሞዴል የሆነውን የOpenAI ግላዊነት ማጣሪያ እንለቃለን። ይህ ልቀት ገንቢዎችን በአስተማማኝ ሁኔታ በሰው ሠራሽ አስተውሎት (AI) ለመገንባት ተግባራዊ መሠረተ ልማት በማቅረብ የበለጠ ጠንካራ የሶፍትዌር ሥነ-ምህዳርን ለመደገፍ የምናደርገው ሰፊ ጥረት አካል ውስጥ አንዱ ነው፣ ይህም መሣሪያዎች እና ሞዴሎችን ጨምሮ ጠንካራ የግላዊነት እና የደኅንነት ጥበቃዎችን ከመጀመሪያው ጀምሮ ተግባራዊ ለማድረግ ቀላል ያደርገዋል።
የግላዊነት ማጣሪያ ግንባር ቀደም የግል ውሂብ ማወቂያ ችሎታ ያለው ትንሽ ሞዴል ነው። ከፍተኛ የማስተላለፊያ ዘዴ ፍጥነት ለሚፈልጉ የግላዊነት ሥራ ፍሰቶች የተነደፈ ሲሆን ባልተዋቀረ ጽሑፍ ውስጥ የPII አውድ-ተኮር ልዩነትን ማወቅ ይችላል። በአካባቢው መሥራት ይችላል፣ ይህ ማለት PII ከማሽንዎ ሳይወጣ ሊሸፈን ወይም ሊሰረዝ ይችላል ማለት ነው። ረጅም ግቤቶችን በቅልጥፍና የሚያከናውን ሲሆን፣ የስረዛ ውሳኔዎችን በፍጥነት እና በነጠላ ሂደት ያደርጋል።
በOpenAI፣ በራሳችን የግላዊነት ጥበቃ የሥራ ፍሰቶች ውስጥ የተስተካከለ የግላዊነት ማጣሪያ ሥሪት እንጠቀማለን። የግላዊነት ማጣሪያን የገነባነው በቅርብ ጊዜ የሰው ሠራሽ አስተውሎት (AI) ችሎታዎች አማካኝነት፣ አስቀድሞ በገበያ ላይ ከነበረው በላይ የግላዊነት ደረጃን ማሳደግ እንደምንችል ስለምናምን ነው። ዛሬ የምንለቀው የግላዊነት ማጣሪያ ሥሪት በግምገማ ወቅት ለይተን ባየናቸው የማብራሪያ ችግሮች ሲስተካከል፣ በPII-Masking-300k መለኪያ ላይ እጅግ ዘመናዊ አፈፃፀም አስመዝግቧል።
በዚህ ልቀት፣ ገንቢዎች የግላዊነት ማጣሪያን በራሳቸው አካባቢዎች ውስጥ ማሠራት፣ ለራሳቸው የአጠቃቀም ጉዳዮች እንዲስማማ ማስተካከል እና በስልጠና፣ ጥቆማ፣ ምዝገባ እና የግምገማ ዝርጋታዎች ውስጥ የበለጠ ጠንካራ የግላዊነት ጥበቃዎች መገንባት ይችላሉ።
በዘመናዊ የሰው ሠራሽ አስተውሎት (AI) ሥርዓቶች ውስጥ የግላዊነት ጥበቃ ከቅጥ ማዛመድ በላይ በሆኑ ነገሮች ላይ ይመሠረታል። የተለመዱ PII መለያ መሣሪያዎች ብዙ ጊዜ እንደ የስልክ ቁጥሮች እና የኢሜይል አድራሻዎች ያሉ ቅርጸቶች ላይ በተወሰኑ ደንቦች ላይ ይመሠረታሉ። በውስን ሁኔታዎች ውስጥ በጥሩ ሁኔታ ሊሠሩ ይችላሉ፣ ነገር ግን ብዙ ጊዜ ይበልጥ ረቂቅ የሆነ የግል መረጃ የሚያልፋቸው ሲሆን አውድ ለመረዳት ይቸገራሉ።
የግላዊነት ማጣሪያ የበለጠ ጥርት ያለ አፈጻጸም እንዲኖረው ጥልቅ ቋንቋ እና የአውድ ግንዛቤን በመጠቀም የተገነባ ነው። ጠንካራ የቋንቋ ግንዛቤን ለግላዊነት ልዩ ከሆነ የመለያ ሥርዓት ጋር በማጣመር፣ ትክክለኛው ውሳኔ በአውድ ላይ የሚመሠረትባቸውን ጉዳዮች ጨምሮ፣ ባልተዋቀረ ጽሑፍ ውስጥ ያሉ የPII ዓይነቶችን በሰፊ ክልል ውስጥ መለየት ይችላል። ይፋዊ በመሆኑ ሊጠበቅ የሚገባውን መረጃ እና ከግላዊ ሰው ጋር የተያያዘ በመሆኑ ሊሸፈን ወይም ሊሰረዝ የሚገባውን መረጃ በተሻለ ሁኔታ መለየት ይችላል።
ውጤቱ የግንባር ቀደም ደረጃ ያለው የግላዊነት ማጣሪያ አፈፃፀም ለማቅረብ የሚያስችል ጠንካራ ሞዴል ነው። በተመሳሳይ ጊዜ፣ ሞዴሉ በአካባቢው ለመሥራት የሚያስችል ትንሽነት አለው–ይህ ማለት ማንነትን ለመንጠቅ ወደ አገልጋይ መላክ ከማስፈለጉ ይልቅ፣ እስካሁን ያልተጣራ ውሂብ በአናሳ የተጋላጭነት ዕድል፣ በመሣሪያው ላይ ሊቆይ ይችላል።
የግላዊነት ማጣሪያ ባለሁለት አቅጣጫ የቶክን ምደባ ሞዴል ሲሆን ከspan ዲኮዲንግ ጋር ይሠራል። የሚጀምረው ከራስ-ሰር ቅድመ-ስልጠና ካለው የፍተሻ ነጥብ ሲሆን፣ ከዚያ በግላዊነት መለያዎች ቋሚ ታክሶኖሚ ላይ ወደ ቶክን መዳቢ ይቀየራል። የጽሑፍ ቶክን በቶከን ከማመንጨት ይልቅ፣ በአንድ ማለፊያ ውስጥ የግቤት ቅደም ተከተልን ይሰይማል፣ ከዚያ በተገደበ የViterbi አሠራር ወጥ የሆኑ ክፍተቶች ይፈታል።
ይህ አርክቴክቼር ለምርት አጠቃቀም ሲባል ለግላዊነት ማጣሪያ ጥቂት ጠቃሚ ባህሪያት ይሰጣል፦
- ፈጣን እና ቀልጣፋ፦ ሁሉም ቶክኖች በአንድ የፊት ማለፊያ መለያ ይሰጣቸዋል።
- አውድ የሚያውቅ፦ የቀድሞው ቋንቋ የPII ክፍተቶች በአካባቢው አውድ ላይ በመመሥረት እንዲገኙ ያስችላቸዋል።
- ረጅም አውድ፦ የተለቀቀው ሞዴል እስከ 128,000 የአውድ ቶክን ድረስ ይደግፋል።
- ሊዋቀር የሚችል፦ ገንቢዎች በሥራ ፍሰታቸው ላይ በመመሥረት ትውስታ እና ትክክለኛነትን ለመተካት የአሠራር ነጥቦች ማስተካከል ይችላሉ።
የተለቀቀው ሞዴል 1.5B አጠቃላይ መለኪያዎች እና 50M ንቁ መለኪያዎች አሉት።
የግላዊነት ማጣሪያ በስምንት ምድቦች ላይ ያሉ ክፍተቶች ይገምታል፦
ግላዊ_ሰውየግል_አድራሻየግል_ኢሜይልየግል_ስልክየግል_urlየግል_ቀንየመለያ_ቁጥርሚስጥር
የ መለያ_ቁጥር ምድብ እንደ ክሬዲት ካርድ ቁጥሮች እና የባንክ መለያ ቁጥሮች ያሉ የባንክ መረጃዎችን ጨምሮ በጣም የተለያዩ የመለያ ቁጥሮችን ለመሸፈን ይረዳል፣ ሚስጥር ደግሞ እንደ የይለፍ ቃላት እና የAPI ቁልፎች ያሉ ነገሮች ለመሸፈን ይረዳል።
እነዚህ መለያዎች በBIOES ክፍተት መለያዎች ዲኮድ ይደረጋሉ፣ ይህም የበለጠ ንጹህ እና ወጥ የሆኑ መሸፈኛ ድንበሮች ለማመንጨት ይረዳል።
የግቤት ጽሑፍ ምሳሌ
ርዕሰ ጉዳይ፦ የQ2 ዕቅድ ክትትል
ሰላም Jordan፣
ዛሬ ቀደም ሲል ስለተገናኘን በድጋሚ አመሰግናለሁ። የQ2 ልቀት በተመለከተ የተሻሻለውን የጊዜ ሰሌዳ መከታተል እና የምርት ጅማሬው ለሴፕቴምበር 18፣ 2026 የታቀደ መሆኑን ማረጋገጥ ፈልጌ ነበር። ለማጣቀሻ፣ የፕሮጀክቱ ፋይል በ 4829-1037-5581 ሥር ተዘርዝሯል። ከእርስዎ በኩል የሆነ ነገር ቢለወጥ፣ በዚህ maya.chen@example.com መልስ ለመስጠት ወይም ወደ +1 (415) 555-0124 ለመደወል ነፃነት ይሰማዎት።
ከሰላምታ ጋር፣
Maya Chen
የግል መለያዎችን ከተሸፈኑ በኋላ ያለ ጽሑፍ
ርዕሰ ጉዳይ፦ የQ2 ዕቅድ ክትትል
ሰላም [ግላዊ_ሰው]፣
ዛሬ ቀደም ሲል ስለተገናኘን በድጋሚ አመሰግናለሁ። በQ2 የተለቀቀውን የምርት ጊዜ በተመለከተ የተሻሻለውን የጊዜ ሰሌዳ መከታተል እና የምርት ጅማሬው ለ [ግላዊ_ቀን] የታቀደ መሆኑን ማረጋገጥ ፈልጌ ነበር። ለማጣቀሻ፣ የፕሮጀክቱ ፋይል በ [መለያ_ቁጥር] ሥር ተዘርዝሯል። በእርስዎ በኩል የሆነ ነገር ከተቀየረ፣ እዚህ [የግል_ኢሜይል] ላይ መልስ ለመስጠት ወይም በ [የግል_ስልክ] ላይ ለመደወል ነፃነት ይሰማዎ።
ከሰላምታ ጋር፣
[ግላዊ_ሰው]
የግላዊነት ማጣሪያን የገነባነው በበርካታ ደረጃዎች ነው።
በመጀመሪያ፣ ሞዴሉ ሊያገኛቸው የሚገባውን የክፍተት ዓይነቶች የሚገልጽ የግላዊነት ታክሶኖሚ ገንብተናል። ይህ የግለሰብ መለያዎችን፣ የእውቂያ ዝርዝሮችን፣ አድራሻዎችን፣ የግል ቀናትን፣ እንደ የብድር እና የባንክ መረጃ ያሉ የተለያዩ የመለያ ቁጥሮችን እና እንደ የAPI ቁልፎች እና የይለፍ ቃላት ያሉ ምስጢሮች ያካትታል።
ሁለተኛ፣ የቋንቋ ሞዴሊንግ መምሪያውን በቶከን-ምደባ መምሪያ በመተካት እና ከስልጠናው በኋላ ክትትል በሚደረግበት የምደባ ዓላማ በመተካት፣ አስቀድሞ የሰለጠነ የቋንቋ ሞዴልን ወደ ባለሁለት አቅጣጫ የቶክን መመደቢያ ቀይረነዋል።
ሦስተኛ፣ ተጨባጭ ጽሑፍ እና አስቸጋሪ የግላዊነት ቅጦችን ለመያዝ የተዘጋጁ በይፋ የሚገኙ እና ሰው ሰራሽ ውሂቦች በማጣመር ስልጠና አድርገናል። መለያዎች ያልተሟሉባቸው በሕዝብ ውሂብ ክፍሎች ውስጥ፣ ሽፋን ለማሻሻል በሞዴል የታገዘ ማብራሪያ እና ግምገማ ተጠቅመናል። እንዲሁም በቅርጸቶች፣ በአውዶች እና በግላዊነት ንዑስ ዓይነቶች ላይ ልዩነትን ለመጨመር ሰው ሰራሽ ምሳሌዎችን አዘጋጅተናል።
በማጠቃለያ ወቅት፣ የሞዴሉ የቶክን-ደረጃ ትንበያዎች የተገደበ የቅደም ተከተል ዲኮዲንግ በመጠቀም ወደ ወጥነት ያላቸው ክፍተቶች ይተረጎማሉ። ይህ አካሄድ ለግላዊነት ግኝት ልዩ በማድረግ፣ አስቀድሞ የሰለጠነውን ሞዴል ሰፊ የቋንቋ ግንዛቤ ያቆያል።
የግላዊነት ማጣሪያን በመደበኛ መለኪያዎች እና የበለጠ አስቸጋሪ እና የበለጠ ለአውድ-ስሜታዊ ጉዳዮችን ለመፈተሽ በተዘጋጁ ተጨማሪ ሰው ሰራሽ እና የውይይት አይነት ግምገማዎች ላይ ገምግመናል።
በ PII-Masking-300k(በአዲስ መስኮት ውስጥ ይክፈታል) መለኪያ ላይ፣ የግላዊነት ማጣሪያ 96% የF1 ውጤት (94.04% ትክክለኛነት እና 98.04% ትውስታ) አግኝቷል። በግምገማ ወቅት ለተለዩ የውሂብ ስብስብ የማብራሪያ ጉዳዮች ተጠያቂ በሆነው የመለኪያው የተስተካከለ ሥሪት ላይ፣ የF1 ነጥብ 97.43% (96.79% ትክክለኛነት እና 98.08% ትውስታ) ሆኗል።
እንዲሁም ሞዴሉ በቅልጥፍና ሊለመድ እንደሚችል አውቀናል። ትንሽ መጠን ባለው ውሂብ ላይ እንኳ ማስተካከያ ማድረግ በዶሜይን-ተኮር ተግባራት ላይ ትክክለኛነትን በፍጥነት ያሻሽላል፣ ይህም የF1 ውጤትን ከ 54% ወደ 96% የሚጨምር ሲሆን፣ በገመገምነው የጎራ-መላመድ መለኪያ ላይ ወደ ሙሉነት ይቀርባል።
ከመለኪያ አፈጻጸም ባሻገር፣ የግላዊነት ማጣሪያ ሁካታ ባለበት የገሃዱ ዓለም ጽሑፍ ውስጥ ለተግባራዊ የግላዊነት ማጣሪያ የተነደፈ ነው። ይህም ረጅም ሰነዶችን፣ አሻሚ ማጣቀሻዎች፣ የተደባለቁ ቅርጸቶች እና ከሶፍትዌር ጋር የተያያዙ ምስጢሮችን ያካትታል። የሞዴል ካርድ (በአዲስ መስኮት ውስጥ ይክፈታል)እንዲሁም በብዙ ቋንቋዎች፣ ተቃውሞ እና አውድ ላይ በተመሠረቱ ምሳሌዎች ውስጥ በኮድ መሠረቶች ውስጥ በሚስጥር ግኝት እና በጭንቀት ሙከራዎች ላይ ዒላማ የተደረገ ግምገማን ሪፖርት ያደርጋል።
የግላዊነት ማጣሪያ ስም-አልባ ማድረጊያ መሣሪያ፣ የተገዢነት ማረጋገጫ ወይም ከፍተኛ ደረጃ ላይ ባሉ ቦታዎች ላይ የፖሊሲ ግምገማ ምትክ አይደለም። በሰፊ የግላዊነት-በ-ንድፍ ሥርዓት ውስጥ አንድ አካል ነው።
ባህሪው የሰለጠነበትን የመለያ ታክሶኖሚ እና የውሳኔ ወሰኖች ያንጸባርቃል። የተለያዩ ድርጅቶች የተለያዩ የማግኛ ወይም የመሸፈኛ ፖሊሲዎች ሊፈልጉ ይችላሉ እና እነዚያ ፖሊሲዎች በተዛማጅ ጎራ ውስጥ ግምገማ ወይም ተጨማሪ ማስተካከያ ሊያስፈልጋቸው ይችላል። አፈጻጸሙ እንዲሁም ከስልጠናው ሥርጭት በሚለዩ ቋንቋዎች፣ የጽሑፍ ሥርዓቶች፣ የስያሜ ደንቦች እና ጎራዎች መካከል ሊለያይ ይችላል።
ልክ እንደ ሁሉም ሞዴሎች፣ የግላዊነት ማጣሪያ ስህተቶች ሊሠራ ይችላል። ያልተለመዱ መለያዎች ወይም አሻሚ የግል ማጣቀሻዎች ሊያልፍ ይችላል፣ እና አውዱ ውስን ሲሆን በተለይ በአጭር ቅደም ተከተሎች ውስጥ አካላትን ከልክ በላይ ወይም በታች ሊሰርዝ ይችላል። እንደ ሕጋዊ፣ የሕክምና እና የፋይናንስ የሥራ ፍሰቶች ባሉ ከፍተኛ ሚስጥራዊነት ባላቸው ዘርፎች፣ የሰው ግምገማ እና ጎራ-ተኮር ምዘና እና ማስተካከያ አስፈላጊ ሆነው ይቀጥላሉ።
በሥነ-ምህዳሩ ውስጥ ጠንካራ የግላዊነት ጥበቃዎች ለመደገፍ የOpenAI የግላዊነት ማጣሪያን እየለቀቅን ነው።
ሞዴሉ ከዛሬ ጀምሮ በApache 2.0 ፈቃድ ሥር በ Hugging Face(በአዲስ መስኮት ውስጥ ይክፈታል) እና Github(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ ይገኛል። ለሙከራ፣ ለማበጀት እና ለንግድ ሥራ ስምሪት የታሰበ ሲሆን፣ ለተለያዩ የውሂብ ስርጭቶች እና የግላዊነት ፖሊሲዎች ሊስተካከል ይችላል።
ከሞዴሉ ጎን ለጎን፣ ቡድኖች ሞዴሉ ምን ጥሩ እንደሚሠራ እና የት በጥንቃቄ ጥቅም ላይ መዋል እንዳለበት መረዳት እንዲችሉ፣ የሞዴል አርክቴክቸር፣ የመለያ ታክሶኖሚ፣ የዲኮዲንግ መቆጣጠሪያዎች፣ የታሰቡ የአጠቃቀም ጉዳዮች፣ የግምገማ ውቅር እና የሚታወቁ ገደቦችን የሚሸፍኑ ሰነዶችን እያጋራን ነው።
ለሰው ሠራሽ አስተውሎት (AI) ሥርዓቶች የግላዊነት ጥበቃ በምርምር፣ የምርት ንድፍ፣ ግምገማ እና ስምሪት ላይ ቀጣይነት ያለው ጥረት ነው።
የግላዊነት ማጣሪያ አስፈላጊ ነው ብለን የምናምነውን አንድ አቅጣጫ ያንፀባርቃል፦ ለገሃዱ ዓለም የሰው ሠራሽ አስተውሎት (AI) ሥርዓቶች አስፈላጊ በሆኑ ጠባብ የተገለጹ ተግባራት ውስጥ ግንባር ቀደም ችሎታ ያላቸው ትንሽ፣ ቀልጣፋ ሞዴሎች። የግላዊነት ጥበቃ መሠረተ ልማትን ለመመርመር፣ ለማሠራት፣ ለማላመድ እና ለማሻሻል ቀላል መሆን አለበት ብለን ስለምናስብ ነው የምንለቀቀው።
ግባችን ሞዴሎች ስለ ዓለም እንዲማሩ እንጂ ስለ ግላዊ ሰዎች እንዲያውቁ አይደለም። የግላዊነት ማጣሪያ ያ እንዲቻል ይረዳል።
ከምርምር እና ከግላዊነት ማኅበረሰብ ግብረመልስ ለመቀበል እና በሞዴል አፈጻጸም ላይ የበለጠ ማሻሻያ ለማድረግ፣ ይህን የግላዊነት ማጣሪያ ቅድመ-ዕይታ እየለቀቅን ነው።


