آج ہم OpenAI Privacy Filter جاری کر رہے ہیں، جو ایک اوپن ویٹ ماڈل ہے اور متن میں ذاتی طور پر قابل شناخت معلومات (PII) کی شناخت اور حذف کرنے کے لیے استعمال ہوتا ہے. یہ اجرا ہمارے وسیع تر اقدام کا حصہ ہے جس کا مقصد ایک زیادہ مضبوط سافٹ ویئر ایکوسسٹم کی حمایت کرنا ہے، تاکہ ڈویلپرز کو محفوظ طریقے سے AI کے ساتھ تعمیر کے لیے عملی انفراسٹرکچر فراہم کیا جا سکے، جس میں ٹولز اور ماڈل شامل ہیں جو ابتدا ہی سے مضبوط پرائیویسی اور سیکیورٹی کے تحفظات کو نافذ کرنا آسان بناتے ہیں.
Privacy Filter ایک چھوٹا ماڈل ہے جو ذاتی ڈیٹا کی شناخت کے لیے جدید ترین صلاحیت رکھتا ہے. یہ اعلی کارکردگی والے پرائیویسی ورک فلو کے لیے تیار کیا گیا ہے، اور غیر منظم متن میں سیاق و سباق کو مدنظر رکھتے ہوئے PII کی شناخت کرنے کی صلاحیت رکھتا ہے. یہ مقامی طور پر چل سکتا ہے، جس کا مطلب ہے کہ PII کو آپ کی مشین سے باہر بھیجے بغیر ماسک یا حذف کیا جا سکتا ہے. یہ طویل ان پٹس کو مؤثر طریقے سے پروسیس کرتا ہے، اور ایک تیز، واحد مرحلے میں حذف کرنے کے فیصلے کرتا ہے.
OpenAI میں، ہم اپنے پرائیویسی کو محفوظ رکھنے والے ورک فلو میں Privacy Filter کے ایک فائن ٹیونڈ ورژن کا استعمال کرتے ہیں. ہم نے Privacy Filter اس لیے تیار کیا کیونکہ ہمارا ماننا ہے کہ جدید ترین AI صلاحیتوں کے ساتھ ہم پرائیویسی کے معیار کو مارکیٹ میں موجود سطح سے بھی آگے بڑھا سکتے ہیں. آج جاری کیا جانے والا Privacy Filter کا ورژن PII-Masking-300k بینچ مارک پر جدید ترین کارکردگی حاصل کرتا ہے، جب کہ تشخیصی عمل کے دوران شناخت کیے گئے اینوٹیشن مسائل کو درست کیا جائے.
اس اجرا کے ساتھ، ڈویلپرز اپنے ماحول میں Privacy Filter چلا سکتے ہیں، اسے اپنی ضروریات کے مطابق فائن ٹیون کر سکتے ہیں، اور تربیت، انڈیکسنگ، لاگنگ، اور ریویو پائپ لائنز میں مزید مضبوط پرائیویسی تحفظات شامل کر سکتے ہیں.
جدید AI نظاموں میں پرائیویسی کا تحفظ صرف پیٹرن میچنگ پر منحصر نہیں ہوتا۔ روایتی PII شناختی ٹولز اکثر فون نمبرز اور ای میل ایڈریسز جیسے فارمیٹس کے لیے متعین قواعد پر انحصار کرتے ہیں. یہ مخصوص معاملات میں اچھی کارکردگی دکھا سکتے ہیں، لیکن اکثر زیادہ باریک ذاتی معلومات کو نظر انداز کر دیتے ہیں اور سیاق و سباق کو سمجھنے میں مشکل پیش آتی ہے.
Privacy Filter کو گہری لسانی اور سیاقی آگاہی کے ساتھ تیار کیا گیا ہے تاکہ زیادہ باریک بینی کے ساتھ بہتر کارکردگی فراہم کی جا سکے. مضبوط لسانی فہم کو پرائیویسی سے متعلق مخصوص لیبلنگ نظام کے ساتھ یکجا کرتے ہوئے، یہ غیر منظم متن میں PII کی زیادہ وسیع اقسام کی شناخت کر سکتا ہے، جن میں وہ صورتیں بھی شامل ہیں جہاں درست فیصلہ سیاق و سباق پر منحصر ہوتا ہے. یہ عوامی معلومات، جنہیں محفوظ رکھا جانا چاہیے، اور وہ معلومات جو کسی نجی فرد سے متعلق ہونے کی وجہ سے ماسک یا حذف کی جانی چاہئیں، ان کے درمیان بہتر طور پر فرق کر سکتا ہے.
اس کا نتیجہ ایک ایسا ماڈل ہے جو اعلیٰ ترین سطح کی Privacy Filterنگ کارکردگی فراہم کرنے کے لیے کافی مضبوط ہے. اسی کے ساتھ، یہ ماڈل اتنا چھوٹا بھی ہے کہ اسے مقامی طور پر چلایا جا سکے—جس کا مطلب ہے کہ وہ ڈیٹا جسے ابھی فلٹر نہیں کیا گیا، اسے سرور پر شناخت ختم کرنے کے لیے بھیجنے کے بجائے آپ کی ڈیوائس پر ہی محفوظ رکھا جا سکتا ہے، جس سے اس کے افشا ہونے کا خطرہ کم ہو جاتا ہے.
Privacy Filter ایک دوطرفہ ٹوکن-کلاسیفیکیشن ماڈل ہے جس میں اسپین ڈیکوڈنگ شامل ہے. یہ ایک آٹو ریگریسیو پری ٹرینڈ چیک پوائنٹ سے آغاز کرتا ہے، اور پھر اسے پرائیویسی لیبلز کی ایک مقررہ درجہ بندی پر ٹوکن کلاسیفائر کے طور پر ڈھالا جاتا ہے. متن کو ٹوکن بہ ٹوکن تخلیق کرنے کے بجائے، یہ ایک ہی مرحلے میں ان پٹ ترتیب کو لیبل کرتا ہے اور پھر ایک محدود ویٹر بی طریقہ کار کے ذریعے مربوط اسپینز کو ڈیکوڈ کرتا ہے.
یہ آرکیٹیکچر Privacy Filter کو پروڈکشن میں استعمال کے لیے چند مفید خصوصیات فراہم کرتا ہے:
- تیز اور مؤثر: تمام ٹوکنز کو ایک ہی فارورڈ پاس میں لیبل کیا جاتا ہے.
- سیاق و سباق سے آگاہ: لسانی پیشگی علم اردگرد کے سیاق کی بنیاد پر PII کے حصوں کی شناخت کو ممکن بناتا ہے.
- طویل سیاق: جاری کیا گیا ماڈل 128,000 ٹوکنز تک کے سیاق کی حمایت کرتا ہے.
- قابلِ ترتیب: ڈویلپرز اپنے ورک فلو کے مطابق ریکال اور پریسیژن کے درمیان توازن قائم کرنے کے لیے آپریٹنگ پوائنٹس کو ایڈجسٹ کر سکتے ہیں.
جاری کیا گیا ماڈل مجموعی طور پر 1.5 ارب پیرامیٹرز رکھتا ہے، جن میں سے 50 ملین فعال پیرامیٹرز ہیں.
Privacy Filter آٹھ زمروں میں معلومات کے حصوں کی پیش گوئی کرتا ہے:
ذاتی_شخصنجی_پتہنجی_ای میلذاتی_فوننجی_یو آر ایلنجی_تاریخاکاؤنٹ_نمبرسیکرٹ
account_number کا زمرہ مختلف قسم کے اکاؤنٹ نمبرز کو ماسک کرنے میں مدد دیتا ہے، جن میں بینکنگ معلومات جیسے کریڈٹ کارڈ نمبرز اور بینک اکاؤنٹ نمبرز شامل ہیں، جبکہ سیکرٹ پاس ورڈز اور API کیز جیسی چیزوں کو ماسک کرنے میں مدد دیتا ہے.
ان لیبلز کو BIOES اسپین ٹیگز کے ساتھ ڈیکوڈ کیا جاتا ہے، جس سے زیادہ صاف اور مربوط ماسکنگ حدود حاصل کرنے میں مدد ملتی ہے.
ان پٹ متن کی مثال
موضوع: Q2 پلاننگ فالو اپ
السلام علیکم جارڈن،
آج پہلے ملاقات کرنے کے لیے ایک بار پھر شکریہ. میں دوسری سہ ماہی کے اجرا کے لیے نظرِ ثانی شدہ ٹائم لائن کے حوالے سے فالو اپ کرنا چاہتا تھا اور تصدیق کرنا چاہتا ہوں کہ پروڈکٹ لانچ کی تاریخ 18 ستمبر 2026 مقرر ہے. حوالے کے لیے، پروجیکٹ فائل 4829-1037-5581 کے تحت درج ہے. اگر آپ کی طرف سے کچھ بدلتا ہے، تو بلا جھجھک یہیں maya.chen@example.com پر جواب دیں یا مجھے +1 (415) 555-0124 پر کال کریں.
نیک تمنائیں،
مایا چن (Maya Chen)
ذاتی شناخت کنندگان کو چھپانے کے بعد کا متن
موضوع: Q2 پلاننگ فالو اپ
ہیلو [PRIVATE_PERSON]،
آج پہلے ملاقات کرنے کے لیے ایک بار پھر شکریہ. میں دوسری سہ ماہی کے اجرا کے لیے نظرِ ثانی شدہ ٹائم لائن کے حوالے سے فالو اپ کرنا چاہتا تھا اور تصدیق کرنا چاہتا ہوں کہ پروڈکٹ لانچ کی تاریخ [PRIVATE_DATE] مقرر ہے. حوالہ کے لیے، پروجیکٹ فائل [ACCOUNT_NUMBER] کے تحت درج ہے. اگر آپ کی جانب سے کوئی تبدیلی ہو، تو بلا جھجھک یہاں [PRIVATE_EMAIL] پر جواب دیں یا مجھے [PRIVATE_PHONE] پر کال کریں.
نیک تمنائیں،
[PRIVATE_PERSON]
ہم نے Privacy Filter کئی مراحل میں تیار کیا.
سب سے پہلے، ہم نے ایک پرائیویسی درجہ بندی تیار کی جو ان اقسام کی وضاحت کرتی ہے جنہیں ماڈل کو شناخت کرنا چاہیے. اس میں ذاتی شناختی معلومات، رابطہ کی تفصیلات، پتے، نجی تاریخیں، مختلف اقسام کے اکاؤنٹ نمبرز جیسے کریڈٹ اور بینکنگ معلومات، اور راز جیسے API کیز اور پاس ورڈز شامل ہیں.
دوسرے مرحلے میں، ہم نے ایک پہلے سے تربیت یافتہ لسانی ماڈل کو دو طرفہ ٹوکن درجہ بند بنانے کے لیے اس کے لینگویج ماڈلنگ ہیڈ کو ٹوکن کلاسیفکیشن ہیڈ سے تبدیل کیا اور پھر اسے زیرِ نگرانی درجہ بندی کے مقصد کے ساتھ مزید تربیت دی.
تیسرے مرحلے میں، ہم نے عوامی طور پر دستیاب اور مصنوعی ڈیٹا کے امتزاج پر تربیت دی، جو حقیقت کے قریب متن اور مشکل پرائیویسی پیٹرنز دونوں کو شامل کرنے کے لیے تیار کیا گیا تھا. عوامی ڈیٹا کے اُن حصوں میں جہاں لیبل مکمل نہیں تھے، ہم نے کوریج کو بہتر بنانے کے لیے ماڈل کی مدد سے تشریح اور جائزہ لینے کا طریقہ استعمال کیا. ہم نے فارمیٹس، سیاق و سباق، اور پرائیویسی کی ذیلی اقسام میں تنوع بڑھانے کے لیے مصنوعی مثالیں بھی تیار کیں.
انفرنس کے وقت، ماڈل کی ٹوکن سطح کی پیش گوئیوں کو محدود ترتیب ڈیکوڈنگ کے ذریعے مربوط حصوں میں تبدیل کیا جاتا ہے. یہ طریقہ پہلے سے تربیت یافتہ ماڈل کی وسیع لسانی سمجھ کو برقرار رکھتے ہوئے اسے خاص طور پر پرائیویسی کی شناخت کے لیے موزوں بناتا ہے.
ہم نے Privacy Filter کا جائزہ معیاری بینچ مارکس پر اور اضافی مصنوعی اور چیٹ طرز کی جانچ پر لیا، جو زیادہ مشکل اور سیاق و سباق پر مبنی حالات کو پرکھنے کے لیے تیار کی گئی تھیں.
PII-Masking-300k(نئی ونڈو میں کھلتا ہے) بینچ مارک پر، Privacy Filter نے 96٪ کا F1 اسکور حاصل کیا (94.04٪ پریسیژن اور 98.04٪ ریکال). بینچ مارک کے ایک درست شدہ ورژن پر، جو جائزے کے دوران سامنے آنے والے ڈیٹا سیٹ کی اینوٹیشن مسائل کو مدنظر رکھتا ہے، F1 اسکور 97.43٪ ہے (96.79٪ پریسیژن اور 98.08٪ ریکال).
ہم نے یہ بھی پایا کہ ماڈل کو مؤثر طریقے سے ڈھالا جا سکتا ہے. حتیٰ کہ تھوڑی مقدار کے ڈیٹا پر فائن ٹیوننگ کرنے سے بھی مخصوص ڈومین کے کاموں میں درستگی تیزی سے بہتر ہو جاتی ہے، جس سے F1 اسکور 54٪ سے بڑھ کر 96٪ ہو جاتا ہے اور ہمارے جائزہ لیے گئے ڈومین ایڈاپٹیشن بینچ مارک پر تقریباً حدِ اشباع تک پہنچ جاتا ہے.
بینچ مارک کارکردگی سے آگے بڑھ کر، Privacy Filter کو شور والے، حقیقی دنیا کے متن میں عملی Privacy Filterنگ کے لیے ڈیزائن کیا گیا ہے. اس میں طویل دستاویزات، مبہم حوالہ جات، مخلوط فارمیٹ والی سٹرنگز، اور سافٹ ویئر سے متعلق راز شامل ہیں۔ ماڈل کارڈ (نئی ونڈو میں کھلتا ہے)میں کوڈ بیسز میں رازوں کی شناخت پر مخصوص جائزہ اور کثیر لسانی، مخالفانہ، اور سیاق و سباق پر منحصر مثالوں پر اسٹریس ٹیسٹس کی بھی رپورٹ شامل ہے.
Privacy Filter نہ تو گمنام بنانے کا ٹول ہے، نہ ہی تعمیل کی سرٹیفیکیشن، اور نہ ہی حساس یا اہم حالات میں پالیسی کے جائزے کا متبادل ہے. یہ ایک وسیع تر پرائیویسی بائے ڈیزائن نظام کا ایک جزو ہے.
اس کا رویہ اس لیبل درجہ بندی اور فیصلہ جاتی حدود کی عکاسی کرتا ہے جن پر اسے تربیت دی گئی ہے. مختلف تنظیمیں مختلف شناخت یا ماسکنگ پالیسیوں کی خواہش رکھ سکتی ہیں، اور ان پالیسیوں کے لیے اپنے مخصوص ڈومین میں جائزہ یا مزید فائن ٹیوننگ کی ضرورت پڑ سکتی ہے. کارکردگی مختلف زبانوں، رسم الخط، نام رکھنے کے انداز، اور اُن ڈومینز میں بھی مختلف ہو سکتی ہے جو تربیتی ڈیٹا کی تقسیم سے مختلف ہوں.
تمام ماڈلز کی طرح، Privacy Filter بھی غلطیاں کر سکتا ہے. یہ غیر معمولی شناختی معلومات یا مبہم نجی حوالہ جات کو نظر انداز کر سکتا ہے، اور جب سیاق و سباق محدود ہو، خاص طور پر مختصر متن میں، تو یہ اداروں کو زیادہ یا کم حد تک حذف کر سکتا ہے. زیادہ حساس شعبوں جیسے قانونی، طبی، اور مالیاتی کاموں میں انسانی جائزہ اور مخصوص ڈومین کے مطابق جانچ اور فائن ٹیوننگ اب بھی بہت اہم ہیں.
ہم پورے ایکو سسٹم میں مضبوط پرائیویسی تحفظات کی حمایت کے لیے OpenAI Privacy Filter جاری کر رہے ہیں.
یہ ماڈل آج Hugging Face(نئی ونڈو میں کھلتا ہے) اور Github(نئی ونڈو میں کھلتا ہے) پر اپاچی 2.0 لائسنس کے تحت دستیاب ہے. یہ تجربہ، حسبِ ضرورت تبدیلی، اور تجارتی استعمال کے لیے تیار کیا گیا ہے، اور اسے مختلف ڈیٹا تقسیم اور پرائیویسی پالیسیوں کے مطابق فائن ٹیون کیا جا سکتا ہے.
ماڈل کے ساتھ ہم ایسی دستاویزات بھی فراہم کر رہے ہیں جن میں ماڈل کی ساخت، لیبل درجہ بندی، ڈیکوڈنگ کنٹرولز، متوقع استعمال کے کیسز، جائزہ لینے کا طریقہ کار، اور معلوم حدود شامل ہیں، تاکہ ٹیمیں یہ سمجھ سکیں کہ ماڈل کہاں بہتر کام کرتا ہے اور کہاں اسے احتیاط سے استعمال کرنا چاہیے.
اے آئی سسٹمز کے لیے پرائیویسی کا تحفظ تحقیق، پروڈکٹ ڈیزائن، جائزہ، اور نفاذ کے مختلف مراحل میں ایک مسلسل جاری رہنے والی کوشش ہے.
Privacy Filter ایک ایسے اہم رجحان کی نمائندگی کرتا ہے جسے ہم اہم سمجھتے ہیں، یعنی چھوٹے اور مؤثر ماڈلز جو مخصوص اور واضح کاموں میں اعلیٰ سطح کی صلاحیت رکھتے ہوں، خاص طور پر وہ کام جو حقیقی دنیا کے اے آئی سسٹمز کے لیے اہم ہیں. ہم اسے اس لیے جاری کر رہے ہیں کیونکہ ہمارا ماننا ہے کہ پرائیویسی کو محفوظ رکھنے والا انفراسٹرکچر زیادہ آسانی سے جانچا، چلایا، ڈھالا، اور بہتر بنایا جا سکے.
ہمارا مقصد یہ ہے کہ ماڈلز دنیا کے بارے میں سیکھیں، نہ کہ نجی افراد کے بارے میں. Privacy Filter اس مقصد کو ممکن بنانے میں مدد دیتا ہے.
ہم تحقیق اور پرائیویسی کمیونٹی سے فیڈبیک حاصل کرنے اور ماڈل کی کارکردگی کو مزید بہتر بنانے کے لیے Privacy Filter کا یہ ابتدائی ورژن جاری کر رہے ہیں.


