আজ আমরা OpenAI Privacy Filter রিলিজ করছি, যা টেক্সটে ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) শনাক্ত ও মুছে ফেলার জন্য একটি ওপেন-ওয়েট মডেল. এই রিলিজটি আমাদের আরও স্থিতিস্থাপক সফটওয়্যার ইকোসিস্টেমকে সমর্থন করার বিস্তৃত প্রচেষ্টার অংশ, যার মাধ্যমে ডেভেলপারদের AI নিরাপদভাবে ব্যবহার করে নির্মাণের জন্য ব্যবহারিক অবকাঠামো প্রদান করা হচ্ছে, যার মধ্যে রয়েছে টুলস এবং মডেল, যা শুরু থেকেই শক্তিশালী গোপনীয়তা ও নিরাপত্তা সুরক্ষা বাস্তবায়ন করা সহজ করে তোলে.
Privacy Filter একটি ছোট মডেল, যার অত্যাধুনিক ব্যক্তিগত ডেটা শনাক্ত করার ক্ষমতা রয়েছে. এটি উচ্চ-থ্রুপুট গোপনীয়তা ওয়ার্কফ্লো জন্য ডিজাইন করা হয়েছে এবং অসংগঠিত টেক্সটে PII-এর প্রেক্ষাপট-সচেতন সনাক্তকরণ করতে সক্ষম. এটি স্থানীয়ভাবে চলতে পারে, যার অর্থ হলো PII আপনার মেশিনের বাইরে না গিয়েই লুকানো বা মুছে ফেলা যেতে পারে. এটি দীর্ঘ ইনপুট দক্ষতার সঙ্গে প্রক্রিয়া করে এবং একটি দ্রুত, একক পাসেই রিড্যাকশন সিদ্ধান্ত নেয়.
OpenAI-তে, আমরা আমাদের নিজস্ব গোপনীয়তা-সংরক্ষণকারী ওয়ার্কফ্লোতে Privacy Filter-এর একটি ফাইন-টিউন করা সংস্করণ ব্যবহার করি. আমরা Privacy Filter তৈরি করেছি কারণ আমরা বিশ্বাস করি যে সর্বশেষ AI সক্ষমতাকে কাজে লাগিয়ে, বাজারে আগে থেকেই যা উপলব্ধ ছিল তার চেয়েও গোপনীয়তার মান আরও উন্নত করতে পারি. আমরা আজ যে Privacy Filter প্রকাশ করছি, সেটি মূল্যায়নের সময় আমরা শনাক্ত করা অ্যানোটেশন-সংক্রান্ত সমস্যাগুলোর জন্য সংশোধন করলে PII-Masking-300k বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করে.
এই রিলিজের মাধ্যমে ডেভেলপাররা তাদের নিজস্ব এনভায়রনমেন্টে Privacy Filter চালাতে, নিজেদের ব্যবহারের ক্ষেত্র অনুযায়ী এটিকে ফাইন-টিউন করতে এবং ট্রেনিং, ইনডেক্সিং, লগিং এবং রিভিউ পাইপলাইনে আরও শক্তিশালী গোপনীয়তা সুরক্ষা তৈরি করতে পারেন.
আধুনিক AI সিস্টেমে প্রাইভেসি সুরক্ষা শুধুমাত্র প্যাটার্ন ম্যাচিংয়ের উপর নির্ভর করে না. প্রচলিত PII সনাক্তকরণ সরঞ্জাম প্রায়ই ফোন নম্বর এবং ইমেইল ঠিকানার মতো ফরম্যাটের জন্য নির্ধারিত নিয়মের উপর নির্ভর করে. এগুলো সীমিত কিছু ক্ষেত্রে ভালো কাজ করতে পারে, কিন্তু প্রায়ই আরও সূক্ষ্ম ব্যক্তিগত তথ্য শনাক্ত করতে ব্যর্থ হয় এবং প্রসঙ্গ বুঝতে সমস্যায় পড়ে.
Privacy Filter আরও সূক্ষ্ম কার্যক্ষমতার জন্য গভীর ভাষা ও প্রেক্ষাপট সচেতনতার সাথে তৈরি করা হয়েছে. শক্তিশালী ভাষা বোঝার ক্ষমতাকে একটি গোপনীয়তা-নির্দিষ্ট লেবেলিং সিস্টেমের সাথে একত্রিত করে, এটি আনস্ট্রাকচার্ড টেক্সটে আরও বিস্তৃত পরিসরের PII শনাক্ত করতে পারে, এমন ক্ষেত্রও অন্তর্ভুক্ত যেখানে সঠিক সিদ্ধান্ত প্রেক্ষাপটের উপর নির্ভর করে. এটি আরও ভালোভাবে সেই তথ্যগুলোর মধ্যে পার্থক্য করতে পারে যেগুলো সর্বজনীন হওয়ায় সংরক্ষণ করা উচিত এবং যেগুলো ব্যক্তিগত হওয়ায় মাস্ক করা বা মুছে ফেলা উচিত.
ফলাফল হলো এমন একটি মডেল, যা অত্যাধুনিক গোপনীয়তা ফিল্টারিং কার্যকারিতা প্রদান করার জন্য যথেষ্ট শক্তিশালী. একই সাথে, মডেলটি এতটাই ছোট যে এটিকে স্থানীয়ভাবে চালানো যায়—যার অর্থ হলো, যে ডেটা এখনও ফিল্টার করা হয়নি তা পরিচয় গোপন করার জন্য সার্ভারে পাঠানোর প্রয়োজন না হয়ে, ডিভাইসেই থেকে যেতে পারে, ফলে প্রকাশের ঝুঁকি কম থাকে.
Privacy Filter হলো স্প্যান ডিকোডিংসহ একটি দ্বিমুখী টোকেন-শ্রেণিবিন্যাস মডেল. এটি একটি অটোরিগ্রেসিভ প্রিট্রেইন্ড চেকপয়েন্ট থেকে শুরু হয় এবং পরে গোপনীয়তা লেবেলের একটি নির্দিষ্ট ট্যাক্সোনমির উপর একটি টোকেন ক্লাসিফায়ার হিসেবে অভিযোজিত হয়. এটি টোকেন ধরে ধরে টেক্সট তৈরি করার পরিবর্তে, একবারে একটি ইনপুট সিকোয়েন্সকে লেবেল করে এবং তারপর একটি সীমাবদ্ধ Viterbi পদ্ধতির মাধ্যমে সুসংগত স্প্যানগুলিকে ডিকোড করে.
এই আর্কিটেকচার প্রোডাকশন ব্যবহারের জন্য Privacy Filter-কে কয়েকটি কার্যকর বৈশিষ্ট্য প্রদান করে:
- দ্রুত ও কার্যকর: সব টোকেনকে একটি একক ফরওয়ার্ড পাসে লেবেল করা হয়.
- প্রেক্ষাপট-সচেতন: পূর্ববর্তী ভাষা আশপাশের প্রেক্ষাপটের ভিত্তিতে PII স্প্যান শনাক্ত করতে সক্ষম করে.
- দীর্ঘ-কনটেক্সট: রিলিজ করা মডেল সর্বোচ্চ 128,000 টোকেনের কনটেক্সট সমর্থন করে.
- কনফিগারযোগ্য: ডেভেলপাররা তাদের ওয়ার্কফ্লোর উপর নির্ভর করে রিকল ও প্রিসিশনের মধ্যে সমঝোতা করতে অপারেটিং পয়েন্ট টিউন করতে পারেন.
প্রকাশিত মডেলের মোট 1.5 বিলিয়ন প্যারামিটার রয়েছে, যার মধ্যে 50 মিলিয়ন সক্রিয় প্যারামিটার.
Privacy Filter আটটি বিভাগ জুড়ে পূর্বাভাস দেয়:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number ক্যাটাগরিটি বিভিন্ন ধরনের অ্যাকাউন্ট নম্বর মাস্ক করতে সাহায্য করে, যার মধ্যে ক্রেডিট কার্ড নম্বর এবং ব্যাংক অ্যাকাউন্ট নম্বরের মতো ব্যাংকিং তথ্যও অন্তর্ভুক্ত থাকে, আর secret পাসওয়ার্ড এবং API key-গুলোর মতো তথ্য মাস্ক করতে সাহায্য করে.
এই লেবেলগুলি BIOES স্প্যান ট্যাগ দিয়ে ডিকোড করা হয়, যা আরও পরিচ্ছন্ন এবং সুসংহত মাস্কিং সীমানা তৈরি করতে সাহায্য করে.
ইনপুট টেক্সটের উদাহরণ
বিষয়: Q2 পরিকল্পনা ফলো-আপ
হাই জর্ডন,
আজ সকালে দেখা করার জন্য আবারও ধন্যবাদ. আমি Q2 রোলআউটের সংশোধিত টাইমলাইন জানাতে চেয়েছিলাম এবং নিশ্চিত করতে চেয়েছিলাম যে পণ্য উন্মোচনের সময়সূচি 18 সেপ্টেম্বর 2026 নির্ধারণ করা হয়েছে. রেফারেন্সের জন্য, প্রোজেক্ট ফাইলটি 4829-1037-5581-এর অধীনে তালিকাভুক্ত আছে. আপনার দিক থেকে কোনো পরিবর্তন হলে, এখানে maya.chen@example.com-এ জবাব দিতে দ্বিধা করবেন না অথবা আমাকে +1 (415) 555-0124 নম্বরে কল করুন.
শুভেচ্ছান্তে,
মায়া চেন
ব্যক্তিগত শনাক্তকারী মাস্কিং করার পরের টেক্সট
বিষয়: Q2 পরিকল্পনা ফলো-আপ
হ্যালো [PRIVATE_PERSON],
আজ সকালে দেখা করার জন্য আবারও ধন্যবাদ. আমি Q2 রোলআউটের সংশোধিত টাইমলাইন সম্পর্কে জানাতে চেয়েছিলাম এবং নিশ্চিত করতে চেয়েছিলাম যে পণ্য উন্মোচনের সময়সূচি [PRIVATE_DATE] তারিখে নির্ধারিত আছে. রেফারেন্সের জন্য, প্রোজেক্ট ফাইলটি [ACCOUNT_NUMBER]-এর অধীনে তালিকাভুক্ত আছে. আপনার দিক থেকে কোনো কিছু পরিবর্তন হলে, এখানে [PRIVATE_EMAIL] -এ উত্তর দিতে বা [PRIVATE_PHONE]-এ আমাকে কল করতে দ্বিধা করবেন না.
শুভেচ্ছান্তে,
[PRIVATE_PERSON]
আমরা Privacy Filter বেশ কয়েকটি ধাপে তৈরি করেছি.
প্রথমে, আমরা একটি প্রাইভেসি শ্রেণীবিন্যাস তৈরি করেছি যা মডেলের শনাক্ত করা উচিত এমন স্প্যানের ধরন সংজ্ঞায়িত করে. এর মধ্যে রয়েছে ব্যক্তিগত শনাক্তকারী তথ্য, যোগাযোগের বিবরণ, ঠিকানা, গোপন তারিখসমূহ, ক্রেডিট ও ব্যাংকিং তথ্যের মতো বিভিন্ন ধরনের অ্যাকাউন্ট নম্বর এবং API কী ও পাসওয়ার্ডের মতো গোপন তথ্য.
দ্বিতীয়ত, আমরা একটি পূর্বপ্রশিক্ষিত ল্যাঙ্গুয়েজ মডেলকে ল্যাঙ্গুয়েজ মডেলিং হেডের পরিবর্তে একটি টোকেন-শ্রেণিবিন্যাস হেড বসিয়ে এবং তত্ত্বাবধায়িত শ্রেণিবিন্যাস উদ্দেশ্য দিয়ে এটিকে পোস্ট-ট্রেনিং করে একটি দ্বিমুখী টোকেন শ্রেণিবিন্যাসকারীতে রূপান্তর করেছি.
তৃতীয়ত, আমরা সর্বজনীনভাবে উপলব্ধ এবং সিন্থেটিক ডেটার একটি মিশ্রণ দিয়ে প্রশিক্ষণ দিয়েছি, যা বাস্তবসম্মত টেক্সট এবং জটিল গোপনীয়তা-সংক্রান্ত প্যাটার্ন—উভয়ই ধারণ করার জন্য ডিজাইন করা হয়েছে. সার্বজনিক ডেটার যেসব অংশে লেবেলগুলো অসম্পূর্ণ ছিল, সেসব ক্ষেত্রে আমরা কভারেজ উন্নত করতে মডেল-সহায়তায় অ্যানোটেশন ও পর্যালোচনা ব্যবহার করেছি. ফরম্যাট, প্রসঙ্গ এবং গোপনীয়তার উপধরন জুড়ে বৈচিত্র্য বাড়াতে আমরা কৃত্রিম উদাহরণও তৈরি করেছি.
ইনফারেন্সের সময়, মডেলের টোকেন-স্তরের পূর্বাভাসগুলো সীমাবদ্ধ সিকোয়েন্স ডিকোডিং ব্যবহার করে সুসংগত স্প্যানে ডিকোড করা হয়. এই পদ্ধতিটি প্রশিক্ষণপ্রাপ্ত মডেলের বিস্তৃত ভাষাগত বোঝাপড়া সংরক্ষণ করে, একই সঙ্গে গোপনীয়তা শনাক্তকরণের জন্য এটিকে বিশেষায়িত করে.
আমরা স্ট্যান্ডার্ড বেঞ্চমার্কে এবং আরও কঠিন, প্রসঙ্গ-সংবেদনশীল ক্ষেত্রগুলো পরীক্ষা করার জন্য তৈরি অতিরিক্ত কৃত্রিম ও চ্যাট-ধাঁচের মূল্যায়নগুলোতে Privacy Filter-কে মূল্যায়ন করেছি.
PII-Masking-300k(একটি নতুন উইন্ডোতে খোলে) বেঞ্চমার্কে, Privacy Filter 96% F1 স্কোর অর্জন করেছে (94.04% প্রিসিশন এবং 98.04% রিকল). পর্যালোচনার সময় চিহ্নিত ডেটাসেট অ্যানোটেশন-সংক্রান্ত সমস্যাগুলি বিবেচনায় নেওয়া হয়েছে এমন বেঞ্চমার্কের একটি সংশোধিত সংস্করণে, F1 স্কোর 97.43% (96.79% প্রিসিশন এবং 98.08% রিকল).
আমরা আরও দেখেছি যে মডেলকে দক্ষতার সঙ্গে মানিয়ে নেওয়া যেতে পারে. অল্প পরিমাণ ডেটাতেও ফাইন-টিউনিং করলে ডোমেইন-নির্দিষ্ট কাজগুলোতে দ্রুত অ্যাকিউরেসি উন্নত হয়, F1 স্কোর 54% থেকে 96%-এ বৃদ্ধি পায় এবং আমরা যে ডোমেইন-অ্যাডাপ্টেশন বেঞ্চমার্ক মূল্যায়ন করেছি তাতে পারফরম্যান্স প্রায় স্যাচুরেশনে পৌঁছে যায়.
বেঞ্চমার্ক পারফরম্যান্সের বাইরেও, Privacy Filter নয়েজযুক্ত, বাস্তব-বিশ্বের টেক্সটে ব্যবহারিক গোপনীয়তা ফিল্টারিংয়ের জন্য ডিজাইন করা হয়েছে. এর মধ্যে রয়েছে দীর্ঘ ডকুমেন্ট, অস্পষ্ট রেফারেন্স, মিশ্র-ফরম্যাটের স্ট্রিং এবং সফটওয়্যার-সম্পর্কিত সিক্রেট. মডেল কার্ডটিতে (একটি নতুন উইন্ডোতে খোলে)কোডবেস থেকে গোপন তথ্য শনাক্তকরণ এবং বহুভাষিক, প্রতিকূল ও প্রেক্ষাপট-নির্ভর উদাহরণের বিপরীতে করা স্ট্রেস টেস্টের লক্ষ্যভিত্তিক মূল্যায়নের রিপোর্টও দেওয়া হয়েছে.
Privacy Filter কোনো বেনামীকরণ টুল নয়, কোনো কমপ্লায়েন্স সার্টিফিকেশন নয়, আর উচ্চ-ঝুঁকিপূর্ণ পরিস্থিতিতে নীতি পর্যালোচনার বিকল্পও নয়. এটি একটি বৃহত্তর নকশা-অনুসারে গোপনীয়তা ব্যবস্থার একটি উপাদান.
এর আচরণ সেই লেবেল শ্রেণীবিন্যাস এবং সিদ্ধান্ত সীমানাকে প্রতিফলিত করে, যার উপর এটি প্রশিক্ষিত হয়েছে. বিভিন্ন সংস্থা ভিন্ন সনাক্তকরণ বা মাস্কিং নীতিমালা চাইতে পারে এবং সেই নীতিমালাগুলোর জন্য ডোমেইন-নির্দিষ্ট মূল্যায়ন বা আরও সূক্ষ্ম-সামঞ্জস্য প্রয়োজন হতে পারে. প্রশিক্ষণ বণ্টন থেকে ভিন্ন ভাষা, লিপি, নামকরণের রীতি এবং ডোমেইন জুড়েও কর্মদক্ষতা ভিন্ন হতে পারে.
সব মডেলের মতো, Privacy Filter ভুল করতে পারে. এটি অস্বাভাবিক আইডেন্টিফায়ার (চিহ্নিতকারী) বা অস্পষ্ট ব্যক্তিগত তথ্য শনাক্ত করতে ব্যর্থ হতে পারে; এছাড়া প্রেক্ষাপট সীমিত হলে, বিশেষ করে ছোট বাক্যের ক্ষেত্রে, এটি তথ্যের অতি-সংবেদনশীল বা অপর্যাপ্ত সেন্সরশিপ করতে পারে. আইনি, চিকিৎসা এবং আর্থিক কর্মপ্রবাহের মতো উচ্চ-সংবেদনশীল ক্ষেত্রগুলোতে মানবীয় পর্যালোচনা এবং ডোমেইন-নির্দিষ্ট মূল্যায়ন ও ফাইন-টিউনিং গুরুত্বপূর্ণ রয়ে যায়.
আমরা সমগ্র ইকোসিস্টেমে আরও শক্তিশালী গোপনীয়তা সুরক্ষা নিশ্চিত করতে OpenAI Privacy Filter চালু করছি.
মডেলটি আজ Hugging Face(একটি নতুন উইন্ডোতে খোলে) এবং Github(একটি নতুন উইন্ডোতে খোলে)-এ Apache 2.0 লাইসেন্সের আওতায় উপলভ্য. এটি পরীক্ষা-নিরীক্ষা, কাস্টমাইজেশন এবং বাণিজ্যিক স্থাপনার জন্য তৈরি করা হয়েছে এবং এটি বিভিন্ন ডেটা বণ্টন ও প্রাইভেসি পলিসির জন্য ফাইন-টিউন করা যেতে পারে.
মডেলের পাশাপাশি, আমরা এমন ডকুমেন্টেশনও শেয়ার করছি যেখানে মডেলের আর্কিটেকচার, লেবেল ট্যাক্সোনমি, ডিকোডিং নিয়ন্ত্রণসমূহ, উদ্দেশ্য প্রণোদিত ব্যবহার ক্ষেত্র, মূল্যায়ন সেটআপ এবং পরিচিত সীমাবদ্ধতাগুলো অন্তর্ভুক্ত রয়েছে, যাতে দলগুলো বুঝতে পারে মডেলটি কোন কাজগুলো ভালোভাবে করে এবং কোথায় এটি সতর্কতার সঙ্গে ব্যবহার করা উচিত.
AI সিস্টেমগুলোর জন্য গোপনীয়তা সুরক্ষা গবেষণা, পণ্য নকশা, মূল্যায়ন এবং প্রয়োগ জুড়ে একটি চলমান প্রচেষ্টা.
Privacy Filter এমন একটি দিককে প্রতিফলিত করে, যেটিকে আমরা গুরুত্বপূর্ণ বলে মনে করি: বাস্তব-বিশ্বের AI সিস্টেমের জন্য গুরুত্বপূর্ণ, সুনির্দিষ্টভাবে সংজ্ঞায়িত কাজগুলোতে অত্যাধুনিক সক্ষমতা সম্পন্ন ছোট, দক্ষ মডেল. আমরা এটি প্রকাশ করছি, কারণ আমরা মনে করি গোপনীয়তা-সংরক্ষণকারী ইনফ্রাস্ট্রাকচার পরিদর্শন করা, চালানো, মানিয়ে নেওয়া এবং উন্নত করা আরও সহজ হওয়া উচিত.
আমাদের লক্ষ্য হলো মডেলগুলো পৃথিবী সম্পর্কে শিখুক, ব্যক্তিগত ব্যক্তিদের সম্পর্কে নয়. Privacy Filter তা সম্ভব করতে সহায়তা করে.
গবেষণা ও প্রাইভেসি কমিউনিটি থেকে ফিডব্যাক পেতে এবং মডেলের পারফরমেন্স নিয়ে আরও পুনরাবৃত্তি করতে আমরা Privacy Filter-এর এই প্রিভিউ রিলিজ করছি.


