مرکزی مواد پر جائیں
OpenAI

اپ ڈیٹ کیا گیا: ۳۰ اپریل، ۲۰۲۵

ChatGPT اور ہمارے بنیاد/بڑے پیمانے کے ماڈلز کیسے تیار کیے جاتے ہیں

ہمارے ماڈلز کی تیاری اور ChatGPT جیسی مصنوعات میں ان کے اطلاق کے طریقہ کار کے بارے میں مزید جانیں

ChatGPT کو تقویت دینے والے ماڈلز سمیت OpenAI کے بنیاد/بڑے پیمانے کے ماڈلز معلومات کے تین بنیادی ذرائع کا استعمال کرتے ہوئے تیار کیے جاتے ہیں: (1) وہ معلومات جو ظاہری طور پر انٹرنیٹ پر دستیاب ہیں (2) وہ معلومات جن تک رسائی کے لیے ہم فریقین ثالث کے ساتھ شراکت داری کرتے ہیں، اور (3) وہ معلومات جو ہمارے صارفین یا انسانی تربیت دہندگان اور محققین فراہم یا تخلیق کرتے ہیں۔

یہ مضمون ظاہری طور پر دستیاب ان معلومات کا ایک جائزہ فراہم کرتا ہے جنہیں ہم ان ماڈلز کی تیاری میں مدد لینے کے لیے استعمال کرتے ہیں اور یہ کہ ہم ان معلومات کو پرائیویسی کے قوانین کی تعمیل میں کیسے حاصل اور استعمال کرتے ہیں۔ براہ کرم اپنی سروسز کے صارفین سے معلومات اکٹھا اور استعمال کرنے اور اپنے ماڈلز کو سکھانے میں مدد کے لیے ChatGPT گفتگو کے استعمال کے اختیار کو ترک کرنے کے طریقہ کار کے بارے میں جاننے کے لیے ہماری پرائیویسی پالیسی اور یہ مضمون ملاحظہ کریں۔

ChatGPT کیا ہے اور یہ کیسے کام کرتا ہے؟

ChatGPT ایک مصنوعی ذہانت پر مبنی سروس ہے جس تک آپ انٹرنیٹ کے توسط سے رسائی کر سکتے ہیں۔ آپ ChatGPT کو مختلف کاموں جیسے معلومات کو منظم یا خلاصہ کرنے، ترجمہ میں مدد لینے، کسی تصویر کا تجزیہ کرنے یا تخلیق کرنے، تخلیقی صلاحیتوں کو جلا بخشنے اور نئے خیالات کو پروان چڑھانے اور روزمرہ کے کاموں میں مدد لینے کے لیے استعمال کر سکتے ہیں۔ ChatGPT کو ایک ایسے طرز پر تیار کیا گیا ہے جو اسے صارف کے سوالات اور ہدایات کو سمجھنے اور ان کا جواب دینے کے قابل بناتا ہے۔ یہ بڑی مقدار میں دستیاب معلومات جیسے متن، تصاویر، آڈیو یا ویڈیو کا تجزیہ کر کے اور ان معلومات میں موجود تعلقات سے سیکھ کر مذکورہ کام سر انجام دیتا ہے۔ مثال کے طور پر، مذکورہ ماڈل یہ سیکھتا ہے کہ الفاظ دوسرے الفاظ کے سیاق و سباق کے تناظر میں کیسے ظاہر ہوتے ہیں اور پھر سیکھے ہوئے علم کو استعمال میں لاتے ہوئے اس اگلے سب سے زیادہ ممکنہ لفظ کی پیشین گوئی کی ہے جو صارف کی درخواست کے جواب میں ظاہر ہو سکتا ہے اور اس کے بعد آنے والے ہر لفظ کی بھی پیش گوئی کرتا ہے۔ یہ ماڈلز معلومات کی دوسری اشکال جیسے تصاویر تخلیق کرنا بھی سیکھ سکتے ہیں کیونکہ وہ تربیتی ڈیٹا میں تصاویر بنانے والے پکسلز کے آپس میں تعلق اور ان کی وضاحت کرنے والے کیپشنز کو سمجھتے ہیں۔

مثال کے طور پر، ماڈل کے سیکھنے کے عمل کے دوران (جسے "تربیت" کہا جاتا ہے)، ہم کسی ماڈل سے یہ کہہ سکتے ہیں کہ وہ اس جملے کو مکمل کرنے کی کوشش کرے: "بائیں جانب مڑنے کی بجائے وہ ___ مڑ گئی"۔ ماڈل تربیت دینے سے پہلے بے ترتیب الفاظ کے ساتھ جواب دے گا لیکن جیسے جیسے یہ بہت سے متن کو پڑھتا اور سیکھتا ہے یہ اس قسم کے جملے کو بہتر طور پر سمجھنے لگتا ہے اور اگلے لفظ کی زیادہ درست پیش گوئی کر سکتا ہے۔ پھر یہ اس عمل کو جملوں کی ایک بہت بڑی تعداد میں دہراتا ہے۔

کیونکہ اس جملے میں آگے آنے والے بہت سے ممکنہ الفاظ ہو سکتے ہیں (جیسے بائیں مڑنے کی بجائے وہ 'دائیں'، 'ارد گرد'، یا 'پیچھے' مڑ گئی) ماڈل کے جواب دینے کے طریقے میں بے ترتیبی کا عنصر پایا جاتا ہے اور ہمارے ماڈلز بہت سی صورتوں میں ایک ہی سوال کا مختلف طریقوں سے جواب دے سکتے ہیں۔

مشین لرننگ (Machine learning) کے ماڈلز بڑی تعداد میں "اوزان" یا "پیرامیٹرز" کہلانے والے نمبروں پر مشتمل ہونے کے علاوہ اس کوڈ پر بھی مشتمل ہوتے ہیں جو ان نمبروں کی ترجمانی کرتا اور ان پر عمل درآمد کرتا ہے۔ ماڈلز میں ان معلومات کی کاپیاں شامل یا ذخیرہ نہیں ہوتیں جن سے وہ سیکھتے ہیں۔ اس کی بجائے جیسے جیسے کوئی ماڈل سیکھتا ہے تو ماڈل کے بعض نمبروں میں تھوڑی سی تبدیلی آتی ہے تاکہ وہ اس علم کی عکاسی کر سکیں جو اس نے سیکھا ہے۔ اوپر دی گئی مثال میں ماڈل نے ایسی معلومات کا جائزہ لیا جنہوں نے اسے بے ترتیب غلط الفاظ کی پیش گوئی کرنے سے لے کر زیادہ درست الفاظ کی پیش گوئی کرنے تک بہتر بنایا لیکن حقیقت میں ماڈل میں صرف اتنا ہی ہوا کہ نمبروں میں معمولی تبدیلی آئی۔ ماڈل نے ان جملوں، تصاویر یا آڈیو کو ذخیرہ یا کاپی نہیں کیا جن کا اس نے جائزہ لیا تھا۔

ChatGPT کو سکھانے کے لیے کس قسم کی معلومات استعمال کی جاتی ہیں؟

جیسا کہ اوپر بتایا گیا ہے کہ ChatGPT اور ہماری دوسری خدمات ان معلومات کو استعمال کرتے ہوئے تیار کی گئی ہیں (1) وہ معلومات جو ظاہری طور پر انٹرنیٹ پر دستیاب ہیں (2) وہ معلومات جن تک رسائی کے لیے ہم فریقین ثالث کے ساتھ شراکت داری کرتے ہیں، اور (3) وہ معلومات جو ہمارے صارفین یا انسانی تربیت دہندگان اور محققین فراہم یا تخلیق کرتے ہیں۔ یہ مضمون پہلے مجموعہ پر توجہ مرکوز کرتا ہے: وہ معلومات جو انٹرنیٹ پر عوامی طور پر دستیاب ہے۔

معلومات کے اس مجموعے کے لیے ہم صرف ظاہری طور پر دستیاب ایسی معلومات کو استعمال کرتے ہیں جو انٹرنیٹ پر آزادانہ اور کھلے عام موجود ہیں مثال کے طور پر ہم ایسی معلومات تلاش نہیں کرتے جو پے والز (paywalls) کے پیچھے چھپی ہوں یعنی مفت نہ ہوں یا 'ڈارک ویب' (dark web) کی جانب سے ہوں۔ ہم فلٹرز لگاتے ہیں اور ایسی معلومات کو ہٹا دیتے ہیں جنہیں ہم نہیں چاہتے کہ ہمارے ماڈلز سیکھیں یا پیش کریں جیسے نفرت انگیز بات چیت، بالغوں سے متعلق مواد، ایسی سائٹس جو بنیادی طور پر ذاتی معلومات جمع کرتی ہیں اور غیر متعلقہ مواد۔ پھر ہم یہی معلومات اپنے ماڈلز کو سکھانے کے لیے استعمال کرتے ہیں۔

کیا ChatGPT کو سکھانے کے لیے ذاتی معلومات استعمال کی جاتی ہیں؟

انٹرنیٹ پر موجود ڈیٹا کی بڑی مقدار افراد کے متعلق ہے اس لیے ہماری تربیتی معلومات میں غیر ارادی طور پر ذاتی معلومات شامل ہو جاتی ہیں۔ ہم اپنے ماڈلز کو تربیت دینے کے لیے ذاتی معلومات کو فعال طور پر تلاش نہیں کرتے۔

ہم تربیتی معلومات کا استعمال اپنے ماڈلز کو صرف پیشن گوئی کرنے، استدلال کرنے اور مسائل حل کرنے کی صلاحیت جیسی ذہانت سکھانے کے لیے کرتے ہیں۔ ہم لوگوں کے بارے میں پروفائلیں بنانے، ان سے رابطہ کرنے، انہیں اشتہار بھیجنے، ان کو کوئی چیز بیچنے کی کوشش کرنے یا معلومات کو بذات خود بیچنے کے لیے تربیتی معلومات میں کسی بھی ذاتی معلومات کا استعمال نہ کرتے ہیں اور نہ کریں گے۔

ہمارے ماڈلز ذاتی معلومات سے سیکھنے کے لیے اس بات کو سمجھ سکتے ہیں کہ نام اور پتے جیسی چیزیں زبان اور جملوں میں کس طرح فٹ آتی ہیں یا مشہور لوگوں اور مشہور شخصیات کے بارے میں جان سکتے ہیں۔ یہ ہمارے ماڈلز کی متعلقہ جوابات فراہم کرنے کی صلاحیت کو بہتر بناتا ہے۔

ہم اپنے ماڈلز کی تربیت کے دوران ذاتی معلومات کی پروسیسنگ کم کرنے کے لیے بھی اقدامات اٹھاتے ہیں۔ مثال کے طور پر ہم ایسی ویب سائٹس کو ہٹا دیتے ہیں جو ذاتی معلومات کی بڑی مقدار اکٹھی کرتی ہیں اور ہم اپنے ماڈلز کو لوگوں کے بارے میں نجی یا حساس معلومات کی درخواستوں کو مسترد کرنے کی تربیت دیتے ہیں۔

ChatGPT کی تیاری پرائیویسی کے قوانین کی تعمیل کیسے کرتی ہے؟

ہم تربیتی معلومات کو قانونی طور پر استعمال کرتے ہیں۔ ہمارے بنیاد/بڑے پیمانے کے ماڈلز میں بہت سی ایسی ایپلیکیشنز ہیں جو اہم فوائد فراہم کرتی ہیں اور پہلے سے ہی لوگوں کو مواد بنانے، کسٹمر سروس کو بہتر بنانے، سافٹ ویئر تیار کرنے، تعلیم کو اپنی مرضی کے مطابق بنانے، سائنسی تحقیق کی حمایت کرنے اور بہت کچھ کرنے میں مدد دے رہی ہیں۔ ماڈلز کو سکھانے کے لیے بڑی مقدار میں معلومات کے بغیر یہ فوائد حاصل نہیں کیے جا سکتے۔ مزید برآں ہماری طرف سے تربیتی معلومات کے استعمال کا مقصد افراد پر منفی اثر ڈالنا نہیں ہے اور ان تربیتی معلومات کے بنیادی ذرائع ظاھری طور پر پہلے سے ہی دستیاب ہیں۔ ان وجوہات کی بناء پر ہم ان ذاتی معلومات کو جمع کرنے اور استعمال کرنے کو بنیاد بناتے ہیں جو کہ GDPR جیسے پرائیویسی کے قوانین کے تحت جائز مفادات سے متعلق تربیتی معلومات میں شامل ہیں۔ جیسے کہ ہماری پرائیویسی پالیسی میں مزید تفصیل کے ساتھ بیان کیا گیا ہے۔ ہم نے ڈیٹا کے تحفظ کے اثرات کا جائزہ بھی مکمل کر لیا ہے تاکہ اس بات کو یقینی بنایا جا سکے کہ ہم ان معلومات کو قانونی اور ذمہ دارانہ طور پر اکٹھا اور استعمال کر رہے ہیں۔

ہم اعتراض کی درخواستوں اور ایک جیسے حقوق کا جواب دیتے ہیں۔ زبان سیکھنے کے نتیجے کے طور پر ChatGPT کے جوابات میں بعض اوقات ایسے افراد کے بارے میں ذاتی معلومات شامل ہو سکتی ہیں جن کی ذاتی معلومات عوامی انٹرنیٹ پر کئی بار ظاہر ہوتی ہیں (مثال کے طور پر مشہور شخصیات)۔ مخصوص دائرہ اختیار میں موجود افراد ہمارے پرائیویسی پورٹل(نئی ونڈو میں کھلتا ہے) کے ذریعے ہمارے ماڈلز کی جانب سے ان کی ذاتی معلومات کو زیر عمل لائے جانے پر اعتراض کر سکتے ہیں یا دوسرے ڈیٹا کے متعلق حقوق کی درخواستیں دے سکتے ہیں۔ آپ dsar@openai.com سے رابطہ کر کے بھی ان حقوق کا استعمال کر سکتے ہیں۔

براہ کرم آگاہ رہیں کہ پرائیویسی کے قوانین کے مطابق بعض حقوق مطلق نہیں ہو سکتے۔ اگر ہمارے پاس ایسا کرنے کی کوئی قانونی وجہ ہو تو ہم کسی بھی درخواست کو مسترد کر سکتے ہیں۔ تاہم، ہم ذاتی معلومات کے تحفظ کو ترجیح دینے کی کوشش کرتے ہیں اور تمام قابل اطلاق پرائیویسی کے قوانین کی تعمیل کرتے ہیں۔ اگر آپ کو لگتا ہے کہ ہم نے کسی مسئلے کو مناسب طریقے سے حل نہیں کیا ہے تو آپ اپنے مقامی نگران اتھارٹی کے پاس شکایت درج کرانے کا حق رکھتے ہیں۔

آپ کی جانب سے ہماری ویب سائٹ، ایپلیکیشنز اور سروسز استعمال کرتے وقت ہم آپ سے یا آپ کے بارے میں جو ذاتی معلومات اکٹھی کرتے ہیں اس کے حوالے سے OpenAI کے طریقوں کے بارے میں مزید معلومات کے لیے براہ کرم ہماری پرائیویسی پالیسی ملاحظہ کریں۔