ہم نے GPT‑4 بنایا ہے، جو گہری تعلیم کو بڑھانے میں OpenAI کی کوششوں کا تازہ ترین سنگ میل ہے۔ GPT‑4 ایک بڑا کثیرالوسائط ماڈل (تصویری اور متنی ان پٹ قبول کرتا ہے اور متنی آؤٹ پٹ فراہم کرتا ہے) ہے، یہ بہت سے حقیقی دنیا کے حالات میں انسانوں جتنی صلاحیت نہیں رکھتا، مگر یہ مختلف پیشہ ورانہ اور علمی معیارات پر انسانی سطح کی کارکردگی کا مظاہرہ کرتا ہے۔ مثال کے طور پر، یہ ایک فرضی بار امتحان کو پاس کرتا ہے جس میں ٹیسٹ دینے والوں کے اوپری 10٪ کے قریب اسکور ہوتا ہے؛ اس کے برعکس، GPT‑3.5 کا اسکور نچلے 10 فیصد کے قریب تھا۔ ہم نے اپنے مخالفانہ ٹیسٹنگ پروگرام اور ChatGPT کے اسباق کا استعمال کرتے ہوئے 6 ماہ تک GPT‑4 کو مرحلہ وار ہم آہنگ کرنے میں صرف کیے، جس کے نتیجے میں حقیقت، اسٹیریبلٹی، اور گارڈریلز سے باہر نہ جانے کے حوالے سے ہمارے اب تک کے بہترین نتائج حاصل ہوئے (اگرچہ یہ کامل نہیں ہیں)۔
گزشتہ دو سالوں میں، ہم نے اپنی پوری گہری تعلیم اسٹیک کو دوبارہ تعمیر کیا اور Azure کے ساتھ مل کر، اپنے کام کے بوجھ کے لیے زمین سے ایک سپر کمپیوٹر کو مشترکہ طور پر ڈیزائن کیا۔ ایک سال پہلے، ہم نے GPT‑3.5 کو سسٹم کے پہلے “ٹیسٹ رن” کے طور پر تربیت دی تھی۔ ہم نے کچھ بگز تلاش کیے اور انہیں ٹھیک کیا اور اپنی نظریاتی بنیادوں کو بہتر بنایا۔ نتیجتاً، ہماری GPT‑4 کی تربیت کا عمل (کم از کم ہمارے لیے!) بے مثال طور پر مستحکم رہا، اور یہ ہمارا پہلا بڑا نمونہ بن گیا جس کی تربیتی کارکردگی کی ہم وقت سے پہلے درست پیش گوئی کرنے میں کامیاب رہے۔ جب ہم قابل اعتماد اسکیلنگ پر توجہ مرکوز جاری رکھتے ہیں، ہمارا مقصد اپنے طریقہ کار کو بہتر بنانا ہے تاکہ ہمیں مستقبل کی صلاحیتوں کی پیش گوئی اور تیاری میں مدد ملے، جو ہم حفاظت کے لئے نہایت اہم سمجھتے ہیں۔
ہم ChatGPT اور API (فہرست منتظرین کے ساتھ) کے ذریعے GPT‑4 کی ٹیکسٹ ان پٹ کی صلاحیت جاری کر رہے ہیں۔ وسیع تر دستیابی کے لیے تصویر ان پٹ کی صلاحیت کو تیار کرنے کے لیے، ہم آغاز میں ایک واحد شراکت دار(نئی ونڈو میں کھلتا ہے) کے ساتھ قریبی تعاون کر رہے ہیں۔ ہم OpenAI Evals(نئی ونڈو میں کھلتا ہے) کو بھی اوپن سورس کر رہے ہیں، جو اے آئی نمونوں کی کارکردگی کی خودکار تشخیص کے لیے ہمارا فریم ورک ہے، تاکہ کوئی بھی ہمارے نمونوں میں کوتاہیوں کی اطلاع دے سکے اور مزید بہتری کی رہنمائی کر سکے۔
ایک غیر رسمی گفتگو میں، GPT‑3.5 اور GPT‑4 کے درمیان فرق باریک ہو سکتا ہے۔ فرق اس وقت ظاہر ہوتا ہے جب ٹاسک کی پیچیدگی ایک خاص حد تک پہنچ جاتی ہے—GPT‑4 زیادہ قابل اعتماد، تخلیقی، اور GPT‑3.5 کے مقابلے میں زیادہ باریک بین ہدایات کو سنبھالنے کی صلاحیت رکھتا ہے۔
دونوں نمونوں کے مابین فرق کو سمجھنے کے لئے، ہم نے مختلف قسم کے معیارات پر تجربہ کیا، جن میں وہ امتحانات بھی شامل ہیں جو اصل میں انسانوں کے لئے ڈیزائن کیے گئے تھے۔ ہم نے حالیہ عوامی طور پر دستیاب ٹیسٹوں کا استعمال کرتے ہوئے (اولمپیڈز اور اے پی کے مفت جواب کے سوالات کے معاملے میں) یا پریکٹس امتحانات کے 2022–2023 ایڈیشن خرید کر آگے بڑھنے کا فیصلہ کیا۔ ہم نے ان امتحانات کے لئے کوئی خاص تربیت نہیں کی۔ امتحانات میں مسائل کی ایک اقلیت کو تربیت کے دوران نمونہ نے دیکھا تھا، لیکن ہمیں یقین ہے کہ نتائج نمائندہ ہیں—تفصیلات کے لیے ہماری تکنیکی رپورٹ(نئی ونڈو میں کھلتا ہے) دیکھیں۔
اندرونی حوالہ 1
ہم نے مشین لرننگ کے نمونے کے لیے تیار کردہ روایتی معیارات پر GPT‑4 کا بھی جائزہ لیا۔ GPT‑4 موجودہ بڑے لینگویج ماڈلز کو نمایاں طور پر پیچھے چھوڑ دیتا ہے، اور زیادہ تر جدید ترین (SOTA) ماڈلز کے ساتھ، جن میں بینچ مارک سے متعلق مخصوص دستکاری یا اضافی تربیتی پروٹوکول شامل ہو سکتے ہیں:
بہت سے موجودہ ایم ایل بینچ مارک انگریزی میں لکھے گئے ہیں۔ دوسری زبانوں میں صلاحیت کا ابتدائی احساس حاصل کرنے کے لئے، ہم نے MMLU بینچ مارک کا ترجمہ کیا - جو 57 مضامین پر مشتمل 14,000 کثیر انتخاب مسائل کا ایک مجموعہ ہے - Azure Translate کا استعمال کرتے ہوئے مختلف زبانوں میں کیا۔ (ضمیمہ دیکھیں) 26 زبانوں میں سے 24 میں، جن کا ٹیسٹ کیا گیا، GPT‑4 نے GPT‑3.5 اور دیگر LLMs (Chinchilla, PaLM) کی انگریزی زبان کی کارکردگی کو پیچھے چھوڑ دیا، بشمول کم وسائل والی زبانیں جیسے کہ لٹوین، ویلش، اور سواہلی:
ہم نے GPT‑4 کو اندرونی طور پر بھی استعمال کیا ہے، جس کا سپورٹ، فروخت، مواد کی اعتدال، اور پروگرامنگ جیسے افعال پر بہت زیادہ اثر پڑا ہے۔ ہم اسے اپنی صف بندی کی حکمت عملی میں دوسرا مرحلہ شروع کرتے ہوئے اے آئی کے آؤٹ پٹ کا جائزہ لینے میں انسانوں کی مدد کے لیے بھی استعمال کر رہے ہیں۔
GPT‑4 متن اور تصاویر کا ایک بروقت قبول کر سکتا ہے، جو - صرف متن کی ترتیب کے متوازی - صارف کو کسی بھی بصری یا زبان کے ٹاسک کی وضاحت کرنے دیتا ہے۔ خاص طور پر، یہ متن آؤٹ پٹ (قدرتی زبان، کوڈ، وغیرہ) پیدا کرتا ہے جب ان پٹ میں متن اور تصاویر شامل ہوں۔ مختلف شعبوں میں - جن میں متن اور تصاویر، ڈایاگرامز، یا اسکرین شاٹس والی دستاویزات شامل ہیں - GPT‑4 وہی صلاحیتیں ظاہر کرتا ہے جو یہ صرف متن پر مبنی ان پٹ پر کرتا ہے۔ مزید برآں، اسے ٹیسٹ کے وقت کی تکنیکوں کے ساتھ بڑھایا جا سکتا ہے جو صرف متن پر مبنی لینگویج ماڈلز کے لیے تیار کی گئی ہیں، جن میں چند شاٹ اور chain-of-thought(نئی ونڈو میں کھلتا ہے) پرامپٹنگ بھی شامل ہیں۔ تصویری ان پٹ ابھی بھی تحقیقی پیش نظارہ میں ہیں اور عوامی طور پر دستیاب نہیں ہیں۔
ہم معیاری تعلیمی وژن بینچ مارکس کے ایک محدود مجموعے پر اس کا جائزہ لے کر GPT‑4 کی کارکردگی کا پیش نظارہ کرتے ہیں۔ تاہم، یہ اعداد و شمار اس کی صلاحیتوں کی مکمل حد کی نمائندگی نہیں کرتے کیونکہ ہم مسلسل نئے اور دلچسپ ٹاسک دریافت کر رہے ہیں جن سے نمونہ نمٹنے کے قابل ہے۔ ہم جلد ہی مزید تجزیے اور تشخیصی اعداد و شمار جاری کرنے کے ساتھ ساتھ ٹیسٹ کے وقت کی تکنیکوں کے اثرات کی مکمل تحقیقات کا منصوبہ رکھتے ہیں۔
اندرونی حاشیہA
ہم اس منصوبے کے ہر پہلو پر کام کر رہے ہیں جس کا خاکہ ہماری پوسٹ میں AIs کے طرز عمل کی وضاحت کے بارے میں دیا گیا ہے، بشمول ۔ کلاسیکی ChatGPT شخصیت کے بجائے، جس میں ایک مقررہ تفصیل، لہجہ، اور انداز ہوتا ہے، ڈویلپرز (اور جلد ہی ChatGPT صارفین) اب 'سسٹم' پیغام میں ان ہدایات کو بیان کرکے اپنے AI کا انداز اور ٹاسک تجویز کر سکتے ہیں۔ سسٹم پیغامات API صارفین کو اپنے صارفین کے تجربے کو نمایاں طور پر حدود کے اندر(نئی ونڈو میں کھلتا ہے) اپنی مرضی کے مطابق بنانے کی اجازت دیتے ہیں۔ ہم یہاں بہتریاں کرتے رہیں گے (اور خاص طور پر جانتے ہیں کہ سسٹم پیغامات موجودہ نمونہ کو “جیل بریک” کرنے کا سب سے آسان طریقہ ہیں، یعنی حدود کی پابندی کامل نہیں ہے)، لیکن ہم آپ کو اسے آزمانے اور ہمیں اپنی رائے سے آگاہ کرنے کی ترغیب دیتے ہیں۔
اپنی صلاحیتوں کے باوجود، GPT‑4 میں پہلے GPT نمونوں کی طرح ہی حدود ہیں۔ ب سے اہم بات یہ ہے کہ یہ ماڈل اب بھی مکمل طور پر قابلِ اعتماد نہیں ہے (یہ بعض اوقات غلط معلومات گھڑ لیتا ہے اور استدلال میں غلطیاں کرتا ہے)۔ لینگویج ماڈل کے آؤٹ پٹ کا استعمال کرتے وقت بڑی احتیاط برتنی چاہیے، خاص طور پر اعلی خطرے والے سیاق و سباق میں، صحیح پروٹوکول (جیسے انسانی جائزہ، اضافی سیاق و سباق کے ساتھ گراؤنڈنگ، یا مکمل طور پر اعلی خطرے والے استعمال سے گریز کرنا) کسی خاص استعمال کیس کی ضروریات سے مطابقت رکھنا چاہیے۔
اگرچہ یہ مسئلہ اب بھی موجود ہے، لیکن GPT‑4 نے پچھلے ماڈلز کے مقابلے میں غلط معلومات گھڑنے کے امکانات میں نمایاں حد تک کمی کی ہے (خود پچھلے ماڈلز میں بھی ہر نئے مرحلے کے ساتھ بہتری آتی رہی ہے)۔ GPT‑4 ہمارے اندرونی مخالف حقیقت کی تشخیص میں ہمارے تازہ ترین GPT‑3.5 سے 40 فیصد زیادہ اسکور کرتا ہے:
ہم نے TruthfulQA جیسے بیرونی معیاروں پر پیشرفت کی ہے، جو ماڈل کی حقیقت کو مخالفانہ طور پر منتخب کردہ غلط بیانات کے سیٹ سے الگ کرنے کی صلاحیت کی جانچ کرتا ہے۔ یہ سوالات ایسے جوابات کے ساتھ جوڑے گئے ہیں جو حقیقت میں غلط ہیں لیکن اعداد و شمار کے لحاظ سے پرکشش ہیں۔
GPT‑4 بیس ماڈل GPT‑3.5 کے مقابلے میں اس ٹاسک میں صرف قدرے بہتر ہے۔ تاہم، RLHF تربیت کے بعد (اسی عمل کو لاگو کرنا جو ہم نے GPT‑3.5 کے ساتھ استعمال کیا تھا) ایک بڑا فرق ہے۔ ذیل میں کچھ مثالوں کی جانچ کرتے ہوئے، GPT‑4 عام اقوال منتخب کرنے کی مزاحمت کرتا ہے (آپ پرانے کتے کو نئی چالیں نہیں سکھا سکتے)، تاہم یہ اب بھی لطیف تفصیلات سے محروم ہو سکتا ہے (ایلوس پریسلی کسی اداکار کا بیٹا نہیں تھا)۔
ماڈل کے آؤٹ پٹ میں مختلف تعصبات ہو سکتے ہیں—ہم نے ان پر کچھ پیشرفت کی ہے لیکن ابھی بھی مزید کام کرنا باقی ہے۔ ہماری حالیہ بلاگ پوسٹ کے مطابق، ہمارا مقصد یہ ہے کہ ہم بنائے گئے AI سسٹمز کے معقول پہلے سے طے شدہ طرز عمل ہوں جو صارفین کی اقدار کی وسیع پیمانے پر عکاسی کریں، ان نظاموں کو وسیع حدود میں اپنی مرضی کے مطابق بنانے کی اجازت دیں، اور ان حدود کے بارے میں عوامی ان پٹ حاصل کریں کہ وہ کیا ہونی چاہئیں۔
GPT‑4 میں عام طور پر اس کے اعداد و شمار کی اکثریت (ستمبر 2021) کے بعد رونما ہونے والی سرگرمیوں کے بارے میں علم کا فقدان ہے، اور وہ اپنے تجربے سے سیکھتا نہیں ہے۔ یہ بعض اوقات سادہ استدلال کی غلطیاں کر سکتا ہے جو بہت سے شعبوں میں قابلیت کے ساتھ مطابقت نہیں رکھتیں، یا صارف کی طرف سے واضح جھوٹے بیانات قبول کرنے میں ضرورت سے زیادہ سادہ لوحی دکھاتا ہے۔ اور بعض اوقات یہ مشکل مسائل میں اسی طرح ناکام ہو سکتا ہے جیسے انسان کرتے ہیں، جیسے کہ یہ اپنے تیار کردہ کوڈ میں سیکیورٹی کی کمزوریاں متعارف کروا سکتا ہے۔
GPT‑4 اپنی پیش گوئیوں میں اعتماد کے ساتھ غلط بھی ہو سکتا ہے، اور جب غلطی کا امکان ہو تو کام کو دوبارہ چیک کرنے کا خیال نہیں رکھتا۔ دلچسپ بات یہ ہے کہ بنیادی پری ٹرینڈ نمونہ انتہائی کیلیبریٹڈ ہے (جواب میں اس کا پیش گوئی شدہ اعتماد عام طور پر درست ہونے کے امکان سے مطابقت رکھتا ہے)۔ تاہم، ہمارے موجودہ بعد از تربیت کے عمل کے ذریعے، کیلیبریشن کم ہو گئی ہے۔
ہم GPT‑4 کو آغاز تربیت ہی سے زیادہ محفوظ اور بہتر ہم آہنگ بنانے پر کام کر رہے ہیں۔اس مقصد کے لیے ہماری کوششوں میں شامل ہیں: پری ٹریننگ ڈیٹا کا انتخاب اور فلٹرنگ، ماڈل کی جانچ اور ماہرین کی شمولیت، حفاظتی بہتریاں، اور نگرانی و عمل درآمد کے نظام۔
GPT‑4 پچھلے نمونہ کی طرح ہی خطرات پیش کرتا ہے، جیسے نقصان دہ مشورے، بگ زدہ کوڈ، یا غلط معلومات پیدا کرنا۔ تاہم، GPT‑4 کی اضافی صلاحیتیں نئے خطرات کی سطحوں کا باعث بنتی ہیں۔ ان خطرات کی حد کو سمجھنے کے لیے، ہم نے نمونہ کی مخالفانہ جانچ کے لیے AI الائنمنٹ رسک، سائبر سیکیورٹی، بایورسک، ٹرسٹ اینڈ سیفٹی، اور بین الاقوامی سیکیورٹی جیسے شعبوں کے 50 سے زیادہ ماہرین کو شامل کیا۔ ان کے نتائج نے خاص طور پر ہمیں اعلی خطرے والے علاقوں میں نمونہ کے طرز عمل کی جانچ کرنے کے قابل فعال کریں جن کی جانچ کے لیے مہارت کی ضرورت ہوتی ہے۔ ان ماہرین کی فیڈبیک اور ڈیٹا کو ہمارے نمونہ کی کمیوں اور بہتریوں میں شامل کیا گیا؛ مثال کے طور پر، ہم نے اضافی ڈیٹا اکٹھا کیا ہے تاکہ GPT‑4 کی خطرناک کیمیکلز کی ترکیب کرنے کی درخواستوں کو رد کرنے کی صلاحیت کو بہتر بنایا جا سکے۔
GPT‑4 نے RLHF تربیت کے دوران ایک اضافی حفاظتی انعام سگنل شامل کیا تاکہ اس طرح کے مواد کی درخواستوں سے انکار کرنے کے لیے نمونہ کو تربیت دے کر نقصان دہ آؤٹ پٹ (جیسا کہ ہماری استعمال کی ہدایات(نئی ونڈو میں کھلتا ہے)) کو کم کیا جا سکے۔ یہ انعام GPT‑4 کے زیرو شاٹ کلاسیفائر کے ذریعے دیا جاتا ہے، جو حفاظتی نوعیت کے پرامپٹس پر محفوظ حدود اور جواب دینے کے انداز کا جائزہ لے کر فیصلہ کرتا ہے۔ نمونہ کو درست درخواستوں سے انکار کرنے سے روکنے کے لیے، ہم مختلف ذرائع سے متنوع ڈیٹا سیٹ اکٹھا کرتے ہیں (مثلاً، لیبل شدہ پروڈکشن ڈیٹا، انسانی ریڈ ٹیمنگ، نمونہ سے پیدا کردہ بروقت) اور اجازت یافتہ اور غیر اجازت یافتہ دونوں زمروں پر حفاظتی انعامی سگنل (مثبت یا منفی قدر کے ساتھ) لاگو کرتے ہیں۔
ہماری حفاظتی تدابیر نے GPT‑3.5 کے مقابلے میں GPT‑4 کی محفوظ خصوصیات میں نمایاں بہتری پیدا کی ہے۔ ہم نے غیر مجاز مواد سے متعلق درخواستوں پر ماڈل کے جواب دینے کے رجحان میں GPT‑3.5 کے مقابلے میں 82 فیصد کمی کی ہے، اور GPT‑4 اب حساس نوعیت کی درخواستوں (جیسے طبی مشورہ یا خود کو نقصان پہنچانے سے متعلق سوالات) پر ہماری پالیسیوں کے مطابق 29 فیصد زیادہ درست ردِعمل دیتا ہے۔
مجموعی طور پر، ہمارے ماڈل کی سطح کی مداخلتیں خراب رویے کو ابھارنے میں مشکل پیدا کرتی ہیں، لیکن ایسا کرنا اب بھی ممکن ہے۔ اس کے علاوہ، اب بھی ایسے طریقے موجود ہیں جن کے ذریعے ایسا مواد تیار کیا جا سکتا ہے جو ہماری استعمال کی ہدایات کی خلاف ورزی کرتا ہے۔ جب مصنوعی ذہانت کے نظاموں میں فی ٹوکن خطرہ بڑھتا جاتا ہے، تو ان مداخلتوں میں انتہائی قابل اعتماد نتائج حاصل کرنا نہایت اہم ہو جائے گا۔فی الحال، ان حدود کو عملی تحفظ کے طریقوں سے مکمل کرنا ضروری ہے، جیسے غلط استعمال کی نگرانی اور سیفٹی مانیٹرنگ جیسے اقدامات۔
GPT‑4 اور جانشین ماڈلز کے پاس معاشرے کو فائدہ مند اور نقصان دہ دونوں طریقوں سے نمایاں طور پر متاثر کرنے کی صلاحیت ہے۔ ہم بیرونی محققین کے ساتھ تعاون کر رہے ہیں تاکہ ہم ممکنہ اثرات کو سمجھنے اور ان کا اندازہ لگانے کے طریقے کو بہتر بنا سکیں، اور ساتھ ہی مستقبل کے نظاموں میں ابھرنے والی خطرناک صلاحیتوں کے لئے تشخیصات تیار کر سکیں۔ ہم جلد ہی GPT‑4 اور دیگر AI سسٹمز کے ممکنہ سماجی اور معاشی اثرات کے بارے میں اپنی مزید سوچ کا اشتراک کریں گے۔
پچھلے GPT ماڈلز کی طرح، GPT‑4 بیس ماڈل کو کسی دستاویز میں اگلے لفظ کی پیش گوئی کرنے کی تربیت دی گئی تھی، اور اسے عوامی طور پر دستیاب ڈیٹا (جیسے انٹرنیٹ ڈیٹا) کے ساتھ ساتھ ہمارے لائسنس یافتہ ڈیٹا کا استعمال کرتے ہوئے تربیت دی گئی تھی۔ یہ ڈیٹا ویب پیمانے پر ایک کارپس ہے جس میں ریاضی کے مسائل کے درست اور غلط حل، کمزور اور مضبوط استدلال، خود متضاد اور مستقل بیانات شامل ہیں، اور یہ مختلف نظریات اور خیالات کی نمائندگی کرتا ہے۔
لہذا جب ماڈل سے کوئی سوال کیا جاتا ہے، تو بنیادی ماڈل کئی مختلف انداز میں جواب دے سکتا ہے جو اکثر صارف کے اصل ارادے سے بہت دور ہو سکتا ہے۔ صارف کے ارادے کے مطابق اور حفاظتی حدود کے اندر ماڈل کو ہم آہنگ کرنے کے لیے، ہم اس کے رویے کو انسانی رائے پر مبنی تقویتی سیکھنے کے ذریعے بہتر بناتے ہیں، جسے (RLHF) کہا جاتا ہے۔
نوٹ کریں کہ ماڈل کی صلاحیتیں بنیادی طور پر تربیت سے پہلے کے عمل سے آتی ہیں—RLHF امتحان کی کارکردگی کو بہتر نہیں بناتا (فعال کوشش کے بغیر، یہ دراصل اسے خراب کرتا ہے)۔ لیکن ماڈل کی رہنمائی تربیت کے بعد کے عمل سے ہوتی ہے—بنیادی ماڈل کو یہ جاننے کے لیے بروقت انجنیئرنگ کی ضرورت ہوتی ہے کہ اسے سوالات کے جوابات دینے چاہئیں۔
GPT‑4 منصوبہ کا ایک بڑا مرکز ایک گہری تعلیم کا اسٹیک بنانا رہا ہے جو پیش گوئی کے مطابق بڑھتا ہے۔ اس کی بنیادی وجہ یہ ہے کہ GPT‑4 جیسے بہت بڑے تربیتی مراحل کے لیے وسیع پیمانے پر ماڈل کے لحاظ سے مخصوص تبدیلیاں کرنا عملی طور پر ممکن نہیں ہوتا۔ ہم نے ایسا انفراسٹرکچر اور آپٹیمائزیشن تیار کیا ہے جو مختلف پیمانوں پر بہت پیش گوئی کے قابل برتاؤ کرتا ہے۔ اس اسکیل ایبلٹی کی تصدیق کریں کے لیے، ہم نے اپنے اندرونی کوڈ بیس (جو تربیتی سیٹ کا حصہ نہیں ہے) پر GPT‑4 کے حتمی نقصان کی صحیح طور پر پیش گوئی کی، جو اسی طریقہ کار کا استعمال کرتے ہوئے تربیت یافتہ ماڈلز سے ایکسٹریپولیٹ کرکے کی گئی، لیکن 10,000 گنا کم کمپیوٹ استعمال کرتے ہوئے:
ب جب کہ ہم تربیت کے دوران بہتر کیے جانے والے میٹرک کی درست پیش گوئی کر سکتے ہیں، تو ہم اب ایسے زیادہ قابل فہم اور قابل تشریح میٹرکس کی پیش گوئی کے لیے طریقۂ کار تیار کرنا شروع کر رہے ہیں۔ مثال کے طور پر، ہم نے HumanEval(نئی ونڈو میں کھلتا ہے) ڈیٹا سیٹ کے ایک حصے میں پاس ریٹ کی کامیاب پیش گوئی کی یہ پیش گوئی ہم نے ایسے ماڈلز سے اخذ کی جن کی کمپیوٹ صلاحیت 1,000 گنا کم تھی:
کچھ صلاحیتوں کی پیش گوئی کرنا ابھی بھی مشکل ہے۔ مثال کے طور پر، Inverse Scaling Prize ایک ایسا مقابلہ تھا جس کا مقصد ایسا میٹرک تلاش کرنا تھا جو ماڈل کی کمپیوٹ صلاحیت بڑھنے کے ساتھ خراب ہوتا جائے اور Hindsight Neglect(نئی ونڈو میں کھلتا ہے) اس کے فاتح تصورات میں سے ایک تھا۔ بالکل ایک اور حالیہ نتیجہ(نئی ونڈو میں کھلتا ہے) کی طرح، GPT‑4 رجحان کو پلٹ دیتا ہے:
ہم سمجھتے ہیں کہ مشین لرننگ کی آئندہ صلاحیتوں کی درست پیش گوئی کرنا محفوظ استعمال کا ایک نہایت اہم پہلو ہے، ایسا پہلو جسے اس کے ممکنہ اثرات کے مقابلے میں ابھی تک خاطر خواہ توجہ نہیں ملی (البتہ، ہمیں خوشی ہے کہ متعدد اداروں کی جانب سے اس سمت میں مثبت کوششیں جاری ہیں)۔ ہم اپنی کوششوں کو بڑھا رہے ہیں تاکہ ایسے طریقے تیار کیے جا سکیں جو معاشرے کو مستقبل کے نظاموں سے متعلق بہتر رہنمائی فراہم کریں، اور ہم امید کرتے ہیں کہ یہ شعبے میں ایک مشترکہ مقصد بن جائے۔
ام اپنا سافٹ ویئر فریم ورک OpenAI Evals(نئی ونڈو میں کھلتا ہے) اوپن سورس کر رہے ہیں، یہ ایسا نظام ہے جو GPT‑4 جیسے ماڈلز کی جانچ کے لیے بینچ مارکس بنانے اور چلانے میں استعمال ہوتا ہے، اور ان کی کارکردگی کو ہر نمونے کی بنیاد پر تفصیل سے جانچنے کی سہولت فراہم کرتا ہے۔ ہم اپنے ماڈلز کی ترقی (کوتاہیوں کی نشاندہی کرنے اور رگریشن کی روک تھام دونوں) کی رہنمائی کے لیے Evals کا استعمال کرتے ہیں، اور ہمارے صارفین اسے ماڈل ورژن (جو اب باقاعدگی سے سامنے آنے والے ہوں گے) میں کارکردگی کو ٹریک کرنے اور پروڈکٹ انضمام کو تیار کرنے کے لیے استعمال کر سکتے ہیں۔ مثال کے طور پر، Stripe نے اپنے GPT سے چلنے والے دستاویزات کے آلے کی درستگی کی پیمائش کرنے کے لیے اپنی انسانی تشخیص کی تکمیل کے لیے Evals کا استعمال کیا ہے۔
چونکہ یہ تمام کوڈ اوپن سورس ہے، اس لیے Evals میں آپ نئی کلاسز لکھ کر اپنی مرضی کے مطابق تشخیصی منطق(نئی ونڈو میں کھلتا ہے) نافذ کر سکتے ہیں۔ تاہم، ہمارے اپنے تجربے میں، بہت سے بینچ مارک چند "ٹیمپلیٹس" میں سے ایک کی پیروی کرتے ہیں، اس لیے ہم نے وہ ٹیمپلیٹس بھی شامل کیے ہیں(نئی ونڈو میں کھلتا ہے) جو اندرونی طور پر سب سے زیادہ مفید ثابت ہوئے ہیں (بشمول “نمونہ گریڈڈ ایوالز” کا ٹیمپلیٹ — ہم نے پایا ہے کہ GPT‑4 حیرت انگیز طور پر اپنے کام کی جانچ کرنے کی صلاحیت رکھتا ہے)۔ عام طور پر ایک نیا eval(نئی ونڈو میں کھلتا ہے) بنانے کا سب سے موثر طریقہ یہ ہوگا کہ ڈیٹا فراہم کرنے کے ساتھ ساتھ ان میں سے ایک ٹیمپلیٹ کو انسٹانٹیٹ کریں۔ ہم یہ دیکھنے کے لیے پرجوش ہیں کہ دوسرے ان ٹیمپلیٹس اور عمومی طور پر ایولز کے ساتھ کیا بنا سکتے ہیں۔
ہم امید کر رہے ہیں کہ Evals بینچ مارکس کو شیئر اور کراؤڈ سورس کرنے کے لیے ایک ذریعہ بن جائے، جو ناکامی کے طریقوں اور مشکل ٹاسکس کے زیادہ سے زیادہ وسیع سیٹ کی نمائندگی کرے۔ پیروی کرنے کی ایک مثال کے طور پر، ہم نے ایک منطقی پہیلیاں(نئی ونڈو میں کھلتا ہے) کا eval بنایا ہے جس میں دس بروقت شامل ہیں جہاں GPT‑4 ناکام ہوتا ہے۔ Evals موجودہ بینچ مارکس کو نافذ کرنے کے ساتھ بھی مطابقت رکھتا ہے؛ ہم نے تعلیمی بینچ مارکس کو نافذ کرنے والی کئی نوٹ بکس(نئی ونڈو میں کھلتا ہے) اور (چھوٹے ذیلی سیٹ کے طور پر) CoQA(نئی ونڈو میں کھلتا ہے) کو مربوط کرنے کی کچھ مختلف اقسام شامل کی ہیں۔
ہم سب کو دعوت دیتے ہیں کہ وہ Evals استعمال کر کے ہمارے ماڈلز کی جانچ کریں اور اپنی دلچسپ ترین مثالیں ہمیں بھیجیں۔ ہمیں یقین ہے کہ Evals ہمارے نمونوں کے اوپر استعمال اور تعمیر کے عمل کا لازمی حصہ ہوں گے، اور ہم براہ راست شراکتوں، سوالات، اور فیڈبیک کا خیرمقدم کرتے ہیں۔(نئی ونڈو میں کھلتا ہے)
ChatGPT Plus کے ارکان کو chatgpt.com(نئی ونڈو میں کھلتا ہے) پر GPT‑4 تک رسائی حاصل ہوگی، لیکن استعمال کی حد کے ساتھ۔ ہم عملی طور پر طلب اور سسٹم کی کارکردگی کے لحاظ سے صحیح استعمال کی حد کو ایڈجسٹ کریں گے، لیکن ہم توقع کرتے ہیں کہ ہم شدید صلاحیت کی پابندیوں کا سامنا کریں گے (حالانکہ ہم آنے والے مہینوں میں اس کو بڑھائیں گے اور بہتر بنائیں گے)۔
ہم جو ٹریفک پیٹرن دیکھتے ہیں اس پر انحصار کرتے ہوئے، ہم زیادہ استعمال کے لیے GPT‑4 کا نیا سبسکرپشن لیول متعارف کروا سکتے ہیں؛ ہم یہ بھی امید کرتے ہیں کہ کسی وقت کچھ مقدار میں مفت GPT‑4 سوالات پیش کریں گے تاکہ رکنیت کے بغیر افراد بھی اسے آزما سکیں۔
GPT‑4 API تک رسائی حاصل کرنے کے لیے (جو gpt-3.5-turbo کی طرح ہی ChatCompletions API(نئی ونڈو میں کھلتا ہے) استعمال کرتا ہے)، براہ کرم ہماری فہرست منتظرین کے لیے سائن اپ کریں۔ ہم آج کچھ ڈویلپرز کو مدعو کرنا شروع کریں گے، اور طلب کے ساتھ صلاحیت کو متوازن کرنے کے لئے آہستہ آہستہ بڑھائیں گے۔ اگر آپ ایک محقق ہیں جو مصنوعی ذہانت (AI) کے سماجی اثرات یا AI کے ہم آہنگی کے مسائل کا مطالعہ کر رہے ہیں، تو آپ ہمارے ریسرچر ایکسس پروگرام کے ذریعے رعایتی رسائی کے لیے بھی درخواست دے سکتے ہیں۔
ب آپ کو رسائی مل جائے، تو آپ gpt-4 ماڈل کو صرف متنی درخواستیں بھیج سکتے ہیں (کیونکہ تصویری ان پٹ اب بھی محدود الفا مرحلے میں ہیں)، ہم وقت کے ساتھ جیسے جیسے نئے ورژن جاری کرتے جائیں گے، آپ کی درخواستیں خودکار طور پر ہمارے تجویز کردہ مستحکم ماڈل پر اپ ڈیٹ ہوتی رہیں گی (اگر آپ موجودہ ورژن کو برقرار رکھنا چاہیں تو gpt-4-0314 استعمال کر سکتے ہیں، جس کی ہم 14 جون تک معاونت جاری رکھیں گے)۔ قیمت ہر 1,000 پرامپٹ ٹوکن کے لیے $0.03 اور ہر 1,000 کمپلیشن ٹوکن کے لیے $0.06 ہے۔ طے شدہ حدیں یہ ہیں کہ ہر منٹ میں زیادہ سے زیادہ 40,000 ٹوکنز اور 200 درخواستیں کی اجازت ہے۔
GPT‑4 کا سیاق و سباق 8,192 ٹوکنز پر مشتمل ہے۔ ہم 32,768 سیاق و سباق والے ورژن (جو تقریباً 50 صفحات پر مشتمل متن کے برابر ہے) تک محدود رسائی بھی فراہم کر رہے ہیں، یہ ورژن gpt-4-32k کہلاتا ہے، اور وقت کے ساتھ ساتھ اسے بھی خودکار طور پر اپ ڈیٹ کیا جاتا رہے گا (موجودہ ورژن gpt-4-32k-0314 ہے، جس کی ہم 14 جون تک معاونت جاری رکھیں گے)۔ قیمت ہر 1,000 پرامپٹ ٹوکن کے لیے $0.06 اور ہر 1,000 کمپلیشن ٹوکن کے لیے $0.12 ہے۔ ہم ابھی بھی طویل متن کے لیے نمونہ کے معیار کو بہتر بنا رہے ہیں اور ہمیں یہ جان کر خوشی ہوگی کہ یہ آپ کے استعمال کے مخصوص مقصد میں کیسی کارکردگی دکھا رہا ہے۔ ہم صلاحیت کی بنیاد پر مختلف شرحوں پر 8K اور 32K انجنوں کے لیے درخواستوں پر کارروائی کر رہے ہیں، اس لیے آپ کو ان تک رسائی مختلف اوقات میں مل سکتی ہے۔
ہم بہت سی درخواستیں کو طاقت دے کر لوگوں کی زندگیوں کو بہتر بنانے کے لیے GPT‑4 کے ایک قیمتی ٹول بننے کے منتظر ہیں۔ اب بھی بہت سا کام باقی ہے، اور ہم پرعزم ہیں کہ اس ماڈل کو مزید بہتر بنائیں، ان سب کی مشترکہ کوششوں کے ذریعے جو اس ماڈل پر کام کر رہے ہیں، اسے آزما رہے ہیں، اور اس کی ترقی میں حصہ لے رہے ہیں۔
مزید معلومات کے لیے: مقالہ پڑھیں(نئی ونڈو میں کھلتا ہے) / سسٹم کارڈ دیکھیں(نئی ونڈو میں کھلتا ہے) / ChatGPT Plus پر آزمائیں(نئی ونڈو میں کھلتا ہے) / Playground میں آزمائیں(نئی ونڈو میں کھلتا ہے) / ڈیمو لائیو اسٹریم دوبارہ دیکھیں(نئی ونڈو میں کھلتا ہے) / OpenAI Evals میں تعاون کریں(نئی ونڈو میں کھلتا ہے)
MMLU سوالات کی مثالیں، جو دوسری زبانوں میں ترجمہ کی گئی ہیں۔ نوٹ کریں، ہم مستقل انتخابی tokens (A–D) استعمال کرتے ہیں:
حاشیہ
- A
ہم اس بینچ مارک کا جائزہ Chain-Of-Thought پرامپٹنگ کے ذریعے لیتے ہیں، جس میں تربیتی مجموعے کی چار مثالیں سیاق و سباق کے طور پر شامل کی جاتی ہیں۔ مخصوص پرامپٹ کو تصدیقی مجموعے پر بہتر بنایا گیا تھا۔
حوالہ جات
- 1
P. Arredondo (Casetext/Stanford CodeX)، D. Katz (Stanford CodeX)، M. Bommarito (Stanford CodeX)، S. Gao (Casetext)۔ مزید تجزیہ مقالے میں(نئی ونڈو میں کھلتا ہے) دستیاب ہے۔


