10 جون 2025 کو اپ ڈیٹ: OpenAI o3‑pro اب ChatGPT کے ساتھ ساتھ ہمارے API میں بھی Pro صارفین کے لیے دستیاب ہے۔ OpenAI o1‑pro کی طرح، o3‑pro ہمارے سب سے ذہین ماڈل، OpenAI o3 کا ایک ورژن ہے، جو زیادہ دیر تک سوچیں اور انتہائی قابل اعتماد جوابات فراہم کرنے کے لیے ڈیزائن کیا گیا ہے۔ مکمل تفصیلات ہمارےریلیز نوٹس(نئی ونڈو میں کھلتا ہے) میں تلاش کی جا سکتی ہیں۔
آج، ہم OpenAI o3 اور o4-mini جاری کر رہے ہیں، جو ہماری o-سیریز کے تازہ ترین ماڈلز ہیں، جنہیں جواب دینے سے پہلے زیادہ دیر تک سوچنے کی تربیت دی گئی ہے۔ یہ اب تک کے سب سے انٹیلیجینٹ ماڈلز ہیں جو ہم نے جاری کیے ہیں، جو ChatGPT کی صلاحیتوں میں ایک اہم تبدیلی کی نمائندگی کرتے ہیں، چاہے وہ تجسس رکھنے والے صارفین ہوں یا جدید محققین۔ پہلی بار، ہمارے استدلال کے ماڈلز ChatGPT کے اندر ہر ٹول کو ایجنٹی کے ساتھ استعمال اور یکجا کر سکتے ہیں۔—اس میں ویب پر تلاش کرنا، اپ لوڈ کردہ فائلوں اور دیگر ڈیٹا کا ازگر کے ساتھ تجزیہ کرنا، بصری ان پٹ کے بارے میں گہرائی سے استدلال کرنا، اور یہاں تک کہ تصاویر بنانا بھی شامل ہے۔ تنقیدی طور پر، ان ماڈلز کو اس بات پر تربیت دی جاتی ہے کہ کب اور کیسے ٹولز کا استعمال کیا جائے تاکہ زیادہ پیچیدہ مسائل کو حل کرنے کے لیے صحیح آؤٹ پٹ فارمیٹس میں، عام طور پر ایک منٹ کے اندر، تفصیلی اور سوچے سمجھے جوابات تیار کیے جا سکیں۔ یہ انہیں کثیر جہتی سوالات کو زیادہ مؤثر طریقے سے نمٹانے کی اجازت دیتا ہے، ایک زیادہ ایجنٹک ChatGPT کی طرف ایک قدم جو آپ کی جانب سے ٹاسک آزادانہ طور پر انجام دے سکتا ہے۔ جدید ترین استدلال اور مکمل ٹول تک رسائی کی مشترکہ طاقت تعلیمی معیارات اور حقیقی دنیا کے ٹاسکس میں نمایاں طور پر مضبوط کارکردگی میں تبدیل ہوتی ہے، جو ذہانت اور افادیت دونوں میں ایک نیا معیار قائم کرتی ہے۔
OpenAI o3 ہمارا سب سے طاقتور استدلالی ماڈل ہے جو کوڈنگ، ریاضی، سائنس، بصری تاثر اور دیگر شعبوں میں سرحدوں کو آگے بڑھاتا ہے۔ یہ کوڈ فورسز، SWE-bench (بغیر کسی ماڈل مخصوص اسکیفولڈ کے)، اور MMMU سمیت بینچ مارکس پر ایک نیا SOTA قائم کرتا ہے۔ یہ پیچیدہ سوالات کے لئے مثالی ہے جن میں کثیر جہتی تجزیہ کی ضرورت ہوتی ہے اور جن کے جوابات فوری طور پر واضح نہیں ہو سکتے۔ یہ بصری ٹاسکس جیسا کہ تصویروں، چارٹس، اور گرافکس کا تجزیہ کرنے میں خاص طور پر مستحکم کارکردگی دکھاتا ہے۔ بیرونی ماہرین کی تشخیص میں، o3 مشکل، حقیقی دنیا کے ٹاسک پر OpenAI o1 کے مقابلے میں 20 فیصد کم بڑی غلطیاں کرتا ہے—خاص طور پر پروگرامنگ، بزنس/مشاورت، اور تخلیقی نظریات جیسے شعبوں میں بہترین کارکردگی دکھاتا ہے۔ ابتدائی ٹیسٹرز نے ایک سوچ پارٹنر کی حیثیت سے اس کی تجزیاتی سختی پر روشنی ڈالی اور انوکھے مفروضات پیدا کرنا اور تنقیدی طور پر جائزہ لینے کی اس کی صلاحیت پر زور دیا—خاص طور پر حیاتیات، ریاضی، اور انجینئرنگ کے سیاق و سباق میں۔
OpenAI o4-mini ایک چھوٹا ماڈل ہے جو تیز رفتار، لاگت سے مؤثر استدلال کے لیے بہتر بنایا گیا ہے—یہ اپنے سائز اور لاگت کے لحاظ سے خاص طور پر ریاضی، کوڈنگ، اور بصری ٹاسک میں قابل ذکر کارکردگی حاصل کرتا ہے۔ یہ AIME 2024 اور 2025 پر بہترین کارکردگی دکھانے والا بینچ مارک کا حامل ماڈل ہے۔ اگرچہ کمپیوٹر تک رسائی AIME امتحان کی دشواری کو معنی خیز طور پر کم کرتی ہے، ہم نے یہ بھی قابل ذکر پایا کہ o4-mini AIME 2025 پر 99.5% pass@1 (100% consensus@8) حاصل کرتا ہے جب اسے Python انٹرپریٹر تک رسائی دی جاتی ہے۔ اگرچہ ان نتائج کا موازنہ ان ماڈلز کی کارکردگی سے نہیں کیا جانا چاہیے جن کے پاس ٹول تک رسائی نہیں ہے، یہ اس بات کی ایک مثال ہیں کہ o4-mini دستیاب ٹولز کو کس طرح مؤثر طریقے سے استعمال کرتا ہے؛ o3 AIME 2025 میں ٹول کے استعمال سے اسی طرح کی بہتری دکھاتا ہے (98.4% pass@1, 100% consensus@8)۔
ماہرین کے جائزوں میں، o4-mini غیر STEM ٹاسک اور ڈیٹا سائنس جیسے شعبے میں اپنے پیشرو o3‑mini سے بھی بہتر کارکردگی کا مظاہرہ کرتا ہے۔ اپنی کارکردگی کی بدولت، o4-mini o3 کے مقابلے میں نمایاں طور پر زیادہ استعمال کی حدوں کو سپورٹ کرتا ہے، جو اسے استدلال سے فائدہ اٹھانے والے سوالات کے لیے ایک مضبوط ہائی والیوم، ہائی تھرو پٹ آپشن بناتا ہے۔ بہتر ذہانت اور ویب ذرائع کی شمولیت کی بدولت بیرونی ماہر تشخیص کاروں نے دونوں ماڈلز کو درج ذیل بہتر ہدایات اور ان کے پیشرووں کے مقابلے زیادہ مفید، قابل تصدیق ردعمل کا مظاہرہ کرنے کے طور پر درجہ دیا۔ ہمارے استدلالی ماڈلز کی پچھلی ورژنز کے مقابلے میں، یہ دونوں ماڈلز زیادہ قدرتی اور گفتگو کے مطابق محسوس ہونے چاہئیں، خاص طور پر جب یہ یادداشت اور ماضی کی گفتگو کا حوالہ دیتے ہیں تاکہ جوابات زیادہ ذاتی اور متعلقہ ہوں۔
ملٹی موڈل
کوڈنگ
ہر SWE-bench ٹیسٹ میں 477 تصدیق شدہ ٹاسکس کا ایک مقررہ مجموعہ استعمال کیا جاتا ہے، جنہیں ہم نے پہلے ہی اپنے اندرونی نظام پر درست طور پر کام کرتے ہوئے جانچ اور تصدیق کر لیا ہے۔
ہدایات پر عمل اور ایجنٹک ٹول کا استعمال
تمام ماڈلز کی اعلیٰ 'استدلال کی کوشش' کی ترتیبات پر جانچ کی جاتی ہے—ChatGPT میں 'o4-mini-high' جیسے متغیرات کی طرح۔
OpenAI o3 کی ترقی کے دوران، ہم نے مشاہدہ کیا ہے کہ بڑے پیمانے پر ری انفورسمنٹ لرننگ وہی "زیادہ حساب کتاب = بہتر کارکردگی" رجحان ظاہر کرتی ہے جو GPT‑سیریز کی پیشگی تربیت میں دیکھا گیا ہے۔ پیمانہ کاری کے راستے کو دوبارہ تلاش کرتے ہوئے—اس بار RL میں—ہم نے تربیت کے حساب اور استدلال کے وقت میں وسعت کے ایک اضافی آرڈر کو آگے بڑھایا ہے، پھر بھی کارکردگی کے واضح فوائد دیکھ رہے ہیں، اس بات کی تصدیق کرتے ہوئے کہ ماڈل کی کارکردگی جتنی زیادہ انہیں سوچنے کی اجازت دی جاتی ہے اتنی ہی بہتر ہوتی رہتی ہے۔ OpenAI o1 کے ساتھ مساوی تاخیر اور لاگت پر، ChatGPT میں o3 اعلیٰ کارکردگی فراہم کرتا ہے—اور ہم نے تصدیق کی ہے کہ اگر ہم اسے زیادہ دیر تک سوچنے دیں، تو اس کی کارکردگی میں اضافہ ہوتا رہتا ہے۔
ہم نے دونوں ماڈلز کو ری انفورسمنٹ لرننگ کے ذریعے ٹولز استعمال کرنے کی تربیت بھی دی—انہیں نہ صرف یہ سکھانا کہ ٹولز کو کیسے استعمال کیا جائے، بلکہ یہ بھی کہ کب ان کا استعمال کرنا ہے۔ مطلوبہ نتائج کی بنیاد پر ٹولزوں کی تعیناتی کی ان کی صلاحیت انہیں کھلے عام حالات میں زیادہ قابل بناتی ہے—خاص طور پر وہ جن میں بصری استدلال اور کثیر مرحلہ ورک فلو شامل ہوتے ہیں۔ یہ بہتری تعلیمی معیارات اور حقیقی دنیا کے ٹاسکس میں ظاہر ہوتی ہے، جیسا کہ ابتدائی ٹیسٹرز نے رپورٹ کیا ہے۔

پہلی بار، یہ ماڈلز تصاویر کو براہ راست اپنے سلسلہ غور و فکر میں شامل کر سکتے ہیں۔ وہ صرف ایک تصویر نہیں دیکھتے—وہ اس کے ساتھ سوچتے ہیں۔ یہ مسئلہ حل کرنے کی ایک نئی قسم کی صلاحیت کو کھولتا ہے جو بصری اور متنی استدلال کو یکجا کرتی ہے، جو ان کی ملٹی موڈل بینچ مارکس میں جدید ترین کارکردگی سے ظاہر ہوتا ہے۔
افراد وائٹ بورڈ، نصابی کتاب کے خاکے، یا ہاتھ سے بنائے گئے اسکیچ کی تصویر اپ لوڈ کریں، اور ماڈل اس کی تشریح کر سکتا ہے—چاہے تصویر دھندلی، الٹی، یا کم معیار کی ہو۔ ٹول کے استعمال سے، ماڈلز تصاویر کو فوری طور پر تبدیل کر سکتے ہیں—انہیں گھمانا، زوم کرنا، یا تبدیل کرنا ان کے استدلالی عمل کا حصہ ہے۔
یہ ماڈلز بصری ادراک کے ٹاسک میں بہترین درجہ کی درستگی فراہم کرتے ہیں، جس سے یہ ایسے سوالات حل کرنے کے قابل ہو جاتے ہیں جو پہلے پہنچ سے باہر تھے۔ مزید معلومات کے لیے بصری استدلال کے تحقیقی بلاگ کو ملاحظہ کریں۔
OpenAI o3 اور o4-mini کو ChatGPT کے اندر ٹولز تک مکمل رسائی حاصل ہے، نیز API میں فنکشن کالنگ کے ذریعے آپ کے اپنے کسٹم ٹولز تک بھی مکمل رسائی حاصل ہے۔ یہ ماڈلز مسائل کو حل کرنے کے طریقوں پر غور کرنے کے لیے تربیت یافتہ ہیں، اور یہ فیصلہ کرتے ہیں کہ کب اور کیسے ٹولز استعمال کیے جائیں تاکہ تفصیلی اور سوچ سمجھ کر جوابات درست آؤٹ پٹ فارمیٹس میں جلدی تیار کیے جائیں—عام طور پر ایک منٹ سے بھی کم وقت میں۔
مثال کے طور پر، ایک صارف پوچھ سکتا ہے: "کیلیفورنیا میں موسم گرما میں توانائی کا استعمال پچھلے سال کے مقابلے میں کیسا ہوگا؟" ماڈل ویب پر عوامی افادیت کا ڈیٹا تلاش کر سکتا ہے، پیشن گوئی بنانے کے لیے Python کوڈ لکھ سکتا ہے، گراف یا تصویر پیدا کر سکتا ہے، اور پیشین گوئی کے پیچھے کلیدی عوامل کی وضاحت کر سکتا ہے، متعدد ٹول کالز کو ایک ساتھ جوڑ کر۔ استدلال ماڈلز کو ضرورت کے مطابق ردعمل دینے اور معلومات کے مطابق مڑنے کی اجازت دیتا ہے۔ مثال کے طور پر، وہ سرچ فراہم کنندگان کی مدد سے ویب پر کئی بار تلاش کر سکتے ہیں، نتائج دیکھ سکتے ہیں، اور اگر انہیں مزید معلومات کی ضرورت ہو تو نئی تلاشوں کو آزما سکتے ہیں۔
یہ لچکدار، اسٹریٹجک طریقہ کار ماڈلز کو ایسے ٹاسکس سے نمٹنے کی اجازت دیتا ہے جن کے لیے ماڈل کے اندرونی علم سے آگے تازہ ترین معلومات تک رسائی، توسیعی استدلال، ترکیب اور مختلف طریقوں سے آؤٹ پٹ جنریشن کی ضرورت ہوتی ہے۔
تمام مثالیں OpenAI o3 کے ساتھ مکمل کی گئیں۔
OpenAI o3
OpenAI o1
OpenAI o3 کو تلاش کا استعمال کیے بغیر درست طریقے سے جواب ملتا ہے، جبکہ o1 درست جواب دینے میں ناکام رہتا ہے۔
لاگت مؤثر استدلال کو فروغ دینا
لاگت بمقابلہ کارکردگی: o3‑mini اور o4-mini


لاگت بمقابلہ کارکردگی: o1 اور o3


OpenAI o3 اور o4-mini سب سے انٹیلیجینٹ ماڈلز ہیں جو ہم نے اب تک جاری کیے ہیں، اور وہ اکثر اپنے پیشرو، OpenAI o1 اور o3‑mini سے زیادہ مؤثر ثابت ہوتے ہیں۔ مثال کے طور پر، 2025 کے AIME ریاضی کے مقابلے میں، O3 کے لیے لاگت کی کارکردگی کا فرنٹیئر o1 کے مقابلے میں سختی سے بہتر ہوتا ہے، اور اسی طرح، o4-mini کا فرنٹیئر o3‑mini سے سختی سے بہتر ہوتا ہے۔ زیادہ عام طور پر، ہم توقع کرتے ہیں کہ زیادہ تر حقیقی دنیا کے استعمال کے لیے، o3 اور o4-mini بالترتیب o1 اور o3‑mini سے زیادہ اسمارٹ اور سستے ہوں گے۔
ماڈل کی صلاحیتوں میں ہر بہتری کے ساتھ حفاظت میں بھی مناسب بہتری کی ضرورت ہوتی ہے۔ OpenAI o3 اور o4-mini کے لیے، ہم نے اپنے حفاظتی تربیتی ڈیٹا کو مکمل طور پر دوبارہ بنایا، جس میں حیاتیاتی خطرات (بائیورسک)، میلویئر جنریشن، اور جیل بریکس جیسے شعبوں میں انکار کی نئے پرامپٹس شامل کیں۔ اس تازہ ترین ڈیٹا نے o3 اور o4-mini کو ہمارے داخلی انکار کے معیارات (مثلاً ہدایات کی درجہ بندی، جیل بریک) پر مضبوط کارکردگی حاصل کرنے میں مدد دی ہے۔ ماڈل کے انکار کی مضبوط کارکردگی کے علاوہ، ہم نے سرحدی خطرے والے علاقوں میں خطرناک پرامپٹ کو نشان زد کرنے کے لیے نظام کی سطح پر تخفیف بھی تیار کی ہے۔ تصویر کی جنریشن میں ہمارے پہلے کام کی طرح، ہم نے ایک استدلال LLM مانیٹر کو تربیت دی جو انسانی تحریری اور قابل تشریح حفاظتی تصریحات سے کام کرتا ہے۔ جب بائیورِسک پر لاگو کیا گیا، تو اس مانیٹر نے ہماری انسانی ریڈ-ٹیمنگ مہم میں ~99% گفتگو کو کامیابی سے نشان زد کیا۔
ہم نے آج تک کے اپنے سب سے سخت حفاظتی پروگرام کے ساتھ دونوں ماڈلز کا تجربہ کیا۔ ہمارے اپ ڈیٹ کردہ تیاری کے فریم ورک کے مطابق، ہم نے فریم ورک کے تحت تین ٹریک شدہ صلاحیت والے شعبوں میں o3 اور o4-mini کا جائزہ لیا: حیاتیاتی اور کیمیائی، سائبر سیکیورٹی، اور AI کی خود سے بہتری۔ ان تشخیصات کے نتائج کی بنیاد پر، ہم نے یہ طے کیا ہے کہ o3 اور o4‑mini تینوں زمروں میں فریم ورک کی "اعلی" حد سے نیچے رہتے ہیں۔ ہم نے ان تشخیصات کے تفصیلی نتائج ساتھ والے سسٹم کارڈمیں شائع کر دیئے ہیں۔
ہم ایک نئے تجربے کا اشتراک بھی کر رہے ہیں: Codex CLI، ایک ہلکا پھلکا کوڈنگ ایجنٹ جو آپ اپنے ٹرمینل سے چلا سکتے ہیں۔ یہ براہ راست آپ کے کمپیوٹر پر کام کرتا ہے اور GPT‑4.1 جیسے اضافی API ماڈلز کے لیے آئندہ سپورٹ کے ساتھ، o3 اور o4-mini جیسے ماڈلز کی استدلالی صلاحیتوں کو زیادہ سے زیادہ کرنے کے لیے ڈیزائن کیا گیا ہے۔
آپ کمانڈ لائن سے ملٹی موڈل استدلال کے فوائد حاصل کر سکتے ہیں، اسکرین شاٹس یا کم وفاداری والے خاکے ماڈل کو بھیج کر، اور مقامی طور پر اپنے کوڈ تک رسائی کے ساتھ یکجا طور پر۔ ہم اسے اپنے ماڈلز کو صارفین اور ان کے کمپیوٹرز سے جڑیں کے لیے ایک کم سے کم انٹرفیس کے طور پر تصور کرتے ہیں۔ Codex CLI github.com/openai/codex(نئی ونڈو میں کھلتا ہے) پر مکمل طور پر اوپن سورس ہے۔ آج۔
اس کے ساتھ ساتھ، ہم ایک ملین ڈالر کی پہل کاری کا آغاز کر رہے ہیں تاکہ Codex CLI اور OpenAI ماڈلز استعمال کرنے والے پلانز کی سپورٹ کی جا سکے۔ ہم API کریڈٹس کی صورت میں $25,000 امریکی ڈالر کے اضافی حصوں میں گرانٹس کے لیے ایپلیکیشنز کا جائزہ لیں گے اور قبول کریں گے۔ تجاویز یہاں جمع کرائی جا سکتی ہیں۔
ChatGPT Plus، Pro، اور Team کے صارفین آج سے ماڈل سلیکٹر میں o3، o4-mini، اور o4-mini-high دیکھیں گے، جو o1، o3‑mini، اور o3‑mini‑high کی جگہ لے رہے ہیں۔ ChatGPT Enterprise اور Edu صارفین کو ایک ہفتے میں رسائی حاصل ہو جائے گی۔ Free صارفین کمپوزر میں 'سوچیں' منتخب کر کے o4-mini آزما سکتے ہیں اس سے پہلے کہ وہ اپنی درخواست جمع کرائیں۔ تمام پلانز میں شرح کی حدیں ماڈلز کے سابقہ سیٹ سے غیر تبدیل شدہ رہیں گی۔
ہم پوری ٹول سپورٹ کے ساتھ چند ہفتوں میں OpenAI o3‑pro کو جاری کرنے کی توقع رکھتے ہیں۔ ابھی کے لیے، Pro صارفین اب بھی o1‑pro تک رسائی حاصل کر سکتے ہیں۔
o3 اور o4-mini دونوں آج ڈویلپرز کے لیے چیٹ کمپلیشنز API اور ریسپانسز API کے ذریعے بھی دستیاب ہیں (کچھ ڈویلپرز کو ان ماڈل تک رسائی کے لیے اپنی تنظیموں کی تصدیق کریں(نئی ونڈو میں کھلتا ہے))۔ ریسپانسز API استدلال کے خلاصوں کو سپورٹ کرتا ہے، بہتر کارکردگی کے لیے فنکشن کالز کے ارد گرد استدلال کے ٹوکنز کو محفوظ رکھنے کی صلاحیت، اور جلد ہی ماڈل کے استدلال میں ویب سرچ، فائل سرچ، اور کوڈ انٹرپریٹر جیسے در ساختہ ٹولز کو سپورٹ کرے گا۔ شروع کرنے کے لیے، ہماری دستاویزات کو دریافت کریں(نئی ونڈو میں کھلتا ہے) اور مزید اپ ڈیٹس کے لیے دیکھتے رہیے گا۔
آج کی اپ ڈیٹس اس سمت کی عکاسی کرتی ہیں جس کی طرف ہمارے ماڈلز جا رہے ہیں: ہم o-سیریز کی خصوصی استدلال کی صلاحیتوں کو GPT سیریز کی قدرتی گفتگو کی صلاحیتوں اور ٹول کے استعمال کے ساتھ ملا رہے ہیں۔ ان خوبیوں یا طاقتوں کو یکجا کر کے، ہمارے مستقبل کے ماڈلز ہموار، قدرتی گفتگو کے ساتھ ساتھ فعال ٹولز کے استعمال اور جدید مسائل کے حل کی سپورٹ کریں گے۔
28 جولائی، 2025 کو اپ ڈیٹ: SWE-Lancer ڈیٹا سیٹ اور نتائج 17 جولائی 2025 تک اپ ڈیٹ کیے گئے ہیں، جو یہاں دستیاب ہیں: https://github.com/openai/preparedness(نئی ونڈو میں کھلتا ہے) اور ہمارے سسٹم کارڈز میں۔ یہ اپ ڈیٹ کئی مسائل کو حل کرتی ہے جو ڈالرز کے کمائے گئے نتائج کو متاثر کر رہے تھے اور عمل درآمد کے دوران انٹرنیٹ کنیکٹیویٹی کی ضرورت کو ہٹاتی ہے، جو ماڈل کی کارکردگی میں تغیر کا ایک اہم ذریعہ تھا۔
16 اپریل 2025 کو اپ ڈیٹ: Charxiv-r اور Mathvista پر o3 کے نتائج کو سسٹم پرامپٹ کی تبدیلی کی عکاسی کرنے کے لیے اپ ڈیٹ کیا گیا جو اصل تشخیص میں موجود نہیں تھی۔
مصنف
حاشیہ
* تغیر کو کم کرنے کے لیے تاؤ بینچ تشخیص نمبرز کا اوسط 5 رنز پر لگایا جاتا ہے، اور بغیر کسی حسب ضرورت ٹولز یا پرامپٹ کے چلایا جاتا ہے۔ ہم نے پایا کہ تاؤ بینچ ریٹیل رول آؤٹ صارف ماڈلز کی غلطیوں کا زیادہ شکار ہیں۔شیڈڈ بار کے نمبرز کو GPT-4.1 کے ساتھ بطور صارف ماڈل چلایا جاتا ہے کیونکہ یہ ہدایات پر عمل کرنے میں GPT-4o سے نمایاں طور پر بہتر ہے۔
* SWE-bench 256k زیادہ سے زیادہ سیاق و سباق کی لمبائی کا استعمال کرتا ہے، جو o4-mini کے حل کی شرح کو تقریباً 3% بہتر کرتا ہے اور o3 کے حل کی شرح کو <1% سے متاثر کرتا ہے۔ ہم 23 ماڈلز کو بھی خارج کر دیتے ہیں جو ہمارے اندرونی انفراسٹرکچر پر چلنے کے قابل نہیں ہیں۔
** جب براؤزنگ فعال کی جاتی ہے، تو ماڈل کبھی کبھار آن لائن درست جوابات تلاش کر سکتا ہے، مثال کے طور پر کسی ڈیٹا سیٹ کے ماڈل مسائل والے بلاگ پوسٹس پڑھ کر۔ ہم براؤزنگ کے دوران ماڈل کے ممکنہ چیت کرنے کے خدشات کو دو حکمت عملیوں کے ذریعے کم کرتے ہیں:
بلاک کیے گئے ایسے ڈومینز جن سے ہم نے ماڈل کو ماضی میں چیت کرتے ہوئے دیکھا تھا۔
مشکوک رویے کی نشاندہی کرنے کے لیے، ہر کوشش میں تمام ٹوکنز کی جانچ کرنے کے لیے مانیٹر کو بطور استدلال ماڈل استعمال کیا۔ مشکوک رویہ کی اس طرح تعریف کی جاتی ہے: "کوئی صفحہ، فائل، یا ٹکڑا جس کا بنیادی مقصد اس مخصوص سوال کا درست جواب فراہم کرنا ہو—مثلاً ایک سرکاری درجہ بندی کی کلید، لیک شدہ "حل" کا خلاصہ، یا ختم شدہ جواب کا لفظی حوالہ دیتے ہوئے بحث۔" کی تعریف یہ کی گئی ہے کہ "کوئی بھی مستند وسیلہ جس سے ایک محتاط انسان رجوع کر سکتا ہے (دستاویزات، دستورالعمل، علمی مقالے، معتبر مضامین) چاہے اس میں اتفاق سے صحیح جواب موجود ہو۔" وہ تمام کوششیں جنہیں مانیٹر نے مشکوک قرار دیا، غلط شمار کی گئیں۔ زیادہ تر نمونے جو اس چیک میں ناکام ہوئے، وہ ایسے مسائل تھے جن کے صحیح حل متعدد انٹرنیٹ ذرائع میں دستیاب تھے جو HLE سے متعلقہ نہیں تھے۔
آخر میں، ChatGPT اور OpenAI API کے درمیان سرچ انجن کے بیک اینڈز میں فرق کی وجہ سے، براؤزنگ کے ساتھ ہماری تشخیصات OpenAI API میں مکمل طور پر دوبارہ پیدا نہیں کی جا سکتی ہیں۔ یہ نتائج ChatGPT صارف کے تجربے کی نمائندگی کرنے کے لیے مقصود ہیں، لیکن طلب کے مطابق، تلاش کی تشکیل وقت کے ساتھ بدل سکتی ہے۔
شراکت دار
آدتیہ سنگھ، آرون شلیسنجر، ایڈم فرائی، ایڈم لیرر، ایڈم پیریل مین، ایڈم واکر، احمد ایل-کیشکی، ایڈن کلارک، ایڈن میک لافلن، ایڈن لو، اکیلا ویلیہندا، اکشے ناتھن، الیگزینڈر میڈری، الیگزینڈرا سپیرا، الیکس کارپینکو، الیکس نیٹز، الیکس ٹچارڈ پاسوس، الیکس وی، الیگزینڈر پروکوفیف، الیگزینڈر زیلینسکی، الیگزینڈرا بار، الیکسی ایوانوف، الیکسی کرسٹاکِس، الفریڈ ژو، ایلیسن ٹام، ایلی بینیٹ، ایلی بینیٹ، امیلیا لیو، ایمی میکڈونلڈ سینڈجیدیہ، اننیا کمار، آندرے سرائیوا، اینڈریا ویلون، اینڈریو چن، اینڈریو ڈوبرسٹین، اینڈریو گیبیانسکی، اینڈریو کونڈریچ، اینڈریو ٹولوچ، آندرے مشینکو، اینڈی ایپل بام، اینڈی وانگ، انجیلا بیک، اینی وی، اینٹنگ شین، اینٹون پیلیس، انوج سہارن، ارون وجے ورگیہ، ایشلے ٹائرا، اشون نائر، ایوی نائیک، ایوٹل اولیور، بہروز غوربانی، بیلنڈا ٹرونگ، بین سوکولوسکی، بیتھ ہوور، بو ژو، بواز باراک، بوہان ژانگ، بوریز مینائیف، بوتاؤ ہاؤ، باؤون بیکر، باؤون چنگ، برینڈن مک کینزی، برینڈن وانگ، برائن ہسو، برائن یانگ، برائن یو، برائن ژانگ، کیمیلو لوگارسی، کیرولینا پاز، کارپس چانگ، کیری بسن، کیری ہڈسن، کیسی چو، چک لی، چارلس ژاؤ، چارلی جٹ، شارلٹ کول، چیلسی ووس، چن شین، چنگشو ژوانگ، کرس کولبی، کرس ہالاسی، کرس کوچ، کرسٹینا کیپلن، کرسٹینا کم، کولن ریڈ، کولن وی، کرسٹینا شیاؤ، ڈی سکلی، ڈیمین ڈیویل، ڈین رابرٹس، ڈانا پالمی، ڈین اسٹکی، ڈینیل لیوین، ڈیوڈ ہو، ڈیوڈ مارٹن، ڈیوڈ رابنسن، ڈیوڈ ساساکی، ڈیوس وو، ڈیرک چن، دیبیا بھٹاچارجی، دیمتریس تسیپراس، ڈنگہوا لی، ڈی جے اسٹراؤس، ڈی میڈ میڈینا، ڈریو ہنٹز، ایڈی ژانگ، ایڈمنڈ وونگ، ایلین یا لی، ایلی یانی، الزبتھ پروہل، ایملی سوکولوا، اینوک چیونگ، ایری شوارٹز، ایرک مچل، ایرک ننگ، ایرک سگلر، ایرک والیس، یوجینیو پینیرو، ایوان مے، ایوگینی نکشین، فین وانگ، فنگیوان لی، فلیپو راسو، فویووس تسمپورلاس، فواد متین، فرانسس سونگ، فرانسس ژانگ، گیری یانگ، جین اوڈن، جیامبٹیسٹا پاراسکینڈولو، گلڈاس چابوٹ، گریس کم، گریس ژاؤ، گریگ بروک مین، گریگوری ویلینٹ، گیلوم لیکرک، ہادی سلمان، ہیتانگ ہو، ہننا شیہان، ہاؤ شینگ، ہاویو وانگ، ہنریک پونڈے ڈی اولیویرا پنٹو، ہنری اسپگرین، ہیکنگ یان، ہیسام باگھرینژاد، ہونگیو رین، ہنٹر لائٹ مین، ہیون وو نوہ، ایان کیولیچن، ایان سہل، اگناسی کلاویرا، اکائی لان، ایلگے اکایا، الیا کوسٹریکوف، ارینا کوفمین، عیسیٰ فلفورڈ، جیک برل، جیکب پچوکی، جیمز بیٹکر، جیمز لی، جیمز قن، جیمی کیروس، جیسن آئی، جے وانگ، جین ہارب، جیف مکی، جیفری ہان، جیفری وانگ، جیریمی چن، جیری ٹوریک، جیسیکا لیانگ، جیسیکا شیہ، جی لن، جیہوئی یو، جیان فینگ وانگ، جی تانگ، جیہان ین، جینگ لی، جوآن جنگ، جوئیل مورس، جوہانس فرسٹاد، جوہانس ہیڈیک، جان فش بین، جون اوکن، جوناتھن گورڈن، جوست ہوزنگا، جوس کرائیجیویلڈ، جوزف مو، جوش لاسن، جوش ٹوبن، جونہوا ماؤ، کائی چن، کائی ہایاشی، کرن سنگھال، کرینا نگوین، کیٹی شی، کیلی سٹرمن، کنجی ہاتا، کینی نگوین، کرن گو-لیمبرگ، کیون گلیڈسٹون، کیون کنگ، کیون لیو، کیون لو، کیون پارک، کیون اسٹون، کیون وائل، کیون وینری، کیون یو، کوٹ موشیگیانی، کرسٹن ینگ، کرسٹیان جارجیو، کشتیج گپتا، کائل کوسک، لاما احمد، لیری لو، لارین ایتو، لارین یانگ، لی بائرن، لیو چن، لیو لیو، لیون میکسن، لیٹن ہو، لی جینگ، لیانگ ژیونگ، لن یانگ، لنڈن لی، لورینز کوہن، لوئس فیویریئر، لو ژانگ، لوکاش قیصر، محمود ایربی، ماجا ٹرباکز، مانس جوگلیکر، مانولی لیوڈاکیس، مانوکا سٹراٹا، مارک چن، مارک ہڈنال، مارک سن، مارک وانگ، مارٹن لی، مارون ژانگ، میٹیوز لٹون، میٹ جونز، میٹ لیم، میکس جانسن، میکس شوارزر، مایانک گپتا، میگھن شاہ، مینگ چنگ وانگ، مینگ یوان یان، میا گلیز، مائیکل بولن، مائیکل لیمپے، مائیکل مالک، مائیکل شرمن، مائیکل ژانگ، مشیل وانگ، مشیل پوکراس، میگوئل اوم ٹیموڈو ڈی کاسٹرو، میہائی فلورین، مائیک میککلے، مائیک ٹرپک، مکی ہبرین، مائلز وانگ، منگ چن، منگشوان وانگ، منیا فینگ، مچل گورڈن، مو باویرین، مصطفیٰ روہانی نژاد، ناچو سوتو، نکول کھنہ، نٹ میک ایلیز، نٹالی سٹوڈاچر، نتن لا فونٹین، نیل اجاراپو، نک فیلٹ، نک ٹرلی، نکیل پنچا، نکیتا میخائیلن، نکو فیلکس، نِکونج ہانڈا، ننگ لیو، نیشانت رائے، نوح جارجنسن، نوم براؤن، اولیگ بوئکو، اولیگ مرک، اولیویا واٹکنز، اولیور گوڈمنٹ، اونا گلیسن، پال ایشبورن، پاول بیلوف، پیٹر فلوکھارٹ، پیٹر ہوشیلے، پیٹر زوخوف، فلپ پروون، فلپ گو، فوبی تھاکر، پرافللا دھاریوال، پرشانتھ آر، راچیل دیاس، راہول اروڑا، راجکمار سیموئل، راسموس ریگارڈ، روی تیجا ملاپوڈی، ریمنڈ لی، راز گاون، ریہ میارا، ریچیرو ناکانو، ریمار لیکی، رینی سانگ، ریتھم گرگ، آر جے مارسن، رابرٹ ژیونگ، رابن براؤن، رومن سیوپا، روئی شو، رسلان نگماتولن، ساچی جین، ساگر پٹیل، سیم آلٹمین، سیم ٹوئزر، سیم ٹوئر، سمیر احمد، سیموئیل میسرنڈینو، سیموئل وولرچ، سندھینی اگروال، سینٹیاگو ہرنینڈز، سارہ ڈونگ، سوانا ہیون، سکاٹ ایتھرسمتھ، سکاٹ مائر مک کینی، شان فٹزجیرالڈ، سیور بنیسیو، شمیز ہیمانی، شینگجیا ژاؤ، شینگلی ہو، شیبانی سنتورکر، شریاس کرشنا سوامی، شوچاؤ بی، شونیو یاو، شوئیان ژانگ، سیمون پوسادا فش مین، اسپینسر پاپے، سپگ گولڈن، سری نواس نارائنن، اسٹینلے ہسی، اسٹیفن لاگسڈن، سندیپ ترومالاریڈی، تال اسٹرامر، تاؤ وانگ، تاؤ زن، ٹیلر گورڈن، تیجل پٹوردھن، تھیباولٹ سوٹیاکس، ٹینا سریسکانڈراجہ، ٹونی کاسپارو، ٹونی ژاؤ، ٹریور کریچ، عزیر نوید افتخار، ویلری کیو، ونیت کوساراجو، وشال کوو، وِچیر پونگ، ویویک ورما، ولاد پیٹروف، وینڈا ژو، وینلی ژی، وینٹنگ ژان، ول ڈیپو، ول ایلس ورتھ، ولیم شیو، وائٹ تھامپسن، یامنگ لن، یان ڈوبوا، یاؤڈونگ یو، یارا خاکباز، یش پاٹل، یفان وو، یلونگ قن، یننگ چن، یروئی ژانگ، یو شیویت، ینگ چا، یونیون وانگ، یوشی وانگ، زیک سلطان، زیہاؤ ڈو، زیوی چو، ژینگ شاو، زیگانگ وانگ، زیشوئی ژانگ، زیہاؤ ژانگ