ہماری First Proof جمع کرانے کی درخواستیں
ہم فرسٹ پروف (First Proof) کے لیے اپنی ثبوتی کوششیں شیئر کر رہے ہیں، جو ایک ریاضیاتی چیلنج ہے اور اس بات کی جانچ کرتا ہے کہ آیا AI مخصوص شعبوں کے مسائل پر قابلِ جانچ ثبوت فراہم کر سکتا ہے.
ہم نے First Proof(نئی ونڈو میں کھلتا ہے) کے تمام دس مسائل پر اپنے ایک داخلی ماڈل کو چلایا. یہ ایک تحقیقی سطح کا ریاضیاتی چیلنج ہے، جسے اس بات کی جانچ کے لیے تیار کیا گیا ہے کہ آیا آئی کے نظام درست اور قابلِ تصدیق ثبوتی کوششیں پیش کر سکتے ہیں یا نہیں. مختصر جواب یا مقابلہ جاتی طرز کی ریاضی کے برعکس، ان مسائل میں مخصوص شعبوں میں مکمل دلائل تیار کرنا ضروری ہوتا ہے، اور ماہرین کے جائزے کے بغیر درستگی قائم کرنا مشکل ہے. فرسٹ پروف (First Proof) کے مسائل کے مصنفین اپنے اپنے شعبوں کے ممتاز ماہرین ہیں، اور ان میں سے کم از کم چند مسائل ایسے تھے جو برسوں تک حل طلب رہے، یہاں تک کہ خود مصنفین نے ان کے حل دریافت کیے. کوئی ایسا تعلیمی شعبہ جس کا موضوعاتی میدان ان مسائل کے شعبوں سے کافی حد تک ہم آہنگ ہو، بظاہر ایک ہفتے کے اندر ان میں سے متعدد مسائل حل کرنے کی صلاحیت رکھ سکتا ہے.
ہم نے اپنی ثبوتی کوششیں (proof attempts) بروز ہفتہ، 14 فروری 2026 کو رات 12:00 بجے (پیسیفک ٹائم) پر شیئر(نئی ونڈو میں کھلتا ہے) کیں. ماہرین کی رائے (فیڈبیک) کی بنیاد پر، ہمارا ماننا ہے کہ ماڈل کی کم از کم پانچ ثبوتی کوششوں (مسائل چار، پانچ، چھ، نو، اور دس) کے درست ہونے کا امکان زیادہ ہے، اور کئی دیگر ابھی زیرِ جائزہ ہیں. ہمیں ابتدا میں یقین تھا کہ مسئلہ 2 کے لیے ہماری کوشش ممکنہ طور پر درست تھی. فرسٹ پروف کی باضابطہ توضیحات اور مزید کمیونٹی تجزیے کی بنیاد پر اب ہمارا ماننا ہے کہ یہ درست نہیں ہے. ہم اس وابستگی کے لیے شکر گزار ہیں اور آئندہ بھی مسلسل جائزے کے منتظر ہیں. ہماری ثبوتی کوششوں کا مکمل مجموعہ یہاں(نئی ونڈو میں کھلتا ہے) دستیاب ہے. اس پری پرنٹ میں تمام دس ثبوتی کوششیں شامل ہیں، نیز ایک نیا شامل کیا گیا ضمیمہ بھی موجود ہے جس میں پرومپٹ پیٹرنز اور مثالیں دی گئی ہیں. ان کا مقصد اس عمل کے دوران ماڈلز کے ساتھ ہمارے براہ راست انسانی تعاملات کی نقل پیش کرنا ہے.
ہمیں یقین ہے کہ جدید ترین تحقیق شاید اگلی نسل کے AI ماڈلز کی صلاحیتوں کو جانچنے کا سب سے اہم طریقہ ہے. بینچ مارکس مفید ہیں، لیکن وہ تحقیق کے کچھ مشکل ترین حصوں کو نظر انداز کر سکتے ہیں: ریزننگ کے طویل سلسلوں کو برقرار رکھنا، درست تجریدات کا انتخاب کرنا، مسئلے کے بیانات میں ابہام سے نمٹنا، اور ایسے دلائل پیش کرنا جو ماہرین کی کڑی جانچ پر پورا اتریں. جدید ترین چیلنجز جیسے First Proof ہمیں ان صلاحیتوں کو ایسے ماحول میں کڑی آزمائش سے گزارنے میں مدد دیتے ہیں جہاں درستی کی تصدیق کرنا آسان نہیں ہوتا اور ناکامی کے انداز بھی اہم معلومات فراہم کرتے ہیں.
"ہم اس وقت ایک نئے ماڈل کی تربیت کر رہے ہیں جس میں بنیادی توجہ اس کی فکری سختی اور استدلالی معیار کو بلند کرنے پر ہے، اس مقصد کے ساتھ کہ ماڈل کئی گھنٹوں تک مسلسل غور و فکر کر سکے اور اپنے نتائج پر بلند درجے کے اعتماد کے ساتھ قائم رہ سکے. جب فرسٹ پروف کے مسائل کا اعلان کیا گیا تو یہ ایک بہترین آزمائشی میدان معلوم ہوا، چنانچہ میں نے ہفتے کے اختتام پر اسے آزما کر دیکھا. یہ پہلے ہی دو مسائل (#9 اور #10) کو حل کرنے کے قابل تھا. جیسے جیسے اس کی تربیت ہوتی گئی، یہ تیزی سے مزید با صلاحیت ہوتا گیا، اور بالآخر—ہمارے اندازے کے مطابق—کم از کم مزید تین مسائل کو حل کر لیا. ہمیں خاص طور پر اُس وقت خوشی ہوئی جب اس نے پہلے مسئلہ نمبر 6 حل کیا اور پھر دو دن بعد مسئلہ نمبر 4 بھی، کیونکہ یہ دونوں مسائل اُن شعبوں سے تعلق رکھتے تھے جن سے ہم میں سے بہت سے لوگ اچھی طرح واقف ہیں. یہ واقعی حیرت انگیز ہے کہ ایک ماڈل کو روز بروز واضح طور پر زیادہ ذہین ہوتے دیکھنا کیسا محسوس ہوتا ہے.”
– جیمز آر لی (OpenAI محقق، ریزننگ)
ہم نے ماڈل کو محدود انسانی نگرانی میں چلایا. تربیت کے دوران ماڈل کے مختلف ورژنز کو پرومپٹ (ہدایات) دیتے وقت ہم بعض اوقات ایسی حکمتِ عملیوں کو دوبارہ آزمانے کا مشورہ دیتے تھے جو ابتدائی کوششوں میں مؤثر دکھائی دی تھیں. کچھ کوششوں میں، ماہرین کی آراء موصول ہونے کے بعد ہم نے ماڈل سے کہا کہ وہ ثبوت کے بعض حصوں کو مزید تفصیل سے بیان کرے یا واضح کرے، تاکہ ریزننگ کی جانچ اور تصدیق آسان ہو سکے. ہم نے تصدیق، فارمیٹنگ، اور طرز (اسٹائل) کے لیے اس ماڈل اور ChatGPT کے درمیان باہمی تبادلۂ خیال بھی ممکن بنایا. کچھ مسائل کے لیے ہم متعدد کوششوں میں سے انسانی رائے کی بنیاد پر منتخب کردہ بہترین کوشش پیش کرتے ہیں. یہ ایک تیز رفتار مرحلہ وار کوشش تھی، اور ہمارا طریقۂ کار اتنا منظم اور باقاعدہ نہیں تھا جتنا ہم ایک باقاعدہ اور مکمل طور پر کنٹرول شدہ جائزے میں پسند کرتے. ہم مستقبل کے تکراری مراحل کے لیے زیادہ سخت اور منظم جانچ فریم ورک پر فرسٹ پروف کے منتظمین کے ساتھ گفتگو کے منتظر ہیں.
یہ کام ریاضی اور سائنس میں جدید ترین ریزننگ ماڈلز کے ابتدائی نتائج پر مبنی ہے. جولائی 2025 میں، ہم نے ایک عمومی مقصد کے ریزننگ ماڈل کے ساتھ انٹرنیشنل میتھمیٹیکل اولمپیاڈ میں گولڈ میڈل سطح کی کارکردگی(نئی ونڈو میں کھلتا ہے) حاصل کی (35/42 پوائنٹس). نومبر 2025 میں، ہم نے “GPT‑5 کی مدد سے سائنسی پیش رفت کو تیز کرنے کے ابتدائی تجربات” کے عنوان سے کیس اسٹڈیز کا ایک مجموعہ شیئر کیا، جس میں یہ دکھایا گیا کہ GPT‑5 نے ریاضی، طبیعیات، حیاتیات اور دیگر شعبوں میں محققین کو ٹھوس پیش رفت کرنے میں کس طرح مدد دی—ساتھ ہی اُن حدود و قیود کا بھی ذکر کیا گیا جن کا ہم نے مشاہدہ کیا. اور حال ہی میں، ہم نے ایک فزکس تعاون کی رپورٹ دی جہاں GPT‑5.2 نے گلوآن ایمپلی ٹیوڈ فارمولے کے لیے ایک ممکنہ اظہار تجویز کیا، جسے بعد ازاں ایک داخلی ماڈل نے باضابطہ طور پر ثابت کیا اور مصنفین نے اس کی تصدیق کی.
ہم اس بات کے منتظر ہیں کہ کمیونٹی کے ساتھ تحقیقی معیار کی ریزننگ کا جائزہ کیسے لیا جائے، جس میں ان کوششوں پر ماہرین کی رائے بھی شامل ہو، اور ہم مستقبل کے عوامی ماڈلز میں ان نئی صلاحیتوں کو دستیاب کرنے کے لیے پُرجوش ہیں.


