۱۹ نومبر، ۲۰۲۵

GPT‑5.1‑Codex‑Max کے ساتھ مزید تعمیر کرنا

لوڈ ہو رہا ہے…

تعارف

ہم GPT‑5.1‑Codex‑Max کا تعارف کروا رہے ہیں، ہمارا نیا فرنٹیئر ایجنٹک کوڈنگ ماڈل، جو آج Codex میں دستیاب ہے۔ GPT‑5.1‑Codex‑Max ہماری بنیادی ریزننگ ماڈل کی اپڈیٹ پر بنایا گیا ہے، جو سافٹ ویئر انجینئرنگ، میتھ، ریسرچ، اور دیگر شعبوں میں ایجنٹک ٹاسکس پر تربیت یافتہ ہے۔ GPT‑5.1‑Codex‑Max ڈیولپمنٹ سائیکل کے ہر مرحلے پر زیادہ تیز، زیادہ ذہین، اور زیادہ ٹوکن ایفیشنٹ ہے—اور ایک قابلِ اعتماد کوڈنگ پارٹنر بننے کی جانب نیا قدم ہے۔

GPT‑5.1‑Codex‑Max طویل دورانیے کے تفصیلی کام کے لیے تیار کیا گیا ہے۔ یہ ہمارا پہلا ماڈل ہے جسے متعدد کانٹیکسٹ ونڈوز میں کام کرنے کے لیے مقامی طور پر تربیت دیا گیا ہے، ایک عمل کے ذریعے جسے compaction کہا جاتا ہے، جو ایک ہی ٹاسک میں لاکھوں ٹوکنز پر مربوط انداز میں کام کرتا ہے۔ یہ پروجیکٹ-اسکیل ری فیکٹرز، ڈیپ ڈیبگنگ سیشنز، اور کئی گھنٹوں تک جاری رہنے والے ایجنٹ لوپس کو ممکن بناتا ہے۔

GPT‑5.1‑Codex‑Max آج Codex میں CLI، IDE ایکسٹینشن، کلاؤڈ، اور کوڈ ریویو میں استعمال کے لیے دستیاب ہے، اور API ایکسیس جلد آ رہی ہے۔

فرنٹیئر کوڈنگ صلاحیتیں

GPT‑5.1‑Codex‑Max کو حقیقی دنیا کے سافٹ ویئر انجینئرنگ ٹاسکس پر تربیت دیا گیا ہے، جیسے PR تخلیق، کوڈ ریویو، فرنٹ اینڈ کوڈنگ، اور سوال و جواب، اور یہ متعدد فرنٹیئر کوڈنگ ایویلیوایشنز میں ہمارے پچھلے ماڈلز سے بہتر کارکردگی دکھاتا ہے۔ ماڈل کی بینچ مارک کارکردگی میں بہتری کے ساتھ ساتھ حقیقی دنیا کے استعمال میں بھی اضافہ ہوا ہے: GPT‑5.1‑Codex‑Max پہلا ماڈل ہے جسے ہم نے Windows ماحول میں کام کرنے کے لیے تربیت دیا ہے، اور ماڈل کی تربیت میں اب ایسے ٹاسکس شامل ہیں جو اسے Codex CLI میں بہتر معاون بناتے ہیں۔

* تمام ایویلیوایشنز Extra High reasoning effort کے ساتھ compaction فعال کرکے چلائی گئیں
* Terminal-Bench2.0 کو Codex CLI کے ساتھ Laude Institute Harbor harness⁠(نئی ونڈو میں کھلتا ہے) میں چلایا گیا

رفتار اور لاگت

GPT‑5.1‑Codex‑Max زیادہ مؤثر ریزننگ کی وجہ سے ٹوکن ایفیشنسی میں نمایاں بہتری دکھاتا ہے۔ SWE-bench Verified پر، GPT‑5.1‑Codex‑Max ’میڈیم‘ ریزننگ ایفورٹ کے ساتھ GPT‑5.1‑Codex کے مقابلے میں بہتر کارکردگی حاصل کرتا ہے، جبکہ سوچنے والے ٹوکنز کے استعمال میں 30% کمی لاتا ہے۔ نان لیٹینسی حساس ٹاسکس کے لیے، ہم ایک نیا Extra High (‘xhigh’) reasoning effort بھی متعارف کرا رہے ہیں، جو بہتر جواب کے لیے مزید دیر تک غور کرتا ہے۔ ہم اب بھی زیادہ تر ٹاسکس کے لیے medium کو روزمرہ کے استعمال کے طور پر تجویز کرتے ہیں۔

ہم توقع کرتے ہیں کہ ٹوکن ایفیشنسی کی یہ بہتری ڈویلپرز کے لیے حقیقی دنیا میں بچت میں تبدیل ہوگی۔

مثال کے طور پر، GPT‑5.1‑Codex‑Max کم لاگت میں وہی فنکشنلٹی اور جمالیات کے ساتھ اعلیٰ معیار کے فرنٹ اینڈ ڈیزائن تیار کر سکتا ہے جو GPT‑5.1‑Codex مہنگے طریقے سے بناتا تھا۔

پرامپٹ: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

فیچرز

ماڈل کو CartPole میں بہتر کارکردگی کے لیے ایک پالیسی کو حقیقی طور پر ٹرین کرنے کے قابل ہونا چاہیے
ماڈل کے ٹریننگ یا inference کے دوران activations/weights کے لیے ویژولائزر
ایپی سوڈ میں اسٹیپس، اس ایپی سوڈ کے ریوارڈز
آخری سروائیول ٹائم اور بہترین سروائیول ٹائم (اسٹیپس میں)

index.html میں محفوظ کریں

طویل عرصے تک چلنے والے ٹاسک

Compaction GPT‑5.1‑Codex‑Max کو وہ ٹاسکس مکمل کرنے کے قابل بناتا ہے جو پہلے کانٹیکسٹ-ونڈو حدود کی وجہ سے ناکام ہو جاتے تھے، جیسے پیچیدہ ری فیکٹرز اور طویل دورانیے کے ایجنٹ لوپس، کیونکہ یہ اپنی ہسٹری کو چھانٹ کر صرف اہم ترین کانٹیکسٹ کو برقرار رکھتا ہے۔ Codex ایپلی کیشنز میں، GPT‑5.1‑Codex‑Max جب اپنی کانٹیکسٹ ونڈو کی حد کے قریب پہنچتا ہے تو خودکار طور پر اپنی سیشن کو compact کر لیتا ہے، جس سے اسے نئی کانٹیکسٹ ونڈو مل جاتی ہے۔ یہ عمل اس وقت تک دہراتا ہے جب تک ٹاسک مکمل نہ ہو جائے۔

طویل دورانیے میں مربوط کام کو برقرار رکھنے کی صلاحیت زیادہ عمومی اور قابلِ اعتماد AI سسٹمز کی سمت ایک بنیادی صلاحیت ہے۔ GPT‑5.1‑Codex‑Max یہ ایک وقت میں کئی گھنٹوں تک خود مختار ہو کر کام کر سکتا ہے۔ ہماری داخلی ایویلیوایشنز میں، ہم نے مشاہدہ کیا ہے کہ GPT‑5.1‑Codex‑Max24 گھنٹے سے زائد عرصے تک ٹاسکس پر کام کرتا رہا۔ یہ مستقل طور پر اپنی امپلیمینٹیشن کو بہتر بناتا ہے، ٹیسٹ فیلئرز کو درست کرتا ہے، اور آخرکار کامیاب نتیجہ فراہم کرتا ہے۔

اس مثال میں، GPT‑5.1‑Codex‑Max خود مختار طور پر Codex CLI اوپن سورس ریپوزٹری کو refactor کر رہا ہے۔

جیسے جیسے سیشن کی لمبائی ماڈل کی context-window کے قریب پہنچتی ہے، یہ خودکار طور پر سیشن کو compact کرتا ہے تاکہ بغیر پیش رفت کھوئے ٹاسک جاری رکھنے کے لیے جگہ خالی ہو سکے۔

ویڈیو وضاحت کے لیے تراشی اور رفتار تیز کی گئی ہے۔

محفوظ اور قابلِ اعتماد AI ایجنٹس کی تشکیل

GPT‑5.1‑Codex‑Max ان ایویلیوایشنز میں نمایاں طور پر بہتر کارکردگی دکھاتا ہے جنہیں طویل المدتی ریزننگ کی ضرورت ہوتی ہے۔ چونکہ یہ compaction کے ذریعے متعدد کانٹیکسٹ ونڈوز میں مربوط انداز میں کام کر سکتا ہے، ماڈل طویل المدتی کوڈنگ اور سائبر سیکیورٹی جیسے شعبوں میں بہتر نتائج فراہم کرتا ہے۔ ہم نے فرسٹ اور تھرڈ پارٹی ایویلیوایشنز پر GPT‑5.1‑Codex‑Max میں اس ماڈل کی کارکردگی کے نتائج کا تجزیہ کیا ہے سسٹم کارڈ⁠۔

GPT‑5.1‑Codex‑Max ہماری Preparedness Framework⁠ کے تحت Cybersecurity میں High صلاحیت تک نہیں پہنچتا، لیکن یہ اب تک کا سب سے مضبوط سائبر سیکیورٹی ماڈل ہے جو ہم نے فراہم کیا ہے، اور ایجنٹک سائبر سیکیورٹی صلاحیتیں تیزی سے بہتر ہو رہی ہیں۔ اس کے نتیجے میں، ہم Cybersecurity میں High صلاحیت کے لیے تیاری کر رہے ہیں اور سائبر ڈومین میں اپنی حفاظتی تدابیر کو مضبوط بنا رہے ہیں اور پروگرامز جیسے Aardvark⁠ کے ذریعے اس بات کو یقینی بنانے پر کام کر رہے ہیں کہ ڈیفینڈرز ان بہتر صلاحیتوں سے فائدہ اٹھا سکیں۔

جب ہم نے GPT‑5‑Codex لانچ کیا، تو ہم نے بدنیتی پر مبنی سرگرمیوں کا پتہ لگانے اور روکنے کے لیے مخصوص سائبر سیکیورٹی مانیٹرنگ نافذ کی۔ اگرچہ ہمیں بڑے پیمانے پر غلط استعمال میں کوئی معنی خیز اضافہ نظر نہیں آیا، ہم اعلیٰ صلاحیتوں کے لیے اضافی حفاظتی اقدامات تیار کر رہے ہیں۔ ہماری ٹیمیں پہلے ہی سائبر آپریشنز کو ناکام⁠ بنا چکی ہیں جو ہمارے ماڈلز کے غلط استعمال کی کوشش کر رہی تھیں، اور مشکوک سرگرمی کو ہماری پالیسی مانیٹرنگ سسٹمز کے ذریعے ریویو کے لیے روانہ کیا جاتا ہے۔

Codex کو بطور ڈیفالٹ ایک محفوظ سینڈ باکس میں چلانے کے لیے ڈیزائن کیا گیا ہے: فائل رائٹس اس کے ورک اسپیس تک محدود ہیں، اور نیٹ ورک ایکسیس غیر فعال ہے جب تک کہ ڈویلپر اسے فعال نہ کرے۔ ہم Codex کو اسی محدود-ایکسس موڈ میں رکھنے کی سفارش کرتے ہیں، کیونکہ انٹرنیٹ یا ویب سرچ کو فعال کرنا غیر معتبر مواد سے prompt-injection⁠ کے خطرات پیدا کر سکتا ہے۔

جیسے جیسے Codex طویل دورانیے کے ٹاسکس انجام دینے میں مزید قابل ہوتا جا رہا ہے، یہ ضروری ہے کہ ڈویلپرز تبدیلیاں کرنے یا پروڈکشن میں ڈیپلائی کرنے سے پہلے ایجنٹ کے کام کا جائزہ لیں۔ اس میں مدد کے لیے، Codex ٹرمینل لاگز تیار کرتا ہے اور اپنے ٹول کالز اور ٹیسٹ نتائج کا حوالہ دیتا ہے۔ اگرچہ اس کے کوڈ ریویوز ماڈل یا انسان کے بنائے ہوئے بگز کو پروڈکشن میں جانے کے خطرے کو کم کرتے ہیں، Codex کو ایک اضافی ریویوئر سمجھا جانا چاہیے، انسانوں کے ریویو کا متبادل نہیں۔

سائبر سیکیورٹی صلاحیتیں دفاع اور حملہ دونوں میں استعمال ہو سکتی ہیں، اس لیے ہم مرحلہ وار تعیناتی کا طریقہ اختیار کرتے ہیں: حقیقی دنیا کے استعمال سے سیکھنا، حفاظتی اقدامات کو اپ ڈیٹ کرنا، اور خودکار ولنریبلٹی اسکیننگ اور اصلاحی مدد جیسے اہم دفاعی ٹولز کو برقرار رکھنا۔

دستیابی

GPT‑5.1‑Codex‑Max ChatGPT Plus، Pro، Business، Edu، اور Enterprise پلانز کے ساتھ Codex میں دستیاب ہے۔ آپ کے پلان کے لیے استعمال کی حدود کیسے کام کرتی ہیں، اس کی تفصیلات کے لیے براہِ کرم ہماری docs⁠(نئی ونڈو میں کھلتا ہے) دیکھیں۔

Codex CLI کو API key کے ذریعے استعمال کرنے والے ڈویلپرز کے لیے، ہم GPT‑5.1‑Codex‑Max فراہم کرنے کا ارادہ رکھتے ہیں۔ جلد ہی API میں دستیاب ہوگا۔

آج سے، GPT‑5.1‑Codex‑Max Codex سر فیسز میں GPT‑5.1‑Codex کی جگہ ڈیفالٹ ماڈل ہوگا۔ GPT‑5.1 چونکہ ایک جنرل پرپز ماڈل ہے، ہم GPT‑5.1‑Codex‑Maxاور Codex فیملی کے ماڈلز کو صرف Codex یا Codex جیسے ماحول میں ایجنٹک کوڈنگ ٹاسکس کے لیے استعمال کرنے کی سفارش کرتے ہیں۔

نتیجہ

GPT‑5.1‑Codex‑Max یہ ظاہر کرتا ہے کہ ماڈلز طویل المدتی کوڈنگ ٹاسکس کو برقرار رکھنے، پیچیدہ ورک فلو منظم کرنے، اور کم ٹوکنز میں اعلیٰ معیار کی امپلیمینٹیشنز تیار کرنے میں کتنی دور تک پہنچ چکے ہیں۔ ہم نے دیکھا ہے کہ ماڈل کو ہماری CLI، IDE ایکسٹینشن، کلاؤڈ انٹیگریشن، اور کوڈ ریویو ٹولنگ میں مسلسل بہتریوں کے ساتھ مل کر انجینئرنگ پروڈکٹیوٹی کو بے حد بڑھاتے دیکھا ہے: اندرونی طور پر، OpenAI کے 95% انجینئرز ہفتہ وار Codex استعمال کرتے ہیں، اور یہ انجینئرز Codex اختیار کرنے کے بعد تقریباً 70% زیادہ پل ریکویسٹس جمع کرواتے ہیں۔ جیسے ہی ہم ایجنٹس کی صلاحیتوں کی حدوں کو آگے بڑھا رہے ہیں، ہم پُرجوش ہیں یہ دیکھنے کے لیے کہ آپ ان کے ساتھ کیا بنائیں گے۔

ضمیمہ: ماڈل کی تشخیصات

	GPT‑5.1‑Codex (high)	GPT‑5.1‑Codex‑Max (xhigh)
SWE-bench Verified (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 اب Microsoft 365 Copilot میں ترجیحی ماڈل ہے

پروڈکٹ۹ جولائی، ۲۰۲۶

GPT-5.6: جدید ترین انٹیلیجنس جو آپ کے عزائم کے مطابق بڑھتی ہے

پروڈکٹ۹ جولائی، ۲۰۲۶

ChatGPT اب آپ کے سب سے پرعزم کام کا ساتھی ہے

پروڈکٹ۹ جولائی، ۲۰۲۶