ہم ایک نیا ماڈل متعارف کروا رہے ہیں جو Codex کی مزید صلاحیتوں کو کھولتا ہے: GPT‑5.3‑Codex، جو اب تک کا سب سے زیادہ قابل ایجنٹک کوڈنگ ماڈل ہے. یہ ماڈل GPT‑5.2‑Codex کی فرنٹیئر کوڈنگ کارکردگی اور GPT‑5.2 کی استدلال اور پیشہ ورانہ علم کی صلاحیتوں کو ایک ہی ماڈل میں یکجا کرتا ہے، جو 25% زیادہ تیز بھی ہے. یہ اسے طویل مدتی کاموں کو سنبھالنے کے قابل بناتا ہے جن میں تحقیق، ٹولز کا استعمال اور پیچیدہ عمل درآمد شامل ہوتا ہے. بالکل ایک ساتھی کی طرح، آپ GPT‑5.3‑Codex کو اس کے کام کے دوران سیاق و سباق کھوئے بغیر رہنمائی دے سکتے ہیں اور اس کے ساتھ تعامل کر سکتے ہیں.
GPT‑5.3‑Codex ہمارا پہلا ماڈل ہے جو اپنی تخلیق میں اہم کردار ادا کرنے والا تھا. Codex ٹیم نے ابتدائی ورژنز کو اپنی ٹریننگ کی خرابیوں کو دور کرنے، اپنی تعیناتی کو منظم کرنے اور ٹیسٹ کے نتائج اور جائزوں کی تشخیص کے لیے استعمال کیا—ہماری ٹیم اس بات سے حیران رہ گئی کہ Codex اپنی ترقی کو کتنی تیزی سے بڑھا سکتا تھا.
GPT‑5.3‑Codex کے ساتھ، Codex ایک ایسے ایجنٹ سے ترقی کر رہا ہے جو کوڈ لکھنے اور جائزہ لینے کی صلاحیت رکھتا ہے اور اب ایک ایسے ایجنٹ میں تبدیل ہو رہا ہے جو کمپیوٹر پر تقریباً وہ سب کچھ کر سکتا ہے جو ڈویلپرز اور پیشہ ور افراد کر سکتے ہیں.
GPT‑5.3‑Codex نے SWE-Bench Pro اور Terminal-Bench پر انڈسٹری میں ایک نئی بلند ترین سطح قائم کی ہے اور OSWorld اور GDPval پر مضبوط کارکردگی کا مظاہرہ کیا ہے، یہ چار بینچ مارکس ہیں جنہیں ہم کوڈنگ، ایجنٹک اور حقیقی دنیا کی صلاحیتوں کی پیمائش کے لیے استعمال کرتے ہیں.
GPT‑5.3‑Codex نے SWE-Bench Pro پر جدید ترین کارکردگی حاصل کی ہے، جو حقیقی دنیا کی سافٹ ویئر انجینئرنگ کی سخت جانچ ہے. جہاں SWE‑bench صرف تصدیق شدہ Python کی جانچ کرتا ہے، وہاں SWE‑Bench Pro چار زبانوں پر مشتمل ہے اور زیادہ آلودگی مزاحم، زیادہ چیلنجنگ، زیادہ متنوع اور صنعت کے لحاظ سے زیادہ متعلقہ ہے. یہ Terminal-Bench 2.0 پر پچھلی جدید ترین کارکردگی سے بھی کہیں زیادہ بہتر ہے، جو Codex جیسے کوڈنگ ایجنٹ کے لیے ضروری ٹرمینل مہارتوں کی پیمائش کرتا ہے. قابل ذکر بات یہ ہے کہ، GPT‑5.3‑Codex یہ کسی بھی پچھلے ماڈل کے مقابلے میں کم ٹوکنز کے ساتھ ایسا کرتا ہے، جس سے صارفین مزید تخلیق کر سکتے ہیں.
فرنٹیئر کوڈنگ کی صلاحیتوں، جمالیاتی بہتری اور کمپیکشن کو یکجا کرنے سے ایک ایسا ماڈل تیار ہوتا ہے جو شاندار کام انجام دے سکتا ہے اور چند دنوں میں ابتدا سے انتہائی کارآمد پیچیدہ گیمز اور ایپس بنا سکتا ہے. ماڈل کی ویب ڈیولپمنٹ اور طویل مدتی ایجنٹک صلاحیتوں کو جانچنے کے لیے، ہم نے GPT‑5.3‑Codex سے درخواست کی کہ وہ ہمارے لیے دو گیمز تیار کرے: Codex ایپ لانچ سے ریسنگ گیم کا دوسری ورژن اور ایک ڈائیونگ گیم. ویب گیم مہارت تیار کریں اور پہلے سے منتخب کردہ استعمال کرتے ہوئے، عمومی فالو اپ پرامپٹس جیسا کہ "fix the bug" یا "improve the game"، GPT‑5.3‑Codex کو فالو کریں. لاکھوں ٹوکنز پر خودمختاری سے گیمز پر تکرار کی گئی. ٹریلرز دیکھیں اور گیمز خود کھیلیں تاکہ آپ دیکھ سکیں کہ Codex کیا کر سکتا ہے.
ایک ریسنگ گیم، جس میں مختلف ریسرز، آٹھ نقشے اور یہاں تک کہ اسپیس بار کے ساتھ استعمال کے لیے آئٹمز بھی شامل ہیں. اسے اپنے لیے یہاں کھیلیں(نئی ونڈو میں کھلتا ہے)!
ایک ڈائیونگ گیم جہاں آپ مختلف ریفز کو دریافت کرتے ہیں، اپنی فِش کوڈیکس مکمل کرنے کے لیے ان سب کو جمع کرتے ہیں اور اس دوران آکسیجن، دباؤ اور خطرات کا انتظام کرتے ہیں. اسے اپنے لیے یہاں کھیلیں(نئی ونڈو میں کھلتا ہے)!
GPT‑5.3‑Codex آپ کی نیت کو بہتر طور پر سمجھتا ہے جب آپ GPT‑5.2‑Codex کے مقابلے میں اسے روزمرہ کی ویب سائٹس بنانے کا کہتے ہیں. سادہ یا غیر واضح پرامپٹس اب زیادہ فعالیت اور معقول ڈیفالٹس والی سائٹس پر بطور ڈیفالٹ جاتے ہیں، جو آپ کو اپنے خیالات کو حقیقت کا روپ دینے کے لیے ایک مضبوط آغاز فراہم کرتے ہیں.
مثال کے طور پر، ہم نے GPT‑5.3‑Codex اور GPT‑5.2‑Codex سے کہا کہ وہ نیچے دو لینڈنگ پیجز تیار کریں. GPT‑5.3‑Codex سالانہ پلان کو خود بخود رعایتی ماہانہ قیمت کے طور پر دکھایا گیا، جس سے رعایت واضح اور ارادی محسوس ہوئی، بجائے اس کے کہ سالانہ کل کو ضرب دیا جائے. اس نے تین مختلف صارف اقتباسات کے ساتھ خودکار طور پر منتقل ہونے والا ٹیسٹی مونیل کیروسل بھی بنایا، جس کے نتیجے میں صفحہ بطور ڈیفالٹ زیادہ مکمل اور پروڈکشن کے لیے تیار محسوس ہوتا ہے.
پرامپٹ: Quiet KPI کے لیے ایک لینڈنگ پیج بنائیں، جو بانیوں کے لیے دوستانہ ہفتہ وار میٹرک ڈائجسٹ ہے. جمالیات سے مراد نرم SaaS، شیشے جیسے کارڈز، لیوینڈر سے نیلے رنگ کا میلان، ہلکی دھندلاہٹ ہے. سیکشنز، ای میل کیپچر کے ساتھ ہیرو، نمونہ رپورٹ کارڈز گرڈ، انٹیگریشنز رو، ٹیسٹی مونیل کیروسل، پرائسنگ ٹوگل ماہانہ سالانہ، عمومی سوالات، فوٹر.
- ٹائپ فیس Satoshi یا اسی طرح کا جیومیٹرک سانس.
- بٹنوں کے نرم کونے، 14px رداس، مضبوط فوکس حالتیںچ
- ایک نفیس اسکرول پر مبنی انکشاف شامل کریں.
سافٹ ویئر انجینئرز، ڈیزائنرز، پروڈکٹ مینیجرز اور ڈیٹا سائنسدان کوڈ تیار کرنے کے علاوہ بھی بہت کچھ کرتے ہیں. GPT‑5.3‑Codex سافٹ ویئر لائف سائیکل کے تمام کاموں کی حمایت کے لیے تیار کیا گیا ہے—ڈی بگنگ، ڈیپلائنگ، مانیٹرنگ، PRDs لکھنا، کاپی ایڈٹنگ، صارف تحقیق، ٹیسٹ، میٹرکس اور مزید. اس کی ایجنٹک صلاحیتیں سافٹ ویئر سے آگے بڑھ کر آپ کو جو کچھ بھی آپ بنانا چاہتے ہیں، بنانے میں مدد دیتی ہیں—چاہے وہ سلائیڈ ڈیکس ہوں یا شیٹس میں ڈیٹا کا تجزیہ.
پچھلے GDPval نتائج کے لیے استعمال ہونے والی مخصوص مہارتوں کی طرح، GPT‑5.3‑Codex بھی پیشہ ورانہ علمی کام میں مضبوط کارکردگی کا مظاہرہ کرتا ہے، جیسا کہ GDPval کے ذریعے ناپا گیا ہے اور GPT‑5.2 کے برابر ہے. GDPval ایک تشخیص ہے جو OpenAI نے 2025 میں جاری کیا تھا اور یہ 44 پیشوں میں اچھی طرح متعین علم-کام کے کاموں پر ایک ماڈل کی کارکردگی کی پیمائش کرتا ہے. ان کاموں میں پریزنٹیشنز، اسپریڈشیٹس اور دیگر کام کی مصنوعات تیار کرنا شامل ہیں.
ذیل میں ایجنٹ کے تیار کردہ کام کی چند مثالیں دی گئی ہیں.
پرامٹ + ٹاسک سیاق و سباق
GPT-5.3-Codex output

OSWorld ایک ایجنٹک کمپیوٹر استعمال کا بینچ مارک ہے جہاں ایجنٹ کو بصری ڈیسک ٹاپ کمپیوٹر ماحول میں پیداواری کام مکمل کرنے ہوتے ہیں. GPT‑5.3‑Codex پچھلے GPT ماڈلز کے مقابلے میں کمپیوٹر استعمال کی کہیں زیادہ مضبوط صلاحیتوں کا مظاہرہ کرتا ہے.
OSWorld-Verified میں، ماڈل مختلف کمپیوٹر کاموں کو مکمل کرنے کے لیے وژن کا استعمال کرتے ہیں. انسانوں کا اسکور ~72% ہے.
یہ نتائج کوڈنگ، فرنٹ اینڈ، کمپیوٹر کے استعمال اور حقیقی دنیا کے کاموں میں مل کر ظاہر کرتے ہیں کہ GPT‑5.3‑Codex یہ صرف انفرادی کاموں میں بہتر نہیں ہے، بلکہ یہ ایک واحد، عمومی مقصد کے ایجنٹ کی طرف ایک نمایاں تبدیلی کی نشاندہی کرتا ہے جو حقیقی دنیا کے تکنیکی کام کے مکمل دائرہ کار میں استدلال، تعمیر اور عمل درآمد کر سکتا ہے.
جیسے جیسے ماڈل کی صلاحیتیں زیادہ طاقتور ہوتی جاتی ہیں، فرق اس بات سے منتقل ہو جاتا ہے کہ ایجنٹس کیا کرنے کے قابل ہیں، اس بات کی طرف کہ انسان کتنی آسانی سے ان کے ساتھ تعامل کر سکتے ہیں، انہیں ہدایت دے سکتے ہیں اور متوازی طور پر کام کرنے والے ان میں سے بہت سے ایجنٹس کی نگرانی کر سکتے ہیں. Codex ایپ ایجنٹس کا انتظام اور رہنمائی بہت آسان بناتی ہے اور اب GPT‑5.3‑Codex کے ساتھ یہ زیادہ متعامل ہے. نئے ماڈل کے ساتھ، Codex بار بار اپ ڈیٹس فراہم کرتا ہے تاکہ آپ کلیدی فیصلوں اور پیش رفت سے باخبر رہ سکیں. حتمی نتیجہ کا انتظار کرنے کے بجائے، آپ حقیقی وقت میں بات چیت کر سکتے ہیں—سوالات پوچھیں، طریقہ کار پر گفتگو کریں اور حل کی طرف رہنمائی کریں. GPT‑5.3‑Codex یہ وضاحت کرتا ہے کہ وہ کیا کر رہا ہے، فیڈبیک پر ردعمل دیتا ہے اور ابتدا سے انتہا تک آپ کو مطلع رکھتا ہے.
ترتیبات > عمومی > فالو اپ رویہ میں ایپ میں ماڈل کے کام کرنے کے دوران اسٹیئرنگ فعال کریں.
Codex میں حالیہ تیز رفتار بہتریاں OpenAI کے تمام شعبوں میں مہینوں یا برسوں پر محیط تحقیقی منصوبوں کے ثمرات پر مبنی ہیں. یہ تحقیقی پروجیکٹس Codex کے ذریعے تیز کیے جا رہے ہیں اور OpenAI کے بہت سے محققین اور انجینئر آج اپنے کام کو بنیادی طور پر اس سے مختلف قرار دے رہے ہیں جو یہ صرف دو ماہ پہلے تھا. حتٰی کہ GPT‑5.3‑Codex کی ابتدائی ورژنز بھی غیر معمولی صلاحیتوں کا مظاہرہ کیا، جس سے ہماری ٹیم کو ان پہلی ورژنز کے ساتھ کام کرنے کی اجازت ملی تاکہ تربیت کو بہتر بنایا جا سکے اور بعد کی ورژنز کی تعیناتی میں مدد کی جا سکے.
Codex بہت سے کاموں کے لیے مفید ہے، جس کی وجہ سے یہ بتانا مشکل ہو جاتا ہے کہ یہ ہماری ٹیموں کی کس طرح مدد کرتا ہے. کچھ مثالوں کے طور پر، تحقیقاتی ٹیم نے اس ریلیز کے لیے تربیتی عمل کی نگرانی اور ڈیبگ کرنے کے لیے Codex کا استعمال کیا. اس نے تحقیق کو ڈیبگنگ انفراسٹرکچر کے مسائل سے آگے بڑھایا: اس نے تربیت کے پورے دورانیے میں پیٹرنز کو ٹریک کرنے میں مدد کی، تعامل کے معیار پر گہرا تجزیہ فراہم کیا، اصلاحات تجویز کیں اور انسانی محققین کے لیے بھرپور ایپلیکیشنز تیار کیں تاکہ وہ درست طور پر سمجھ سکیں کہ ماڈل کے رویّے میں سابقہ ماڈلز کے مقابلے میں کیا فرق تھا.
انجینئرنگ ٹیم نے GPT‑5.3‑Codex کے لیے ہارنس کو بہتر اور ڈھالنے کے لیے Codex کا استعمال کیا. جب ہم نے صارفین کو متاثر کرنے والے عجیب ایج کیسز دیکھنا شروع کیے، تو ٹیم کے اراکین نے سیاق و سباق رینڈرنگ بگز کی شناخت کرنے اور کم کیشے ہٹ ریٹس کی بنیادی وجہ معلوم کرنے کے لیے Codex کا استعمال کیا. GPT‑5.3‑Codex لانچ کے دوران ٹریفک میں اچانک اضافے کے مطابق ایڈجسٹ کرنے کے لیے GPU کلسٹرز کو متحرک طور پر اسکیل کرتے ہوئے اور لیٹنسی کو مستحکم رکھتے ہوئے، ٹیم کی مدد جاری رکھے ہوئے ہے.
الفا ٹیسٹنگ کے دوران، ایک محقق یہ جاننا چاہتا تھا کہ GPT‑5.3‑Codex فی ٹرن کتنا اضافی کام کر رہا ہے اور اس سے وابستہ پیداواری صلاحیت میں کیا فرق پڑا ہے. GPT‑5.3‑Codex وضاحتوں کی فریکوئنسی، مثبت اور منفی صارف ردعمل اور ٹاسک پر پیش رفت کا اندازہ لگانے کے لیے کئی سادہ ریجیکس کلاسیفائرز تیار کیے اور پھر انہیں تمام سیشن لاگز پر اسکیل ایبل طریقے سے چلایا اور اس کے نتیجے کے ساتھ ایک رپورٹ تیار کی. Codex کے ساتھ کام کرنے والے افراد زیادہ خوش تھے کیونکہ ایجنٹ ان کے ارادے کو بہتر طور پر سمجھ رہا تھا اور ہر باری میں زیادہ پیش رفت کر رہا تھا اور وضاحت کے لیے کم سوالات پوچھ رہا تھا.
GPT‑5.3‑Codex اپنے پیش رو ماڈلز سے اتنا مختلف ہونے کی وجہ سے، الفا ٹیسٹنگ کے ڈیٹا میں کئی غیر معمولی اور غیر متوقع نتائج ظاہر ہوئے. ٹیم کے ایک ڈیٹا سائنٹسٹ نے GPT‑5.3‑Codex کے ساتھ مل کر نئی ڈیٹا پائپ لائنز بنائیں اور نتائج کو ہمارے معیاری ڈیش بورڈنگ ٹولز کی صلاحیت سے کہیں زیادہ بھرپور انداز میں ویژولائز کیا. نتائج کا Codex کے ساتھ مشترکہ طور پر تجزیہ کیا گیا، جس نے تین منٹ سے کم وقت میں ہزاروں ڈیٹا پوائنٹس پر کلیدی بصیرتوں کا جامع خلاصہ پیش کیا.
انفرادی طور پر، یہ تمام کام اس بات کی دلچسپ مثالیں ہیں کہ Codex محققین اور پروڈکٹ بنانے والوں کی مدد کیسے کر سکتا ہے. مجموعی طور پر، ہم نے پایا کہ ان نئی صلاحیتوں نے ہماری تحقیق، انجینئرنگ اور پروڈکٹ ٹیموں کی رفتار میں زبردست تیزی پیدا کی.
حالیہ مہینوں میں، ہم نے سائبر سیکیورٹی کے کاموں پر ماڈل کی کارکردگی میں اہم پیشرفت دیکھی ہے، جس سے ڈویلپرز اور سیکیورٹی ماہرین دونوں کو فائدہ پہنچا ہے. اسی دوران، ہم نے دفاعی استعمال اور وسیع تر ماحولیاتی نظام کی لچک کی حمایت کے لیے مضبوط سائبر حفاظتی اقدامات تیار کیے ہیں .
GPT‑5.3‑Codex پہلا ماڈل ہے جس کی ہم اپنی اعلٰی صلاحیت کے طور پر سائبر سیکیورٹی سے متعلق کاموں کے لیے تیاری کے فریم ورک کے تحت درجہ بندی کرتے ہیں اور پہلا جسے ہم نے براہِ راست سافٹ ویئر کی کمزوریوں کی شناخت کے لیے تربیت دی ہے. اگرچہ ہمارے پاس اس بات کا حتمی ثبوت موجود نہیں ہے کہ یہ اختتام سے اختتام تک سائبر حملوں کو خودکار بنا سکتا ہے، ہم احتیاطی تدابیر اختیار کر رہے ہیں اور اپنی اب تک کی سب سے جامع سائبر سیکیورٹی حفاظتی اسٹیک تعینات کر رہے ہیں. ہماری تخفیفی تدابیر میں حفاظتی تربیت، خودکار نگرانی، جدید صلاحیتوں کے لیے قابل اعتماد رسائی اور نفاذ کے عمل شامل ہیں جن میں خطرے کی انٹیلیجنس بھی شامل ہے.
چونکہ سائبر سیکیورٹی فطری طور پر دوہری استعمال کی حامل ہے، ہم شواہد پر مبنی، تکراری طریقہ کار اختیار کر رہے ہیں جو مدافعین کی کمزوریوں کو تلاش کرنے اور انہیں درست کرنے کی صلاحیت کو تیز کرتا ہے جبکہ غلط استعمال کو سست کرتا ہے. اس کے حصے کے طور پر، ہم سائبر کے لیے قابل اعتماد رسائی لانچ کر رہے ہیں، جو سائبر دفاعی تحقیق کو تیز کرنے کے لیے ایک پائلٹ پروگرام ہے.
ہم ماحولیاتی نظام کے تحفظات میں سرمایہ کاری کر رہے ہیں، جیسا کہ Aardvark کے نجی بیٹا کو وسعت دینا، جو ہمارا سیکیورٹی ریسرچ ایجنٹ ہے اور اسے Codex سیکیورٹی مصنوعات اور ٹولز کے ہمارے مجموعے میں پہلی پیشکش کے طور پر پیش کرنا اور اوپن سورس مینٹینرز کے ساتھ شراکت داری کرنا تاکہ Next.js جیسے وسیع پیمانے پر استعمال ہونے والے پروجیکٹس کے لیے مفت کوڈبیس اسکیننگ فراہم کی جا سکے، جہاں ایک سیکیورٹی محقق نے Codex کا استعمال کر کے کمزوریاں تلاش کیں، جو گزشتہ ہفتے ظاہر کی گئی(نئی ونڈو میں کھلتا ہے) ہیں.
2023 میں شروع کیے گئے ہمارے $1M سائبر سیکیورٹی گرانٹ پروگرام کی بنیاد پر، ہم اپنے سب سے طاقتور ماڈلز کے ساتھ سائبر دفاع کو تیز کرنے کے لیے API کریڈٹس میں $10M دینے کا بھی عہد کر رہے ہیں، خاص طور پر اوپن سورس سافٹ ویئر اور اہم انفراسٹرکچر سسٹمز کے لیے. نیک نیتی کے ساتھ سیکیورٹی تحقیق میں مشغول تنظیمیں ہمارے سائبر سیکیورٹی گرانٹ پروگرام کے ذریعے API کریڈٹس اور سپورٹ کے لیے درخواست دے سکتی ہیں.
GPT‑5.3‑Codex ادا شدہ ChatGPT پلانز کے ساتھ دستیاب ہے، ہر جگہ جہاں آپ Codex استعمال کر سکتے ہیں: ایپ، CLI، IDE ایکسٹینشن اور ویب. ہم جلد ہی API تک محفوظ رسائی کو فعال کرنے کے لیے کام کر رہے ہیں.
اس اپ ڈیٹ کے ساتھ، ہم اب GPT‑5.3‑Codex بھی چلا رہے ہیں. Codex صارفین کے لیے 25% تیز تر، ہمارے انفراسٹرکچر اور انفیرینس اسٹیک میں بہتری کی بدولت، جس کے نتیجے میں تیز تر تعاملات اور تیز تر نتائج حاصل ہوتے ہیں.
GPT‑5.3‑Codex کو NVIDIA GB200 NVL72 سسٹمز کے لیے مشترکہ طور پر ڈیزائن کیا گیا، تربیت دی گئی اور انہی پر فراہم کیا گیا. ہم NVIDIA کی شراکت داری کے لیے شکر گزار ہیں.
GPT‑5.3‑Codex کے ساتھ، Codex کوڈ لکھنے سے آگے بڑھ کر اسے کمپیوٹر چلانے اور مکمل کام کرنے کے لیے ایک آلہ کے طور پر استعمال کر رہا ہے. کوڈنگ ایجنٹ کی صلاحیتوں کی حدوں کو آگے بڑھا کر، ہم علم پر مبنی کام کی ایک وسیع تر قسم کو بھی کھول رہے ہیں—سافٹ ویئر کی تیاری اور تعیناتی سے لے کر تحقیق، تجزیہ اور پیچیدہ کاموں کی انجام دہی تک. جو چیز بہترین کوڈنگ ایجنٹ بننے پر مرکوز تھی، وہ کمپیوٹر پر ایک عمومی معاون کی بنیاد بن چکی ہے، جس سے Codex کے ساتھ نہ صرف یہ کہ کون بنا سکتا ہے بلکہ کیا ممکن ہے، دونوں میں وسعت آ رہی ہے.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56.8% | 56.4% | 55.6 ٪ |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
OSWorld تصدیق شدہ | 64.7% | 38.2% | 37.9% |
GDPval (جیت یا برابری) | 70.9% | - | 70.9% (high) |
سائبر سیکیورٹی کیپچر دی فلیگ چیلنجز | 77.6% | 67.4% | 67.7% |
SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |


