مرکزی مواد پر جائیں
OpenAI

۵ مارچ، ۲۰۲۶

پروڈکٹریلیز

GPT‑5.4 کا تعارف

پیشہ ورانہ کام کے لیے ڈیزائن کیا گیا

لوڈ ہو رہا ہے…

آج ہم ChatGPT میں GPT‑5.4 جاری کر رہے ہیں (بطور GPT‑5.4. سوچنا)، API، اور Codex. یہ پیشہ ورانہ کام کے لیے ہمارا سب سے زیادہ باصلاحیت اور مؤثر جدید ترین ماڈل ہے. ہم ChatGPT اور API میں GPT‑5.4 Pro بھی جاری کر رہے ہیں، ان لوگوں کے لیے جو پیچیدہ کاموں میں زیادہ سے زیادہ کارکردگی چاہتے ہیں.

GPT‑5.4 ریزننگ، کوڈنگ اور ایجنٹک ورک فلو میں ہماری حالیہ پیش رفت کی بہترین خصوصیات کو ایک ہی جدید ترین ماڈل میں یکجا کرتا ہے. یہ GPT‑5.3‑Codex کی صنعت میں سب سے آگے کوڈنگ صلاحیتوں کو شامل کرتا ہے، جبکہ ٹولز، سافٹ ویئر ماحول اور اسپریڈشیٹس، پریزنٹیشنز اور ڈاکس سے متعلق پیشہ ورانہ ٹاسکس میں ماڈل کے کام کرنے کے طریقے کو بہتر بناتا ہے. نتیجہ ایک ایسا ماڈل ہے جو پیچیدہ حقیقی کام کو درستگی سے، مؤثر طریقے سے اور کارآمد انداز میں مکمل کرتا ہے—کم آگے پیچھے کے ساتھ وہی فراہم کرتا ہے جو آپ نے مانگا تھا.

ChatGPT میں، GPT‑5.4 اب Thinking اپنی سوچ کا ایک پیشگی پلان فراہم کر سکتا ہے، تاکہ آپ جواب کے بیچ میں ہی سمت ایڈجسٹ کر سکیں جبکہ یہ کام کر رہا ہو، اور بغیر اضافی ٹرنز کے ایک ایسی حتمی آؤٹ پٹ تک پہنچیں جو آپ کی ضرورت کے زیادہ قریب ہو. GPT‑5.4 Thinking ڈیپ ویب ریسرچ، کو بھی بہتر بناتا ہے، خاص طور پر انتہائی مخصوص سوالات کے لیے، جبکہ اُن سوالات کے لیے جن میں زیادہ دیر تک سوچنے کی ضرورت ہو سیاق و سباق کو بہتر طور پر برقرار رکھتا ہے. مل کر، یہ بہتریاں اس بات کا مطلب ہیں کہ اعلٰی معیار کے جوابات تیز تر پہنچتے ہیں اور زیرِ نظر کام کے لیے متعلقہ رہتے ہیں.

Codex اور API میں، GPT‑5.4 پہلا عمومی مقصد کا ماڈل ہے جسے ہم نے مقامی، جدید ترین کمپیوٹر استعمال کی صلاحیتوں کے ساتھ جاری کیا ہے، جس سے ایجنٹس کمپیوٹرز چلانے اور ایپلیکیشنز کے درمیان پیچیدہ ورک فلو انجام دینے کے قابل ہوتے ہیں. یہ 1M ٹوکن کے کانٹیکسٹ تک سپورٹ کرتا ہے، جس سے ایجنٹس طویل مدت میں ٹاسکس کی منصوبہ بندی، انجام دہی اور تصدیق کر سکتے ہیں. GPT‑5.4 بڑے ٹولز اور کنیکٹرز کے ایکو سسٹمز میں ٹول سرچ کے ساتھ ماڈلز کے کام کرنے کے طریقے کو بھی بہتر بناتا ہے، جس سے ایجنٹس، ذہانت پر سمجھوتہ کیے بغیر، درست ٹولز کو زیادہ مؤثر طریقے سے تلاش اور استعمال کر سکتے ہیں. آخرکار، GPT‑5.4 ہمارا اب تک کا سب سے زیادہ ٹوکن مؤثر ریزننگ ماڈل ہے، جو GPT‑5.2 کے مقابلے میں مسائل حل کرنے کے لیے نمایاں طور پر کم ٹوکنز استعمال کرتا ہے—جس کے نتیجے میں ٹوکن کے استعمال میں کمی اور زیادہ تیز رفتار ہوتی ہے.

عمومی ریزننگ، کوڈنگ اور پیشہ ورانہ علمی کام میں پیش رفت کے ساتھ، GPT‑5.4 زیادہ قابلِ اعتماد ایجنٹس، ڈویلپر ورک فلو کو تیز تر، اور ChatGPT، API، اور Codex میں اعلٰی معیار کے آؤٹ پٹس کو ممکن بناتا ہے.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (جیت یا برابری)

83.0%

70.9%

70.9%

SWE-Bench Pro (پبلک)

57.7%

56.8%

55.6 ٪

OSWorld تصدیق شدہ

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*پہلے 64.7% کے طور پر رپورٹ کیا گیا. GPT‑5.3‑Codex ایک نئے متعارف کردہ API پیرامیٹر کے ساتھ 74.0% حاصل کرتا ہے جو اصل تصویر کی ریزولوشن کو برقرار رکھتا ہے.

علمی کام

GPT‑5.2 کی بنیاد پر عمومی ریزننگ صلاحیتوں کے ساتھ، GPT‑5.4 پیشہ ور افراد کے لیے اہم حقیقی دنیا کے کاموں پر مزید زیادہ مستقل اور نفیس نتائج فراہم کرتا ہے.

GDPval پر، جو 44 پیشوں میں واضح طور پر بیان کیے گئے علمی کام تیار کرنے کی ایجنٹس کی صلاحیتوں کی جانچ کرتا ہے، GPT‑5.4 ایک نیا اب تک کا بہترین نتیجہ حاصل کرتا ہے اور 83.0% موازنوں میں صنعت کے پیشہ ور افراد کے برابر یا ان سے بہتر ہے، جبکہ GPT‑5.2 کے لیے یہ 71.0% ہے.

GDPval میں، ماڈلز 44 مختلف پیشہ ورانہ شعبوں کے واضح طور پر بیان کیے گئے علمی کام انجام دینے کی کوشش کرتے ہیں، جو امریکہ کی معیشت میں شریک 9 بڑی صنعتوں سے لیے گئے ہیں. ٹاسک حقیقی کام کی مصنوعات کا مطالبہ کرتے ہیں، جیسے کہ سیلز پیشکشیں، اکاؤنٹنگ اسپریڈشیٹس، ارجنٹ کیئر شیڈولز، مینوفیکچرنگ ڈایاگرامز، یا مختصر ویڈیوز. GPT‑5.4 کے لیے ریزننگ کوشش کو xhigh اور GPT‑5.2 کے لیے ہیوی پر سیٹ کیا گیا تھا (ChatGPT میں قدرے کم سطح).

"GPT-5.4 وہ بہترین ماڈل ہے جسے ہم نے کبھی آزمایا ہے. یہ اب ہمارے APEX-ایجنٹس بینچ مارک پر لیڈر بورڈ کے سب سے اوپر ہے، جو پیشہ ورانہ خدمات کے کام کے لیے ماڈل کی کارکردگی کی پیمائش کرتا ہے. یہ سلائیڈ ڈیکس، مالیاتی ماڈلز اور قانونی تجزیہ جیسے طویل مدتی ڈیلیوریبلز بنانے میں بہترین ہے اور مسابقتی جدید ترین ماڈلز کے مقابلے میں زیادہ تیزی سے اور کم لاگت پر چلتے ہوئے اعلٰی کارکردگی فراہم کرتا ہے."
— برینڈن فوڈی، Mercor کے CEO

ہم نے GPT‑5.4 کی بہتری پر خاص توجہ مرکوز کی سپریڈ شیٹس، پریزینٹیشنز اور دستاویزات بنانے اور ان میں ترمیم کرنے کی صلاحیت. اسپریڈشیٹ ماڈلنگ کے ان کاموں کے ایک اندرونی بینچ مارک میں جو ایک جونیئر انویسٹمنٹ بینکنگ تجرزیہ کار کر سکتا ہے، GPT‑5.4 کا اوسط اسکور 87.5% ہے، جبکہ GPT‑5.2 کے لیے 68.4% ہے. پریزنٹیشن کی جانچ کے پرومپٹ کے ایک سیٹ میں، انسانی ریٹرز نے GPT‑5.2 کے مقابلے میں GPT‑5.4 کی پریزنٹیشنز کو 68.0% مواقع پر ترجیح دی، کیونکہ ان کی جمالیات زیادہ مضبوط تھیں، بصری تنوع زیادہ تھا اور امیج جنریشن کا استعمال زیادہ مؤثر تھا.

GPT-5.2 بمقابلہ GPT-5.4 کے اسپریڈشیٹ آؤٹ پٹس کی ایک ساتھ مثال

دستاویزات ریزننگ کوشش کو xhigh پر سیٹ کر کے تیار کی گئی تھیں

آپ ChatGPT میں GPT‑5.4 استعمال کرتے ہوئے ان صلاحیتوں کو آزما سکتے ہیں. Thinking یا Pro. اگر آپ ایک انٹرپرائز صارف ہیں، تو ہم ہماری نئی جاری کردہ ChatGPT for Excel اور Google Sheets پلگ اِنز(نئی ونڈو میں کھلتا ہے) استعمال کرنے کی سفارش کرتے ہیں، جسے آج ہی لانچ بھی کیا گیا ہے. ہم نے Codex اور API میں دستیاب اپنی اسپریڈشیٹ(نئی ونڈو میں کھلتا ہے) اور پریزنٹیشن کی مہارتیں(نئی ونڈو میں کھلتا ہے) کو بھی اپ ڈیٹ کیا ہے.

GPT‑5.4 بنانے کے لیے حقیقی دنیا کے کام میں بہتر ہونے کے ساتھ، ہم نے ہیلیوسینیشن اور غلطیوں کو کم کرنے میں اپنی پیش رفت جاری رکھی. GPT‑5.4 اب تک ہمارا سب سے زیادہ حقائق پر مبنی ماڈل ہے: ڈی-آئیڈینٹیفائیڈ پرومپٹس کے ایک سیٹ پر جہاں صارفین نے حقائق کی غلطیوں کی نشاندہی کی، GPT‑5.4’s انفرادی دعوے 33% کم امکان رکھتے ہیں کہ غلط ہوں اور اس کے مکمل جوابات 18% کم امکان رکھتے ہیں کہ ان میں کوئی بھی غلطی ہو، GPT‑5.2 کے حوالے سے.

"GPT-5.4 دستاویزات پر مبنی قانونی کام کے لیے ایک نیا معیار قائم کرتا ہے. ہمارے BigLaw Bench تشخیص پر، اس نے 91% اسکور کیا. دیگر ماڈلز کے مقابلے میں، GPT-5.4 فی الحال پیچیدہ لین دین کے تجزیے کو ساخت دینے، طویل معاہدوں میں درستگی برقرار رکھنے اور قانونی پیشہ ور افراد کو درکار اعلٰی سطح کی تفصیل فراہم کرنے میں بہتر ہے.
— نیکو گروپن، سربراہ برائے اطلاقی تحقیق، ہاروی (Harvey)

کمپیوٹر کا استعمال اور ویژن

GPT‑5.4 ہمارا پہلا عمومی مقصد کا ماڈل ہے جس میں مقامی کمپیوٹر استعمال کی صلاحیتیں موجود ہیں اور یہ ڈویلپرز اور ایجنٹس دونوں کے لیے ایک اہم قدم آگے کی نشاندہی کرتا ہے. یہ اس وقت دستیاب بہترین ماڈل ہے اُن ڈیویلپرز کے لیے جو ایسے ایجنٹس بنا رہے ہیں جو ویب سائٹس اور سافٹ ویئر سسٹمز میں حقیقی کام مکمل کرتے ہیں.

ہم نے GPT‑5.4 کو اس طرح ڈیزائن کیا ہے کہ یہ کمپیوٹر کے استعمال سے متعلق ورک لوڈز کی ایک وسیع رینج میں اعلٰی کارکردگی دکھائے. یہ Playwright جیسی لائبریریوں کے ذریعے کمپیوٹر چلانے کی خاطر کوڈ لکھنے میں اور اسکرین شاٹس کے جواب میں ماؤس اور کی بورڈ کمانڈز جاری کرنے میں بھی بہترین ہے. اس کا رویہ ڈویلپر میسجز کے ذریعے قابل رہنمائی ہے، یعنی ڈویلپرز مخصوص استعمال کے معاملات کے مطابق رویہ ایڈجسٹ کر سکتے ہیں. ڈویلپرز کسٹم تصدیقی پالیسیوں کی وضاحت کر کے مختلف سطحوں کے خطرے کی برداشت کے مطابق ماڈل کے حفاظتی رویے کو ترتیب دے سکتے ہیں.

ماڈل کی کارکردگی اور لچک مختلف سیٹنگز میں کمپیوٹر کے استعمال کی جانچ کرنے والے بینچ مارکس میں جھلکتی ہے. OSWorld-Verified پر، جو اسکرین شاٹس اور کی بورڈ/ماؤس ایکشنز کے ذریعے ڈیسک ٹاپ ماحول میں نیویگیٹ کرنے کی ماڈل کی صلاحیت کو ناپتا ہے، GPT‑5.4 ایک جدید ترین 75.0% حاصل کرتا ہے. کامیابی کی شرح، GPT‑5.2’s سے کہیں زیادہ ہے. 47.3% اور 72.4%پر انسانی کارکردگی کو پیچھے چھوڑتے ہوئے.1

WebArena-Verified پر، جو براؤزر کے استعمال کی جانچ کرتا ہے، GPT‑5.4 دونوں DOM- اور اسکرین شاٹ پر مبنی تعامل استعمال کرتے ہوئے 67.3% کی نمایاں کامیابی کی شرح حاصل کرتا ہے، جو GPT‑5.2’s 65.4% کے مقابلے میں ہے. Online-Mind2Web پر، جو براؤزر کے استعمال کو بھی ٹیسٹ کرتا ہے، GPT‑5.4 صرف اسکرین شاٹ پر مبنی مشاہدات کی بنیاد پر 92.8% کامیابی کی شرح حاصل کرتا ہے، جو ChatGPT Atlas کے ایجنٹ موڈ سے بہتر ہے، جو 70.9% کامیابی کی شرح حاصل کرتا ہے.

ٹول ییلڈ سے مراد ہے جب کوئی اسسٹنٹ ٹول کے جوابات کا انتظار کرنے کے لیے حاصل کرتا ہے. اگر 3 ٹولز کو متوازی طور پر کال کیا جائے، اور اس کے بعد مزید 3 ٹولز کو متوازی طور پر کال کیا جائے، تو ییلڈز کی تعداد 2 ہوگی. ٹول ییلڈز، ٹول کالز کے مقابلے میں لیٹینسی کا بہتر پراکسی ہیں کیونکہ وہ پیرالیلائزیشن کے فوائد کی عکاسی کرتے ہیں.

GPT‑5.4 براؤزر انٹرفیس کے اسکرین شاٹس کی تشریح کرتا ہے اور کوآرڈینیٹ پر مبنی کلکنگ کے ذریعے UI عناصر کے ساتھ تعامل کرتا ہے تاکہ ای میلز بھیجے اور کیلنڈر ایونٹ شیڈول کرے.

GPT‑5.4 کا بہتر کردہ کمپیوٹر استعمال، ماڈل کی بہتر کردہ عمومی بصری ادراک کی صلاحیتوں پر مبنی ہے. MMMU-Pro پر، جو ایک ماڈل کی بصری سمجھ اور ریزننگ کا ٹیسٹ ہے، GPT‑5.4 بغیر ٹول استعمال کیے 81.2% کامیابی کی شرح حاصل کرتا ہے، جو کہ GPT‑5.2’s سے زائد بہتری ہے 79.5%. بہتر بصری ادراک بہتر دستاویز پارسنگ صلاحیتوں میں بھی تبدیل ہوتا ہے. OmniDocBench پر، ریزننگ کوشش کے بغیر GPT‑5.4 0.109 کی اوسط غلطی (ماڈل کی پیش گوئی اور گراؤنڈ ٹروتھ کے درمیان نارملائزڈ ایڈٹ ڈسٹنس کے ذریعے ناپی گئی) حاصل کرتا ہے، جو GPT‑5.2 کے 0.140 سے بہتر ہے.

MMMUPro کو ریزننگ کوشش xhigh پر سیٹ کر کے چلایا گیا. OmniDocBench کو ریزننگ کوشش کو کوئی نہیں پر سیٹ کر کے چلایا گیا، تاکہ کم لاگت، کم تاخیر والی کارکردگی کی عکاسی ہو سکے.

ہم گھنے، ہائی ریزولوشن تصاویر کے لیے بھی بصری فہم کو بہتر بنا رہے ہیں جہاں مکمل وفاداری اہم ہو. GPT‑5.4 سے شروع کرتے ہوئے، ہم ایک اوریجنل تصویر ان پٹ تفصیل(نئی ونڈو میں کھلتا ہے) لیول متعارف کر رہے ہیں جو 10.24M کل پکسلز یا 6000-پکسل زیادہ سے زیادہ ڈائمینشن (جو بھی کم ہو) تک مکمل وفاداری کے ساتھ ادراک کو سپورٹ کرتا ہے؛ ہائی تصویر ان پٹ تفصیل لیول اب 2.56M کل پکسلز یا 2048-پکسل زیادہ سے زیادہ ڈائمینشن (جو بھی کم ہو) تک سپورٹ کرتا ہے. API صارفین کے ساتھ ابتدائی جانچ میں، ہم نے اوریجنل یا ہائی تفصیل استعمال کرنے پر لوکلائزیشن کی صلاحیت، تصویر کی سمجھ اور کلک کی درستگی میں مضبوط بہتری دیکھی.

"ہمارے تشخیصات میں، جو ~30K HOA اور پراپرٹی ٹیکس پورٹلز میں کمپیوٹر استعمال کی کارکردگی ناپتے ہیں، GPT-5.4 نے پہلی کوشش میں 95% کامیابی کی شرح اور تین کوششوں کے اندر 100% حاصل کیا، جبکہ پچھلے CUA ماڈلز کے ساتھ یہ ~73–79% تھی. اس نے سیشنز بھی ~3x زیادہ تیزی سے مکمل کیے جبکہ ~70% کم ٹوکن استعمال کیے، جس سے بڑے پیمانے پر قابل اعتمادیت اور لاگت کی کارکردگی میں نمایاں بہتری آئی."
— ڈوڈ فریزر، Mainstay کے CEO

API میں، ڈویلپرز اپ ڈیٹ شدہ کمپیوٹر ٹول استعمال کرتے ہوئے ان صلاحیتوں تک رسائی حاصل کر سکتے ہیں. براہ کرم تجویز کردہ بہترین طریقوں کے لیے ہماری اپ ڈیٹ شدہ دستاویزات(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں.

کوڈنگ

GPT‑5.4، GPT‑5.3‑Codex کی کوڈنگ کی طاقتوں کو پیشہ ورانہ علم کے کام اور کمپیوٹر استعمال کی نمایاں صلاحیتوں کے ساتھ یکجا کرتا ہے، جو طویل مدتی کاموں میں سب سے زیادہ اہم ہوتی ہیں جہاں ماڈل ٹولز استعمال کر سکتا ہے، بار بار تکرار کر سکتا ہے اور کم دستی مداخلت کے ساتھ کام کو مزید آگے بڑھا سکتا ہے. یہ SWE-Bench Pro پر GPT‑5.3‑Codex کے برابر یا اس سے بہتر کارکردگی دکھاتا ہے، جبکہ ریزننگ کی کوششوں کے دوران مجموعی طور پر کم لیٹنسی رکھتا ہے.

ہم اپنے ماڈلز کے پروڈکشن طرزِ عمل کو دیکھ کر تاخیر (لیٹنسی) کا اندازہ لگاتے ہیں اور اسے آف لائن سمیولیٹ کرتے ہیں. تاخیر کے تخمینے میں ٹول کال کی مدّت (کوڈ کے نفاذ کا وقت)، سیمپل کردہ ٹوکنز اور ان پٹ ٹوکنز شامل ہیں. حقیقی دنیا کی لیٹنسی میں نمایاں طور پر فرق ہو سکتا ہے اور یہ بہت سے ایسے عوامل پر منحصر ہے جو ہماری سمولیشن میں شامل نہیں ہیں. ریزننگ کوششوں کو none سے xhigh تک بڑھا دیا گیا.

جب آن کیا جائے، Codex میں /fast موڈ GPT‑5.4 کے ساتھ 1.5x تک زیادہ تیز ٹوکن کی رفتار فراہم کرتا ہے. یہ وہی ماڈل اور وہی انٹیلی جنس ہے، بس زیادہ تیز ہے. اس کا مطلب ہے کہ صارفین روانی میں رہتے ہوئے کوڈنگ ٹاسکس، تکرار اور خامیاں دور کرنے کے مراحل سے گزر سکتے ہیں. ڈیویلپرز ترجیحی پروسیسنگ(نئی ونڈو میں کھلتا ہے) استعمال کر کے API کے ذریعے اسی تیز اسپیڈ پر GPT‑5.4 تک رسائی حاصل کر سکتے ہیں.

تشخیص اور اندرونی جانچ میں ہم نے پایا کہ GPT‑5.4 پیچیدہ فرنٹ اینڈ کاموں میں بہترین ہے اور اس کے نتائج ہمارے پہلے لانچ کردہ کسی بھی ماڈلز کے مقابلے میں نمایاں طور پر زیادہ جمالیاتی اور زیادہ فنکشنل ہیں.

ماڈل کی بہتر کمپیوٹر استعمال اور کوڈنگ صلاحیتوں کے باہمی طور پر مل کر کام کرنے کا مظاہرہ کرنے کے طور پر، ہم "Playwright (متعامل)(نئی ونڈو میں کھلتا ہے)" کے نام سے ایک تجرباتی Codex مہارت بھی جاری کر رہے ہیں. یہ Codex کو ویب اور Electron ایپس کو بصری طور پر ڈیبگ کرنے کی اجازت دیتا ہے؛ اسے اس ایپ کو جانچنے کے لیے بھی استعمال کیا جا سکتا ہے جسے یہ بنا رہا ہے، جب یہ اسے بنا رہا ہو.

GPT‑5.4 کے ساتھ ایک واحد ہلکے سے مخصوص پرومپٹ سے بنایا گیا تھیم پارک سمیولیشن گیم، جس میں براؤزر پلے ٹیسٹنگ کے لیے Playwright Interactive اور آئسومیٹرک اثاثہ سیٹ کے لیے امیج جنریشن استعمال کی گئی ہے. سِمیولیشن میں ٹائل پر مبنی راستہ رکھنے کا نظام، رائیڈ اور سینری کی تعمیر، مہمانوں کی پاتھ فائنڈنگ، قطار بندی اور رائیڈ سائیکلز شامل ہیں، جبکہ پارک کے میٹرکس جیسے پیسہ، مہمانوں کی تعداد، خوشی، صفائی اور ریٹنگ اس بات کی بنیاد پر بڑھتے یا گھٹتے ہیں کہ لے آؤٹ کی کارکردگی کیسی ہے اور مہمان اس پر کیسے ردِعمل دیتے ہیں. Playwright کو براؤزر پلے ٹیسٹس کو خودکار بنانے کے لیے استعمال کیا گیا، جس میں پارک کو بنانا اور وسعت دینا، راستے اور اٹریکشنز رکھنا اور ہٹانا، کیمرہ نیویگیشن چیک کرنا اور یہ تصدیق کرنا شامل تھا کہ مہمان، قطاریں، رائیڈ اسٹیٹس اور UI میٹرکس پلے کے کئی راؤنڈز کے دوران درست طور پر اپ ڈیٹ ہوتے رہے.

پرومپٹ: $playwright-interactive اور $imagegen استعمال کریں. ایک انٹرایکٹو آئیسومیٹرک تھیم پارک سمولیشن گیم بنائیں جسے میں براؤزر میں بنا اور نیویگیٹ کر سکوں. مجموعی بصری نقطہ نظر کو قائم کرنے اور گیم کے اثاثوں کو تیار کرنے کے لیے imagegen کو استعمال کریں، بشمول سواری، راستے، خطہ، درخت، پانی، کھانے کے اسٹال، سجاوٹ، عمارتیں، شبیہیں، اور UI عکاسی. دنیا کو ہم آہنگ، چمکدار، اور بصری طور پر بھرپور محسوس کرنا چاہیے، ایک پریمیم آرٹ ڈائریکشن کے ساتھ جو ایک ہم ابعادی نقطہ نظر سے اچھی طرح کام کرتا ہے. مجھے راستے رکھنے اور ہٹانے دیں، پرکشش مقامات شامل کرنے دیں، مناظر کو پوزیشن دیں، اور مہمانوں کی سرگرمی، سواری کی کیفیت، اور پارک کی نمو کی نگرانی کرتے ہوئے پارک میں آسانی سے گھومنے دیں. قابل اعتماد مہمانوں کی نقل و حرکت، سادہ پارک مینجمنٹ سسٹم جیسے پیسہ، صفائی، قطار میں کھڑا ہونا، اور خوشی شامل کریں، اور تجربے کو کھردرے پروٹو ٹائپ کی طرح چنچل، صاف اور مکمل محسوس کریں. حقیقت پسندی پر توجہ، پڑھنے کی اہلیت، اور مضبوط گیم کے احساس کو ترجیح دیں. 

پلے ٹیسٹنگ کے دوران، یقینی بنائیں کہ آپ کھیل کے کئی راؤنڈز میں ایک پارک بنائیں اور اسے وسعت دیں، تصدیق کریں کہ پلیسمنٹ اور نیویگیشن ہمواری سے کام کرتے ہیں، یہ تصدیق کریں کہ مہمان پارک کی لے آؤٹ اور تفریحی مقامات پر ردِعمل دیتے ہیں اور یہ یقینی بنائیں کہ بصری مواد، یوزر انٹرفیس اور تعاملات مستحکم اور ہم آہنگ محسوس ہوں.

"ہمارے انجینئرز GPT-5.4 کو دریافت کرتے ہیں پچھلے ماڈلز کے مقابلے میں زیادہ قدرتی اور زیادہ پُراعتماد. یہ مبہم مسائل کو خود پر شک کیے بغیر حل کرتا ہے اور چیزوں کو چلتا رکھنے کے لیے کام کو بیک وقت انجام دینے کے بارے میں پیش قدم رہتا ہے.
— لی رابنسن، Cursor میں ڈویلپر ایجوکیشن کے وائس پریذیڈنٹ

ٹول کا استعمال

GPT‑5.4 کے ساتھ، ہم بیرونی ٹولز کے ساتھ ماڈلز کے کام کرنے کے طریقے میں نمایاں بہتری لائے ہیں. ایجنٹس اب بڑے ٹول ایکو سسٹمز میں کام کر سکتے ہیں، زیادہ قابل اعتماد طریقے سے درست ٹولز کا انتخاب کر سکتے ہیں اور کم لاگت اور لیٹنسی کے ساتھ کئی مراحل پر مشتمل ورک فلو مکمل کر سکتے ہیں.

ٹول سرچ

API میں، GPT‑5.4 ٹول سرچ(نئی ونڈو میں کھلتا ہے) متعارف کراتا ہے، جو ماڈلز کو بہت سے ٹولز دیئے جانے پر مؤثر طریقے سے کام کرنے کی اجازت دیتا ہے.

پہلے، جب کسی ماڈل کو ٹولز دیئے جاتے تھے، تو تمام ٹول تعریفیں پرومپٹ میں پہلے سے شامل کر دی جاتی تھیں. بہت سے ٹولز والے سسٹمز کے لیے، یہ ہر درخواست میں ہزاروں—یا حتیٰ کہ دسیوں ہزار—ٹوکنز شامل کر سکتا ہے، جس سے لاگت بڑھتی ہے، جوابات سست ہوتے ہیں اور سیاق و سباق میں ایسی معلومات بھر جاتی ہیں جنہیں ماڈل شاید کبھی استعمال ہی نہ کرے.

ٹول سرچ کے ساتھ، GPT‑5.4 کو اس کے بجائے دستیاب ٹولز کی ایک لائٹ ویٹ فہرست کے ساتھ ٹول سرچ کی صلاحیت بھی ملتی ہے. جب ماڈل کو کسی ٹول کا استعمال کرنے کی ضرورت ہو، تو وہ اس ٹول کی تعریف دیکھ سکتا ہے اور اسی لمحے اسے گفتگو میں شامل کر سکتا ہے.

یہ طریقہ ٹولز پر مبنی ورک فلو کے لیے درکار ٹوکنز کی تعداد کو ڈرامائی طور پر کم کرتا ہے اور کیشے کو برقرار رکھتا ہے، جس سے ریکویسٹیں زیادہ تیز اور کم خرچ ہو جاتی ہیں. یہ ایجنٹس کو بہت بڑے ٹول ایکو سسٹمز کے ساتھ قابل اعتماد طریقے سے کام کرنے کے قابل بھی بناتا ہے. ایسے MCP سرورز کے لیے جن میں ٹول کی تعریفوں کے دسیوں ہزار ٹوکنز شامل ہو سکتے ہیں، کارکردگی میں اضافہ کافی نمایاں ہو سکتا ہے.

کارکردگی میں ہونے والے اضافے کو ظاہر کرنے کے لیے، ہم نے Scale کے MCP Atlas(نئی ونڈو میں کھلتا ہے) بینچ مارک سے 250 ٹاسکس کا جائزہ لیا، جس میں تمام 36 MCP سرورز دو موڈز میں فعال تھے: (1) ہر MCP فنکشن کو براہِ راست ماڈل کے سیاق و سباق میں پیش کرنا اور (2) تمام MCP سرورز کو ٹول سرچ کے پیچھے رکھنا. ٹول-سرچ کنفیگریشن نے وہی درستگی حاصل کرتے ہوئے کل ٹوکنز کے استعمال میں 47% کی کمی کی.

مثالی ٹوکن کی گنتیاں MCP-Atlas عوامی ڈیٹاسیٹ میں 250 ٹاسکس کے اوسط سے حاصل کی گئی ہیں.

ایجنٹک ٹول کالنگ

GPT‑5.4 ٹول کالنگ کو بھی بہتر بناتا ہے، جس سے یہ ریزننگ کے دوران، خاص طور پر API میں، یہ فیصلہ کرنے میں کہ ٹولز کو کب اور کیسے استعمال کرنا ہے، زیادہ درست اور مؤثر ہو جاتا ہے.  GPT‑5.2 کے مقابلے میں، یہ Toolathlon پر کم ٹرنز میں زیادہ درستگی حاصل کرتا ہے، جو ایک بینچ مارک ہے جو یہ جانچ کرتا ہے کہ AI ایجنٹس حقیقی دنیا کے ٹولز اور APIs کو استعمال کر کے ملٹی اسٹیپ ٹاسکس کتنی اچھی طرح مکمل کر سکتے ہیں. مثال کے طور پر، ایک ایجنٹ کو ای میلز پڑھنے، اسائنمنٹ کی منسلکات نکالنے، انہیں اپ لوڈ کرنے، انہیں گریڈ کرنے اور نتائج کو ایک اسپریڈ شیٹ میں ریکارڈ کرنے کی ضرورت ہوتی ہے.

ٹول ییلڈ سے مراد ہے جب کوئی اسسٹنٹ ٹول کے جوابات کا انتظار کرنے کے لیے حاصل کرتا ہے. اگر 3 ٹولز کو متوازی طور پر کال کیا جائے، اور اس کے بعد مزید 3 ٹولز کو متوازی طور پر کال کیا جائے، تو ییلڈز کی تعداد 2 ہوگی. ٹول ییلڈز، ٹول کالز کے مقابلے میں لیٹینسی کا بہتر پراکسی ہیں کیونکہ وہ پیرالیلائزیشن کے فوائد کی عکاسی کرتے ہیں.

تاخیر سے حساس استعمال کے معاملات کے لیے جہاں 'کوئی نہیں' کی ریزننگ کوشش کو ترجیح دی جاتی ہے، GPT‑5.4 اپنے پیش رو ماڈلز کے مقابلے میں مزید بہتری لاتا ہے.

τ2-bench⁠(نئی ونڈو میں کھلتا ہے) میں، ایک ماڈل کو کسٹمر سروس کا ٹاسک مکمل کرنے کے لیے ٹولز استعمال کرنا لازمی ہے، جہاں ایک فرضی صارف موجود ہو سکتا ہے جو بات چیت کر سکے اور دنیا کی حالت پر ایکشنز لے سکے. ریزننگ ایفرٹ کو 'کوئی نہیں' پر سیٹ کیا گیا تھا.

ویب کی تلاش میں بہتری

GPT‑5.4 ایجنٹک ویب کی تلاش میں بہتر ہے. BrowseComp پر، جو اس بات کی پیمائش ہے کہ AI ایجنٹس مشکل سے ملنے والی معلومات تلاش کرنے کے لیے ویب کو مستقل طور پر کتنی اچھی طرح براؤز کر سکتے ہیں، GPT‑5.4، GPT‑5.2 کے مقابلے میں 17%abs کی چھلانگ لگاتا ہے، اور GPT‑5.4 Pro نے 89.3% کی جدید ترین معیاری سطح قائم کی ہے.

عملی طور پر، اس کا مطلب ہے GPT‑5.4 سوچ ویب پر بہت سے ذرائع سے معلومات کو یکجا کرنے کی ضرورت والے سوالات کے جواب دینے میں زیادہ مضبوط ہے. یہ متعدد راؤنڈز کے دوران زیادہ مستقل مزاجی سے تلاش کر کے سب سے زیادہ متعلقہ ذرائع کی شناخت کر سکتا ہے، خاص طور پر "گھاس کے ڈھیر میں سوئی" جیسی قسم کے سوالات کے لیے، اور انہیں یکجا کر کے ایک واضح، اچھی طرح دلیل شدہ جواب تیار کر سکتا ہے.

BrowseComp میں، ہم نے ایک سرچ بلاک لسٹ استعمال کی جس میں اُن ویب سائٹس کو خارج کر دیا گیا تھا جن میں بینچ مارک کے جوابات شامل تھے، تاکہ تشخیص میں آلودگی سے بچا جا سکے اور کارکردگی کی منصفانہ پیمائش کو یقینی بنایا جا سکے. GPT‑5.4 کی پیمائش GPT‑5.2 کے مقابلے میں بعد کی تاریخ میں کی گئی تھی، تاکہ اسکورز ماڈل، ہمارے سرچ سسٹم اور انٹرنیٹ کی حالت میں ہونے والی تبدیلیوں کی عکاسی کریں. GPT‑5.4 کو ایک طویل، اپ ڈیٹ شدہ بلاک لسٹ کے ساتھ ٹیسٹ کیا گیا تھا. ماڈل ChatGPT سرچ ٹول استعمال کرتے ہیں، جس میں API تلاش کے مقابلے میں معمولی فرق ہو سکتے ہیں.

"GPT-5.4 xhigh ملٹی اسٹیپ ٹول استعمال کے لیے جدید ترین معیاری سطح ہے. Zapier صنعت میں ٹول کے استعمال کے کچھ سخت ترین بینچ مارکس چلاتا ہے اور سینکڑوں اعلٰی درجے کے حقیقی دنیا کے ورک فلو میں ماڈلز کی جانچ کرتا ہے. GPT-5.4 نے وہ کام مکمل کیا جس میں پچھلے ماڈلز نے ہار مان لی تھی - اب تک کا سب سے زیادہ ثابت قدم ماڈل.
— ویڈ، Zapier کے CEO

قابلیتِ رہنمائی

بالکل اسی طرح جیسے Codex اپنے کام شروع کرتے وقت اپنے طریقۂ کار کا خاکہ پیش کرتا ہے، ChatGPT میں GPT‑5.4. Thinking اب طویل اور زیادہ پیچیدہ سوالات کے لیے ایک تمہید کے ساتھ اپنے کام کا خاکہ پیش کرے گا. آپ ہدایات بھی شامل کر سکتے ہیں یا جواب کے دوران اس کی سمت ایڈجسٹ کر سکتے ہیں. اس سے بغیر دوبارہ شروع کیے یا متعدد اضافی مراحل کی ضرورت کے، آپ کو ماڈل کو اس عین نتیجے کی طرف رہنمائی کرنا آسان ہو جاتا ہے جو آپ چاہتے ہیں. یہ فیچر اب chatgpt.com(نئی ونڈو میں کھلتا ہے) اور Android app پر دستیاب ہے، iOS ایپ پر جلد آ رہی ہے.

ماڈل مشکل کاموں پر بھی زیادہ دیر تک سوچ سکتا ہے، جبکہ گفتگو کے پہلے کے مراحل کے بارے میں مضبوط تر آگاہی برقرار رکھتا ہے. یہ اسے طویل تر ورک فلو اور زیادہ پیچیدہ پرومپٹس کو سنبھالنے کی اجازت دیتا ہے، جبکہ پورے دوران جوابات کو مربوط اور متعلقہ رکھتا ہے.

اس ویڈیو کی رفتار مثال کے طور پر تیز کر دی گئی ہے.

حفاظت

حالیہ مہینوں کے دوران، ہم نے GPT‑5.3‑Codex کے ساتھ متعارف کرائی گئی حفاظتی تدابیر میں بہتری جاری رکھی ہے، جبکہ GPT‑5.4 کو تعیناتی کے لیے تیار کر رہے ہیں. GPT‑5.3‑Codex کی طرح، ہم GPT‑5.4 کو اپنے پریفرنس فائن-ٹیوننگ کے تحت اعلٰی سائبر صلاحیت کے طور پر دیکھ رہے ہیں اور ہم اسے سسٹم کارڈ میں درج متعلقہ تحفظات کے ساتھ تعینات کر رہے ہیں. ان میں وسیع تر حفاظتی ماحولیاتی نظام میں جاری سرمایہ کاری کے ساتھ ساتھ، زیرو ڈیٹا ریٹینشن (ZDR) سطحوں پر صارفین کے لیے زیادہ خطرے والی درخواستوں کے لیے نگرانی کے نظام، قابل اعتماد رسائی کنٹرولز اور غیر مطابقت پذیر بلاکنگ سمیت وسیع سائبر سیفٹی اسٹیک شامل ہے۔

چونکہ سائبر سیکیورٹی کی صلاحیتیں فطری طور پر دوہرے استعمال کی حامل ہیں، ہم تعیناتی کے لیے احتیاطی طریقہ اختیار کرتے ہیں جبکہ اپنی پالیسیاں اور کلاسیفائرز کو مسلسل بہتر بناتے رہتے ہیں. ZDR سرفیسز پر بعض صارفین کے لیے، ریکوئیسٹ کی سطح پر مسدود کرنا ہمارے سائبر رسک تخفیف کے تخفیفی اسٹیک کا حصہ بنا رہتا ہے؛ چونکہ کلاسیفائرز ابھی بہتر ہو رہے ہیں، ان حفاظتی اقدامات کو مزید بہتر بناتے رہنے کے دوران کچھ غلط مثبت نتائج سامنے آ سکتے ہیں. یہ اپ ڈیٹس اس بات کو بہتر بنانے کے لیے ہیں کہ حفاظتی تدابیر عملی طور پر کیسے کام کرتی ہیں، جس میں غیر ضروری انکار اور حد سے زیادہ احتیاطی بیانات والے جوابات کو کم کرنا شامل ہے، جبکہ غلط استعمال کے خلاف مضبوط تحفظات کو برقرار رکھا جائے.

ہم نے چین-آف-تھاٹ (CoT) کی مانیٹرایبلٹی پر اپنی حفاظتی تحقیق جاری رکھی ہے تاکہ بہتر طور پر سمجھ سکیں کہ ماڈلز کیسے ریزننگ کرتے اور ممکنہ بدسلوکی کا پتہ لگانے میں مدد مل سکے. اس کام کے حصے کے طور پر، ہم ایک نئی اوپن سورس تشخیص متعارف کراتے ہیں، CoT کنٹرول کی صلاحیت,  جو یہ ناپتی ہے کہ آیا ماڈل نگرانی سے بچنے کے لیے جان بوجھ کر اپنی ریزننگ کو مبہم بنا سکتے ہیں. ہمیں معلوم ہوتا ہے کہ GPT‑5.4. Thinking کی اپنے CoT کو کنٹرول کرنے کی صلاحیت کم ہے، جو حفاظت کے لیے ایک مثبت خاصیت ہے، اس سے یہ ظاہر ہوتا ہے کہ ماڈل میں اپنی ریزننگ کو چھپانے کی صلاحیت موجود نہیں ہے اور یہ کہ CoT کی نگرانی ایک مؤثر حفاظتی ٹول بنی رہتی ہے.

دستیابی اور قیمتیں

GPT‑5.4 آج ChatGPT اور Codex میں بتدریج جاری کیا جا رہا ہے. API میں، GPT‑5.4 اب بطور gpt-5.4 دستیاب ہے. GPT‑5.4 API میں، Pro بھی بطور gpt-5.4-pro دستیاب ہے ان ڈیویلپرز کے لیے جنہیں سب سے پیچیدہ ٹاسکس پر زیادہ سے زیادہ کارکردگی درکار ہو.

ChatGPT میں، GPT‑5.4 Thinking آج سے ChatGPT Plus، Team اور Pro صارفین کے لیے دستیاب ہے اور GPT‑5.2 کی جگہ لے رہا ہے. Thinking. GPT‑5.2 Thinking ادائیگی والے صارفین کے لیے Legacy Models سیکشن کے تحت ماڈل picker میں تین مہینوں تک دستیاب رہے گا، جس کے بعد اسے 5 جون 2026 کو ریٹائر کر دیا جائے گا. Enterprise اور Edu پلانز والے ایڈمن سیٹنگز کے ذریعے ابتدائی رسائی فعال کر سکتے ہیں. GPT‑5.4 Pro، Pro اور Enterprise پلانز کے لیے دستیاب ہے. سیاق و سباق کی ونڈوز(نئی ونڈو میں کھلتا ہے) ChatGPT میں GPT‑5.4 کے لیے Thinking GPT‑5.2 Thinking سے جوں کا توں رہے گا.

GPT‑5.4 ہمارا پہلا مین لائن ریزننگ ماڈل ہے جو GPT‑5.3‑codex کی جدید ترین کوڈنگ صلاحیتوں کو شامل کرتا ہے اور یہ ChatGPT، API اور Codex میں جاری کیا جا رہا ہے. ہم اس جست کی عکاسی کرنے کے لیے اسے GPT‑5.4 کہہ رہے ہیں اور Codex استعمال کرتے وقت ماڈل کے درمیان انتخاب کو آسان بنانے کے لیے. وقت کے ساتھ، آپ توقع کر سکتے ہیں کہ ہمارے Instant ماڈل اور Thinking ماڈل مختلف رفتار سے ارتقا کریں گے.

Codex میں GPT‑5.4 میں 1M کانٹیکسٹ ونڈو کے لیے تجرباتی معاونت شامل ہے. ڈویلپرز model_context_window اور model_auto_compact_token_limit کو ترتیب دے کر اسے آزما سکتے ہیں. وہ ریکوئسٹس جو معیاری 272K کانٹیکسٹ ونڈو سے تجاوز کرتی ہیں، استعمال کی حدوں میں معمول کی شرح کے مقابلے میں 2x کے حساب سے شمار ہوں گی.

API میں، GPT‑5.4 کی قیمت فی ٹوکن GPT‑5.2 کے مقابلے میں زیادہ ہے تاکہ اس کی بہتر صلاحیتوں کی عکاسی ہو سکے، جبکہ اس کی زیادہ ٹوکن کارکردگی بہت سے کاموں کے لیے درکار ٹوکنز کی کل تعداد کم کرنے میں مدد دیتی ہے. Batch اور Flex کی قیمتیں معیاری API نرخ کے نصف پر دستیاب ہیں، جبکہ ترجیحی پروسیسنگ معیاری API نرخ کے دوگنا پر دستیاب ہے.

API ماڈل

ان پٹ قیمت

کیش شدہ ان پٹ کی قیمت

آؤٹ پٹ قیمت

gpt-5.2

$1.75 / M ٹوکن

$0.175 / M ٹوکنز

$14 / M ٹوکن

gpt-5.4

$2.50 / M ٹوکن

$0.25 / M ٹوکن

$15 / M ٹوکن

gpt-5.2-pro

$21 / M ٹوکن

-

$168 / M ٹوکن

gpt-5.4-pro

$30 / M ٹوکن

-

$180 / M ٹوکن

جائزے

پیشہ ور

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

انویسٹمنٹ بینکنگ ماڈلنگ ٹاسکس (اندرونی)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

کوڈنگ

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (پبلک)

57.7%

56.8%

55.6 ٪

Terminal-Bench 2.0

75.1%

77.3%

62.2%

کمپیوٹر کا استعمال اور ویژن

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld تصدیق شدہ

75.0%

74.0%

47.3%

MMMU Pro (کوئی ٹولز نہیں)

81.2%

79.5%

MMMU Pro (ٹولز کے ساتھ)

82.1%

80.4%

ٹول کا استعمال

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

علمی

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

جدید ترین سائنس تحقیق

33.0%

36.7%

25.2%

FrontierMath Tier 1–3

47.6%

40.7%

FrontierMath Tier 4

27.1%

38.0%

18.8%

31.3%

GPQA ڈائمنڈ

92.8%

94.4%

92.6%

92.4 ٪

93.2 ٪

انسانیت کا آخری امتحان (کوئی ٹولز نہیں)

39.8%

42.7%

34.5%

36.6%

انسانیت کا آخری امتحان (ٹولز کے ساتھ)

52.1%

58.7%

45.5%

50.0%

طویل سیاق و سباق

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks پیرنٹس 0–128K (درستگی)

89.8%

89.0%

Graphwalks پیرنٹس 256K–1M (درستگی)

32.4%

OpenAI MRCR v2 8-سوئی 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needles 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

تجریدی استدلال

ایوال

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (تصدیق شدہ)

73.3%

83.3%

52.9 ٪

54.2% (ہائی)

ریزننگ کے بغیر تشخیصات

ایوال

GPT‑5.4
(کوئی نہیں)

GPT‑5.2
(کوئی نہیں)

GPT‑4.1

OmniDocBench (نارملائزڈ ایڈٹ ڈسٹنس)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

تشخیصات کو ریزننگ کوشش xhigh پر سیٹ کر کے چلایا گیا، ماسوائے کہ جہاں دوسری صورت میں وضاحت کی گئی ہو. تحقیقی ماحول میں بینچ مارکس کیے گئے تھے، جو بعض صورتوں میں پروڈکشن ChatGPT سے کچھ مختلف نتائج فراہم کر سکتے ہیں.