۲۳ اپریل، ۲۰۲۶

GPT‑5.5 کا تعارف

حقیقی کام کے لیے ذہانت کی ایک نئی قسم

لوڈ ہو رہا ہے…

24.04.2026 کی تازہ کاری: GPT‑5.5 اور GPT‑5.5 Pro اب API میں دستیاب ہیں. سسٹم کارڈ کو بھی لاگو ہونے والے اضافی حفاظتی اقدامات کی وضاحت کے لیے اپ ڈیٹ کیا گیا ہے.

ہم GPT‑5.5 جاری کر رہے ہیں، جو اب تک ہمارا سب سے ذہین اور استعمال میں سب سے زیادہ فطری ماڈل ہے، اور کمپیوٹر پر کام انجام دینے کے ایک نئے طریقے کی جانب اگلا قدم ہے۔

GPT‑5.5 آپ کے مقصد کو زیادہ تیزی سے سمجھتا ہے اور خود زیادہ کام انجام دے سکتا ہے۔ یہ کوڈ لکھنے اور اس میں خامیاں دور کرنے، آن لائن تحقیق کرنے، ڈیٹا کا تجزیہ کرنے، دستاویزات اور اسپریڈ شیٹس بنانے، سافٹ ویئر چلانے، اور کسی کام کے مکمل ہونے تک مختلف ٹولز کے درمیان منتقل ہونے میں مہارت رکھتا ہے۔ ہر مرحلے کو احتیاط سے خود منظم کرنے کے بجائے، آپ GPT‑5.5 کو ایک بے ترتیب، کئی حصوں پر مشتمل ٹاسک دے سکتے ہیں اور اس پر بھروسا کر سکتے ہیں کہ وہ منصوبہ بندی کرے، ٹولز استعمال کرے، اپنے کام کی جانچ کرے، ابہام کے باوجود راستہ نکالے، اور آگے بڑھتا رہے۔

ایجنٹک کوڈنگ، کمپیوٹر کے استعمال، علمی کام، اور ابتدائی سائنسی تحقیق میں یہ فوائد خاص طور پر نمایاں ہیں—ایسے شعبے جہاں پیش رفت سیاق و سباق میں ریزننگ کرنے اور وقت کے ساتھ کارروائی کرنے پر منحصر ہوتی ہے. GPT‑5.5 رفتار پر سمجھوتہ کیے بغیر بہتر ذہانت فراہم کرتا ہے۔ بڑے اور زیادہ صلاحیت رکھنے والے ماڈلز اکثر سروس فراہم کرنے میں سست ہوتے ہیں، لیکن GPT‑5.5 حقیقی دنیا کے استعمال میں رفتار اور کارکردگی کا توازن برقرار رکھتا ہے۔ یہ ایک جیسے Codex ٹاسکس مکمل کرنے کے لیے نمایاں طور پر کم ٹوکن استعمال کرتا ہے، جس سے یہ نہ صرف زیادہ مؤثر بلکہ زیادہ طاقتور بھی بن جاتا ہے۔

ہم GPT‑5.5 جاری کر رہے ہیں، اب تک کے اپنے سب سے مضبوط حفاظتی اقدامات کے ساتھ، جو غلط استعمال کو کم کرنے کے لیے تیار کیے گئے ہیں، جبکہ فائدہ مند کام کے لیے رسائی برقرار رکھی گئی ہے۔ ہم نے اس ماڈل کا اپنی مکمل حفاظتی اور تیاری سے متعلق جانچ کے فریم ورک کے تحت جائزہ لیا، اندرونی اور بیرونی ریڈ ٹیمز کے ساتھ کام کیا، جدید سائبر سیکیورٹی اور حیاتیاتی صلاحیتوں کے لیے ہدفی جانچ شامل کی، اور اجرا سے پہلے تقریباً 200 قابلِ اعتماد ابتدائی رسائی شراکت داروں سے حقیقی استعمال کے معاملات پر فیڈبیک حاصل کیا۔

آج، GPT‑5.5 کو ChatGPT اور Codex میں Plus، Pro، Business، اور Enterprise صارفین کے لیے جاری کیا جا رہا ہے، جبکہ GPT‑5.5 Pro کو ChatGPT میں Pro، Business، اور Enterprise صارفین کے لیے جاری کیا جا رہا ہے۔ API کی ڈپلائمنٹس کے لیے مختلف حفاظتی اقدامات درکار ہوتے ہیں۔ ہم بڑے پیمانے پر فراہم کرنے کے لیے سلامتی اور سیکیورٹی کے تقاضوں پر شراکت داروں اور صارفین کے ساتھ قریبی تعاون کر رہے ہیں۔ ہم بہت جلد GPT‑5.5 اور GPT‑5.5 Pro کو API میں دستیاب کریں گے۔

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
ماہر-SWE (اندرونی)	73.1%	68.5%	-	-	-	-
GDPval (جیت یا برابری)	84.9%	83.0%	82.3%	82.0%	80.3 ٪	67.3%
OSWorld تصدیق شدہ	78.7%	75.0%	-	-	78.0%	-
Toolathlon	55.6 ٪	54.6%	-	-	-	48.8%
BrowseComp	84.4 %	82.7%	90.1 ٪	89.3%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9٪
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	-	73.1%	-

ماڈل کی صلاحیتیں

OpenAI ایجنٹک AI کے لیے عالمی انفراسٹرکچر تعمیر کر رہا ہے، جس سے دنیا بھر کے افراد اور کاروباروں کے لیے AI کے ساتھ کام مکمل کرنا ممکن ہو رہا ہے. گزشتہ سال کے دوران، ہم نے دیکھا ہے کہ AI نے سافٹ ویئر انجینئرنگ کی رفتار میں نمایاں اضافہ کیا ہے۔ Codex اور ChatGPT میں GPT‑5.5 کے ساتھ، وہی تبدیلی سائنسی تحقیق اور ان وسیع تر کاموں تک بھی پھیلنا شروع ہو رہی ہے جو افراد کمپیوٹرز پر کرتے ہیں۔

ان تمام شعبوں میں، GPT‑5.5 صرف زیادہ ذہین ہی نہیں بلکہ کام انجام دینے کے طریقۂ کار میں بھی زیادہ مؤثر ہے، کیونکہ یہ کم ٹوکن اور کم بار دہرائے جانے والے مراحل کے ساتھ مسائل حل کرتا ہے. مصنوعی تجزیہ کے کوڈنگ انڈیکس پر، GPT‑5.5 مسابقتی فرنٹیئر کوڈنگ ماڈلز کی نصف قیمت پر فرنٹیئر انٹیلی جنس فراہم کرتا ہے.

Artificial Analysis Intelligence Index⁠(نئی ونڈو میں کھلتا ہے) ایک بیرونی فریق کے ذریعے چلائے گئے 10 evals کی weighted average ہے: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

ایجنٹک کوڈنگ

GPT‑5.5 اب تک ہمارا سب سے طاقتور خودمختار کوڈنگ ماڈل ہے۔ Terminal-Bench 2.0 پر، جو منصوبہ بندی، تکرار، اور ٹولز کے باہمی ربط کی ضرورت والے پیچیدہ کمانڈ لائن ورک فلوز کی جانچ کرتا ہے، یہ 82.7% کی جدید ترین درستگی حاصل کرتا ہے۔ SWE-Bench Pro پر، جو حقیقی دنیا کے GitHub ایشوز کے حل کا جائزہ لیتا ہے، یہ 58.6٪ تک پہنچتا ہے، اور پچھلے ماڈلز کے مقابلے میں ایک ہی پاس میں زیادہ کاموں کو ابتدا سے انتہا تک حل کرتا ہے۔ Expert-SWE پر، طویل المدتی کوڈنگ ٹاسکوں کے لیے ہمارے داخلی جدید ترین eval میں، جس کے لیے انسانوں کے مکمل کرنے کے تخمینے کا اوسط درمیانی وقت 20 گھنٹے ہے، GPT‑5.5 بھی GPT‑5.4 سے بہتر کارکردگی دکھاتا ہے۔

تینوں جائزوں میں، GPT‑5.5، GPT‑5.4’s سے بہتر ہے کم ٹوکن استعمال کرتے ہوئے اسکورز بہتر بنائے۔

اس ماڈل کی کوڈنگ صلاحیتیں خاص طور پر Codex میں نمایاں ہوتی ہیں، جہاں یہ امپلیمینٹیشن اور ریفیکٹرنگ سے لے کر ڈیبگنگ، ٹیسٹنگ، اور ویلیڈیشن تک انجینئرنگ کے مختلف کام انجام دے سکتا ہے۔ ابتدائی آزمائشوں سے ظاہر ہوتا ہے کہ GPT‑5.5 ان صلاحیتوں میں بہتر کارکردگی دکھاتا ہے جن پر حقیقی انجینئرنگ کام انحصار کرتا ہے، جیسے بڑے سسٹمز میں سیاق و سباق برقرار رکھنا، مبہم خرابیوں پر منطقی انداز میں غور کرنا، ٹولز کی مدد سے مفروضات کی جانچ کرنا، اور تبدیلیوں کو پورے کوڈبیس میں مؤثر طریقے سے نافذ کرنا۔

رینڈر کی گئی رفتار میں Orion، چاند، اور سورج کے لیے NASA/JPL Horizons کے ویکٹر ڈیٹا کا استعمال کیا گیا ہے، جبکہ پڑھنے میں آسانی کے لیے ڈسپلے اسکیلنگ بھی شامل کی گئی ہے۔

پرومپٹ: [منسلک تصویر] Artemis II مشن کے حقیقی ڈیٹا کو استعمال کرتے ہوئے WebGL اور Vite کی مدد سے اسے ایک نئی ایپ کے طور پر نافذ کریں۔ یقینی بنائیں کہ ایپ کو اچھی طرح جانچا جائے تاکہ وہ مکمل طور پر فعال ہو اور تصویر میں دکھائی گئی ایپ جیسی نظر آئے۔ سیاروں کی رینڈرنگ اور پرواز کے راستوں پر خاص توجہ دیں۔ میں 3D رینڈرنگ کے ساتھ تعامل کرنے کے قابل ہونا چاہتا ہوں۔ یقینی بنائیں کہ اس میں مدار کی حقیقت پسندانہ حرکات موجود ہوں۔

معیاراتی جانچ سے آگے، ابتدائی ٹیسٹرز نے کہا کہ GPT‑5.5 کسی سسٹم کی ساخت کو سمجھنے کی زیادہ مضبوط صلاحیت دکھاتا ہے: یعنی یہ سمجھ سکتا ہے کہ کوئی چیز کیوں ناکام ہو رہی ہے، خرابی کو کہاں درست کرنے کی ضرورت ہے، اور کوڈبیس کے کن دوسرے حصوں پر اس کا اثر پڑے گا۔

“یہ پہلا کوڈنگ ماڈل ہے جسے میں نے استعمال کیا ہے اور جس میں واقعی سنجیدہ تصوراتی وضاحت موجود ہے۔”

Dan Shipper، Every کے بانی اور CEO، نے GPT‑5.5 کو "وہ پہلا کوڈنگ ماڈل" قرار دیا جسے اُنہوں نے استعمال کیا ہے اور جس میں "خاصی تصوری وضاحت" ہے۔

ایک ایپ لانچ کرنے کے بعد، اُس نے لانچ کے بعد سامنے آنے والے ایک مسئلے کو حل کرنے میں کئی دن صرف کیے، پھر اپنے بہترین انجینئرز میں سے ایک کو سسٹم کے ایک حصے کو دوبارہ لکھنے کے لیے شامل کیا. GPT‑5.5 کو جانچنے کے لیے، اس نے عملاً وقت کو پیچھے کر دیا: کیا ماڈل خراب حالت کو دیکھ کر اسی نوعیت کی دوبارہ تحریر پیش کر سکتا ہے جس کا انجینئر نے بالآخر فیصلہ کیا؟ GPT‑5.4 نہیں کر سکا. GPT‑5.5 کر سکا.

"یہ واقعی ایسا محسوس ہوتا ہے جیسے میں ایک اعلیٰ ذہانت کے ساتھ کام کر رہا ہوں، اور اس میں احترام کا ایک ہلکا سا احساس بھی شامل ہے۔"

Pietro Schirano, MagicPath کے CEO، نے اسی طرح کی نمایاں پیش رفت اس وقت دیکھی جب GPT‑5.5 نے ایک ایسی برانچ کو، جس میں فرنٹ اینڈ اور ریفیکٹر کی سیکڑوں تبدیلیاں شامل تھیں، ایک ایسی مین برانچ میں مرج کیا جو خود بھی کافی حد تک تبدیل ہو چکی تھی، اور تقریباً 20 منٹ میں یہ کام ون-شاٹ میں حل کر دیا۔

ماڈل کا تجربہ کرنے والے سینئر انجینئرز نے کہا کہ GPT‑5.5، reasoning اور خودمختاری کے معاملے میں GPT‑5.4 اور Claude Opus 4.7 کے مقابلے میں نمایاں طور پر بہتر ہے۔ یہ بغیر واضح ہدایات کے پہلے ہی مسائل کی نشاندہی کر لیتا ہے اور ٹیسٹنگ اور ریویو کی ضروریات کی پیش گوئی کر سکتا ہے۔ ایک مثال میں، ایک انجینئر نے اسے ایک مشترکہ markdown ایڈیٹر میں کمنٹ سسٹم کو دوبارہ ڈیزائن کرنے کے لیے کہا، اور جب وہ واپس آیا تو اس نے تقریباً مکمل 12-diff اسٹیک تیار کر رکھا تھا۔ دوسروں نے کہا کہ انہیں implementation میں حیرت انگیز طور پر بہت کم اصلاحات کرنی پڑیں، اور GPT‑5.4 کے مقابلے میں انہوں نے GPT‑5.5 کے منصوبوں پر زیادہ اعتماد محسوس کیا۔

NVIDIA کے ایک انجینئر، جنہیں ماڈل تک ابتدائی رسائی حاصل تھی، نے یہاں تک کہا: "GPT‑5.5 تک رسائی کھو دینا ایسا محسوس ہوتا ہے جیسے میرا کوئی عضو کاٹ دیا گیا ہو."

GPT-5.5، GPT-5.4 کے مقابلے میں واضح طور پر زیادہ ذہین اور زیادہ ثابت قدم ہے، جس میں بہتر کوڈنگ کارکردگی اور ٹولز کے زیادہ قابلِ اعتماد استعمال کی صلاحیت موجود ہے۔ یہ وقت سے پہلے رکے بغیر کہیں زیادہ دیر تک کام پر مرکوز رہتا ہے، جو اُن پیچیدہ اور طویل مدتی کاموں کے لیے نہایت اہم ہے جو ہمارے صارفین Cursor کو سونپتے ہیں۔

— مائیکل ٹروئل، Cursor کے شریک بانی اور CEO

علمی کام

جو صلاحیتیں GPT‑5.5 کو کوڈنگ میں بہترین بناتی ہیں، وہی اسے کمپیوٹر پر روزمرہ کے کام کے لیے بھی طاقتور بناتی ہیں۔ چونکہ یہ ماڈل ارادے کو بہتر طور پر سمجھتا ہے، اس لیے یہ علمی کام کے مکمل عمل سے زیادہ فطری انداز میں گزر سکتا ہے: معلومات تلاش کرنا، اہم باتوں کو سمجھنا، ٹولز استعمال کرنا، نتائج کو جانچنا، اور خام مواد کو کسی مفید چیز میں تبدیل کرنا۔

Codex میں، GPT‑5.5 دستاویزات، اسپریڈشیٹس، اور سلائیڈ پریزنٹیشنز تیار کرنے میں GPT‑5.4 سے بہتر ہے۔ الفا ٹیسٹرز نے کہا کہ اس نے آپریشنل ریسرچ، اسپریڈشیٹ ماڈلنگ، اور بکھرے ہوئے کاروباری اِن پٹس کو پلانز میں تبدیل کرنے جیسے کاموں میں پچھلے ماڈل سے بہتر کارکردگی دکھائی۔ جب Codex کی کمپیوٹر استعمال کرنے کی صلاحیتوں کو GPT‑5.5 کے ساتھ ملایا جاتا ہے، تو یہ ہمیں اس احساس کے مزید قریب لے آتا ہے کہ ماڈل واقعی آپ کے ساتھ مل کر کمپیوٹر استعمال کر سکتا ہے: اسکرین پر موجود چیزوں کو دیکھنا، کلک کرنا، ٹائپ کرنا، انٹرفیس میں نیویگیٹ کرنا، اور مختلف ٹولز کے درمیان درستگی کے ساتھ منتقل ہونا۔

OpenAI کی ٹیمیں پہلے ہی حقیقی ورک فلوز میں ان صلاحیتوں کو استعمال کر رہی ہیں۔ آج، کمپنی کے 85% سے زیادہ لوگ ہر ہفتے مختلف شعبوں میں Codex استعمال کرتے ہیں، جن میں سافٹ ویئر انجینئرنگ، فنانس، کمیونیکیشنز، مارکیٹنگ، ڈیٹا سائنس اور پروڈکٹ مینجمنٹ شامل ہیں۔ Comms میں، ٹیم نے Codex میں GPT‑5.5 کا استعمال کرتے ہوئے چھ ماہ کے اسپیکنگ ریکویسٹ کے ڈیٹا کا تجزیہ کیا، ایک اسکورنگ اور رسک فریم ورک تیار کیا، اور ایک خودکار Slack ایجنٹ کی توثیق کی تاکہ کم خطرے والی درخواستوں کو خودکار طور پر نمٹایا جا سکے، جبکہ زیادہ خطرے والی درخواستیں اب بھی انسانی جائزے کے لیے بھیجی جائیں۔ فنانس میں، ٹیم نے Codex کا استعمال کرتے ہوئے 24,771 K-1 ٹیکس فارمز، جو مجموعی طور پر 71,637 صفحات پر مشتمل تھے، کا جائزہ لیا، اور ایسے ورک فلو کا استعمال کیا جس میں ذاتی معلومات شامل نہیں تھیں اور جس نے پچھلے سال کے مقابلے میں ٹیم کو یہ کام دو ہفتے پہلے مکمل کرنے میں مدد دی۔ گو-ٹو-مارکیٹ ٹیم میں، ایک ملازم نے ہفتہ وار کاروباری رپورٹس تیار کرنے کے عمل کو خودکار بنا دیا، جس سے ہر ہفتے 5 سے 10 گھنٹے کی بچت ہوئی۔

ChatGPT میں، GPT‑5.5 Thinking مشکل مسائل کے لیے تیز مدد فراہم کرتا ہے، اور زیادہ ذہین اور مختصر جوابات کے ذریعے آپ کو پیچیدہ کام کو مؤثر طریقے سے مکمل کرنے میں مدد دیتا ہے. یہ کوڈنگ، تحقیق، معلومات کی ترکیب و تجزیے، اور دستاویزات پر مبنی کاموں جیسے پیشہ ورانہ امور میں خاص مہارت رکھتا ہے، خصوصاً پلگ اِنز استعمال کرتے وقت۔

GPT‑5.5 Pro میں، ابتدائی ٹیسٹرز دیکھ رہے ہیں کہ ChatGPT اب ایسے کام سنبھالنے میں نمایاں طور پر بہتر ہو گیا ہے جو مشکل بھی ہیں اور اعلیٰ معیار کے بھی، اور تاخیر میں بہتری اسے مشکل کاموں کے لیے کہیں زیادہ عملی بناتی ہے۔ GPT‑5.4 Pro کے مقابلے میں، ٹیسٹرز نے پایا کہ GPT‑5.5 Pro کے جوابات کہیں زیادہ جامع، منظم، درست، متعلقہ، اور مفید ہیں، خاص طور پر کاروبار، قانون، تعلیم، اور ڈیٹا سائنس کے شعبوں میں۔

GPT‑5.5 نے متعدد بینچ مارکس میں جدید ترین کارکردگی حاصل کی ہے، جو اس نوعیت کے کام کی عکاسی کرتے ہیں. GDPval⁠⁠ پر، جو 44 پیشوں میں واضح طور پر بیان کیے گئے ایجنٹس کی علمی کام تیار کرنے کی صلاحیتوں کی جانچ کرتا ہے، GPT‑5.5 یہاں 84.9% کا اسکور کرتا ہے. OSWorld-Verified پر، جو یہ ناپتا ہے کہ آیا کوئی ماڈل حقیقی کمپیوٹر ماحول کو خود سے چلا سکتا ہے، یہ 78.7% تک پہنچتا ہے. اور Tau2-bench Telecom پر، جو کسٹمر سروس کے پیچیدہ ورک فلوز کو جانچتا ہے، یہ پرومپٹ ٹیوننگ کے بغیر 98.0% تک پہنچ جاتا ہے. GPT‑5.5 دیگر علمی کام کے بینچ مارکس میں بھی مضبوط کارکردگی دکھاتا ہے: FinanceAgent پر 60.0%، اندرونی سرمایہ کاری بینکنگ ماڈلنگ کے کام پر 88.5% اور OfficeQA Pro پر 54.1%.

Tau2-bench Telecom کو پرومپٹ ٹیوننگ کے بغیر چلایا گیا (اور GPT‑4.1 کو صارف ماڈل کے طور پر)۔ GPT‑5.5 ٹاسک کے مقصد کو بہتر طور پر سمجھتا ہے اور اپنے سابقہ ماڈلز کے مقابلے میں ٹوکن کے لحاظ سے زیادہ مؤثر ہے۔

GPT-5.5 بھاری عمل درآمد والے کام کے لیے درکار مسلسل کارکردگی فراہم کرتا ہے۔ NVIDIA GB200 NVL72 سسٹمز پر تیار اور تعینات کیا گیا یہ ماڈل ہماری ٹیموں کو قدرتی زبان کے پرامپٹس سے مکمل فیچرز تیار کرنے، ڈیبگنگ کا وقت دنوں سے گھٹاکر گھنٹوں تک لانے، اور پیچیدہ کوڈ بیسز میں ہفتوں پر مشتمل تجربات کو راتوں رات پیش رفت میں بدلنے کے قابل بناتا ہے۔ یہ صرف تیزی سے کوڈ لکھنے سے زیادہ ہے—یہ کام کرنے کا ایک نیا طریقہ ہے جو لوگوں کو بنیادی طور پر مختلف رفتار سے کام کرنے میں مدد دیتا ہے۔

—جسٹن بوئٹانو، NVIDIA میں Enterprise AI کے نائب صدر

سائنسی تحقیق

GPT‑5.5 سائنسی اور تکنیکی ریسرچ ورک فلوز میں بھی بہتری دکھاتا ہے، جن کے لیے صرف ایک مشکل سوال کا جواب دینا کافی نہیں ہوتا۔ محققین کو کسی خیال کا جائزہ لینا، شواہد جمع کرنا، مفروضات کو جانچنا، نتائج کی تشریح کرنا، اور یہ فیصلہ کرنا ہوتا ہے کہ اگلا قدم کیا آزمانا ہے۔ GPT‑5.5 اس پورے عمل میں تسلسل برقرار رکھنے کی صلاحیت میں دوسرے ماڈلز سے بہتر ہے۔

قابلِ ذکر طور پر، GPT‑5.5 GeneBench⁠(نئی ونڈو میں کھلتا ہے) پر GPT‑5.4 کے مقابلے میں واضح بہتری دکھاتا ہے—یہ ایک نیا eval ہے جو جینیات اور مقداری حیاتیات میں کثیر المرحلہ سائنسی ڈیٹا تجزیے پر فوکس کرتا ہے. یہ مسائل ماڈلز سے تقاضا کرتے ہیں کہ وہ کم سے کم نگرانی کی رہنمائی کے ساتھ ممکنہ طور پر مبہم یا غلطیوں پر مشتمل ڈیٹا کے بارے میں غور و فکر کریں، پوشیدہ کنفاؤنڈرز یا QC کی ناکامیوں جیسی حقیقی دنیا کی رکاوٹوں سے نمٹیں اور جدید شماریاتی طریقوں کو درست طور پر نافذ کریں اور ان کی تشریح کریں. اس حقیقت کے پیشِ نظر کہ یہاں کام اکثر سائنسی ماہرین کے لیے کئی دنوں پر مشتمل منصوبوں کے مساوی ہوتے ہیں، ماڈل کی کارکردگی قابلِ توجہ ہے.

اسی طرح، BixBench⁠(نئی ونڈو میں کھلتا ہے) پر، جو حقیقی دنیا کی بایوانفارمیٹکس اور ڈیٹا تجزیے پر مبنی ایک بینچ مارک ہے، GPT‑5.5 نے ان ماڈلز میں نمایاں کارکردگی کا مظاہرہ کیا جن کے اسکور شائع ہو چکے ہیں. ماڈل کی سائنسی صلاحیتیں اب اتنی مضبوط ہو چکی ہیں کہ وہ ایک حقیقی شریکِ سائنسدان کے طور پر بایومیڈیکل تحقیق کے فرنٹیئر شعبوں میں پیش رفت کو نمایاں طور پر تیز کر سکتا ہے.

ایک اور مثال میں، GPT‑5.5 کے ایک داخلی ورژن نے، ایک حسب ضرورت ہارنس کے ساتھ، کمبیناٹورکس میں مرکزی موضوعات میں سے ایک، رامزی نمبرز کے بارے میں ایک نیا ثبوت⁠(نئی ونڈو میں کھلتا ہے) دریافت کرنے میں مدد کی. کمبینیٹورکس اس بات کا مطالعہ کرتی ہے کہ منفصل اشیا کس طرح ایک دوسرے کے ساتھ مربوط ہوتے ہیں: گراف، نیٹ ورکس، سیٹس اور پیٹرنز. رامسی اعداد تقریباً یہ پوچھتے ہیں کہ کسی نیٹ ورک کا سائز کتنا بڑا ہونا چاہیے، اس سے پہلے کہ اس میں کسی نہ کسی قسم کی ترتیب کا ظاہر ہونا یقینی ہو جائے. اس شعبے میں نتائج کم ہی حاصل ہوتے ہیں اور وہ اکثر تکنیکی طور پر نہایت پیچیدہ ہوتے ہیں. یہاں، GPT‑5.5 نے آف-ڈایاگونل ریمزی نمبرز کے بارے میں ایک طویل عرصے سے معروف اسیمپٹوٹک حقیقت کا ایک ثبوت دریافت کیا، جس کی بعد میں Lean میں توثیق کی گئی. یہ نتیجہ GPT‑5.5 کی اس شراکت کی ایک ٹھوس مثال ہے جو صرف کوڈ یا وضاحت تک محدود نہیں، بلکہ ایک بنیادی تحقیقی شعبے میں ایک حیران کن اور مفید ریاضیاتی استدلال بھی پیش کرتی ہے.

ابتدائی ٹیسٹرز نے ChatGPT میں GPT‑5.5 Pro کو محض ایک بار جواب دینے والے ٹول کے بجائے ایک تحقیقی معاون کے طور پر استعمال کیا۔ انہوں نے اسے متعدد مراحل میں مسودوں پر تنقیدی نظر ڈالنے، تکنیکی دلائل کو جانچنے، تجزیاتی تجاویز پیش کرنے، اور کوڈ، نوٹس، اور PDF مواد کے ساتھ کام کرنے کے لیے استعمال کیا۔ بنیادی بات یہ ہے کہ GPT‑5.5 محققین کو سوال سے تجربے اور پھر نتیجے تک پہنچنے میں زیادہ مؤثر مدد فراہم کرتا ہے۔

ڈیریا انوتماز، جیکسن لیبارٹری برائے جینومک میڈیسن میں امیونولوجی کے پروفیسر اور محقق، نے 62 نمونوں اور تقریباً 28,000 جینز پر مشتمل ایک جین ایکسپریشن ڈیٹاسیٹ کا تجزیہ کرنے کے لیے GPT‑5.5 Pro استعمال کیا، جس کے نتیجے میں ایک تفصیلی تحقیقی رپورٹ تیار ہوئی جس نے نہ صرف نتائج کا خلاصہ پیش کیا بلکہ اہم سوالات اور بصیرتوں کو بھی اجاگر کیا۔ ایسا کام جس کے بارے میں ان کا کہنا تھا کہ ان کی ٹیم کو اسے مکمل کرنے میں مہینوں لگ جاتے۔

Bartosz Naskręcki، جو پولینڈ کے شہر Poznań میں Adam Mickiewicz University میں ریاضی کے اسسٹنٹ پروفیسر ہیں، نے Codex میں GPT‑5.5 کا استعمال کرتے ہوئے صرف ایک پرومپٹ سے 11 منٹ میں ایک الجبری ہندسہ ایپ بنائی، جس میں درجۂ دوم سطحوں کے تقاطع کو بصری شکل دی گئی اور حاصل ہونے والے منحنی کو Weierstrass ماڈل میں تبدیل کیا گیا.

بعد میں، اس نے ایپ کو مزید مستحکم سنگولیریٹی ویژولائزیشن اور درست coefficients کے ساتھ وسعت دی، جنہیں آئندہ کاموں میں دوبارہ استعمال کیا جا سکتا ہے۔ ان کے لیے بڑی تبدیلی یہ ہے کہ Codex اب حسبِ ضرورت ریاضیاتی ویژولائزیشن اور کمپیوٹر الجبرا ورک فلوز کو نافذ کرنے میں مدد دے سکتا ہے، جن کے لیے پہلے مخصوص ٹولز درکار ہوتے تھے۔ مجموعی طور پر، یہ مثالیں ظاہر کرتی ہیں کہ GPT‑5.5 کس طرح ماہرین کے تصورات کو قابلِ عمل تحقیقی ٹولز اور تجزیات میں تبدیل کرتا ہے۔

کریڈٹ: Bartosz Naskręcki⁠(نئی ونڈو میں کھلتا ہے)

پرومپٹ: # الجبری ہندسہ میں سطحوں کا تقاطع

ایک ایسی ایپ بنائیں جو دو quadratic surfaces کو ظاہر کرے اور اُن کے intersection curve کو سرخ رنگ میں نمایاں کرے۔ اسے وائرشٹراس منحنی میں تبدیل کرنے کے لیے کمپیوٹیشنل ریمن-روخ تھیوریم استعمال کریں.

## مرکزی ونڈو

دو رنگ دار سطحیں، ہلکی شفاف شیڈنگ کے ساتھ، اعلیٰ معیار کی رینڈرنگ میں سرخ رنگ کے الجبری منحنی پر ایک دوسرے کو کاٹتی ہیں۔

دونوں سمتوں میں mouse rotation، zoom کے لیے مکمل pinch mechanism، اور haptic press کے ذریعے ایسا چھوٹا menu دکھانا جس میں ہر surface کے coefficients تبدیل کرنے کے لیے sliders موجود ہوں؛ detection، Z-buffer level کے ذریعے کی جاتی ہے۔

##دائیں جانب کی ونڈو

مختصر Weierstrass equation (Q یا quadratic field extension پر) جو effective Riemann–Roch theorem formulas کے ذریعے فوری طور پر compute کی جاتی ہے۔

## Ambient mode جہاں تمام کنٹرولز پوشیدہ ہوتے ہیں اور صارف اشکال کے حسن سے لطف اندوز ہو سکتا ہے

## وضاحتیں

ایپ براؤزر میں چل رہی ہے، فل اسٹیک کی جدید ترین لائبریریوں کے ساتھ ہلکی پھلکی امپلیمنٹیشن، پورٹیبل، قابلِ تعیناتی

## Docs

Git ریپوزٹری، جرنل، منصوبہ (Markdown فائلیں)

"ہمارے پلیٹ فارم میں OpenAI کے نئے GPT-5.5 ماڈل کو استعمال کرنا بے حد متاثر کن ہے۔ یہ بڑے بایوکیمیکل ڈیٹا سیٹس پر تجزیہ کرکے انسانی ادویات کے نتائج کی پیش گوئی کرتا ہے، اور پھر ادویات کی دریافت سے متعلق مشکل ترین جائزوں میں نمایاں طور پر بہتر درستگی دکھاتا ہے۔ "اگر OpenAI اسی رفتار سے ترقی کرتا رہا، تو سال کے اختتام تک ادویات کی دریافت کا طریقہ کاربدل جائے گا۔"

— برینڈن وائٹ، Axiom Bio کے شریک بانی اور CEO

اگلی نسل کی استنباطی کارکردگی

GPT‑5.4 کی تاخیر پر GPT‑5.5 فراہم کرنے کے لیے، استنباط کو الگ تھلگ اصلاحات کے ایک مجموعے کے بجائے ایک مربوط نظام کے طور پر ازسرِنو سوچنا ضروری تھا۔ GPT‑5.5 کو NVIDIA GB200 اور GB300 NVL72 سسٹمز کے لیے مشترکہ طور پر ڈیزائن کیا گیا، انہی پر تربیت دی گئی، اور انہی پر چلایا گیا۔ ہماری کارکردگی کے اہداف حاصل کرنے میں Codex اور GPT‑5.5 نے کلیدی کردار ادا کیا۔ Codex نے ٹیم کو خیال سے قابلِ پیمائش عمل درآمد تک تیزی سے آگے بڑھنے میں مدد دی، طریقہ کار کا خاکہ تیار کرنے، تجربات کو مربوط کرنے، اور یہ شناخت کرنے میں معاونت کی کن اصلاحات میں مزید سرمایہ کاری کرنا سودمند ہوگایے، GPT‑5.5 نے خود اسٹیک میں اہم بہتریوں کی نشاندہی کرنے اور انہیں نافذ کرنے میں مدد دی، سادہ الفاظ میں، اس ماڈل نے اُس انفراسٹرکچر کو بہتر بنانے میں مدد دی جو اسے چلاتا ہے۔

ایسی ہی ایک بہتری لوڈ بیلنسنگ اور پارٹیشننگ کے ہیورسٹک طریقۂ کار میں کی گئی۔ GPT‑5.5 سے پہلے، ہم ایکسیلیریٹر پر درخواستوں کو حصوں کی ایک مقررہ تعداد میں تقسیم کرتے تھے تاکہ کمپیوٹنگ کورز میں کام کا توازن برقرار رکھا جا سکے، اور یہ یقینی بنایا جا سکے کہ بڑی اور چھوٹی درخواستیں ایک ہی GPU پر چل سکیں۔ تاہم، پہلے سے مقرر کردہ جامد حصوں کی تعداد ہر قسم کے ورک لوڈ کے لیے موزوں نہیں ہوتی۔ GPUs کو زیادہ مؤثر طریقے سے استعمال کرنے کے لیے، Codex نے کئی ہفتوں کے پروڈکشن ٹریفک پیٹرنز کا تجزیہ کیا اور کام کو بہترین انداز میں تقسیم اور متوازن کرنے کے لیے مخصوص ہیورسٹک الگورتھمز تیار کیے۔ اس کوشش کے غیرمعمولی نتائج سامنے آئے، اور ٹوکن جنریشن کی رفتار میں 20٪ سے زیادہ اضافہ ہوا۔

سب کی حفاظت کے لیے سائبر سیکیورٹی کو فروغ دینا

ایسے ماڈلز کے لیے دنیا کو تیار کرنا جو سیکیورٹی کی کمزوریوں کو تلاش کرنے اور انہیں دور کرنے میں بہت ماہر ہیں، ایک اجتماعی کوشش ہے اور اس کے لیے پورے ماحولیاتی نظام کو لچک پیدا کرنے کے لیے سخت محنت کرنا ہوگی، جس میں سائبر دفاع کے اگلے دور⁠ کے لیے ماڈلز تک مساوی رسائی اور تدریجی نفاذ شامل ہیں.

جدید ترین ماڈلز سائبر سیکیورٹی میں قابل ہوتے جا رہے ہیں. یہ صلاحیتیں وسیع پیمانے پر دستیاب ہو جائیں گی اور ہم سمجھتے ہیں کہ آگے بڑھنے کا بہترین راستہ یہ یقینی بنانا ہے کہ انہیں سائبر دفاع کو تیز کرنے اور ماحولیاتی نظام کو مضبوط بنانے کے لیے بروئے کار لایا جا سکے.

GPT‑5.5 ایسی AI کی جانب ایک تدریجی لیکن اہم قدم ہے جو دنیا کے بعض مشکل ترین چیلنجز، جیسے سائبر سیکیورٹی، کو حل کر سکے. دسمبر میں GPT‑5.2 کے ساتھ، ہم نے اپنے ماڈل کے ذریعے ممکنہ سائبر بدسلوکی کو محدود کرنے کے لیے ضروری سائبر حفاظتی تدابیر⁠ پیشگی طور پر تعینات کیں؛ اب GPT‑5.5 کے ساتھ، ہم ممکنہ سائبر خطرے کے لیے زیادہ سخت کلاسیفائرز تعینات کر رہے ہیں، جو کچھ صارفین کو ابتدا میں ناگوار لگ سکتے ہیں، کیونکہ ہم وقت کے ساتھ انہیں بہتر بناتے رہیں گے.

ہم نے برسوں سے اپنی پریفرنس فائن-ٹیوننگ⁠(نئی ونڈو میں کھلتا ہے) میں سائبر سیکیورٹی کو ایک زمرے کے طور پر شناخت کیا ہے، کیونکہ ہمارے ماڈلز بتدریج بہتر ہوتے گئے ہیں، جبکہ ہم تخفیفی اقدامات کو مرحلہ وار تیار اور بہتر بناتے رہے ہیں، تاکہ ہم بامعنی سائبر سیکیورٹی صلاحیتوں کے حامل ماڈلز کو ذمہ دارانہ طور پر جاری کر سکیں.

ہم سائبر صلاحیت کی اس سطح کے لیے صنعت کے معیار کے مطابق جدید حفاظتی اقدامات نافذ کر رہے ہیں.گزشتہ سال ہم نے GPT‑5.2⁠(نئی ونڈو میں کھلتا ہے) کے ساتھ پہلی بار سائبر کے لیے مخصوص حفاظتی اقدامات متعارف کرائے، جن کی ہم نے بعد کی تعیناتیوں میں جانچ، بہتری اور ان پر مزید کام کرنا جاری رکھا ہے. GPT‑5.5 کے لیے ہم نے زیادہ خطرناک سرگرمیوں اور حساس سائبر درخواستوں پر مزید سخت کنٹرولز نافذ کیے ہیں، جبکہ بار بار ہونے والے غلط استعمال کے خلاف اضافی حفاظتی اقدامات بھی شامل کیے ہیں. وسیع رسائی، ماڈل کی حفاظت، مصدقہ استعمال اور ناقابلِ اجازت استعمال کی نگرانی میں ہماری سرمایہ کاری کے ذریعے ممکن بنائی جاتی ہے. ہم مہینوں سے بیرونی ماہرین کے ساتھ مل کر ان حفاظتی اقدامات کی مضبوطی کو تیار کرنے، جانچنے اور بہتر بنانے پر کام کر رہے ہیں. GPT‑5.5 کے ساتھ، ہم یہ یقینی بنا رہے ہیں کہ ڈویلپرز اپنے کوڈ کو آسانی سے محفوظ بنا سکیں، جبکہ ایسے سائبر ورک فلوز پر زیادہ مضبوط کنٹرولز نافذ کر رہے ہیں جنہیں بدنیتی پر مبنی عناصر نقصان پہنچانے کے لیے استعمال کر سکتے ہیں.
ہم ہر سطح پر سائبر دفاع کو تیز تر بنانے کے لیے رسائی کو بڑھا رہے ہیں. ہم اپنے سائبر کے لیے زیادہ اجازت دینے والے ماڈل سائبر کے لیے قابل اعتماد رسائی⁠ کے ذریعے دستیاب کر رہے ہیں، جس کی شروعات Codex سے ہو رہی ہے، جس میں GPT‑5.5 کی جدید سائبر سیکیورٹی صلاحیتوں تک وسیع تر رسائی شامل ہے، کم پابندیوں کے ساتھ، ان تصدیق شدہ صارفین کے لیے جو آغاز کے وقت مخصوص اعتماد کے اشاروں⁠(نئی ونڈو میں کھلتا ہے) پر پورا اترتے ہوں. وہ تنظیمیں جو اہم بنیادی ڈھانچے کے دفاع⁠ کی ذمہ دار ہیں، GPT‑5.4‑Cyber جیسے سائبر کے لیے اجازت یافتہ ماڈلز تک رسائی کے لیے درخواست دے سکتی ہیں، بشرطیکہ وہ سخت سیکیورٹی تقاضوں کو پورا کریں تاکہ ان ماڈلز کو اپنے داخلی نظاموں کو محفوظ بنانے کے لیے استعمال کیا جا سکے. اس سے تصدیق شدہ دفاعی ماہرین کی ایک وسیع تعداد کو جائز سیکیورٹی کام کے لیے زیادہ مؤثر آلات کم غیر ضروری رکاوٹوں کے ساتھ میسر آتے ہیں، تاکہ اہم دفاعی صلاحیتوں تک رسائی کو زیادہ وسیع اور قابلِ رسائی بنایا جا سکے. صارفین chatgpt.com/cyber⁠(نئی ونڈو میں کھلتا ہے) پر قابل اعتماد رسائی کے لیے درخواست دے سکتے ہیں تاکہ تصدیق شدہ دفاعی کام کے لیے GPT‑5.5 استعمال کرتے وقت غیر ضروری انکار کو کم کیا جا سکے.
ہم عوام کے لیے اہم بنیادی ڈھانچے کے تحفظ میں مدد کرنے کے لیے حکومتی شراکت داروں کے ساتھ کام کر رہے ہیں۔ہم مل کر اس بات کا جائزہ لے رہے ہیں کہ جدید AI اُن قابلِ اعتماد حکام کے دفاعی کام میں کس طرح مدد دے سکتا ہے جو اُن نظاموں کے ذمہ دار ہیں جن پر عوام انحصار کرتے ہیں — خواہ وہ اہم ٹیکس دہندگان کے ڈیٹا کو محفوظ رکھنے والے ڈیجیٹل نظام ہوں یا مقامی برادریوں میں بجلی اور پانی کی فراہمی کے نظام۔

ہم GPT‑5.5 کی حیاتیاتی/کیمیائی اور سائبر سیکیورٹی صلاحیتوں کو اپنے پریفرنس فائن-ٹیوننگ⁠(نئی ونڈو میں کھلتا ہے) کے تحت اعلٰی درجہ دے رہے ہیں. اگرچہ GPT‑5.5 سائبر سیکیورٹی صلاحیت کی اہم سطح تک نہیں پہنچا، ہمارے جائزوں اور آزمائش سے ظاہر ہوا کہ اس کی سائبر سیکیورٹی صلاحیتیں GPT‑5.4 کے مقابلے میں ایک درجہ بہتر ہیں.

مزید برآں، GPT‑5.5 کو جاری کرنے سے پہلے ہمارے مکمل حفاظتی اور گورننس عمل سے گزارا گیا، جس میں تیاری کی تشخیصات، ڈومین کی مخصوص جانچ، اعلٰی حیاتیات اور سائبر سیکیورٹی صلاحیتوں کے لیے نئی ہدفی تشخیصات اور بیرونی ماہرین کے ساتھ مضبوط جانچ شامل ہیں. ہم GPT‑5.5 سسٹم کارڈ⁠(نئی ونڈو میں کھلتا ہے) میں مزید تفصیلات فراہم کرتے ہیں.

یہ کام AI کی مضبوطی اور پائیداری سے متعلق ہمارے وسیع تر نقطۂ نظر کی عکاسی کرتا ہے، جسے ہم ماڈلز کی بڑھتی ہوئی صلاحیتوں کے پیشِ نظر ضروری سمجھتے ہیں۔ ہم چاہتے ہیں کہ طاقتور AI اُن لوگوں کے لیے دستیاب ہو جو اسے نظاموں، اداروں اور عوام کے تحفظ کے لیے استعمال کرتے ہیں۔ مؤثر راستہ یہ ہے کہ قابلِ اعتماد رسائی فراہم کی جائے، ایسے مضبوط حفاظتی اقدامات اپنائے جائیں جو صلاحیتوں کے بڑھنے کے ساتھ وسعت اختیار کریں، اور سنگین غلط استعمال کی نشاندہی اور اس کے مؤثر جواب دینے کی عملی صلاحیت موجود ہو۔

دستیابی اور قیمتیں

ChatGPT میں، GPT‑5.5 Thinking Plus، Pro، Business، اور Enterprise صارفین کے لیے دستیاب ہے. GPT‑5.5 Pro، جو مزید مشکل سوالات اور زیادہ درستگی والے کام کے لیے ڈیزائن کیا گیا ہے، Pro، Business، اور Enterprise صارفین کے لیے دستیاب ہے.

Codex میں GPT‑5.5 Plus, Pro, Business, Enterprise, Edu اور Go پلانز کے لیے 400K context window کے ساتھ دستیاب ہے. GPT‑5.5 Fast mode میں بھی دستیاب ہے، اور 2.5x لاگت پر ٹوکن 1.5x زیادہ تیزی سے تیار کرتا ہے.

API ڈویلپرز کے لیے، gpt-5.5 جلد Responses API اور چیٹ کمپلیشنز API میں دستیاب ہوگا، جس کی قیمت $5 فی 1M ان پٹ ٹوکن اور $30 فی 1M آؤٹ پٹ ٹوکن ہے اور اس میں 1M کانٹیکسٹ ونڈو شامل ہے. Batch اور Flex کی قیمتیں معیاری API نرخ کے نصف پر دستیاب ہیں، جبکہ ترجیحی پروسیسنگ معیاری نرخ کے 2.5 گنا پر دستیاب ہے. ہم API میں مزید زیادہ درستگی کے لیے gpt-5.5-pro بھی جاری کریں گے، جس کی قیمت $30 فی 1M ان پٹ ٹوکن اور $180 فی 1M آؤٹ پٹ ٹوکن ہے. مکمل تفصیلات کے لیے قیمتوں کا صفحہ⁠ ملاحظہ کریں.

اگرچہ GPT‑5.5، GPT‑5.4 سے زیادہ مہنگا ہے، یہ دونوں زیادہ ذہین اور کہیں زیادہ ٹوکن ایفیشنٹ ہے۔ Codex میں ہم نے تجربے کو احتیاط سے بہتر بنایا ہے تاکہ GPT‑5.5 زیادہ تر صارفین کے لیے GPT‑5.4 کے مقابلے میں کم tokens استعمال کرتے ہوئے بہتر نتائج فراہم کرے، جبکہ مختلف subscription سطحوں پر فراخ دلانہ استعمال کی سہولت بھی برقرار رہے۔

جائزے

کوڈنگ

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (عوامی) *	58.6%	57.7%	-	-	64.3%	54.2%
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
ماہر-SWE (اندرونی)	73.1%	68.5%	-	-	-	-

^*^{لیبز نے اس جائزے میں}^{یادداشت کے شواہد}⁠(نئی ونڈو میں کھلتا ہے)^{نوٹ کیے ہیں}

پیشہ ور

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (جیت یا برابری)	84.9%	83.0%	82.3%	82.0%	80.3 ٪	67.3%
FinanceAgent v1.1	60.0%	56.0%	-	61.5%	64.4%	59.7%
انویسٹمنٹ بینکنگ ماڈلنگ ٹاسکس (اندرونی)	88.5%	87.3%	88.6%	83.6%	-	-
OfficeQA Pro	54.1%	53.2%	-	-	43.6%	18.1%

کمپیوٹر کا استعمال اور ویژن

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld تصدیق شدہ	78.7%	75.0%	-	-	78.0%	-
MMMU Pro (کوئی ٹولز نہیں)	81.2%	81.2%	-	-	-	80.5%
MMMU Pro (ٹولز کے ساتھ)	83.2%	82.1%	-	-	-	-

ٹول کا استعمال

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9٪
MCP Atlas**	75.3%	70.6%	-	-	79.1%	78.2%
Toolathlon	55.6 ٪	54.6%	-	-	-	48.8٪
Tau2-bench ٹیلیکام*** (اصل پرومپٹ)	98.0%	92.8%	-	-	-	-

^{** MCP Atlas: تازہ ترین اپ ڈیٹ اپریل 2026 کے بعد Scale AI کے نتائج۔
*** Tau2-bench ٹیلیکام: 5.5 اور 5.4 کے نتائج اصل پرومپٹس کے ساتھ، یعنی پرومپٹ میں کوئی تبدیلی نہیں کی گئی۔ اس میں دیگر labs کے نتائج شامل نہیں ہیں، کیونکہ اُن کا جائزہ تبدیل شدہ prompts کے ساتھ لیا گیا تھا۔}

علمی

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25.0%	19.0%	33.2%	25.6%	-	-
FrontierMath Tier 1–3	51.7٪	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
BixBench	80.5%	74.0%	-	-	-	-
GPQA ڈائمنڈ	93.6%	92.8%	-	94.4%	94.2%	94.3%
انسانیت کا آخری امتحان (کوئی ٹولز نہیں)	41.4%	39.8%	43.1%	42.7%	46.9%	44.4%
انسانیت کا آخری امتحان (ٹولز کے ساتھ)	52.2%	52.1%	57.2%	58.7%	54.7%	51.4%

سائبر سیکیورٹی

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4Pro	Claude Opus 4.7	Gemini 3.1 Pro
کیپچر دی فلیگ چیلنج ٹاسکس (اندرونی)****	88.1%	83.7%	-	-	-	-
CyberGym	81.8%	79.0%	-	-	73.1%	-

^{**** سسٹم کارڈ میں استعمال ہونے والے مشکل ترین CTFs کی ایک توسیع، مزید مشکل چیلنجزشامل ہیں۔}

طویل سیاق و سباق

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73.7%	62.5%	-	-	76.9%	-
Graphwalks BFS 1mil f1	45.4%	9.4%	-	-	41.2% (Opus 4.6)	-
Graphwalks parents 256k f1	90.1%	82.8%	-	-	93.6%	-
Graphwalks parents 1mil f1	58.5%	44.4%	-	-	72.0% (Opus 4.6)	-
OpenAI MRCR v2 8-needle 4K-8K	98.1%	97.3%	-	-	-	-
OpenAI MRCR v2 8-needle 8K-16K	93.0%	91.4%	-	-	-	-
OpenAI MRCR v2 8-needle 16K-32K	96.5%	97.2%	-	-	-	-
OpenAI MRCR v2 8-needle 32K-64K	90.0%	90.5%	-	-	-	-
OpenAI MRCR v2 8-needle 64K-128K	83.1٪	86.0%	-	-	-	-
OpenAI MRCR v2 8-needle 128K-256K	87.5%	79.3%	-	-	59.2%	-
OpenAI MRCR v2 8-needle 256K-512K	81.5%	57.5%	-	-	-	-
OpenAI MRCR v2 8-needle 512K-1M	74.0%	36.6%	-	-	32.2%	-

تجریدی استدلال

ایوال	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verified)	95.0%	93.7%	-	94.5%	93.5%	98.0%
ARC-AGI-2 (تصدیق شدہ)	85.0%	73.3%	-	83.3%	75.8%	77.1%

GPT کی تشخیصات xhigh پر ریزننگ ایویلیویشن کے ساتھ کی گئیں اور تحقیقی ماحول میں کی گئیں، جو بعض صورتوں میں پروڈکشن ChatGPT سے تھوڑا مختلف آؤٹ پٹ فراہم کر سکتی ہے.