مرکزی مواد پر جائیں
OpenAI

۱۱ دسمبر، ۲۰۲۵

پروڈکٹریلیز

GPT‑5.2 کا تعارف

پیشہ ورانہ کام اور طویل مدتی ایجنٹوں کے لیے سب سے اعلی اورر جدید ترین ماڈل۔

لوڈ ہو رہا ہے…

ہم GPT‑5.2 متعارف کروا رہے ہیں، جو پیشہ ورانہ علمی کام کے لیے سب سے زیادہ باصلاحیت ماڈل سیریز ہے۔

پہلے ہی، اوسط ChatGPT Enterprise صارف کہتا ہے کہ AI انہیں روزانہ 40-60 منٹ محفوظ کرتا ہے، اور زیادہ استعمال کرنے والے صارفین کہتے ہیں کہ یہ انہیں ہفتے میں 10 گھنٹے سے زیادہ محفوظ کرتے ہیں۔ ہم نے GPT‑5.2 کو اس طرح ڈیزائن کیا ہے کہ یہ لوگوں کے لیے مزید اقتصادی فوائد فراہم کر سکے؛ یہ اسپریڈشیٹ بنائیں، پیشکش تیار کرنے، کوڈ لکھنے، تصویریں سمجھنے، طویل سیاق و سباق کو سمجھنے، مختلف ٹولز استعمال کرنے، اور پیچیدہ، کئی مراحل والے منصوبے سنبھالنے میں بہتر ہے۔

GPT‑5.2 نے کئی بینچ مارکس میں نئی مثال قائم کی ہے، بشمول GDPval، جہاں یہ 44 پیشوں میں پھیلے ہوئے واضح علم کے ٹاسک میں انڈسٹری کے پیشہ ور افراد سے بہتر کارکردگی دکھاتا ہے۔


GPT‑5.2 تھنکنگ 

GPT‑5.1 تھنکنگ

GDPval (جیت یا ٹائی)
علم کے کام کے ٹاسک

70.9%

38.8% (GPT‑5)

SWE-Bench Pro (public)
سافٹ ویئر انجینئرنگ

55.6 ٪

50.8 ٪

SWE-bench تصدیق کریں
سافٹ ویئر انجینئرنگ

80.0 ٪

76.3%

GPQA ڈائمنڈ (کوئی ٹولز نہیں)
سائنس کے سوالات

92.4 ٪

88.1%

CharXiv Reasoning (Python کے ساتھ)
سائنسی شکلوں کے سوالات

88.7 ٪

80.3 ٪

HMMT (Feb 2025)
ریاضی کا مقابلہ

99.4 ٪

96.3 ٪

FrontierMath (Tier 1–3)
اعلیٰ ریاضیات

40.3 ٪

31.0 ٪

ARC-AGI-1 (تصدیق کریں)
تجریدی استدلال

86.2%

72.8%

ARC-AGI-2 (تصدیق کریں)
تجریدی استدلال

52.9 ٪

17.6 ٪

Notion(نئی ونڈو میں کھلتا ہے), Box(نئی ونڈو میں کھلتا ہے), Shopify(نئی ونڈو میں کھلتا ہے), Harvey(نئی ونڈو میں کھلتا ہے) اور Zoom(نئی ونڈو میں کھلتا ہے) نے مشاہدہ کیا کہ GPT‑5.2 جدید ترین طویل مدتی استدلال اور ٹول کالنگ کی کارکردگی کا مظاہرہ کرتا ہے۔ Databricks(نئی ونڈو میں کھلتا ہے), Hex(نئی ونڈو میں کھلتا ہے) اور Triple Whale(نئی ونڈو میں کھلتا ہے) نے پایا کہ GPT‑5.2 ایجنٹک ڈیٹا سائنس اور دستاویز تجزیہ کے ٹاسک میں غیر معمولی ہے۔ Cognition(نئی ونڈو میں کھلتا ہے), Warp(نئی ونڈو میں کھلتا ہے), Charlie Labs(نئی ونڈو میں کھلتا ہے), JetBrains(نئی ونڈو میں کھلتا ہے) اور Augment Code(نئی ونڈو میں کھلتا ہے) کا کہنا ہے کہ GPT‑5.2 جدید ترین ایجنٹک کوڈنگ کارکردگی فراہم کرتا ہے، جس میں انٹرایکٹو کوڈنگ، کوڈ ریویوز اور بگ فائنڈنگ جیسے شعبوں میں قابل پیمائش بہتریاں دیکھی جا سکتی ہیں۔

ChatGPT میں، GPT‑5.2 انسٹینٹ، تھنکنگ، اور پرو آج سے دستیاب ہونا شروع ہو جائیں گے، سب سے پہلے ادائیگی والے صارفین کے لیے۔ API میں، یہ اب تمام ڈویلپرز کے لیے دستیاب ہیں۔

مجموعی طور پر، GPT‑5.2 عمومی ذہانت، طویل سیاق و سباق کی تفہیم، ایجنٹک ٹول کا از خود استعمال، اور تصویر فہمی میں نمایاں بہتریلے کر آیا ہے—جس سے یہ کسی بھی پچھلے ماڈل کے مقابلے میں پیچیدہ، حقیقی دنیا کے ٹاسک کو ابتدا سے انتہا تک پربہتر طور پر انجام دینے کی صلاحیت رکھتا ہے۔

ماڈل کی کارکردگی

اقتصادی طور پر قیمتی ٹاسک

GPT‑5.2 Thinking حقیقی دنیا اور پیشہ ورانہ استعمال کے لیے اب تک کا سب سے بہترین ماڈل ہے۔ GDPval پر، جو 44 پیشوں میں واضح علم کے ٹاسک کی پیمائش کرنے والا ایک جائزہ ہے، GPT‑5.2 Thinking نے نیا جدید ترین اسکور قائم کیا ہے، اور یہ ہمارا پہلا نمونہ ہے جو انسانی ماہر کی سطح پر یا اس سے اوپر کارکردگی دکھاتا ہے۔ خاص طور پر، GPT‑5.2 ماہر انسانی ججوں کے مطابق، Thinking ماڈل GDPval علم پر مبنی کاموں میں 70.9٪ مقابلوں میں اعلیٰ صنعتی ماہرین کو یا تو پیچھے چھوڑ دیتا ہے یا کم از کم اُن کے برابر رہتا ہے۔ ان کاموں میں پریزینٹیشن بنانا، اسپریڈشیٹ تیار کرنا، اور دیگر قسم کے پیشہ ورانہ دستاویز سازی شامل ہیں۔ GPT‑5.2 Thinking نے GDPval کے کاموں میں انسانی ماہرین کے مقابلے میں 11 گنا زیادہ تیزی سے نتائج پیدا کیے، اور خرچ 1٪ سے بھی کم آیا۔ اس سے ظاہر ہوتا ہے کہ اگر انسانی نگرانی کے ساتھ استعمال کیا جائے تو GPT‑5.2 پیشہ ورانہ کام میں نمایاں مدد کر سکتا ہے۔ رفتار اور لاگت کے تخمینے تاریخی میٹرکس پر مبنی ہیں؛ ChatGPT میں رفتار مختلف ہو سکتی ہے۔

GDPval میں، ماڈلز 44 مختلف پیشہ ورانہ شعبوں کے واضح طور پر بیان کیے گئے علمی کام انجام دینے کی کوشش کرتے ہیں، جو امریکہ کی معیشت میں شریک 9 بڑی صنعتوں سے لیے گئے ہیں۔ ٹاسک حقیقی کام کی مصنوعات کا مطالبہ کرتے ہیں، جیسے کہ سیلز پیشکشیں، اکاؤنٹنگ اسپریڈشیٹس، ارجنٹ کیئر شیڈولز، مینوفیکچرنگ ڈایاگرامز، یا مختصر ویڈیوز۔ ChatGPT میں، GPT‑5.2 Thinking کے پاس نئے ٹولز ہیں جو GPT‑5 Thinking کے پاس نہیں ہیں۔

ایک خاص طور پر اچھے آؤٹ پٹ کا جائزہ لیتے ہوئے، ایک GDPval جج نے تبصرہ کیا، "یہ آؤٹ پٹ کے معیار میں ایک دلچسپ اور قابل دید چھلانگ ہے... [یہ] ایسا لگتا ہے جیسے کسی پیشہ ور کمپنی کے عملے نے تیار کیا ہو، اور اس کی ترتیب اور دونوں ڈیلیوریبلز کے لیے مشورے حیرت انگیز طور پر اچھی طرح سے ڈیزائن کیے گئے ہیں، حالانکہ ایک میں ہمیں ابھی بھی کچھ معمولی غلطیاں درست کرنی ہیں۔"

اس کے علاوہ، ہمارے اندرونی بینچ مارک میں، جو جونیئر انویسٹمنٹ بینکنگ اینالسٹ کے اسپریڈشیٹ نمونہ سازی ٹاسک کو پرکھتا ہے— جیسے کہ فورچون 500 کمپنی کے لیے صحیح فارمیٹنگ اور حوالہ جات کے ساتھ تین-اسٹیٹمنٹ نمونہ بنانا، یا کسی کمپنی کو پرائیویٹ کرنے کے لیے لیوریجڈ بائے آؤٹ نمونہ تیار کرنا—GPT‑5.2 Thinking کا اوسط اسکور فی ٹاسک GPT‑5.1 کے مقابلے میں 9.3٪ زیادہ ہے، 59.1٪ سے بڑھ کر 68.4٪ تک جا رہا ہے۔

سائیڈ بائی سائیڈ موازنہ ظاہر کرتے ہیں کہ ان اسپریڈشیٹس اور سلائیڈز میں نفاست اور فارمیٹنگ میں بہتری آئی ہے جو تیار کیے جاتے ہیں بذریعہ GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

بروقت: ایک ورک فورس منصوبہ بندی کا نمونہ بنائیں: ہیڈ کاؤنٹ، بھرتی کا منصوبہ، ملازمین کا انخلا، اور بجٹ پر اثر۔ انجینئرنگ، مارکیٹنگ، قانونی، اور سیلز کے شعبے شامل کریں۔

ChatGPT میں نئی اسپریڈشیٹ اور پیشکش کی صلاحیتوں کو استعمال کرنے کے لیے، آپ کو ایک ادا شدہ منصوبہ پر ہونا ضروری ہے اور یا تو GPT‑5.2 Thinking یا Pro کا انتخاب کرنا ہوگا۔ پیچیدہ جنریشنز کو تیار کرنے میں کئی منٹ لگ سکتے ہیں۔

کوڈنگ

GPT‑5.2 Thinking نے SWE-bench Pro پر 55.6٪ کی نئی معیاری سطح قائم کی ہے، جو حقیقی دنیا کی سافٹ ویئر انجینئرنگ کی سخت جانچ ہے۔ SWE-bench Verified کے برعکس، جو صرف Python کی جانچ کرتا ہے، SWE-bench Pro چار زبانوں کی جانچ کرتا ہے اور اس کا مقصد زیادہ آلودگی مزاحم، زیادہ چیلنجنگ، زیادہ متنوع، اور صنعتی لحاظ سے زیادہ متعلقہ ہونا ہے۔

In SWE-bench Pro(نئی ونڈو میں کھلتا ہے)، ماڈل کو ایک کوڈ ریپوزٹری دی جاتی ہے اور اسے ایک حقیقت پسندانہ سافٹ ویئر انجینئرنگ ٹاسک کو حل کرنے کے لیے پیچ پیدا کرنا ہوتا ہے۔

SWE-bench Verified پر (جو چارٹ میں شامل نہیں ہے)، GPT‑5.2 تھنکنگ نے ہمارا نیا بلند ترین اسکور 80٪ حاصل کیا ہے۔

روزمرہ کے پیشہ ورانہ استعمال میں اس کا مطلب یہ ہے کہ یہ ماڈل اصل سسٹمز کے کوڈ میں غلطیاں زیادہ بھروسے کے ساتھ ٹھیک کر سکتا ہے، نئی فیچرز شامل کر سکتا ہے، بڑے کوڈ بیس کو بہتر انداز میں دوبارہ ترتیب دے سکتا ہے، اور کم انسانی مداخلت کے ساتھ شروعات سے آخر تک مکمل حل تیار کر سکتا ہے۔

GPT‑5.2 تھنکنگ فرنٹ اینڈ سافٹ ویئر انجینئرنگ میں بھی GPT‑5.1 تھنکنگ سے بہتر ہے۔ ابتدائی ٹیسٹرز نے دیکھا کہ یہ فرنٹ اینڈ ڈیولپمنٹ میں، اور پیچیدہ یا غیر روایتی UI ڈیزائنز میں—خاص طور پر جہاں 3D عناصر شامل ہوں—پہلے سے کہیں زیادہ بہتر ہے۔ اسی وجہ سے یہ مختلف حصوں پر کام کرنے والے انجینئرز کے لیے ایک بہت طاقتور روزمرہ کا ساتھی ثابت ہوتا ہے۔ یہ کچھ مثالیں ہیں یہ دیکھیں کہ صرف ایک پرامپٹ سے کیا بنایا جا سکتا ہے:

پرامپٹ: ایک واحد HTML فائل میں ایک سنگل-پیج ایپ بنائیں، جس کی ضروریات درج ذیل ہوں:
- نام: Ocean Wave Simulation
- مقصد: حقیقت پسندانہ متحرک لہروں کو دکھانا۔
- خصوصیات: ہوا کی رفتار، لہر کی اونچائی اور روشنی کو تبدیل کریں۔
- UI پرسکون اور حقیقت پسندانہ ہونا چاہیے۔

ابتدائی ٹیسٹرز نے اپنے فیڈبیک شیئر کیے ہیں GPT‑5.2 کوڈنگ کی صلاحیتیں کے بارے میں:

GPT-5.2 GPT ماڈلز کے لیے agentic coding میں GPT-5 کے بعد سب سے بڑی چھلانگ کی نمائندگی کرتا ہے اور اپنی قیمت کی حد میں ایک جدید ترین کوڈنگ ماڈل ہے۔ ورژن میں اضافہ ذہانت میں چھلانگ کی اہمیت کو کم ظاہر کرتا ہے۔ ہم Windsurf اور کئی بنیادی Devin کام کے بوجھ میں اسے پہلے سے طے شدہ بنانے کے لئے بہت پرجوش ہیں۔
جیف وانگ، سی ای او، Windsurf

حقانیت

GPT‑5.2 تھنکنگ، GPT‑5.1 تھنکنگ کی نسبت کم فرضی باتیں کرتا ہے۔ ChatGPT کے اک شخص جس کی شناخت ہٹا دی گئی کے سوالات کے مجموعے میں غلطیوں والے جوابات 38٪ rel کم پائے گئے۔ پیشہ ور افراد کے لیے، اس کا مطلب ہے کہ تحقیق، تحریر، تجزیہ، اور فیصلہ سازی کی مدد میں اس ماڈل استعمال کرتے وقت کم غلطیاں ہوں گی—جس سے روزمرہ کے علمی کام کے لیے یہ ماڈل زیادہ قابل اعتماد بن جائے گا۔

استدلال کی کوشش کو زیادہ سے زیادہ دستیاب سطح پر مقرر کیا گیا اور تلاش کا ایک ٹول فعال کردیا گیا۔ دیگر ماڈلز کے ذریعے غلطیاں دریافت کی گئیں، جو خود بھی غلطیاں کر سکتے ہیں۔ دعوی کی سطح پر غلطیوں کی شرح جواب کی سطح پر غلطیوں سے کہیں کم ہوتی ہے، کیونکہ ایک ہی جواب میں عام طور پر کئی مختلف دعوے شامل ہوتے ہیں۔

تمام ماڈلز کی طرح، GPT‑5.2 تھنکنگ بھی ناقص ہے۔ کسی بھی اہم چیز کے لیے، اس کے جوابات کو دوبارہ چیک کریں۔

طویل سیاق و سباق

GPT‑5.2 تھنکنگ نے طویل سیاق و سباق کو سمجھنے میں نیا معیار قائم کیا ہے۔ اس نے OpenAI MRCRv2 میں بہترین کارکردگی حاصل کی—یہ ایک ٹیسٹ ہے جو دیکھتا ہے کہ ماڈل لمبے متن میں بکھری ہوئی معلومات کو کتنی اچھی طرح یکجا کر سکتا ہے۔ حقیقی دنیا کے ٹاسکس جیسے دستاویز کا گہرائی سے تجزیہ، جن کے لیے سیکڑوں ہزاروں ٹوکن کے ذریعے متعلقہ معلومات کی ضرورت ہوتی ہے، GPT‑5.2 تھنکنگ GPT‑5.1 تھنکنگ کے مقابلے میں کافی زیادہ درستگی کا حامل ہے۔ خاص طور پر، یہ پہلا ماڈل ہے جو ہم نے دیکھا ہے کہ 4-needle MRCR variant پر تقریباً 100٪ درستگی حاصل کرتا ہے (256k ٹوکنز تک)۔

سادہ لفظوں میں، اس کا مطلب یہ ہے کہ پیشہ ور لوگ GPT‑5.2 کو بہت لمبی دستاویزات پر کام کرنے کے لیے استعمال کر سکتے ہیں—جیسے رپورٹس، معاہدے، تحقیقاتی مقالے، ٹرانسکرپٹس، اور کئی فائلوں پر مشتمل پروجیکٹس—اور یہ ماڈل لاکھوں ٹوکن جتنی لمبی معلومات میں بھی درستگی اور ربط برقرار رکھتا ہے۔ اس سے GPT‑5.2 خاص طور پر گہری تجزیہ کاری، مختلف ذرائع کی معلومات کو یکجا کرنے، اور پیچیدہ کاموں کو سنبھالنے کے لیے بہترین بن جاتا ہے۔

OpenAI-MRCR (نئی ونڈو میں کھلتا ہے)میں v2 (جو کہ ایک پیچیدہ یادداشت کا ٹیسٹ ہے)، صارف کی کئی مماثل مخصوص درخواستوں کو دیگر مماثل درخواستوں اور جوابات کے ایک بہت بڑے ڈھیر میں چھپا دیا جاتا ہے، اور ماڈل سے کہا جاتا ہے کہ وہ فلاں نمبر والی مخصوص درخواست کا جواب دوبارہ پیش کرے۔ اس جانچ کے دوسرے ورژن میں تقریباً 5 فیصد ایسی غلطیاں ٹھیک کر دی گئی ہیں جہاں پہلے سے طے شدہ درست جوابات غلط تھے۔ اوسط یکسانیت کا تناسب اس بات کا اوسط نکالتا ہے کہ ماڈل کا جواب اور اصل درست جواب الفاظ میں ایک دوسرے سے کتنا ملتے ہیں۔ 256k میکس ان پٹ ٹوکنز والے پوائنٹس دراصل 128k سے 256k ٹوکنز کے درمیان کی اوسط کو ظاہر کرتے ہیں، اور اسی طرح آگے۔ یہاں 256k کا مطلب 256 ضرب 1,024 ہے جو کہ 262,114 ٹوکنز بنتے ہیں۔ اس دوران ماڈل کی سوچنے اور سمجھنے کی کوشش کو دستیاب سب سے زیادہ حد پر رکھا کیا گیا تھا۔

ایسے کاموں کے لیے جن میں ماڈل کو اپنی عام حد سے زیادہ سیاق و سباق پر سوچنے کی ضرورت ہو، GPT‑5.2 Thinking ہمارے نئے Responses /compact اختتامی نقطہ کے ساتھ مطابقت رکھتی ہے، جو نمونہ کی مؤثر سیاق و سباق ونڈو کو بڑھاتا ہے۔ اس سے GPT‑5.2 Thinking ایسے ورک فلو سنبھال سکتا ہے جن میں بہت زیادہ ٹولز استعمال ہوتے ہیں اور جو بہت دیر تک چلتے ہیں، اور جو بصورت دیگر سیاق و سباق میں کی حد کی وجہ سے محدود ہو سکتے تھے۔ مزید پڑھیں ہماری API دستاویزات(نئی ونڈو میں کھلتا ہے) میں۔

وژن

GPT‑5.2 سوچنے کا عمل ہمارا اب تک کا سب سے مضبوط وژن نمونہ ہے، جو چارٹ سے استدلال کرنے اور سافٹ ویئر انٹرفیس کی تفہیم میں غلطی کی شرح کو تقریباً نصف کر دیتا ہے۔

روزمرہ کے پیشہ ورانہ استعمال میں اس کا مطلب یہ ہے کہ ماڈل ڈیش بورڈز، پروڈکٹ کے اسکرین شاٹس، تکنیکی خاکے، اور بصری رپورٹس کو پہلے سے زیادہ درست طریقے سے سمجھ سکتا ہے—فنانس، آپریشنز، انجینئرنگ، ڈیزائن، اور کسٹمر سپورٹ جیسے شعبوں کے ورک فلو کو بہتر بناتا ہے، جہاں بصری معلومات بہت اہم ہوتی ہیں۔

CharXiv Reasoning(نئی ونڈو میں کھلتا ہے)میں، ماڈلز سائنسی تحقیقی مقالوں کے بصری چارٹس سے متعلق سوالات کے جواب دیتے ہیں۔ ایک Python ٹول فعال تھا، اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر رکھا گیا تھا۔

ScreenSpot-Pro(نئی ونڈو میں کھلتا ہے)میں، ماڈلز کو مختلف پیشہ ورانہ سوفٹ ویئر انٹرفیسز کے ہائی ریزولوشن اسکرین شاٹس کو سمجھنا اور ان پر غور کرنا ہوتا ہے۔ ایک Python ٹول فعال تھا، اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر رکھا گیا تھا ۔Python ٹول کے بغیر اسکور کافی کم ہو جاتے ہیں، اس لیے ہم ایسے بصری کاموں کے لیے Python ٹول کو فعال کرنے کی سفارش کرتے ہیں۔

پچھلے ماڈلز کے مقابلے میں، GPT‑5.2 Thinking کی صلاحیت اس بات کو بہتر طور پر سمجھتی ہے کہ عناصر تصویر میں کس طرح ترتیب دیے گئے ہیں، جو ان ٹاسک میں مددگار ثابت ہوتی ہے جہاں مسئلے کو حل کرنے میں نسبتی ترتیب کلیدی کردار ادا کرتی ہے۔ نیچے دی گئی مثال میں، ہم ماڈل سے درخواست کرتے ہیں کہ وہ تصویر کے ان پٹ (اس صورت میں، ایک مدر بورڈ) میں موجود اجزاء کی شناخت کرے اور تقریباً باؤنڈنگ باکسز کے ساتھ لیبلز واپس کرے۔ یہاں تک کہ کم معیار کی تصویر پر بھی، GPT‑5.2 اہم علاقوں کی شناخت کرتا ہے اور ہر جزو کے حقیقی مقامات سے تقریباً ملتے جلتے باکسز بناتا ہے، جبکہ GPT‑5.1 صرف چند حصوں کو لیبل کرتا ہے اور ان کی مکانی ترتیب کی بہت کمزور سمجھ ظاہر کرتا ہے۔

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

ٹول کالنگ

GPT‑5.2 تھنکنگ نے Tau2-bench Telecom ٹیسٹ میں 98.7٪ کا نیا ریکارڈ قائم کیا ہے، جو یہ ثابت کرتا ہے کہ یہ ماڈل لمبے، کئی مرحلوں والے کاموں میں بھی ٹولز کو بہت بھروسے کے ساتھ استعمال کر سکتا ہے۔

تاخیر سے حساس استعمال کے معاملات کے لیے، GPT‑5.2 Thinking ‘reasoning.effort = none’ پر بھی کہیں بہتر کارکردگی دکھاتا ہے، اس موڈ میں یہ GPT‑5.1 اور GPT‑4.1 کے مقابلے میں بہت زیادہ تیز اور مؤثر ہے۔

τ2-bench(نئی ونڈو میں کھلتا ہے)میں، ماڈلز ایک فرضی صارف کے ساتھ کئی مرحلوں والی گفتگو کے ذریعے کسٹمر سپورٹ کے کام مکمل کرنے کے لیے ٹولز استعمال کرتے ہیں۔ ٹیلی کام کے شعبے میں کارکردگی بہتر بنانے کے لیے ہم نے سسٹم پرامپٹ میں ایک مختصر، عمومی طور پر مددگار ہدایت شامل کی۔ فضائیہ کے شعبے کو شامل نہیں کیا گیا کہ اس کی گریڈنگ کا اصل ڈیٹا کم معیاری تھا۔

پیشہ ور افراد کے لیے اس کا مطلب یہ ہے کہ شروعات سے آخر تک کے ورک فلو زیادہ مضبوط اور قابلِ اعتماد ہو جاتے ہیں—جیسے کسٹمر سپورٹ کے مسائل حل کرنا، مختلف سسٹمز سے ڈیٹا حاصل کرنا، تجزیے چلانا، اور کم غلطیوں یا رکاوٹوں کے ساتھ حتمی نتائج تیار کرنا۔

مثال کے طور پر، اگر آپ کوئی پیچیدہ کسٹمر سروس سوال پوچھیں جسے حل کرنے کے لیے کئی مراحل چاہیے ہوں، تو ماڈل پورا ورک فلو زیادہ مؤثر طریقے سے سنبھال سکتا ہے اور متعدد ایجنٹس کے درمیان بہتر رابطہ قائم کر سکتا ہے۔ نیچے دی گئی مثال میں، ایک مسافر بتاتا ہے کہ اس کی فلائٹ لیٹ ہو گئی، وہ کنیکٹنگ فلائٹ سے محروم ہو گیا، اسے نیویارک میں رات گزارنی پڑی، اور اسے طبی وجہ سے خاص نشست کی ضرورت ہے۔ GPT‑5.2 پورا عمل خود سنبھال لیتا ہے—جس میں نئی فلائٹ بُک کرنا، خصوصی نشست کا انتظام کرنا، اور معاوضہ دینا شامل ہے۔ یہ GPT‑5.1 کے مقابلے میں زیادہ مکمل اور درست نتیجہ فراہم کرتا ہے۔

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

سائنس اور ریاضی

ہماری امیدوں میں سے ایک یہ ہے کہ AI سائنسی تحقیق کو ہر ایک کے فائدے کے لیے تیز کرے۔ اس مقصد کے لیے، ہم سائنسدانوں کے ساتھ کام کر رہے ہیں اور ان کی باتیں سن رہے ہیں تاکہ یہ دیکھ سکیں کہ AI ان کے کام کو کس طرح تیز کر سکتا ہے، اور پچھلے مہینے ہم نے کچھ ابتدائی مشترکہ تجربات یہاں شیئر کیے۔

ہمیں یقین ہے کہ GPT‑5.2 پرو اور GPT‑5.2 تھنکنگ سائنسدانوں کی مدد اور ان کی رفتار بڑھانے کے لیے دنیا کے بہترین مڈلز ہیں۔ GPQA Diamond پر جو گریجویٹ سطح کا ایسا ٹیسٹ ہے جس کے جوابات گوگل پر آسانی سے نہیں مل سکتے GPT‑5.2 پرو نے 93.2٪ اسکور کیا، اور GPT‑5.2 تھنکنگ نے اس کے قریب 92.4٪ اسکور حاصل کیا۔

GPQA Diamond(نئی ونڈو میں کھلتا ہے)میں، ماڈلز فزکس، کیمسٹری، اور بایولوجی کے کثیر انتخابی سوالات کے جواب دیتے ہیں۔ کوئی ٹول فعال نہیں تھا، اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر رکھا گیا تھا۔

FrontierMath (Tier 1–3)، جو ماہر سطح کے ریاضی کا امتحان ہے، پر GPT‑5.2 تھنکنگ نے ایک نیا معیار قائم کیا، 40.3٪ مسائل کو حل کرتے ہوئے۔

FrontierMath(نئی ونڈو میں کھلتا ہے)میں، ماڈلز ماہر سطح کے ریاضی کے مسائل حل کرتے ہیں۔ Python ٹول فعال تھا، اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر رکھا گیا تھا۔

ہم دیکھ رہے ہیں کہ AI نمونے ریاضی اور سائنس میں بامعنی طور پر ترقی کو ٹھوس طریقوں سے تیزی کے ساتھ آگے بڑھا رہے ہیں۔ مثال کے طور پر، حالیہ کام میں GPT‑5.2 کے ساتھ Pro، محققین نے شماریاتی سیکھنے کے نظریہ میں ایک کھلا سوال دریافت کیا۔ ایک محدود، اچھی طرح سے متعین کردہ ماحول میں، نمونہ نے ایک ثبوت پیش کیا جس کی بعد میں مصنفین نے تصدیق کی اور بیرونی ماہرین کے ساتھ اس کا جائزہ لیا، یہ ظاہر کرتے ہوئے کہ کس طرح فرنٹیئر ماڈلز قریبی انسانی نگرانی کے تحت ریاضیاتی تحقیق میں مدد کر سکتے ہیں۔

ARC-AGI 2

ARC-AGI-1 (تصدیق کریں) پر، جو عمومی استدلال کی صلاحیت کو ماپنے کے لئے ڈیزائن کیا گیا ہے، GPT‑5.2 پہلا نمونہ ہے جو 90٪ کی حد کو عبور کرتا ہے، جو پچھلے سال o3‑پیش نظارہ کے 87٪ سے بہتر ہوا ہے جبکہ اس کارکردگی کو حاصل کرنے کی لاگت کو تقریباً 390 گنا کم کر دیا ہے۔

ARC-AGI-2 (تصدیق کریں) پر، جو مشکل کو بڑھاتا ہے اور سیال استدلال کو بہتر طور پر الگ کرتا ہے، GPT‑5.2 Thinking نے سلسلہ غور و فکر نمونوں کے لئے نیا معیار قائم کیا، 52.9٪ اسکور کیا۔ GPT‑5.2 Pro کی کارکردگی مزید بہتر ہوتی ہے، 54.2% تک پہنچتی ہے، جو نمونہ کی نئی، تجریدی مسائل کے ذریعے Reason بٹن کرنے کی صلاحیت کو مزید بڑھاتی ہے۔

ان جائزوں میں بہتریاں GPT‑5.2 کی کارکردگی کو ظاہر کرتی ہیں زیادہ مضبوط کثیر مرحلہ وار استدلال، زیادہ مقداری درستگی، اور پیچیدہ تکنیکی ٹاسکوں پر زیادہ قابل اعتماد مسئلہ حل کرنے کی صلاحیت۔

یہ ہے جو ہمارے ابتدائی ٹیسٹرز GPT‑5.2 کے بارے میں فرماتے ہیں:

GPT-5.2 ہمارے لیے مکمل فن تعمیر کی تبدیلی کو کھول دیا۔ ہم نے ایک نازک، کثیر ایجنٹ نظام کو ایک واحد میگا ایجنٹ میں ضم کر دیا جس میں 20 سے زیادہ اوزار شامل ہیں۔ سب سے بہترین بات یہ ہے کہ یہ بس کام کرتا ہے۔ میگا ایجنٹ تیز تر، زیادہ ذہین، اور 100 گنا زیادہ آسانی سے برقرار رکھنے کے قابل ہے۔ ہم ڈرامائی طور پر کم تاخیر، بہت مضبوط ٹول کالنگ دیکھ رہے ہیں، اور ہمیں اب وسیع سسٹم بروقت کی ضرورت نہیں ہے کیونکہ 5.2 ایک سادہ، ایک لائن بروقت سے صاف طور پر عمل کرے گا۔ یہ خالص جادو کی طرح محسوس ہوتا ہے۔
اے جے اورباچ، سی ای او، Triple Whale

ChatGPT میں GPT‑5.2

ChatGPT میں، صارفین کو یہ محسوس کرنا چاہیے کہ GPT‑5.2 روزمرہ کے استعمال کے لیے بہتر محسوس ہوتا ہے—زیادہ منظم، زیادہ قابل اعتماد، اور بات چیت کے لیے اب بھی خوشگوار ہے۔

GPT‑5.2 انسٹنٹ روزمرہ کے کام اور سیکھنے کے لیے ایک تیز رفتار، قابل اعتماد مددگار ہے، جو معلوماتی سوالات، ہدایات اور رہنمائی، تکنیکی تحریر، اور ترجمہ میں واضح بہتری لاتا ہے، اور یہ GPT‑5.1 انسٹنٹ میں متعارف کرائے گئے دوستانہ گفتگو کے انداز کو بھی برقرار رکھتا ہے۔ ابتدائی ٹیسٹرز نے خاص طور پر واضح وضاحتوں کو نوٹ کیا جو اہم معلومات کو فوراً سامنے لاتی ہیں۔

GPT‑5.2 تھنکنگ کو گہرے کام کے لیے ڈیزائن کیا گیا ہے، جو صارفین کو زیادہ پیچیدہ ٹاسک کو زیادہ نفاست کے ساتھ حل کرنے میں مدد دیتا ہے—خاص طور پر کوڈنگ، طویل دستاویزات کا خلاصہ کرنے، اپ لوڈ کی گئی فائلوں کے بارے میں سوالات کے جوابات دینے، ریاضی اور منطق کو مرحلہ وار سمجھانے، اور منصوبہ بندی اور فیصلہ سازی میں واضح ڈھانچے اور زیادہ مفید تفصیل کے ساتھ مدد کرنے میں۔

GPT‑5.2 Pro ہمارا سب سے ذہین اور قابلِ اعتماد انتخاب ہے مشکل سوالات کے لیے، جہاں اعلیٰ معیار کا جواب انتظار کے قابل ہوتا ہے۔ ابتدائی جانچ میں، اس نے کم بڑی غلطیوں کے ساتھ بہتر کارکردگی اور پروگرامنگ جیسے پیچیدہ شعبوں میں مضبوط کارکردگی کا مظاہرہ کیا ہے۔

حفاظت

GPT‑5.2، GPT‑5 کے ساتھ متعارف کرائی گئی محفوظ تکمیل کی تحقیق پر مبنی ہے، جو نمونہ کو سکھاتی ہے کہ وہ سب سے زیادہ مددگار جواب دے، جبکہ حفاظتی حدود کے اندر رہے۔

اس ریلیز کے ساتھ، ہم نے حساس گفتگوؤں میں اپنے نمونوں کے ردعمل کو مضبوط بنانے کا کام جاری رکھیں، جس میں خودکشی یا خود کو نقصان پہنچانے کے اشارے، ذہنی صحت کی پریشانی، یا ماڈل پر جذباتی انحصار ظاہر کرنے والے اشاروں پر ردعمل دینے میں بامعنی بہتری شامل ہے۔ ان مقصود بالذات مداخلتوں کے نتیجے میں GPT‑5.2 انسٹینٹ اور GPT‑5.2 تھنکنگ دونوں ماڈلز میں ناپسندیدہ یا غیر محفوظ جوابات کم ہو گئے ہیں اور یہ بہتری GPT‑5.1 اور GPT‑5 انسٹینٹ اور تھنکنگ ماڈلز کے مقابلے میں زیادہ واضح ہے۔ مزید تفصیلات سسٹم کارڈ میں مل سکتی ہیں۔

ہم اپنے عمر کی پیش گوئی کے نمونہ کو ابتدائی مراحل میں متعارف کر رہے ہیں تاکہ ہم خودکار طور پر اُن صارفین کے لیے مواد کی حفاظت کے اقدامات لگا سکیں جو 18 سال سے کم عمر ہیں، تاکہ ان کی حساس مواد تک رسائی محدود رکھی جائے۔ یہ اس نظام کو مزید مضبوط بناتا ہے جو ہم پہلے ہی اُن صارفین کے لیے استعمال کرتے ہیں جو 18 سال سے کم عمر کے ہوتے ہیں، اور ہمارے موجودہ والدین کے کنٹرول کے فیچرز کو بھی بہتر بناتا ہے۔

GPT‑5.2 جاری بہتریوں کے سلسلے میں ایک اگلا قدم ہے، اور ہم ابھی تک مکمل نہیں ہوئے ہیں۔ اگرچہ اس ریلیز میں ذہانت اور پیداواری صلاحیت میں اہم بہتریاں شامل ہیں، ہم جانتے ہیں کہ ابھی بھی کچھ ایسے شعبے ہیں جہاں لوگ مزید بہتری چاہتے ہیں۔ ChatGPT میں، ہم معروف مسائل کو ٹھیک کرنے پر کام کر رہے ہیں، جیسے ماڈل کا زیادہ بار غیر ضروری طور پر انکار کرنا، اور ساتھ ہی مجموعی طور پر اس کی حفاظت اور قابل اعتماد ہونے کو بہتر بنا رہے ہیں۔ یہ تبدیلیاں پیچیدہ ہیں، اور ہم ان کو صحیح طریقے سے انجام دینے پر توجہ مرکوز کر رہے ہیں۔

ذہنی صحت کے معائنے


GPT‑5.2 انسٹینٹ

GPT‑5.1
انسٹینٹ

GPT‑5.2
تھنکنگ

GPT‑5.1
تھنکنگ

ذہنی صحت

0.995

0.883

0.915

0.684

جذباتی انحصار

0.938

0.945

0.955

0.785

خود ایذا رسانی

0.938

0.925

0.963

0.937

دستیابی اور قیمتیں

ChatGPT میں، ہم آج سے GPT‑5.2 (انسٹینٹ، تھنکنگ، اور پرو) جاری کرنا شروع کریں گے، سب سے پہلے ادائیگی والے منصوبے (Plus، Pro، Go، Business، Enterprise) کے لیے۔ ہم ChatGPT کو جتنا ممکن ہو ہموار اور قابلِ اعتماد رکھنے کے لیے GPT‑5.2 کو بتدریج متعارف کر رہے ہیں؛ اگر آپ کو یہ پہلے نظر میں نہیں دکھتا، تو براہ کرم بعد میں دوبارہ کوشش کریں۔ ChatGPT میں، GPT‑5.1 اب بھی تین مہینے تک ادائیگی والے صارفین کے لئے پرانے ماڈلز کے تحت دستیاب ہوگا، جس کے بعد ہم GPT‑5.1 کو بند کر دیں گے۔

ChatGPT اور API کے مابین ماڈل کا نام رکھنا

ChatGPT

API

ChatGPT‑5.2 انسٹینٹ

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 سوچ

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 پرو

ہمارے API پلیٹ فارم میں، GPT‑5.2 Thinking آج ریسپانسز API اور چیٹ کمپلیشنز API میں gpt-5.2 کے طور پر دستیاب ہے، اور GPT‑5.2 فوری طور پر gpt-5.2-chat-latest کے طور پر۔ GPT‑5.2 پرو Responses API میں gpt-5.2-pro کے طور پر دستیاب ہے۔ ڈویلپرز اب GPT‑5.2 میں ریزننگ پیرامیٹر سیٹ کر سکتے ہیں Pro، اور دونوں GPT‑5.2 پرو اور GPT‑5.2 اب xhigh کی نئی پانچویں استدلال کی کوشش کی سپورٹ کریں، ان ٹاسک کے لیے جہاں معیار سب سے زیادہ اہم ہے۔

GPT‑5.2 کی قیمت 1 ملین ان پٹ ٹوکنز کے لیے $1.75 اور 1 ملین آؤٹ پٹ ٹوکنز کے لیے $14 ہے۔ محفوظ شدہ (cached) ان پٹس پر 90٪ رعایت دی جاتی ہے۔ متعدد ایجنٹک ایوالز پر، ہم نے پایا کہ باوجود GPT‑5.2 کی کارکردگی کے زیادہ ٹوکن لاگت کے باوجود، GPT‑5.2 کی بہتر ٹوکن کارکردگی کی وجہ سے مطلوبہ معیار کی سطح کو حاصل کرنے کی لاگت کم ثابت ہوئی۔

ChatGPT کی سبسکرپشن کی قیمتیں ویسی ہی رہتی ہیں، لیکن API میں GPT‑5.2 فی ٹوکن GPT‑5.1 سے زیادہ مہنگا ہے، کیونکہ یہ زیادہ طاقتور اور بہتر کارکردگی والا ماڈل ہے۔ اس کے باوجود، اس کی قیمت دوسرے اعلیٰ درجے کے جدید ماڈلز سے کم رکھی گئی ہے، تاکہ لوگ اسے اپنے روزمرہ کے کام اور اہم ایپلیکیشنز میں خوب استعمال کرنا جاری رکھیں۔

فی ملین ٹوکن کی قیمت

ماڈل

ان پٹ

Cached ان پٹ

آؤٹ پٹ

gpt-5.2 / gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 /
gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

اس وقت ہمارا GPT‑5.1، GPT‑5، یا GPT‑4.1 کو API سے ہٹانے کا کوئی منصوبہ نہیں ہے۔ اگر مستقبل میں ہم انہیں بند کرنے کا فیصلہ کریں، تو ہم ڈیولپرز کو کافی پہلے اطلاع دیں گے۔ GPT‑5.2 ابھی بھی Codex میں اچھی کارکردگی دکھائے گا، لیکن ہم آنے والے چند ہفتوں میں Codex کے لیے خاص طور پر بہتر بنائے گئے GPT‑5.2 کا ایک ورژن جاری کرنے کا منصوبہ رکھتے ہیں۔

ہمارے شراکت دار

GPT‑5.2 کو ہمارے طویل مدتی شراکت داروں NVIDIA اور Microsoft کے ساتھ مل کر تیار کیا گیا۔ Azure کے ڈیٹا سینٹرز اور NVIDIA کے GPUs، جن میں H100، H200، اور GB200-NVL72 شامل ہیں، OpenAI کے بڑے پیمانے کے ٹریننگ سسٹمز کو طاقت دیتے ہیں۔ یہی ٹیکنالوجیز ہمارے ماڈلز کو بہت زیادہ ذہین اور قابل بننے میں مدد کرتی ہیں۔ یہ باہمی شراکت ہمیں اعتماد کے ساتھ اپنی کمپیوٹنگ صلاحیت بڑھانے میں مدد دیتی ہے اور ہمیں نئے ماڈلز کو زیادہ تیزی سے مارکیٹ میں لانے کا موقع فراہم کرتی ہے۔

ضمیمہ

تفصیلی بینچ مارکس

نیچے، ہم GPT‑5.2 کے جامع بینچ مارک اسکورز کی رپورٹ پیش کرتے ہیں۔ سوچ، GPT‑5.2 کے لیے ایک ذیلی سیٹ کے ساتھ Pro

پیشہ ور
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
کوڈنگ
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
حقانیت
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
طویل سیاق و سباق
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
وژن
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
ٹولز کا استعمال
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
علمی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
تجریدی استدلال
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

ماڈلز کو ہمارے API میں زیادہ سے زیادہ دستیاب جواب دینے سے پہلے سوچنے کی کوشش کے ساتھ چلایا گیا (GPT‑5.2 کے لئے xhigh Thinking & Pro، اور GPT‑5.1 Thinking کے لئے اعلی، سوائے پیشہ ورانہ جائزوں کے، جہاں GPT‑5.2 Thinking کو زیادہ سے زیادہ استدلالی کوشش کے ساتھ چلایا گیا، جو ChatGPT Pro میں دستیاب ہے۔ تحقیقی ماحول میں بینچ مارکس کیے گئے تھے، جو بعض صورتوں میں پروڈکشن ChatGPT سے کچھ مختلف نتائج فراہم کر سکتے ہیں۔

* SWE-Lancer کے لیے، ہم 40/237 مسائل کو شامل نہیں کرتے جو ہمارے انفراسٹرکچر پر نہیں چل سکے۔

مصنف

OpenAI