مرکزی مواد پر جائیں
OpenAI

۷ اگست، ۲۰۲۵

پروڈکٹ

GPT‑5 کا تعارف برائے ڈویلپرز

کوڈنگ اور ایجنٹک ٹاسکس کے لئے بہترین ماڈل۔

لوڈ ہو رہا ہے…

تعارف

آج ہم اپنی API پلیٹ فارم میں GPT‑5 جاری کر رہے ہیں—جو اب تک کا ہمارا بہترین ماڈل ہے، خصوصاً کوڈنگ اور ایجنٹک ٹاسکس کے لئے۔

GPT‑5 اہم کوڈنگ بینچ مارکس میں اعلیٰ ترین (SOTA) کارکردگی رکھتا ہے، SWE-bench Verified پر 74.9% اور Aider polyglot پر 88% اسکور کے ساتھ۔ ہم نے GPT‑5 کو ایک حقیقی کوڈنگ کولیباریٹر کے طور پر تربیت دیا ہے۔ یہ اعلیٰ معیار کا کوڈ تیار کرنے، بگز درست کرنے، کوڈ ایڈیٹ کرنے اور پیچیدہ کوڈ بیسز سے متعلق سوالات کے جوابات دینے میں بہترین ہے۔ یہ ماڈل انتہائی قابلِ ہدایت اور تعاون کرنے والا ہے—یہ تفصیلی ہدایات کو بہت زیادہ دقت کے ساتھ فالو کرتا ہے اور ٹول کالز سے پہلے اور دوران اپنی کارروائی کی وضاحت بھی فراہم کرتا ہے۔  فرنٹ اینڈ کوڈنگ میں بھی یہ بہترین ہے، اور ہماری اندرونی جانچ میں 70% مواقع پر GPT‑5 نے OpenAI o3 کو فرنٹ اینڈ ویب ڈیویلپمنٹ میں پیچھے چھوڑا۔

ہم نے GPT‑5 کو حقیقی دنیا کے کوڈنگ ٹاسکس پر تربیت دیا ہے، اسٹارٹ اپس اور انٹرپرائزز کے ابتدائی ٹیسٹرز کے تعاون سے۔ Cursor کا کہنا ہے کہ GPT‑5 “سب سے ذہین ماڈل ہے جو انہوں نے استعمال کیا ہے” اور “غیر معمولی طور پر ذہین، آسانی سے قابلِ رہنمائی، اور ایک منفرد انداز رکھتا ہے جو انہیں کسی اور ماڈل میں نہیں ملا۔” Windsurf نے بتایا کہ GPT‑5 ان کے تمام ٹیسٹوں میں SOTA ہے اور “دیگر فرنٹیئر ماڈلز کے مقابلے میں اس کا ٹول کالنگ ایرر ریٹ نصف ہے۔” Vercel کے مطابق “یہ بہترین فرنٹ اینڈ AI ماڈل ہے—جمالیاتی احساس اور کوڈ کے معیار دونوں میں اعلیٰ کارکردگی دکھاتا ہے، اور اپنی ہی کیٹیگری میں کھڑا ہے۔”

GPT‑5 طویل مدتی ایجنٹک ٹاسکس میں بھی بہترین ہے—τ²-bench telecom (96.7%) پر SOTA نتائج حاصل کرتے ہوئے، جو صرف 2 ماہ پہلے جاری ہونے والا ٹول کالنگ بینچ مارک ہے۔ GPT‑5 کی بہتر ٹول انٹیلی جنس اسے درجنوں ٹول کالز کو بآسانی—تسلسل سے اور متوازی طور پر—جوڑنے کی صلاحیت دیتی ہے، جس سے یہ حقیقی دنیا کے پیچیدہ ٹاسکس کو ابتدا سے انجام تک بہتر طور پر مکمل کر پاتا ہے۔ یہ ٹول انسٹرکشنز کو زیادہ درستگی سے فالو کرتا ہے، ٹول ایررز کو بہتر ہینڈل کرتا ہے، اور طویل کانٹیکسٹ میں مواد تلاش کرنے میں بھی بہترین ہے۔ Manus کا کہنا ہے کہ GPT‑5 “وہ بہترین کارکردگی لے کر آیا جو انہوں نے کسی بھی واحد ماڈل میں دیکھی ہے۔” Notion کے مطابق “کم رِیزننگ موڈ میں اس کے تیز ترین جوابات GPT‑5 کو ان پیچیدہ ٹاسکس کے لئے مثالی بناتے ہیں جنہیں ایک ہی بار میں حل کرنا ضروری ہوتا ہے۔” Inditex نے بتایا کہ “GPT‑5 کی اصل خوبی اس کی گہری استدلالی صلاحیت ہے: باریک، پرت در پرت جوابات جو حقیقی موضوعاتی سمجھ بوجھ کی عکاسی کرتے ہیں۔”

ہم اپنی API میں وہ نئے فیچرز متعارف کر رہے ہیں جو ڈیویلپرز کو ماڈل کے جوابات پر زیادہ کنٹرول دیتے ہیں۔ GPT‑5 ایک نیا verbosity پیرا میٹر (low، medium، high) کو سپورٹ کرتا ہے، جس سے جواب مختصر یا تفصیلی رکھنے کا کنٹرول ملتا ہے۔ GPT‑5 کا reasoning_effort پیرا میٹر اب minimal ویلیو بھی قبول کرتا ہے، جس سے ماڈل بغیر زیادہ تفصیلی reasoning کے تیز جواب فراہم کرتا ہے۔ ہم نے ایک نیا ٹول ٹائپ—custom tools—بھی شامل کیا ہے، جس سے GPT‑5 JSON کی بجائے plaintext کے ذریعے ٹول کال کر سکتا ہے۔ Custom tools ڈیویلپر کی فراہم کردہ context-free grammars کے مطابق پابند رہتے ہیں۔

ہم API میں GPT‑5 تین سائزز میں جاری کر رہے ہیں—gpt-5, gpt-5-mini, اور gpt-5-nano—تاکہ ڈیویلپرز کارکردگی، لاگت، اور لیٹنسی کے درمیان اپنی ضرورت کے مطابق انتخاب کر سکیں۔ ChatGPT میں موجود GPT‑5 ایک نظام ہے جو reasoning، non-reasoning، اور router ماڈلز پر مشتمل ہے، جبکہ API میں GPT‑5 وہ reasoning ماڈل ہے جو ChatGPT کی زیادہ سے زیادہ کارکردگی کو طاقت دیتا ہے۔ خاص طور پر، minimal reasoning والا GPT‑5 وہی ماڈل نہیں جو ChatGPT کا non-reasoning ماڈل ہے—یہ ڈیویلپرز کے لئے زیادہ بہتر طریقے سے ٹیون کیا گیا ہے۔ ChatGPT میں استعمال ہونے والا non-reasoning ماڈل gpt-5-chat-latest کے طور پر دستیاب ہے۔

GPT‑5 کے متعلق مزید تفصیلات اور ChatGPT میں ہونے والی بہتریوں کے لئے ہمارا ریسرچ بلاگ دیکھیں۔ انٹرپرائزز GPT‑5 کے استعمال کے لئے کتنے پُرجوش ہیں، اس کے لئے ہمارا انٹر پرائز بلاگ دیکھیں۔

کوڈنگ

GPT‑5 کوڈنگ کے حوالے سے اب تک کا ہمارا سب سے طاقتور ماڈل ہے۔ یہ o3 سے بڑے تمام کوڈنگ بینچ مارکس اور حقیقی دنیا کے استعمالات میں بہتر ہے، اور اسے خاص طور پر Cursor، Windsurf، GitHub Copilot، اور Codex CLI جیسے ایجنٹک کوڈنگ پروڈکٹس میں چمکنے کے لئے فائن ٹیون کیا گیا ہے۔ GPT‑5 نے ہمارے alpha ٹیسٹرز کو متاثر کیا، ان کے کئی داخلی ٹیسٹوں میں نئے ریکارڈ قائم کرتے ہوئے۔

GPT‑5 کے حقیقی دنیا کے کوڈنگ ٹاسکس پر ابتدائی تاثرات۔

“GPT-5 وہ سب سے ذہین کوڈنگ ماڈل ہے جسے ہم نے استعمال کیا ہے۔ ہماری ٹیم نے پایا کہ GPT-5 حیران کن حد تک ذہین، ہدایات کے مطابق اسٹیئر کرنے میں آسان، اور ایک منفرد شخصیت کا مظاہرہ کرنے والا ہے جو ہم نے کسی دوسرے ماڈل میں نہیں دیکھا۔ یہ پیچیدہ، گہرے چھپے ہوئے بگز پکڑتا ہے اور طویل، کثیر مرحلوں والے پس منظر ایجنٹس چلا کر پیچیدہ کاموں کو مکمل کرتا ہے — ایسے مسائل جو اکثر دوسرے ماڈلز کو رکاوَٹ میں ڈال دیتے تھے۔ یہ ہمارے روزمرہ کے تمام کاموں کے لیے ہمارا بنیادی ماڈل بن چکا ہے، چاہے وہ PRs کا دائرہ کار طے کرنا ہو، منصوبہ بندی کرنا ہو یا end-to-end بلڈ مکمل کرنا ہو۔”
Michael Truell، شریک بانی و CEO، Cursor

SWE-bench Verified—جو حقیقی دنیا کے سافٹ ویئر انجینئرنگ ٹاسکس پر مبنی ہے—پر GPT‑5 کا اسکور 74.9% ہے، جبکہ o3 کا 69.1% تھا۔ اہم بات یہ ہے کہ GPT‑5 نے یہ اعلیٰ کارکردگی ضروریات سے زیادہ مؤثر طریقے سے حاصل کی: o3 کے مقابلے میں 22% کم آؤٹ پٹ ٹوکنز اور 45% کم ٹول کالز کے ساتھ۔

SWE-bench Verified میں ماڈل کو ایک کوڈ ریپوزٹری اور مسئلے کی وضاحت دی جاتی ہے، اور اسے اس مسئلے کو حل کرنے کے لئے ایک پیچ تیار کرنا ہوتا ہے۔ ٹیکسٹ لیبل reasoning کی محنت کی نشاندہی کرتے ہیں۔ ہمارے اسکورز میں 500 میں سے وہ 23 مسائل شامل نہیں ہیں جن کے حل ہمارے انفراسٹرکچر پر قابلِ اعتماد طریقے سے پاس نہیں ہوئے۔ GPT‑5 کو ایک مختصر پرومپٹ دیا گیا جس میں حلوں کی مکمل طور پر توثیق پر زور تھا؛ یہی پرومپٹ o3 کے لئے فائدہ مند ثابت نہیں ہوا۔

Aider polyglot—جو کوڈ ایڈیٹنگ کی جانچ ہے—میں GPT‑5 نے 88% کے ساتھ نیا ریکارڈ قائم کیا، اور o3 کے مقابلے میں غلطیوں کی شرح ایک تہائی کم کی۔

Aider polygot(نئی ونڈو میں کھلتا ہے) (diff) میں، ماڈل کو Exercism سے ایک coding exercise دی جاتی ہے اور اسے اس کا حل code diff کی صورت میں لکھنا ہوتا ہے۔ Reasoning ماڈلز high reasoning effort پر چلائے گئے۔

ہم نے یہ بھی پایا کہ GPT‑5 کوڈ بیسز کی گہرائی میں جا کر سوالات کے جواب دینے میں بہترین ہے—یہ سمجھنے میں کہ مختلف حصے کس طرح کام کرتے یا ایک دوسرے کے ساتھ جڑتے ہیں۔ OpenAI کے اپنے reinforcement learning اسٹیک جیسے پیچیدہ کوڈ بیس میں بھی ہم دیکھ رہے ہیں کہ GPT‑5 ہمیں اپنے کوڈ کو سمجھنے اور اس سے متعلق سوالات کا جواب دینے میں مدد دے رہا ہے، جس سے ہمارا روزمرہ کا کام تیز ہو رہا ہے۔ 

فرنٹ اینڈ انجینئرنگ

ویب ایپس کے لئے فرنٹ اینڈ کوڈ تخلیق کرتے وقت GPT‑5 زیادہ جمالیاتی، زیادہ تخلیقی، اور زیادہ درست ہے۔ o3 کے ساتھ سائیڈ بائی سائیڈ موازنے میں ہمارے ٹیسٹرز نے 70% مواقع پر GPT‑5 کو ترجیح دی۔

یہاں چند مثالیں ہیں کہ GPT‑5 صرف ایک پرامپٹ سے کیا کر سکتا ہے:

پرامپٹ: براہِ مہربانی ایک خوبصورت، حقیقت سے قریب تر لینڈنگ پیج تیار کریں اُس سروس کے لیے جو کافی کے شوقین افراد کو 200 ڈالر ماہانہ سبسکرپشن پر ساز و سامان کرائے پر دیتی ہے اور کافی روسٹنگ اور بہترین ایسپریسو بنانے کی تربیت فراہم کرتی ہے۔ ٹارگٹ آڈینس: بے ایریا کے درمیانی عمر کے افراد جو ٹیک میں کام کرتے ہوں، تعلیم یافتہ ہوں، مالی طور پر مستحکم ہوں، اور کافی کے فن و سائنس سے لگاؤ رکھتے ہوں۔ لینڈنگ پیج کو چھ ماہ کی رجسٹریشن کی کنورژن بہتر بنانے کے لیے آپٹمائز کریں۔

مزید مثالیں ہماری گیلری میں یہاں(نئی ونڈو میں کھلتا ہے) دیکھی جا سکتی ہیں۔

کوڈنگ پر تعاون

GPT‑5 بہتر کولیبارٹر ہے، خاص طور پر Cursor، Windsurf، GitHub Copilot، اور Codex CLI جیسے ایجنٹک کوڈنگ پروڈکٹس میں۔ کام کے دوران GPT‑5 ٹول کالز کے درمیان پلانز، اپ ڈیٹس اور خلاصے شیئر کر سکتا ہے۔ پچھلے ماڈلز کے مقابلے میں GPT‑5 زیادہ فعال ہے، بلند اہداف والے ٹاسکس خود مکمل کرتا ہے—بغیر رکے، بغیر اجازت کے انتظار میں، اور بغیر پیچیدگی سے گھبرائے۔

یہاں ایک مثال ہے کہ GPT‑5 ایک پیچیدہ ٹاسک کو حل کرتے ہوئے کیسا نظر آ سکتا ہے (اس مثال میں ایک ریسٹورینٹ کی ویب سائٹ بنانا شامل ہے):

جب صارف اپنے ریستوران کے لیے ویب سائٹ مانگتا ہے تو GPT‑5 ایک فوری منصوبہ شیئر کرتا ہے، ایپ کا ڈھانچہ بناتا ہے، dependencies انسٹال کرتا ہے، سائٹ کا مواد تخلیق کرتا ہے، کمپائلیشن ایررز چیک کرنے کے لیے بلڈ چلانے کا عمل کرتا ہے، اپنے کام کا خلاصہ پیش کرتا ہے، اور ممکنہ اگلے اقدامات تجویز کرتا ہے۔ اس ویڈیو کو تقریباً 3× تیز کر دیا گیا ہے تاکہ آپ انتظار نہ کریں؛ ویب سائٹ بنانے میں اصل دورانیہ تقریباً تین منٹ تھا۔

ایجنٹک ٹاسک

ایجنٹک کوڈنگ سے آگے، GPT‑5 عمومی ایجنٹک ٹاسکس میں بھی زیادہ بہتر ہے۔ GPT‑5 ہدایات کی پیروی کے بینچ مارکس پر نئے ریکارڈ قائم کرتا ہے (Scale MultiChallenge پر 69.6%—جسے o3‑mini نے گریڈ کیا) اور ٹول کالنگ میں بھی (τ²-bench telecom پر 96.7%)۔ بہتر ٹول انٹیلیجنس GPT‑5 کو حقیقی دنیا کے ٹاسکس کے لئے ایکشنز کو زیادہ قابلِ اعتماد انداز میں آپس میں جوڑنے کی صلاحیت دیتی ہے۔

GPT‑5 پر ابتدائی تاثرات (ایجنٹک کاموں کے لیے)

“GPT-5 ایک بہت بڑا قدم ہے۔ اس نے ہماری اندرونی بینچ مارکنگ میں واحد ماڈل کی حیثیت سے اب تک کی بہترین کارکردگی حاصل کی۔ GPT-5 نے مختلف ایجنٹک کاموں میں بہترین کارکردگی دکھائی—یہاں تک کہ کسی کوڈ یا ہدایات میں معمولی سی تبدیلی کیے بغیر۔ نئے پری ایمبلز اور ٹول کے استعمال پر زیادہ درست کنٹرول نے ہمارے ایجنٹس کی استحکام اور ہدایت لینے میں قابل ہونے میں نمایاں بہتری پیدا کی۔”
ییچاؤ ‘پیک’ جی، شریک بانی و چیف سائنٹسٹ، Manus

ہدایات پر عمل کرنا

GPT‑5 ہدایات کی پیروی اپنے تمام سابقہ ماڈلز سے زیادہ قابلِ اعتماد طریقے سے کرتا ہے، COLLIE، Scale MultiChallenge، اور ہماری اندرونی ہدایات پر عمل کرنے والی جانچ میں اعلیٰ اسکور حاصل کرتے ہوئے۔

COLLIE (نئی ونڈو میں کھلتا ہے)میں، ماڈلز کو ایسا متن میں لکھنا ہوتا ہے جو مختلف پابندیوں پر پورا اترے۔ Scale MultiChallenge(نئی ونڈو میں کھلتا ہے) میں، ماڈلز کو multi-turn گفتگو میں پچھلے پیغامات سے چار قسم کی معلومات کو درست طور پر استعمال کرنے کا چیلنج دیا جاتا ہے۔ ہمارے اسکور o3‑mini کو بطور grader استعمال کرنے سے حاصل ہوئے، جو GPT‑4o کے مقابلے میں زیادہ درست تھا۔ ہماری اندرونی OpenAI API instruction following eval میں، ماڈلز کو حقیقی ڈیویلپر فیڈبیک سے اخذ کی گئی مشکل ہدایات پر عمل کرنا ہوتا ہے۔ Reasoning ماڈلز کو high reasoning effort پر چلایا گیا۔

ٹول کالنگ

ہم نے ڈیویلپرز کے لئے اہم پہلوؤں میں ٹول کالنگ کو بہتر بنانے کے لئے بہت محنت کی۔ GPT‑5 ٹول انسٹرکشنز کو زیادہ درستگی سے فالو کرتا ہے، ٹول ایررز کو بہتر انداز میں ہینڈل کرتا ہے، اور سلسلہ وار یا متوازی طور پر متعدد ٹول کالز خود کار طریقے سے کر سکتا ہے۔ جب ہدایت دی جائے، GPT‑5 طویل ایجنٹک ٹاسکس کے دوران ٹول کالز سے پہلے اور درمیان پری ایمبل میسیجز دکھا کر صارف کو پیش رفت سے آگاہ بھی کر سکتا ہے۔

دو ماہ قبل τ²-bench telecom، Sierra.ai کی جانب سے ایک مشکل ٹول استعمال بینچ مارک کے طور پر شائع ہوا تھا، جس نے یہ واضح کیا کہ جب ماڈل ایسے ماحول سے تعامل کرتا ہے جس کی حالت صارفین تبدیل کر سکتے ہیں، تو کارکردگی نمایاں طور پر کم ہو جاتی ہے۔ ان کے پبلیکیشن(نئی ونڈو میں کھلتا ہے) میں کسی ماڈل نے 49% سے زیادہ اسکور نہیں کیا تھا۔ GPT‑5 کا اسکور 97% ہے۔

τ2-bench(نئی ونڈو میں کھلتا ہے) میں، ماڈل کو ایک کسٹمر سروس ٹاسک مکمل کرنے کے لیے ٹولز استعمال کرنا لازمی ہوتا ہے—جہاں ایک صارف موجود ہو سکتا ہے جو بات چیت بھی کر سکے اور دنیا کی state پر ایکشنز بھی لے سکے۔ Reasoning ماڈلز کو high reasoning effort کے تحت چلایا گیا۔

GPT‑5 طویل کانٹیکسٹ کارکردگی میں بھی نمایاں بہتری دکھاتا ہے۔ OpenAI-MRCR—جو طویل کانٹیکسٹ میں معلومات کی تلاش کی پیمائش ہے—پر GPT‑5 نے o3 اور GPT‑4.1 کو پیچھے چھوڑا، اور یہ فرق بڑے ان پٹ سائز پر مزید بڑھ جاتا ہے۔

OpenAI-MRCR(نئی ونڈو میں کھلتا ہے) (multi-round co-reference resolution) میں، متعدد یکساں “needle” صارف درخواستیں ایک طویل “haystack” جیسی مشابہہ درخواستوں اور جوابات کے اندر شامل کی جاتی ہیں، اور ماڈل سے کہا جاتا ہے کہ وہ i-th needle کا جواب دوبارہ فراہم کرے۔ Mean match ratio ماڈل کے جواب اور درست جواب کے درمیان اوسط string match ratio کو ماپتا ہے۔ 256k زیادہ سے زیادہ input tokens پر دکھائے گئے پوائنٹس 128k تا 256k input tokens کے اوسط نتائج کی نمائندگی کرتے ہیں، اور اسی طرح آگے۔ یہاں 256k کا مطلب ہے 256 * 1,024 = 262,114 ٹوکنز۔ Reasoning ماڈلز کو high reasoning effort کے تحت چلایا گیا۔

ہم BrowseComp Long Context(نئی ونڈو میں کھلتا ہے) کو بھی اوپن سورس کر رہے ہیں، جو طویل کانٹیکسٹ Q&A کی جانچ کے لئے نیا بینچ مارک ہے۔ اس بینچ مارک میں ماڈل کو صارف کا سوال، متعلقہ سرچ نتائج کی طویل فہرست دی جاتی ہے، اور اسے انہی نتائج کی بنیاد پر جواب دینا ہوتا ہے۔ ہم نے BrowseComp Long Context کو حقیقت پر مبنی، مشکل، اور درست ground truth جوابات کے ساتھ ڈیزائن کیا ہے۔ 128K–256K ٹوکن کے ان پٹس پر GPT‑5، 89% مواقع پر درست جواب دیتا ہے۔

API میں، تمام GPT‑5 ماڈلز زیادہ سے زیادہ 272,000 ان پٹ ٹوکن قبول کر سکتے ہیں، اور 128,000 ریزننگ و آؤٹ پٹ ٹوکن پیدا کر سکتے ہیں—یوں کل کانٹیکسٹ لمبائی 400,000 ٹوکن بنتی ہے۔

حقانیت

GPT‑5 ہمارے پچھلے ماڈلز کے مقابلے میں زیادہ قابلِ اعتماد ہے۔ LongFact اور FactScore بینچ مارکس پر GPT‑5، o3 کے مقابلے میں تقریباً 80% کم فیکچوئل غلطیاں کرتا ہے۔ یہ اسے ان ایجنٹک استعمالات کے لئے زیادہ موزوں بناتا ہے جن میں درستگی اہم ہو—خصوصاً کوڈ، ڈیٹا، اور فیصلہ سازی میں۔

زیادہ اسکور کا مطلب کم کارکردگی ہے۔ LongFact(نئی ونڈو میں کھلتا ہے) اور FactScore (نئی ونڈو میں کھلتا ہے)اوپن اینڈڈ fact-seeking سوالات پر مشتمل ہیں۔ ہم ان بینچ مارکس کے پرامپٹس پر جوابات کو فیکٹ چیک کرنے کے لیے browsing کے ساتھ ایک LLM-based grader استعمال کرتے ہیں، اور فیکچوئلی غلط دعووں کے تناسب کو ناپتے ہیں۔ Implementation اور grading کی تفصیلات system card میں دیکھی جا سکتی ہیں۔ Reasoning ماڈلز میں high reasoning effort استعمال کی گئی۔ سرچ فعال نہیں تھی۔

عمومی طور پر، GPT‑5 کو اس کی اپنی حدود سے زیادہ باخبر اور غیر متوقع صورتحال کو بہتر طور پر سنبھالنے کے لئے تربیت دی گئی ہے۔ ہم نے GPT‑5 کو صحت سے متعلق سوالات میں بھی زیادہ درستگی کے لئے تربیت دیا ہے (مزید تفصیل کے لئے ریسرچ بلاگ ملاحظہ کریں)۔ تمام لینگویج ماڈلز کی طرح، ہم مشورہ دیتے ہیں کہ انتہائی حساس یا اہم معاملات میں GPT‑5 کے نتائج کی ضرور تصدیق کی جائے۔

نئے فیچرز

کم سے کم ریزننگ کی کوشش

ڈیویلپرز API میں reasoning_effort پیرا میٹر کے ذریعے GPT‑5 کی سوچ کا وقت کنٹرول کر سکتے ہیں۔ پہلے سے موجود low، medium (ڈیفالٹ)، اور high کے علاوہ، GPT‑5 اب minimal بھی سپورٹ کرتا ہے—جس سے ماڈل کم سے کم reasoning کے ساتھ تیزی سے جواب دیتا ہے۔

reasoning_effort کی زیادہ ویلیوز معیار بڑھاتی ہیں، جبکہ کم ویلیوز رفتار بڑھاتی ہیں۔ ہر ٹاسک اضافی reasoning سے یکساں فائدہ نہیں اٹھاتا، اس لئے ہم مشورہ دیتے ہیں کہ اپنے استعمال کے مطابق تجربہ کریں۔

مثال کے طور پر، relatively simple طویل کانٹیکسٹ retrieval میں low سے اوپر reasoning زیادہ فائدہ نہیں دیتی، مگر CharXiv Reasoning(نئی ونڈو میں کھلتا ہے) (ایک visual reasoning بینچ مارک) میں اس کے کئی فیصد پوائنٹس بڑھ جاتے ہیں۔

GPT‑5 کی reasoning effort مختلف ٹاسکس پر مختلف فوائد فراہم کرتی ہے۔ CharXiv Reasoning میں GPT‑5 کو ایک python ٹول تک رسائی دی گئی تھی۔

Verbosity

جوابات کی عمومی طوالت کو کنٹرول کرنے کے لئے ہم نے verbosity پیرا میٹر شامل کیا ہے، جو low، medium (ڈیفالٹ)، اور high ویلیوز قبول کرتا ہے۔ اگر صریح ہدایات verbosity سے متصادم ہوں، تو صریح ہدایات کو ترجیح دی جائے گی۔ مثلاً: اگر آپ GPT‑5 سے کہیں "5 پیراگراف کا مضمون لکھیں"، تو جواب ہمیشہ 5 پیراگراف پر مشتمل ہوگا—چاہے verbosity کچھ بھی ہو (البتہ پیراگراف لمبے یا مختصر ہو سکتے ہیں)۔

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ٹول کالز سے پہلے پری ایمبل میسیجز

اگر ہدایت دی جائے، GPT‑5 ٹول کالز سے پہلے اور درمیان صارف کو واضح پری ایمبل میسیجز دکھائے گا۔ hidden reasoning میسیجز کے برعکس، یہ ظاہر ہونے والے میسیجز GPT‑5 کو اس قابل بناتے ہیں کہ وہ صارف تک اپنے پلان اور پیش رفت کو واضح طور پر پہنچا سکے، جس سے اختتامی صارفین ٹول کالز کے پیچھے اس کی حکمتِ عملی اور ارادے کو بہتر طور پر سمجھ پاتے ہیں۔

کسٹم ٹولز

ہم ایک نئے قسم کا ٹول—custom tools—متعارف کرا رہے ہیں، جو GPT‑5 کو یہ صلاحیت دیتے ہیں کہ وہ JSON کے بجائے براہِ راست plaintext استعمال کرکے کسی ٹول کو کال کر سکے۔ GPT‑5 کو custom tool فارمیٹس پربالکل درست طریقے سے عمل کرنے کا پابند بنانے کے لیے، ڈیویلپرز ایک regex فراہم کر سکتے ہیں، یا پھر اس سے بھی زیادہ تفصیل کے ساتھ بیان کردہ context-free grammar(نئی ونڈو میں کھلتا ہے) دے سکتے ہیں۔

ماضی میں، ڈیویلپرز کے بنائے ہوئے ٹولز کے لیے ہمارا انٹرفیس یہ تقاضا کرتا تھا کہ انہیں لازمی JSON کے ذریعے کال کیا جائے، جو کہ ویب APIs اور ڈیویلپرز کے درمیان عام طور پر استعمال ہونے والا فارمیٹ ہے۔ تاہم، درست JSON آؤٹ پٹ کرنے کے لیے ماڈل کو تمام quotation marks، backslashes، newline کریکٹرز اور دیگر control characters کو بالکل درست طریقے سے escape کرنا ضروری ہوتا ہے۔ اگرچہ ہمارے ماڈلز JSON آؤٹ پٹ دینے کے لیے اچھی طرح تربیت یافتہ ہیں، لیکن جب ان پٹس بہت لمبے ہوں—جیسے سیکڑوں لائنز کا کوڈ یا پانچ صفحات کی رپورٹ—تو غلطی ہونے کے امکانات بڑھ جاتے ہیں۔ custom tools کے استعمال سے GPT‑5 ٹول ان پٹس کو براہِ راست plaintext میں لکھ سکتا ہے، بغیر اس کے کہ اسے ان تمام کریکٹرز کو escape کرنا پڑے جنہیں عام طور پر escape کرنا ضروری ہوتا ہے۔

SWE-bench Verified پر، جب JSON ٹولز کے بجائے custom tools استعمال کیے گئے، تو GPT‑5 نے تقریباً وہی اسکور حاصل کیا۔

حفاظت

GPT‑5 سیفٹی کے میدان میں نئی سرحدیں قائم کرتا ہے اور ایک زیادہ مضبوط، قابلِ اعتماد، اور مددگار ماڈل ہے۔ GPT‑5 ہمارے پچھلے ماڈلز کے مقابلے میں نمایاں طور پر کم ہیلوسینیٹ کرتا ہے، اپنے ایکشنز اور صلاحیتوں کو صارف تک زیادہ ایمانداری سے پہنچاتا ہے، اور جہاں ممکن ہو وہاں سب سے مددگار جواب فراہم کرتا ہے—اس کے باوجود کہ وہ سیفٹی حدود کے اندر رہتا ہے۔ اس بارے میں مزید ہماری ریسرچ بلاگ میں پڑھا جا سکتا ہے۔

دستیابی اور قیمتیں

GPT‑5 اب API پلیٹ فارم پر تین سائز میں دستیاب ہے: gpt-5، gpt-5-mini، اور gpt-5-nano۔ یہ Responses API، Chat Completions API پر دستیاب ہے، اور Codex CLI میں بطور ڈیفالٹ شامل ہے۔ GPT‑5 کی قیمت $1.25 فی 1M input tokens اور $10 فی 1M output tokens ہے، GPT‑5 mini کی قیمت $0.25 فی 1M input tokens اور $2 فی 1M output tokens ہے، اور GPT‑5 nano کی قیمت $0.05 فی 1M input tokens اور $0.40 فی 1M output tokens ہے۔

یہ ماڈلز reasoning_effort اور verbosity جیسے API پیرامیٹرز کے ساتھ ساتھ custom tools کو بھی سپورٹ کرتے ہیں۔ یہ parallel tool calling، بلٹ اِن ٹولز (web search، file search، image generation وغیرہ)، بنیادی API فیچرز (streaming، Structured Outputs وغیرہ)، اور prompt caching اور Batch API جیسے cost-saving فیچرز کو بھی سپورٹ کرتے ہیں۔

ChatGPT میں استعمال ہونے والا GPT‑5 کا non-reasoning ورژن API میں gpt-5-chat-latest کے نام سے دستیاب ہے، اور اس کی قیمت بھی $1.25 فی 1M input tokens اور $10 فی 1M output tokens ہے۔

GPT‑5 Microsoft کے مختلف پلیٹ فارمز پر بھی لانچ ہو رہا ہے، جن میں Microsoft 365 Copilot، Copilot، GitHub Copilot، اور Azure AI Foundry شامل ہیں۔

تفصیلی بینچ مارکس

انٹیلی جنس
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)۹۴٫۶%۹۱٫۱%۸۵٫۲%۸۸٫۹%۹۲٫۷%۴۶٫۴%۴۰٫۲%-
FrontierMath(with python tool only)۲۶٫۳%۲۲٫۱%۹٫۶%۱۵٫۸%۱۵٫۴%---
GPQA diamond(no tools)۸۵٫۷%۸۲٫۳%۷۱٫۲%۸۳٫۳%۸۱٫۴%۶۶٫۳%۶۵٫۰%۵۰٫۳%
HLE[1](no tools)۲۴٫۸%۱۶٫۷%۸٫۷%۲۰٫۲%۱۴٫۷%۵٫۴%۳٫۷%-
HMMT 2025(no tools)۹۳٫۳%۸۷٫۸%۷۵٫۶%۸۱٫۷%۸۵٫۰%۲۸٫۹%۳۵٫۰%-

[1] ہمارے پچھلے بلاگ پوسٹ میں رپورٹ کردہ نمبروں کے ساتھ ایک چھوٹا سا فرق موجود ہے، کیونکہ وہ HLE کے سابقہ ورژن پر چلائے گئے تھے۔

ملٹی موڈل
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU۸۴٫۲%۸۱٫۶%۷۵٫۶%۸۲٫۹%۸۱٫۶%۷۴٫۸%۷۲٫۷%۵۵٫۴%
MMMU-Pro(avg across standard and vision sets)۷۸٫۴%۷۴٫۱%۶۲٫۶%۷۶٫۴%۷۳٫۴%۶۰٫۳%۵۸٫۹%۳۳٫۰%
CharXiv reasoning(python enabled)۸۱٫۱%۷۵٫۵%۶۲٫۷%۷۸٫۶%۷۲٫۰%۵۶٫۷%۵۶٫۸%۴۰٫۵%
VideoMMMU, max frame 256۸۴٫۶%۸۲٫۵%۶۶٫۸%۸۳٫۳%۷۹٫۴%۶۰٫۹%۵۵٫۱%۳۰٫۲%
ERQA۶۵٫۷%۶۲٫۹%۵۰٫۱%۶۴٫۰%۵۶٫۵%۴۴٫۳%۴۲٫۳%۲۶٫۵%
کوڈنگ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$۱٫۱ لاکھ$۷۵ ہزار$۴۹ ہزار$۸۶ ہزار$۶۶ ہزار$۳۴ ہزار$۳۱ ہزار$۹ ہزار
SWE-bench Verified[2]۷۴٫۹%۷۱٫۰%۵۴٫۷%۶۹٫۱%۶۸٫۱%۵۴٫۶%۲۳٫۶%-
Aider polyglot(diff)۸۸٫۰%۷۱٫۶%۴۸٫۴%۷۹٫۶%۵۸٫۲%۵۲٫۹%۳۱٫۶%۶٫۲%

[2] ہم 23/500 مسائل کو شامل نہیں کرتے جو ہمارے انفراسٹرکچر پر چل نہیں سکے۔ مکمل 23 حذف شدہ ٹاسکس کی فہرست یہ ہے:ایسٹروپائی__ایسٹروپائی-7606 (astropy__astropy-7606)،ایسٹروپائی__ایسٹروپائی-8707 (astropy__astropy-8707)،ایسٹروپائی__ایسٹروپائی-8872 (astropy__astropy-8872)،جینگو__جینگو-10097 (django__django-10097)،جینگو__جینگو-7530 (django__django-7530)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-20488 (matplotlib__matplotlib-20488)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-20676 (matplotlib__matplotlib-20676)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-20826 (matplotlib__matplotlib-20826)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-23299 (matplotlib__matplotlib-23299)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-24970 (matplotlib__matplotlib-24970)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-25479 (matplotlib__matplotlib-25479)،میٹ پلوٹ لِب__میٹ پلوٹ لِب-26342 (matplotlib__matplotlib-26342)،پی-ایس-ایف__ریکویسٹس-6028 (psf__requests-6028)،پائی لنٹ-ڈیو__پائی لنٹ-6528 (pylint-dev__pylint-6528)،پائی لنٹ-ڈیو__پائی لنٹ-7080 (pylint-dev__pylint-7080)،پائی لنٹ-ڈیو__پائی لنٹ-7277 (pylint-dev__pylint-7277)،پائی ٹیسٹ-ڈیو__پائی ٹیسٹ-5262 (pytest-dev__pytest-5262)،پائی ٹیسٹ-ڈیو__پائی ٹیسٹ-7521 (pytest-dev__pytest-7521)،سائکیٹ-لرن__سائکیٹ-لرن-12973 (scikit-learn__scikit-learn-12973)،سفنکس-ڈاک__سفنکس-10466 (sphinx-doc__sphinx-10466)،سفنکس-ڈاک__سفنکس-7462 (sphinx-doc__sphinx-7462)،سفنکس-ڈاک__سفنکس-8265 (sphinx-doc__sphinx-8265)،اور سفنکس-ڈاک__سفنکس-9367 (sphinx-doc__sphinx-9367)۔

ہدایات پر عمل کرنا
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)۶۹٫۶%۶۲٫۳%۵۴٫۹%۶۰٫۴%۵۷٫۵%۴۶٫۲%۴۲٫۲%۳۱٫۱%
Internal API instruction following eval(hard)۶۴٫۰%۶۵٫۸%۵۶٫۱%۴۷٫۴%۴۴٫۷%۴۹٫۱%۴۵٫۱%۳۱٫۶%
COLLIE۹۹٫۰%۹۸٫۵%۹۶٫۹%۹۸٫۴%۹۶٫۱%۶۵٫۸%۵۴٫۶%۴۲٫۵%

[3] نوٹ: ہمیں معلوم ہوتا ہے کہ MultiChallenge (GPT-4o) میں موجود ڈیفالٹ گریڈر اکثر ماڈل کے جوابات کو غلط اسکور کرتا ہے۔ ہم پاتے ہیں کہ گریڈر کو reasoning ماڈل، جیسے o3-mini، سے تبدیل کرنے سے ان نمونوں پر گریڈنگ کی درستگی میں نمایاں بہتری آتی ہے جن کا ہم نے جائزہ لیا ہے۔

فنکشن کالنگ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline۶۲٫۶%۶۰٫۰%۴۱٫۰%۶۴٫۸%۶۰٫۲%۵۶٫۰%۵۱٫۰%۱۴٫۰%
Tau2-bench retail۸۱٫۱%۷۸٫۳%۶۲٫۳%۸۰٫۲%۷۰٫۵%۷۴٫۰%۶۶٫۰%۲۱٫۵%
Tau2-bench telecom۹۶٫۷%۷۴٫۱%۳۵٫۵%۵۸٫۲%۴۰٫۵%۳۴٫۰%۴۴٫۰%۱۲٫۱%
طویل سیاق و سباق
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k۹۵٫۲%۸۴٫۳%۴۳٫۲%۵۵٫۰%۵۶٫۴%۵۷٫۲%۴۷٫۲%۳۶٫۶%
OpenAI-MRCR: 2 needle 256k۸۶٫۸%۵۸٫۸%۳۴٫۹%--۵۶٫۲%۴۵٫۵%۲۲٫۶%
Graphwalks bfs <128k۷۸٫۳%۷۳٫۴%۶۴٫۰%۷۷٫۳%۶۲٫۳%۶۱٫۷%۶۱٫۷%۲۵٫۰%
Graphwalks parents <128k۷۳٫۳%۶۴٫۳%۴۳٫۸%۷۲٫۹%۵۱٫۱%۵۸٫۰%۶۰٫۵%۹٫۴%
BrowseComp Long Context 128k۹۰٫۰%۸۹٫۴%۸۰٫۴%۸۸٫۳%۸۰٫۰%۸۵٫۹%۸۹٫۰%۸۹٫۴%
BrowseComp Long Context 256k۸۸٫۸%۸۶٫۰%۶۸٫۴%--۷۵٫۵%۸۱٫۶%۱۹٫۱%
VideoMME(long, with subtitle category)۸۶٫۷%۷۸٫۵%۶۵٫۷%۸۴٫۹%۷۹٫۵%۷۸٫۷%۶۸٫۴%۵۵٫۲%
فریبِ نظر
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]۱٫۰%۰٫۷%۱٫۰%۵٫۲%۳٫۰%۰٫۷%۱٫۱%-
LongFact-Objects hallucination rate(no tools)[lower is better]۱٫۲%۱٫۳%۲٫۸%۶٫۸%۸٫۹%۱٫۱%۱٫۸%-
FActScore hallucination rate(no tools)[lower is better]۲٫۸%۳٫۵%۷٫۳%۲۳٫۵%۳۸٫۷%۶٫۷%۱۰٫۹%-

مصنف

OpenAI