آج ہم GPT‑5.4 mini اور nano کا اجراء کر رہے ہیں، جو اب تک کے ہمارے سب سے باصلاحیت چھوٹے ماڈل ہیں. وہ GPT‑5.4 کی بہت سی خوبیوں کو تیز تر، زیادہ موثر ماڈلز میں لاتے ہیں جو اعلٰی حجم کے کام کے بوجھ کے لیے بنائے گئے ہیں.
GPT‑5.4 mini کوڈنگ، ریزننگ، ملٹی موڈل سمجھ اور ٹول کے استعمال میں GPT‑5 mini کے مقابلے میں نمایاں طور پر بہتر ہے، جبکہ یہ 2x سے زیادہ تیز چلتا ہے. یہ کئی جائزوں میں، جن میں SWE-Bench Pro اور OSWorld-Verified شامل ہیں، بڑے GPT‑5.4 ماڈل کی کارکردگی کے قریب بھی پہنچتا ہے.
GPT‑5.4 nano اُن کاموں کے لیے GPT‑5.4 کا سب سے چھوٹا اور تیز ترین ورژن ہے جہاں رفتار اور لاگت سب سے زیادہ اہم ہوں. یہ GPT‑5 nano کے مقابلے میں بھی ایک نمایاں اپ گریڈ ہے. ہم درجہ بندی، ڈیٹا نکالنے، درجہ بندی اور کوڈنگ سب ایجنٹس کے لیے تجویز کرتے ہیں جو آسان معاون کاموں کو سنبھالتے ہیں.
یہ ماڈلز ان ورک لوڈز کے لیے بنائے گئے ہیں جہاں تاخیر براہِ راست پروڈکٹ کے تجربے کو متاثر کرتی ہے: کوڈنگ اسسٹنٹس جو فوری ردعمل فراہم کریں، سب ایجنٹس جو تیزی سے معاون کام مکمل کریں، کمپیوٹر سسٹمز جو اسکرین شاٹس کو کیپچر اور تشریح کریں اور ملٹی موڈل ایپلیکیشنز جو حقیقی وقت میں تصاویر پر تجزیہ کریں. ان سیٹنگز میں، بہترین ماڈل اکثر سب سے بڑا نہیں ہوتا—یہ وہ ہوتا ہے جو تیزی سے جواب دے سکتا ہو، ٹولز کو قابل اعتماد طریقے سے استعمال کر سکتا ہو اور پھر بھی پیچیدہ پیشہ ورانہ ٹاسکس پر اچھی کارکردگی دکھا سکے.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini کے لیے دستیاب سب سے 'زیادہ' reasoning_effort ہے.
یہ ہے کہ ہمارے صارفین نے اپنے ورک فلو میں GPT‑5.4 mini اور nano کو آزمانے کے بعد کیا رائے دی:
"GPT-5.4 mini اس درجہ کے ماڈل کے لیے مضبوط ایک سرے سے دوسرے تک کارکردگی فراہم کرتا ہے. ہماری تشخیص میں یہ کئی آؤٹ پٹ ٹاسک اور حوالہ یاد کاری میں مسابقتی ماڈل کے برابر یا اس سے بہتر ثابت ہوا اور بہت کم لاگت پر. اس نے بڑے GPT-5.4 ماڈل کے مقابلے میں زیادہ ایک سرے سے دوسرے تک پاس ریٹس اور زیادہ مضبوط ماخذ انتساب بھی حاصل کیا.
GPT‑5.4 mini اور nano خاص طور پر اُن کوڈنگ ورک فلو میں مؤثر ہیں جو تیز تکرار سے فائدہ اٹھاتے ہیں. ماڈل کم لیٹنسی کے ساتھ ہدفی ایڈیٹس، کوڈ بیس نیویگیشن، فرنٹ اینڈ جنریشن اور ڈیبگنگ لوپس کو ہینڈل کرتے ہیں، جس سے وہ اُن کوڈنگ ٹاسکس کے لیے ایک مضبوط انتخاب بن جاتے ہیں جو تیز رفتار اور کم لاگت پر مکمل کیے جا سکتے ہیں.
بینچ مارکس میں، GPT‑5.4 mini مسلسل طور پر ملتی جلتی لیٹنسیز پر GPT‑5‑mini سے بہتر کارکردگی دکھاتا ہے اور GPT‑5.4‑سطح کے قریب پہنچتا ہے زیادہ تیزی سے چلتے ہوئے پاس ریٹس برقرار رکھتے ہوئے، کوڈنگ ورک فلوز کے لیے کارکردگی-بمقابلہ-لیٹنسی کے بہترین سمجھوتوں میں سے ایک فراہم کرتا ہے.
ہم اپنے ماڈلز کے پروڈکشن طرزِ عمل کو دیکھ کر تاخیر (لیٹنسی) کا اندازہ لگاتے ہیں اور اسے آف لائن سمیولیٹ کرتے ہیں. تاخیر کے تخمینے میں ٹول کال کی مدّت (کوڈ کے نفاذ کا وقت)، سیمپل کردہ ٹوکنز اور ان پٹ ٹوکنز شامل ہیں. حقیقی دنیا کی لیٹنسی میں نمایاں طور پر فرق ہو سکتا ہے اور یہ بہت سے ایسے عوامل پر منحصر ہے جو ہماری سمولیشن میں شامل نہیں ہیں. اسی طرح، لاگت کا تخمینہ تحریر کے وقت ان ماڈل کی API کی قیمتوں کا تعین کی بنیاد پر لگایا جاتا ہے. مستقبل میں لاگت میں تبدیلی آ سکتی ہے. ریزننگ کوششوں کو کم سے xhigh تک بڑھا دیا گیا.
GPT‑5.4 mini ان سسٹمز کے لیے بھی ایک مضبوط انتخاب ہے جو مختلف سائز کے ماڈل کو یکجا کرتے ہیں. Codex میں، مثال کے طور پر، GPT‑5.4 جیسا بڑا ماڈل منصوبہ بندی، ہم آہنگی اور حتمی فیصلہ سنبھال سکتا ہے، جبکہ GPT‑5.4 mini سب ایجنٹس کو تفویض کرتا ہے جو زیادہ محدود ذیلی کام متوازی طور پر سنبھالتے ہیں—جیسے کسی کوڈبیس میں تلاش کرنا، ایک بڑی فائل کا جائزہ لینا، یا معاون دستاویزات کو پروسیس کرنا. ڈوکس(نئی ونڈو میں کھلتا ہے) میں جانیں کہ Codex میں سب ایجنٹس کیسے کام کرتے ہیں.
جیسے جیسے چھوٹے ماڈل زیادہ تیز اور زیادہ قابل ہوتے جائیں گے، یہ پیٹرن زیادہ مفید ہوتا جائے گا. ہر چیز کے لیے ایک ہی ماڈل استعمال کرنے کے بجائے، ڈویلپر ایسے سسٹمز ترتیب دے سکتے ہیں جہاں بڑے ماڈل یہ فیصلہ کریں کہ کیا کرنا ہے اور چھوٹے ماڈل بڑے پیمانے پر تیزی سے عمل درآمد کریں. GPT‑5.4 mini اس طرز کے ورک فلو کے لیے ہمارا اب تک کا مضبوط ترین mini ماڈل ہے.
GPT‑5.4 mini ملٹی موڈل کاموں میں بھی مضبوط ہے، خاص طور پر وہ جو کمپیوٹر کے استعمال سے متعلق ہوں. ماڈل گھنے صارف انٹرفیس کے اسکرین شاٹس کی تیزی سے تشریح کر سکتا ہے تاکہ کمپیوٹر استعمال کے کام تیزی سے مکمل کیے جا سکیں. OSWorld-Verified پر، GPT‑5.4 mini، GPT‑5.4 کے قریب پہنچتا ہے جبکہ GPT‑5 mini سے نمایاں طور پر بہتر کارکردگی دکھاتا ہے.
GPT‑5.4 mini آج API، Codex اور ChatGPT میں دستیاب ہے.
API میں، GPT‑5.4 mini ٹیکسٹ اور امیج ان پٹس، ٹول استعمال، فنکشن کالنگ، ویب سرچ، فائل سرچ، کمپیوٹر استعمال اور اسکلز کو سپورٹ کرتا ہے. اس میں 400k کانٹیکسٹ ونڈو ہے اور اس کی لاگت فی 1M ان پٹ ٹوکن $0.75 اور فی 1M آؤٹ پٹ ٹوکن $4.50 ہے.
Codex میں، GPT‑5.4 mini Codex ایپ، CLI، IDE ایکسٹینشن اور ویب پر دستیاب ہے. یہ GPT‑5.4 کا صرف 30% استعمال کرتا ہے کوٹا، جس سے ڈویلپرز Codex میں نسبتاً آسان کوڈنگ ٹاسکس کو تقریباً ایک تہائی لاگت پر تیزی سے سنبھال سکتے ہیں. Codex، GPT‑5.4 mini سب ایجنٹس کو بھی تفویض کر سکتا ہے تاکہ کم ریزننگ والا کام سستے ماڈل پر چل سکے.
ChatGPT میں، GPT‑5.4 mini + مینو میں موجود "Thinking" فیچر کے ذریعے Free اور Go صارفین کے لیے دستیاب ہے. دیگر تمام صارفین کے لیے، GPT‑5.4 mini GPT‑5.4 کے لیے ریٹ لِمٹ فال بیک کے طور پر دستیاب ہے Thinking.
GPT‑5.4 nano صرف API میں دستیاب ہے اور اس کی قیمت $0.20 فی 1M ان پٹ ٹوکن اور $1.25 فی 1M آؤٹ پٹ ٹوکن ہے.
ماڈلز کے حفاظتی اقدامات کے بارے میں مزید معلومات کے لیے، براہ کرم ہمارے تعیناتی سیفٹی ہب(نئی ونڈو میں کھلتا ہے) پر سسٹم کارڈ کے ضمیمہ کو ملاحظہ کریں..
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini کے لیے دستیاب سب سے 'زیادہ' reasoning_effort ہے.
2 مجموعی ایڈٹ ڈسٹنس. OmniDocBench کو `reasoning_effort` کو 'کوئی نہیں' پر سیٹ کر کے چلایا گیا، تاکہ کم لاگت، کم تاخیر والی کارکردگی کی عکاسی ہو سکے.


