امروز GPT‑5.4 مینی و نانو را عرضه میکنیم، توانمندترین مدلهای کوچک ما تا کنون. آنها بسیاری از نقاط قوت GPT‑5.4 را به مدلهای سریعتر و مؤثرتر که برای بارهای کاری با حجم بالا طراحی شدهاند، میآورند.
GPT‑5.4 مینی نسبت به GPT‑5 مینی در زمینهٔ کدنویسی، استدلال، درک چندوجهی و استفاده از ابزارها بهطور چشمگیری بهبود یافته است، در حالی که بیش از ۲ برابر سریعتر اجرا میشود. همچنین در چندین ارزیابی، از جمله SWE-Bench Pro و OSWorld-Verified، به عملکرد مدل بزرگتر GPT‑5.4 نزدیک میشود.
GPT‑5.4 نانو کوچکترین و ارزانترین نسخه GPT‑5.4 برای کارهایی است که در آنها سرعت و هزینه بیشترین اهمیت را دارند. این همچنین یک ارتقای قابل توجه نسبت به GPT‑5 نانو است. ما آن را برای ردهبندی، استخراج داده، رتبهبندی، و زیرعاملهای کدنویسی که وظایف پشتیبانی سادهتر را بر عهده دارند، توصیه میکنیم.
این مدلها برای انواع بارهای کاری ساخته شدهاند که در آنها تأخیر مستقیماً تجربه محصول را شکل میدهد: دستیارهای کدنویسی که باید پاسخگو به نظر برسند، زیرعاملهایی که بهسرعت وظایف پشتیبان را تکمیل میکنند، سامانههای استفاده از کامپیوتر که اسکرینشاتها را ثبت و تفسیر میکنند، و برنامههای چندوجهی که میتوانند در لحظه روی تصاویر استدلال کنند. در این تنظیمات، بهترین مدل اغلب بزرگترین مدل نیست—بلکه مدلی است که میتواند سریع پاسخ دهد، از ابزارها بهطور قابل اعتماد استفاده کند، و همچنان در انجام وظایف حرفهای پیچیده عملکرد خوبی داشته باشد.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 بیشترین مقدار reasoning_effort موجود برای GPT‑5 مینی «بالا» است.
در اینجا نظر مشتریان ما پس از آزمودن GPT‑5.4 مینی و نانو در جریان کارشان آمده است:
«GPT-5.4 مینی برای یک مدل در این رده، عملکرد قوی سرتاسری ارائه میدهد.» در ارزیابیهای ما، در چندین وظیفه خروجی و یادآوری استنادها با مدلهای رقیب برابری کرد یا از آنها فراتر رفت، با هزینهای بسیار کمتر. همچنین به نرخهای قبولی سرتاسری بالاتر و انتساب منبع قویتری نسبت به مدل بزرگتر GPT-5.4 دست یافت.
GPT‑5.4 مینی و نانو بهویژه در جریانهای کاریِ برنامهنویسی که از تکرار سریع و اصلاحهای پیدرپی بهره میبرند، بسیار مؤثر عمل میکنند. مدلها ویرایشهای هدفمند، پیمایش در پایگاه کد، تولید فرانتاند و چرخههای اشکالزدایی را با تأخیر کم مدیریت میکنند و همین آنها را برای وظایف کدنویسیای که باید با سرعتهای بالاتر و هزینههای کمتر تکمیل شوند، به گزینهای بسیار مناسب تبدیل میکند.
در بنچمارکها، GPT‑5.4 مینی بهطور مداوم با زمانهای تأخیر مشابه از GPT‑5‑مینی عملکرد بهتری نشان میدهد و به سطح عملکرد GPT‑5.4 نزدیک میشود. نرخهای قبولی را در حالی که بسیار سریعتر اجرا میشود افزایش میدهد و یکی از بهترین مصالحههای عملکرد-به-تأخیر را برای جریانهای کاری کدنویسی ارائه میکند.
ما تأخیر را با بررسی رفتار مدلهای خود در محیط تولید برآورد میکنیم و این را بهصورت آفلاین شبیهسازی میکنیم. برآورد تأخیر، مدتزمان فراخوانی ابزار (زمان اجرای کد)، توکنهای نمونهگیریشده و توکنهای ورودی را در نظر میگیرد. تأخیر در دنیای واقعی ممکن است بهطور قابلتوجهی متفاوت باشد و به عوامل بسیاری بستگی دارد که در شبیهسازی ما لحاظ نشدهاند. بهطور مشابه، هزینهها بر اساس قیمتگذاری API این مدلها در زمان نگارش برآورد میشوند. هزینهها ممکن است در آینده تغییر کنند. تلاشهای استدلال از سطح پایین به سطح بسیار بالا تغییر داده شدند.
GPT‑5.4 مینی همچنین برای سیستمهایی که مدلهایی با اندازههای مختلف را ترکیب میکنند، انتخاب بسیار مناسبی است. مثلاً در Codex، یک مدل بزرگتر مانند GPT‑5.4 میتواند برنامهریزی، هماهنگی و قضاوت نهایی را بر عهده بگیرد، در حالی که انجام کار را به زیرکارگزارهای GPT‑5.4 مینی واگذار میکند که زیرکارهای محدودتر را بهصورت موازی انجام میدهند—مانند جستوجو در یک پایگاه کد، بازبینی یک فایل بزرگ یا پردازش اسناد پشتیبان. در مستندات(در یک پنجره جدید باز میشود) ببینید که زیرعاملها در Codex چگونه کار میکنند.
این الگو با سریعتر و توانمندتر شدن مدلهای کوچکتر، مفیدتر میشود. بهجای استفاده از یک مدل برای همهچیز، توسعهدهندگان میتوانند سامانههایی بسازند که در آنها مدلهای بزرگتر تصمیم میگیرند چه کاری انجام شود و مدلهای کوچکتر بهسرعت و در مقیاس گسترده اجرا میکنند. GPT‑5.4 مینی قویترین مدل مینی ما تا به حال برای آن سبک از گردش کار است.
GPT‑5.4 مینی همچنین در وظایف چندوجهی عملکرد قدرتمندی دارد، بهویژه در کارهایی که به استفاده از رایانه مربوط میشوند. مدل میتواند بهسرعت عکسهای صفحه رابطهای کاربریِ متراکم را تفسیر کند تا وظایف استفاده از کامپیوتر را با سرعت انجام دهد. در OSWorld-Verified، GPT‑5.4 مینی به GPT‑5.4 نزدیک میشود، در حالی که بهطور قابلتوجهی از GPT‑5 مینی عملکرد بهتری دارد.
GPT‑5.4 مینی از امروز در API، Codex و ChatGPT در دسترس است.
در API، GPT‑5.4 مینی از ورودیهای متنی و تصویری، استفاده از ابزار، درخواست عملکرد، جستجوی وب، جستجوی فایل، استفاده از رایانه و مهارتها پشتیبانی میکند. این مدل دارای پنجره زمینه ۴۰۰k است و هزینه آن ۰.۷۵ دلار به ازای هر ۱ میلیون توکن ورودی و ۴.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی است.
در Codex، GPT‑5.4 مینی در سراسر برنامه Codex، رابط خط فرمان (CLI)، افزونه IDE و وب در دسترس است. این فقط از ۳۰٪ سهمیه GPT‑5.4 استفاده میکند که به توسعهدهندگان امکان میدهد کارهای سادهتر کدنویسی را در Codex با حدود یکسوم هزینه بهسرعت انجام دهند. Codex همچنین میتواند انجام کارها را به زیرعاملهای GPT‑5.4 مینی واگذار کند تا کارهای کمنیازتر به استدلال روی مدل ارزانتر اجرا شوند.
در ChatGPT، GPT‑5.4 مینی از طریق قابلیت «تفکر» در + منو برای کاربران رایگان و Go در دسترس است. برای سایر کاربران، GPT‑5.4 مینی بهعنوان گزینهٔ پشتیبانِ محدودیت نرخ برای GPT‑5.4 Thinking در دسترس است.
GPT‑5.4 نانو فقط در API در دسترس است و هزینه آن ۰.۲۰ دلار به ازای هر ۱ میلیون توکن ورودی و ۱.۲۵ دلار به ازای هر ۱ میلیون توکن خروجی است.
برای اطلاعات بیشتر درباره تمهیدات ایمنی مدلها، لطفاً به ضمیمه کارت سیستم در مرکز ایمنی استقرار(در یک پنجره جدید باز میشود) ما مراجعه کنید.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 بیشترین مقدار reasoning_effort موجود برای GPT‑5 مینی «بالا» است.
۲ فاصله ویرایش کلی. OmniDocBench با reasoning_effort روی 'none' تنظیم شده اجرا شد تا عملکرد کمهزینه و با تأخیر کم را بازتاب دهد.


