۲۶ اسفند ۱۴۰۴

معرفی GPT‑5.4 مینی و نانو

مدل‌های سریع و کارآمد که برای کدنویسی و زیرعامل‌ها بهینه‌سازی شده‌اند

در حال بارگذاری…

امروز GPT‑5.4 مینی و نانو را عرضه می‌کنیم، توانمندترین مدل‌های کوچک ما تا کنون. آن‌ها بسیاری از نقاط قوت GPT‑5.4 را به مدل‌های سریع‌تر و مؤثرتر که برای بارهای کاری با حجم بالا طراحی شده‌اند، می‌آورند.

GPT‑5.4 مینی نسبت به GPT‑5 مینی در زمینهٔ کدنویسی، استدلال، درک چندوجهی و استفاده از ابزارها به‌طور چشمگیری بهبود یافته است، در حالی که بیش از ۲ برابر سریع‌تر اجرا می‌شود. همچنین در چندین ارزیابی، از جمله SWE-Bench Pro و OSWorld-Verified، به عملکرد مدل بزرگ‌تر GPT‑5.4 نزدیک می‌شود.

GPT‑5.4 نانو کوچک‌ترین و ارزان‌ترین نسخه GPT‑5.4 برای کارهایی است که در آن‌ها سرعت و هزینه بیشترین اهمیت را دارند. این همچنین یک ارتقای قابل توجه نسبت به GPT‑5 نانو است. ما آن را برای رده‌بندی، استخراج داده، رتبه‌بندی، و زیرعامل‌های کدنویسی که وظایف پشتیبانی ساده‌تر را بر عهده دارند، توصیه می‌کنیم.

این مدل‌ها برای انواع بارهای کاری ساخته شده‌اند که در آن‌ها تأخیر مستقیماً تجربه محصول را شکل می‌دهد: دستیارهای کدنویسی که باید پاسخ‌گو به نظر برسند، زیرعامل‌هایی که به‌سرعت وظایف پشتیبان را تکمیل می‌کنند، سامانه‌های استفاده از کامپیوتر که اسکرین‌شات‌ها را ثبت و تفسیر می‌کنند، و برنامه‌های چندوجهی که می‌توانند در لحظه روی تصاویر استدلال کنند. در این تنظیمات، بهترین مدل اغلب بزرگ‌ترین مدل نیست—بلکه مدلی است که می‌تواند سریع پاسخ دهد، از ابزارها به‌طور قابل اعتماد استفاده کند، و همچنان در انجام وظایف حرفه‌ای پیچیده عملکرد خوبی داشته باشد.

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

^{1 بیشترین مقدار reasoning_effort موجود برای GPT‑5 مینی «بالا» است.}

در اینجا نظر مشتریان ما پس از آزمودن GPT‑5.4 مینی و نانو در جریان کارشان آمده است:

«GPT-5.4 مینی برای یک مدل در این رده، عملکرد قوی سرتاسری ارائه می‌دهد.» در ارزیابی‌های ما، در چندین وظیفه خروجی و یادآوری استنادها با مدل‌های رقیب برابری کرد یا از آن‌ها فراتر رفت، با هزینه‌ای بسیار کمتر. همچنین به نرخ‌های قبولی سرتاسری بالاتر و انتساب منبع قوی‌تری نسبت به مدل بزرگ‌تر GPT-5.4 دست یافت.

— Aabhas Sharma، مدیر ارشد فناوری در Hebbia

برنامه‌نویسی

GPT‑5.4 مینی و نانو به‌ویژه در جریان‌های کاریِ برنامه‌نویسی که از تکرار سریع و اصلاح‌های پی‌درپی بهره می‌برند، بسیار مؤثر عمل می‌کنند. مدل‌ها ویرایش‌های هدفمند، پیمایش در پایگاه کد، تولید فرانت‌اند و چرخه‌های اشکال‌زدایی را با تأخیر کم مدیریت می‌کنند و همین آن‌ها را برای وظایف کدنویسی‌ای که باید با سرعت‌های بالاتر و هزینه‌های کمتر تکمیل شوند، به گزینه‌ای بسیار مناسب تبدیل می‌کند.

در بنچمارک‌ها، GPT‑5.4 مینی به‌طور مداوم با زمان‌های تأخیر مشابه از GPT‑5‑مینی عملکرد بهتری نشان می‌دهد و به سطح عملکرد GPT‑5.4 نزدیک می‌شود. نرخ‌های قبولی را در حالی که بسیار سریع‌تر اجرا می‌شود افزایش می‌دهد و یکی از بهترین مصالحه‌های عملکرد-به-تأخیر را برای جریان‌های کاری کدنویسی ارائه می‌کند.

ما تأخیر را با بررسی رفتار مدل‌های خود در محیط تولید برآورد می‌کنیم و این را به‌صورت آفلاین شبیه‌سازی می‌کنیم. برآورد تأخیر، مدت‌زمان فراخوانی ابزار (زمان اجرای کد)، توکن‌های نمونه‌گیری‌شده و توکن‌های ورودی را در نظر می‌گیرد. تأخیر در دنیای واقعی ممکن است به‌طور قابل‌توجهی متفاوت باشد و به عوامل بسیاری بستگی دارد که در شبیه‌سازی ما لحاظ نشده‌اند. به‌طور مشابه، هزینه‌ها بر اساس قیمت‌گذاری API این مدل‌ها در زمان نگارش برآورد می‌شوند. هزینه‌ها ممکن است در آینده تغییر کنند. تلاش‌های استدلال از سطح پایین به سطح بسیار بالا تغییر داده شدند.

زیرعامل‌ها

GPT‑5.4 مینی همچنین برای سیستم‌هایی که مدل‌هایی با اندازه‌های مختلف را ترکیب می‌کنند، انتخاب بسیار مناسبی است. مثلاً در Codex، یک مدل بزرگ‌تر مانند GPT‑5.4 می‌تواند برنامه‌ریزی، هماهنگی و قضاوت نهایی را بر عهده بگیرد، در حالی که انجام کار را به زیرکارگزارهای GPT‑5.4 مینی واگذار می‌کند که زیرکارهای محدودتر را به‌صورت موازی انجام می‌دهند—مانند جست‌وجو در یک پایگاه کد، بازبینی یک فایل بزرگ یا پردازش اسناد پشتیبان. در مستندات⁠(در یک پنجره جدید باز می‌شود) ببینید که زیرعامل‌ها در Codex چگونه کار می‌کنند.

این الگو با سریع‌تر و توانمندتر شدن مدل‌های کوچک‌تر، مفیدتر می‌شود. به‌جای استفاده از یک مدل برای همه‌چیز، توسعه‌دهندگان می‌توانند سامانه‌هایی بسازند که در آن‌ها مدل‌های بزرگ‌تر تصمیم می‌گیرند چه کاری انجام شود و مدل‌های کوچک‌تر به‌سرعت و در مقیاس گسترده اجرا می‌کنند. GPT‑5.4 مینی قوی‌ترین مدل مینی ما تا به حال برای آن سبک از گردش کار است.

استفاده از کامپیوتر

GPT‑5.4 مینی همچنین در وظایف چندوجهی عملکرد قدرتمندی دارد، به‌ویژه در کارهایی که به استفاده از رایانه مربوط می‌شوند. مدل می‌تواند به‌سرعت عکس‌های صفحه رابط‌های کاربریِ متراکم را تفسیر کند تا وظایف استفاده از کامپیوتر را با سرعت انجام دهد. در OSWorld-Verified، GPT‑5.4 مینی به GPT‑5.4 نزدیک می‌شود، در حالی که به‌طور قابل‌توجهی از GPT‑5 مینی عملکرد بهتری دارد.

در دسترس بودن و قیمت گذاری

GPT‑5.4 مینی از امروز در API، Codex و ChatGPT در دسترس است.

در API، GPT‑5.4 مینی از ورودی‌های متنی و تصویری، استفاده از ابزار، درخواست عملکرد، جستجوی وب، جستجوی فایل، استفاده از رایانه و مهارت‌ها پشتیبانی می‌کند. این مدل دارای پنجره زمینه ۴۰۰k است و هزینه آن ۰.۷۵ دلار به ازای هر ۱ میلیون توکن ورودی و ۴.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی است.

در Codex، GPT‑5.4 مینی در سراسر برنامه Codex، رابط خط فرمان (CLI)، افزونه IDE و وب در دسترس است. این فقط از ۳۰٪ سهمیه GPT‑5.4 استفاده می‌کند که به توسعه‌دهندگان امکان می‌دهد کارهای ساده‌تر کدنویسی را در Codex با حدود یک‌سوم هزینه به‌سرعت انجام دهند. Codex همچنین می‌تواند انجام کارها را به زیرعامل‌های GPT‑5.4 مینی واگذار کند تا کارهای کم‌نیازتر به استدلال روی مدل ارزان‌تر اجرا شوند.

در ChatGPT، GPT‑5.4 مینی از طریق قابلیت «تفکر» در + منو برای کاربران رایگان و Go در دسترس است. برای سایر کاربران، GPT‑5.4 مینی به‌عنوان گزینهٔ پشتیبانِ محدودیت نرخ برای GPT‑5.4 Thinking در دسترس است.

GPT‑5.4 نانو فقط در API در دسترس است و هزینه آن ۰.۲۰ دلار به ازای هر ۱ میلیون توکن ورودی و ۱.۲۵ دلار به ازای هر ۱ میلیون توکن خروجی است.

برای اطلاعات بیشتر درباره تمهیدات ایمنی مدل‌ها، لطفاً به ضمیمه کارت سیستم در مرکز ایمنی استقرار⁠(در یک پنجره جدید باز می‌شود) ما مراجعه کنید.

Coding

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

Tool-calling

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

Intelligence

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

MM / Vision / CUA

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

Long context

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%