پرش به محتوای اصلی
OpenAI

۱۴ اسفند ۱۴۰۴

محصولانتشار

معرفی GPT‑5.4

طراحی‌شده برای کارهای حرفه‌ای

در حال بارگذاری…

امروز، ما GPT‑5.4 را در ChatGPT عرضه می‌کنیم (به‌عنوان GPT‑5.4 Thinking)، API و Codex. این توانمندترین و کارآمدترین مدل پیشرو ما برای کار حرفه‌ای است. ما همچنین GPT‑5.4 Pro را در ChatGPT و API برای افرادی عرضه می‌کنیم که برای انجام وظایف پیچیده به حداکثر عملکرد نیاز دارند.

GPT‑5.4 بهترین دستاوردهای اخیر ما در استدلال، کدنویسی و جریان‌های کاری عامل‌محور را در یک مدل پیشرو واحد گرد هم می‌آورد. این مدل قابلیت‌های کدنویسی پیشرو در صنعت از GPT‑5.3‑Codex را در خود ادغام می‌کند و در عین حال نحوه کار مدل در ابزارها، محیط‌های نرم‌افزاری و وظایف حرفه‌ای مرتبط با صفحه‌گسترده‌ها، ارائه‌ها و اسناد را بهبود می‌دهد. نتیجه، مدلی است که کارهای پیچیده واقعی را با دقت و کارایی انجام می‌دهد و آنچه درخواست کرده‌اید را با رفت‌وبرگشت کمتر ارائه می‌کند.

در ChatGPT، GPT‑5.4 اکنون Thinking می‌تواند از همان ابتدا یک برنامه از روند فکر کردنش ارائه کند، تا شما در میانه پاسخ مسیر را تنظیم نمایید در حالی که در حال کار است، و به خروجی نهایی‌ای برسید که بدون نوبت‌های اضافی، بیشتر با آنچه نیاز دارید هم‌راستا باشد. GPT‑5.4 Thinking همچنین پژوهش عمیق در وب را بهبود می‌دهد، به ویژه برای پرس‌وجوهای بسیار خاص، و در عین حال زمینه را برای پرسش‌هایی که به تفکر طولانی‌تر نیاز دارند بهتر حفظ می‌کند. با هم، این بهبودها به این معناست که پاسخ‌هایی با کیفیت بالاتر سریع‌تر ارائه می‌شوند و برای وظیفه پیشِ‌رو مرتبط باقی می‌مانند.

در Codex و API، GPT‑5.4 نخستین مدل همه‌منظوره‌ای است که با قابلیت‌های بومی و پیشرفته استفاده از کامپیوتر منتشر کرده‌ایم و به عامل‌ها امکان می‌دهد کامپیوترها را به کار بگیرند و گردش‌کارهای پیچیده را در میان برنامه‌ها انجام دهند. از ۱ میلیون توکن زمینه پشتیبانی می‌کند و به عامل‌ها اجازه می‌دهد وظایف را در افق‌های زمانی طولانی برنامه‌ریزی، اجرا و تأیید کنند. GPT‑5.4 همچنین نحوهٔ کار مدل‌ها را در اکوسیستم‌های بزرگ ابزارها و اتصال‌دهنده‌ها با قابلیت جستجوی ابزار بهبود می‌دهد و به عامل‌ها کمک می‌کند ابزارهای مناسب را کارآمدتر پیدا کرده و استفاده کنند. در نهایت، GPT‑5.4 کارآمدترین مدل استدلالی ما از نظر مصرف توکن تا امروز است و در مقایسه با GPT‑5.2 برای حل مسائل از توکن‌های به مراتب کمتری استفاده می‌کند—که به کاهش مصرف توکن و سرعت‌های بالاتر منجر می‌شود.

همراه با پیشرفت‌ها در استدلال عمومی، کدنویسی و کارهای دانشی حرفه‌ای، GPT‑5.4 عامل‌های قابل‌اعتمادتر، جریان‌های کاری سریع‌تر برای توسعه‌دهندگان و خروجی‌های باکیفیت‌تر را در سراسر ChatGPT، API و Codex ممکن می‌کند.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (بردها یا تساوی‌ها)

۸۳.۰٪

۷۰.۹٪

۷۰.۹٪

SWE-Bench Pro (عمومی)

۵۷.۷٪

56.8%

۵۵.۶٪

OSWorld-Verified

۷۵.۰٪

۷۴.۰%* 

47.3%

Toolathlon

54.6%

۵۱.۹٪

۴۶.۳٪

BrowseComp

۸۲.۷٪

77.3%

۶۵.۸٪

*قبلاً به‌میزان ۶۴.۷٪ گزارش شده بود. GPT‑5.3‑Codex با بهره‌گیری از پارامتر تازه‌ای در API که وضوح اصلی تصویر را حفظ می‌کند، به امتیاز ۷۴.۰٪ می‌رسد.

کار دانش محور

بر اساس قابلیت‌های استدلال عمومی GPT‑5.2 GPT‑5.4 نتایجی حتی سازگارتر و صیقل‌یافته‌تر را در وظایف دنیای واقعی که برای متخصصان اهمیت دارند، ارائه می‌دهد.

در GDPval، که توانایی عامل‌ها را برای تولید کارهای دانش‌محور به‌خوبی مشخص‌شده در ۴۴ شغل می‌آزماید، GPT‑5.4 به یک استاندارد جدید پیشرفته دست می‌یابد و در 83.0% از مقایسه‌ها با متخصصان صنعت برابری کرده یا از آن‌ها پیشی می‌گیرد، در مقایسه با 71.0% برای GPT‑5.2.

در GDPval، مدل‌ها تلاش می‌کنند تا کارهای دانش‌بنیان بسیار مشخصی را انجام دهند که ۴۴ شغل از ۹ صنعت برتر را که به تولید ناخالص داخلی ایالات متحده کمک می‌کنند، دربرمی‌گیرد. وظایف، محصولات واقعی کاری را درخواست می‌کنند، مانند ارائه‌های فروش، صفحات گسترده حسابداری، برنامه‌های مراقبت فوری، نمودارهای تولید، یا ویدیوهای کوتاه. تلاش استدلال برای GPT‑5.4 روی سطح بسیار بالا و برای GPT‑5.2 روی سطح سنگین تنظیم شد. (یک سطح کمی پایین‌تر در ChatGPT).

“GPT-5.4 بهترین مدلی است که تاکنون امتحان کرده‌ایم. اکنون در صدر جدول رتبه‌بندی بنچمارک APEX-Agents ما قرار دارد؛ بنچمارکی که عملکرد مدل را برای کارهای خدمات حرفه‌ای اندازه‌گیری می‌کند. این مدل در تولید خروجی‌های بلندمدت مانند اسلایدها، مدل‌های مالی و تحلیل‌های حقوقی عملکرد بسیار خوبی دارد و در عین حال با سرعت بیشتر و هزینه کمتر نسبت به مدل‌های پیشرفته رقیب اجرا می‌شود.
— Brendan Foody، مدیر عامل در Mercor

ما تمرکز ویژه‌ای بر بهبود توانایی GPT‑5.4 برای ایجاد و ویرایش صفحه‌گسترده‌ها، ارائه‌ها و اسناد داریم. در یک بنچمارک داخلی از وظایف مدل‌سازی صفحه گسترده که یک تحلیلگر جوان بانکداری سرمایه‌گذاری ممکن است انجام دهد، GPT‑5.4 به میانگین امتیاز ۸۷.۵٪ دست می‌یابد، در مقایسه با ۶۸.۴٪ برای GPT‑5.2. در مجموعه‌ای از اعلان‌های ارزیابی ارائه، ارزیاب‌های انسانی ۶۸.۰٪ مواقع ارائه‌های GPT‑5.4 را به‌دلیل زیبایی‌شناسی قوی‌تر، تنوع بصری بیشتر، و استفاده مؤثرتر از تولید تصویر، به ارائه‌های GPT‑5.2 ترجیح دادند.

نمونه مقایسه کنارهم از خروجی‌های صفحه‌گسترده از GPT-5.2 در برابر GPT-5.4

اسناد با تلاش استدلال روی xhigh تنظیم‌شده تولید شدند

شما می‌توانید این قابلیت‌ها را در ChatGPT با استفاده از GPT‑5.4 امتحان کنید Thinking یا Pro. اگر مشتری Enterprise هستید، توصیه می‌کنیم از افزونه‌های تازه‌منتشرشده ChatGPT برای Excel و Google Sheets(در یک پنجره جدید باز می‌شود) استفاده کنید که امروز نیز عرضه شده‌اند. ما همچنین مهارت‌های صفحه‌گسترده(در یک پنجره جدید باز می‌شود) و ارائه(در یک پنجره جدید باز می‌شود) خود را که در Codex و API در دسترس هستند به‌روزرسانی کرده‌ایم.

برای ساخت GPT‑5.4 در کارهای دنیای واقعی بهتر، ما به پیشرفت خود در کاهش توهم‌ها و خطاها ادامه دادیم. GPT‑5.4 واقعی‌ترین مدل ما تا به امروز است: در مجموعه‌ای از پرامپت‌های ناشناس‌سازی‌شده که کاربران در آن‌ها خطاهای واقعی را علامت‌گذاری کرده بودند، ادعاهای فردی 33% کمتر احتمال دارد که نادرست باشند و پاسخ‌های کامل آن 18% کمتر احتمال دارد که حاوی هرگونه خطا باشند، نسبت به GPT‑5.2.

“GPT-5.4 معیار جدیدی برای کارهای حقوقیِ سنگین از نظر اسناد تعیین می‌کند. در ارزیابی BigLaw Bench ما، امتیاز 91% را کسب کرد. در مقایسه با سایر مدل‌ها، GPT-5.4 در حال حاضر در ساختاربندی تحلیل‌های معاملاتی پیچیده، حفظ دقت در سراسر قراردادهای طولانی، و ارائه سطح بالای جزئیاتی که متخصصان حقوقی نیاز دارند بهتر است.”
— نیکو گروپن، رئیس پژوهش‌های کاربردی در Harvey

استفاده از کامپیوتر و بینایی

GPT‑5.4 اولین مدل همه‌منظوره ما با قابلیت‌های استفاده از کامپیوتر به‌صورت بومی است و گامی بزرگ رو به جلو برای توسعه‌دهندگان و عامل‌ها به‌شمار می‌آید. این بهترین مدلِ موجود در حال حاضر برای توسعه‌دهندگانی است که عامل‌هایی می‌سازند که وظایف واقعی را در سراسر وب‌سایت‌ها و سیستم‌های نرم‌افزاری تکمیل می‌کنند.

ما GPT‑5.4 را طوری طراحی کرده‌ایم که در طیف گسترده‌ای از بارهای کاریِ استفاده از کامپیوتر، عملکرد بالایی داشته باشد. در نوشتن کد برای کار کردن با کامپیوتر از طریق کتابخانه‌هایی مانند Playwright، و همچنین صدور فرمان‌های ماوس و صفحه‌کلید در پاسخ به عکس‌های صفحه، عالی عمل می‌کند. رفتار آن از طریق پیام‌های توسعه‌دهنده قابل هدایت است، به این معنا که توسعه‌دهندگان می‌توانند رفتار را طوری تنظیم کنند که با موارد استفاده خاص سازگار باشد. توسعه‌دهندگان حتی می‌توانند با مشخص کردن سیاست‌های تأیید سفارشی، رفتار ایمنی مدل را متناسب با سطوح مختلف میزان ریسک‌پذیری پیکربندی کنند.

عملکرد و انعطاف‌پذیری مدل در میان بنچمارک‌هایی که استفاده از رایانه را در تنظیمات مختلف می‌سنجند، منعکس می‌شود. در OSWorld-Verified، که توانایی یک مدل را برای پیمایش یک محیط دسکتاپ از طریق اسکرین‌شات‌ها و اقدامات صفحه‌کلید/ماوس می‌سنجد، GPT‑5.4 به نرخ موفقیت پیشرفته 75.0% دست می‌یابد نرخ موفقیت، بسیار فراتر از GPT‑5.2’s 47.3%، و پیشی گرفتن از عملکرد انسان در 72.4%.1

در WebArena-Verified که استفاده از مرورگر را می‌سنجد، GPT‑5.4 هنگام استفاده از تعامل مبتنی بر DOM و اسکرین‌شات، به نرخ موفقیت پیشروِ 67.3% دست می‌یابد، در مقایسه با 65.4% برای GPT‑5.2. در Online-Mind2Web، که استفاده از مرورگر را نیز می‌سنجد، GPT‑5.4 با تکیه صرف بر مشاهده‌های مبتنی بر اسکرین‌شات، به نرخ موفقیت 92.8% دست می‌یابد و نسبت به حالت عامل ChatGPT Atlas بهبود نشان می‌دهد؛ حالتی که به نرخ موفقیت 70.9% می‌رسد.

بازده ابزار (Tool yield) زمانی است که یک دستیار برای دریافت پاسخ از ابزار، اجرای خود را متوقف کرده و منتظر پاسخ ابزار می‌ماند. اگر ۳ ابزار به‌صورت موازی فراخوانی شوند و سپس ۳ ابزار دیگر به‌صورت موازی فراخوانی شوند، تعداد بازده‌ها ۲ خواهد بود. بازده‌های ابزار نسبت به فراخوانی‌های ابزار شاخص بهتری برای تأخیر هستند، زیرا مزایای موازی‌سازی را منعکس می‌کنند.

GPT‑5.4 اسکرین‌شات‌های یک رابط کاربری مرورگر را تفسیر می‌کند و از طریق کلیک مبتنی بر مختصات با عناصر رابط کاربری تعامل می‌کند تا ایمیل ارسال کند و یک رویداد تقویم را زمان‌بندی کند.

بهبود استفاده از کامپیوتر در GPT‑5.4 بر پایه قابلیت‌های بهبود یافته ادراک بصریِ عمومیِ مدل ساخته شده است. در MMMU-Pro، آزمونی از درک بصری و استدلالِ یک مدل، GPT‑5.4 بدون استفاده از ابزار به نرخ موفقیت 81.2% دست می‌یابد، بهبودی نسبت به GPT‑5.2’s 79.5%. بهبود در ادراک بصری همچنین به قابلیت‌های بهتر در تجزیه و تحلیل اسناد نیز منجر می‌شود. در OmniDocBench، GPT‑5.4 بدون تلاش استدلال به میانگین خطا (اندازه‌گیری‌شده با فاصله ویرایشی نرمال‌شده بین پیش‌بینی مدل و حقیقت مبنا) برابر با 0.109 می‌رسد که نسبت به 0.140 در GPT‑5.2 بهبود یافته است.

MMMUPro با تلاش استدلال روی xhigh اجرا شد. OmniDocBench با تلاش استدلال روی none تنظیم شده اجرا شد تا عملکرد کم‌هزینه و با تأخیر کم را بازتاب دهد.

ما همچنین در حال بهبود درک بصری برای تصاویر متراکم و با وضوح بالا هستیم، جایی که وفاداری کامل اهمیت دارد. از GPT‑5.4 به بعد، ما سطح original جزئیات ورودی(در یک پنجره جدید باز می‌شود) تصویر را معرفی می‌کنیم که ادراک با وفاداری کامل را تا سقف 10.24M پیکسلِ کل یا حداکثر بُعد 6000 پیکسل (هرکدام کمتر باشد) پشتیبانی می‌کند؛ سطح جزئیات ورودی تصویر high اکنون تا سقف 2.56M پیکسلِ کل یا حداکثر بُعد 2048 پیکسل را پشتیبانی می‌کند. در آزمایش‌های اولیه با کاربران API، مشاهده کردیم که هنگام استفاده از original یا high detail، بهبودهای چشمگیری در توانایی بومی‌سازی، درک تصویر و دقت کلیک حاصل می‌شود.

«در ارزیابی‌های ما که عملکرد استفاده از کامپیوتر را در حدود ۳۰ هزار پورتال HOA و مالیات بر املاک اندازه‌گیری می‌کنند، GPT-5.4 در اولین تلاش به نرخ موفقیت ۹۵٪ و در حداکثر سه تلاش به ۱۰۰٪ دست یافت، در مقایسه با حدود ۷۳–۷۹٪ در مدل‌های CUA. همچنین وظایف را حدود ۳ برابر سریع‌تر تکمیل کرد و در عین حال از حدود ۷۰٪ توکن کمتر استفاده کرد، که قابلیت اطمینان و کارایی هزینه را در مقیاس به‌طور چشمگیری بهبود داد.»
— Dod Fraser، مدیر عامل در Mainstay

در API، توسعه‌دهندگان می‌توانند با استفاده از ابزار به‌روزشده‌ی computer به این قابلیت‌ها دسترسی پیدا کنند. لطفاً برای بهترین شیوه‌های توصیه‌شده، مستندات به‌روزشده(در یک پنجره جدید باز می‌شود) ما را ببینید.

برنامه‌نویسی

GPT‑5.4 نقاط قوت کدنویسی GPT‑5.3‑Codex را با قابلیت‌های پیشرو در کارهای دانش محور و استفاده از کامپیوتر ترکیب می‌کند؛ قابلیت‌هایی که بیشترین اهمیت را در وظایف طولانی‌مدت دارند، جایی که مدل می‌تواند از ابزارها استفاده کند، تکرار کند و با مداخله دستی کمتر، کار را هر چه بیشتر پیش ببرد. این مدل در معیار سنجش SWE-Bench Pro عملکردی هم‌سطح یا حتی بهتر از GPT‑5.3‑Codex دارد و در عین حال در مراحل استدلال با تأخیر کمتری پاسخ می‌دهد.

ما تأخیر را با بررسی رفتار مدل‌های خود در محیط تولید برآورد می‌کنیم و این را به‌صورت آفلاین شبیه‌سازی می‌کنیم. برآورد تأخیر، مدت‌زمان فراخوانی ابزار (زمان اجرای کد)، توکن‌های نمونه‌گیری‌شده و توکن‌های ورودی را در نظر می‌گیرد. تأخیر در دنیای واقعی ممکن است به‌طور قابل‌توجهی متفاوت باشد و به عوامل بسیاری بستگی دارد که در شبیه‌سازی ما لحاظ نشده‌اند. تلاش‌های استدلال از none به xhigh تغییر داده شدند.

در Codex، حالت /fast در صورت فعال شدن سرعت تولید توکن را با GPT‑5.4 تا 1.5 برابر افزایش می‌دهد. این همان مدل و همان هوشمندی است، فقط سریع‌تر. این یعنی کاربران می‌توانند در حالی که در جریان کار باقی می‌مانند، از میان وظایف کدنویسی، تکرار و اشکال‌زدایی عبور کنند. توسعه‌دهندگان می‌توانند از طریق API با همان سرعت‌های بالا با استفاده از پردازش اولویت‌دار(در یک پنجره جدید باز می‌شود) به GPT‑5.4 دسترسی داشته باشند.

در ارزیابی و تست‌های داخلی دریافتیم که GPT‑5.4 در انجام وظایف پیچیده فرانت‌اند عالی عمل می‌کند و نتایجی به‌طور محسوس زیباتر و کاربردی‌تر از مدل‌هایی که پیش‌تر عرضه کرده‌ایم ارائه می‌دهد.

به عنوان نمایشی از قابلیت‌های بهبود‌یافته مدل در استفاده از کامپیوتر و کدنویسی که در کنار هم کار می‌کنند، ما همچنین یک مهارت آزمایشی Codex به نام “Playwright (Interactive)(در یک پنجره جدید باز می‌شود)” منتشر می‌کنیم. این به Codex اجازه می‌دهد اپ‌های وب و Electron را به‌صورت بصری اشکال‌زدایی کند؛ حتی می‌توان از آن برای آزمایش اپی که در حال ساختنش است، در همان حین ساختن آن استفاده کرد.

بازی شبیه‌سازی پارک تفریحی که با GPT‑5.4 از یک اعلان واحد با مشخصات اندک ساخته شده است و از Playwright Interactive برای پلی‌تست در مرورگر و از تولید تصویر برای مجموعه دارایی‌های ایزومتریک استفاده می‌کند. در این شبیه‌سازی، قرار دادن مسیرها بر اساس شبکi کاشی، ساخت وسایل و عناصر محیطی، مسیر‌یابی مهمان‌ها، صف‌بندی و چرخهٔ عملکرد وسایل وجود دارد؛ همچنین شاخص‌های پارک مانند پول، تعداد مهمان‌ها، میزان شادی، پاکیزگی و امتیاز کلی بسته به عملکرد چیدمان و واکنش مهمان‌ها افزایش یا کاهش می‌یابد. از Playwright برای خودکارسازی پلی‌تست‌های مرورگر استفاده شد؛ با ساختن و گسترش پارک، قرار دادن و برداشتن مسیرها و جاذبه‌ها، بررسی ناوبری دوربین، و راستی‌آزمایی اینکه مهمان‌ها، صف‌ها، وضعیت‌های سواری‌ها و معیارهای رابط کاربری در طول چندین دور بازی به‌درستی به‌روزرسانی می‌شدند.

اعلان: از $playwright-interactive و $imagegen استفاده کنید. یک بازی شبیه‌سازی پارک تفریحی ایزومتریک تعاملی بساز که بتوانم آن را در مرورگر بسازم و در آن حرکت کنم. از imagegen برای شکل‌دادن به چشم‌انداز بصری کلی و تولید دارایی‌های بازی مانند وسایل، مسیرها، زمین، درختان، آب، غرفه‌های غذا، تزئینات، ساختمان‌ها، آیکون‌ها و عناصر UI استفاده کن. دنیا باید یکپارچه، پرداخت‌شده و از نظر بصری غنی به نظر برسد، با کارگردانی هنری پریمیوم که از نمای ایزومتریک خوب عمل کند. بگذارید مسیرها را قرار دهم و حذف کنم، جاذبه‌ها را اضافه کنم، عناصر صحنه را جای‌گذاری کنم و در حالی که فعالیت مهمان‌ها، وضعیت وسایل بازی و رشد پارک را پایش می‌کنم، به‌نرمی در پارک حرکت کنم. حرکت باورپذیر مهمان‌ها، سیستم‌های ساده مدیریت پارک مثل پول، پاکیزگی، صف‌بندی و شادی را اضافه کنید و تجربه را بازیگوشانه، واضح و کامل جلوه دهید، نه شبیه یک نمونه اولیه خام. جذابیت، خوانایی و حس قوی بازی را بر واقع‌گرایی در اولویت قرار دهید. 

هنگام پلی‌تست، حتماً یک پارک را در چندین دور بازی بسازید و گسترش دهید، بررسی کنید که جانمایی و پیمایش روان کار می‌کنند، تأیید کنید که مهمان‌ها به چیدمان پارک و جاذبه‌ها واکنش نشان می‌دهند، و مطمئن شوید که تصاویر، رابط کاربری و تعاملات پایدار و منسجم به نظر می‌رسند.

“مهندسان ما GPT-5.4 را پیدا می‌کنند طبیعی‌تر و قاطع‌تر از مدل‌های قبلی . این مدل مسائل مبهم را بدون تردید در تصمیم‌های خود حل می‌کند و برای موازی‌سازی کارها به طور پیش‌دستانه عمل می‌کند تا روند کار متوقف نشود."
— Lee Robinson، معاون آموزش توسعه‌دهندگان در Cursor

استفاده از ابزار

با GPT‑5.4، ما نحوه کار مدل‌ها با ابزارهای خارجی را به طور قابل توجهی بهبود داده‌ایم. عامل‌ها اکنون می‌توانند در سراسر اکوسیستم‌های ابزار بزرگ‌تر عمل کنند، ابزارهای درست را با قابلیت اطمینان بیشتری انتخاب کنند و جریان‌های کاری چندمرحله‌ای را با هزینه و تأخیر کمتر تکمیل کنند.

جستجوی ابزار

در API، GPT‑5.4 قابلیت جستجوی ابزار(در یک پنجره جدید باز می‌شود) را معرفی می‌کند که به مدل‌ها اجازه می‌دهد هنگام دسترسی به ابزارهای متعدد کارآمدتر عمل کنند.

پیش‌تر، وقتی به یک مدل ابزار داده می‌شد، همهٔ تعاریف ابزار از ابتدا در دستور گنجانده می‌شدند. برای سیستم‌هایی با ابزارهای زیاد، این می‌تواند هزاران—یا حتی ده‌ها هزار—توکن به هر درخواست اضافه کند، هزینه را افزایش دهد، پاسخ‌ها را کندتر کند و زمینه را با اطلاعاتی شلوغ کند که ممکن است مدل هرگز از آن استفاده نکند.

با جستجوی ابزار، GPT‑5.4 در عوض فهرستی سبک از ابزارهای موجود را به‌همراه قابلیت جستجوی ابزار دریافت می‌کند. وقتی مدل نیاز دارد از یک ابزار استفاده کند، می‌تواند تعریف آن ابزار را جست‌وجو کند و در همان لحظه آن را به مکالمه پیوست کند.

این رویکرد به‌طور چشمگیری تعداد توکن‌های موردنیاز برای گردش‌های کاریِ پرابزار را کاهش می‌دهد و کش را حفظ می‌کند و باعث می‌شود درخواست‌ها سریع‌تر و ارزان‌تر شوند. همچنین به عامل‌ها امکان می‌دهد که به‌طور قابل‌اعتماد با اکوسیستم‌های ابزار بسیار بزرگ‌تر کار کنند. برای سرورهای MCP که ممکن است شامل ده‌ها هزار توکن از تعریف‌های ابزار باشند، افزایش بهره‌وری می‌تواند قابل‌توجه باشد.

برای نشان دادن افزایش بهره‌وری، ما ۲۵۰ وظیفه را از بنچمارک MCP Atlas(در یک پنجره جدید باز می‌شود) متعلق به Scale با فعال بودن هر ۳۶ سرور MCP در دو حالت ارزیابی کردیم: (۱) در معرض قرار دادن مستقیم هر تابع MCP در زمینه مدل، و (۲) قرار دادن همه سرورهای MCP پشت جست‌وجوی ابزار. پیکربندی جستجوی ابزار، میزان کل استفاده از توکن را 47% کاهش داد، در حالی که همان دقت را حفظ کرد.

تعداد توکن‌های نمونه از میانگین‌گیری ۲۵۰ وظیفه در مجموعه‌داده عمومی MCP-Atlas به‌دست می‌آیند.

فراخوانی ابزار عامل‌محور

GPT‑5.4 همچنین فراخوانی ابزار را بهبود می‌دهد و هنگام تصمیم‌گیری دربارهٔ اینکه چه زمانی و چگونه در طول استدلال از ابزارها استفاده کند، به‌ویژه در API، آن را دقیق‌تر و کارآمدتر می‌کند.  در مقایسه با GPT‑5.2، این مدل در معیار سنجش Toolathlon که میزان توانایی عامل‌های هوش مصنوعی در استفاده از ابزارها و APIs دنیای واقعی برای انجام وظایف چندمرحله‌ای را می‌سنجد، با تعداد تعاملات کمتر به دقت بالاتری دست می‌یابد. برای مثال، یک عامل باید ایمیل‌ها را بخواند، پیوست‌های تکلیف را استخراج کند، آن‌ها را بارگذاری کند، به آن‌ها نمره بدهد و نتایج را در یک صفحه گسترده ثبت کند.

بازده ابزار (Tool yield) زمانی است که یک دستیار برای دریافت پاسخ از ابزار، اجرای خود را متوقف کرده و منتظر پاسخ ابزار می‌ماند. اگر ۳ ابزار به‌صورت موازی فراخوانی شوند و سپس ۳ ابزار دیگر به‌صورت موازی فراخوانی شوند، تعداد بازده‌ها ۲ خواهد بود. بازده‌های ابزار نسبت به فراخوانی‌های ابزار شاخص بهتری برای تأخیر هستند، زیرا مزایای موازی‌سازی را منعکس می‌کنند.

برای موارد استفاده حساس به تأخیر که در آن‌ها حالت reasoning effort = None ترجیح داده می‌شود، GPT‑5.4 نسبت به نسخه‌های پیشین خود بهبودهای بیشتری ارائه می‌دهد.

در t2-bench(در یک پنجره جدید باز می‌شود)، یک مدل باید برای انجام یک وظیفه خدمات مشتری از ابزارها استفاده کند؛ جایی که ممکن است یک کاربر شبیه‌سازی‌شده وجود داشته باشد که بتواند ارتباط برقرار کند و اقداماتی را در وضعیت جهان انجام دهد. مقدار Reasoning effort روی None تنظیم شده است.

جستجوی وبِ بهبودیافته

GPT‑5.4 در جستجوی وب عامل‌محور بهتر است. در BrowseComp، معیاری از اینکه عامل‌های هوش مصنوعی تا چه حد می‌توانند به‌طور مداوم وب را برای یافتن اطلاعات دشوار برای پیدا کردن مرور کنند، GPT‑5.4 نسبت به GPT‑5.2 به میزان ۱۷٪ محض پیشرفت دارد و GPT‑5.4 Pro با امتیاز ۸۹.۳٪ رکورد جدیدی در بهترین عملکرد ثبت می‌کند.

در عمل، به این معناست که GPT‑5.4 Thinking در پاسخ دادن به پرسش‌هایی که نیاز به جمع‌آوری اطلاعات از منابع متعدد در وب دارند، قوی‌تر است. این قابلیت می‌تواند به‌صورت پایدارتر در چندین مرحله جستجو کند تا مرتبط‌ترین منابع را شناسایی کند، به‌ویژه برای پرسش‌هایی که پاسخ آن همچون «سوزنی در انبار کاه» است، و آن‌ها را در قالب پاسخی روشن و با استدلالی سنجیده تلفیق کند.

در BrowseComp، ما از یک فهرست مسدودسازی جست‌وجو استفاده کردیم که وب‌سایت‌های حاوی پاسخ‌های معیار را از ارزیابی کنار می‌گذاشت تا از آلودگی داده جلوگیری کرده و سنجشی منصفانه از عملکرد را تضمین کنیم. GPT‑5.4 در تاریخ دیرتری نسبت به GPT‑5.2 سنجیده شد، بنابراین نمرات تغییرات در مدل، سیستم جست‌وجوی ما و وضعیت اینترنت را منعکس می‌کنند. GPT‑5.4 با یک فهرست مسدودسازی طولانی‌تر و به‌روزشده آزمایش شد. مدل‌ها از ابزار جستجوی ChatGPT استفاده می‌کنند که می‌تواند تفاوت‌های کوچکی با جستجوی API داشته باشد.

"GPT-5.4 xhigh پیشرفته‌ترین سطح عملکرد برای استفاده چندمرحله‌ای از ابزارها را ارائه می‌دهد. Zapier برخی از سخت‌گیرانه‌ترین بنچمارک‌های استفاده از ابزار در صنعت را اجرا می‌کند و مدل‌ها را در صدها گردش‌کار پیشرفته و واقعی آزمایش می‌کند. GPT-5.4 کاری را تمام کرد که مدل‌های قبلی از آن دست کشیدند - پایدارترین مدل تا به امروز.”
— Wade، مدیر عامل Zapier

هدایت‌پذیری

مشابه اینکه Codex رویکرد خود را وقتی شروع به کار می‌کند تشریح می‌کند، GPT‑5.4 «Thinking» در ChatGPT اکنون برای پرسش‌های طولانی‌تر و پیچیده‌تر، کار خود را با یک مقدمه تشریح خواهد کرد. همچنین می‌توانید در میانه پاسخ، دستورالعمل‌های جدید اضافه کنید یا جهت پاسخ را تنظیم کنید. این کار هدایت مدل را به سمت نتیجه دقیق مورد نظر شما آسان‌تر می‌کند، بدون اینکه از نو شروع کنید یا به چندین نوبت اضافی دیگر نیاز باشد. این قابلیت اکنون در chatgpt.com(در یک پنجره جدید باز می‌شود) و اپلیکیشن Android در دسترس است و به‌زودی به اپلیکیشن iOS اضافه می‌شود.

این مدل همچنین می‌تواند روی وظایف دشوار مدت طولانی‌تری فکر کند، در حالی که آگاهی قوی‌تری از گام‌های پیشین در مکالمه را حفظ می‌کند. این قابلیت به آن امکان می‌دهد جریان‌های کاری طولانی‌تر و دستورهای پیچیده‌تر را مدیریت کند و در عین حال پاسخ‌ها را در تمام مراحل منسجم و مرتبط نگه دارد.

این ویدیو برای اهداف نمایشی سریع‌تر پخش شده است.

ایمنی

در ماه‌های اخیر، در حالی که GPT‑5.4 را برای استقرار آماده می‌کردیم، به بهبود تدابیر حفاظتی‌ای که با GPT‑5.3‑Codex معرفی کرده بودیم ادامه داده‌ایم. مشابه GPT‑5.3‑Codex، ما GPT‑5.4 را در چارچوب آمادگی خود در سطح توانمندی سایبری بالا در نظر می‌گیریم و آن را با تدابیر حفاظتی متناظر، همان‌طور که در کارت سیستم مستند شده است، مستقر می‌کنیم. این موارد شامل یک پشته‌ی ایمنی سایبری گسترش‌یافته است، از جمله سامانه‌های پایش، کنترل‌های دسترسی مطمئن، و مسدودسازی ناهمگام برای درخواست‌های پرریسک‌تر برای مشتریان روی سطوح عدم ذخیره داده (ZDR)، در کنار سرمایه‌گذاری مستمر در اکوسیستم امنیتی گسترده‌تر.

از آن‌جا که قابلیت‌های امنیت سایبری ذاتاً دارای استفاده دوگانه هستند، ما ضمن ادامه تنظیم سیاست‌ها و طبقه‌بندهای خود، رویکردی احتیاط‌آمیز نسبت به استقرار را حفظ می‌کنیم. برای برخی مشتریان در سطوح ZDR، مسدودسازی در سطح درخواست همچنان بخشی از سازوکار کاهش ریسک سایبری ما باقی می‌ماند؛ از آنجا که طبقه‌بندها هنوز در حال بهبود هستند، ممکن است در حالی که به اصلاح این تدابیر حفاظتی ادامه می‌دهیم، برخی مثبت‌های کاذب رخ دهد. این به‌روزرسانی‌ها با هدف بهبود نحوه عملکرد تدابیر حفاظتی در عمل انجام می‌شوند، از جمله کاهش رد درخواست‌های غیرضروری و پاسخ‌های بیش‌ازحد مشروط، در حالی که حفاظت‌های قوی در برابر سوءاستفاده را حفظ می‌کنند.

ما پژوهش‌های ایمنی خود را درباره قابلیت کنترل زنجیره تفکر (CoT) ادامه داده‌ایم تا بهتر درک کنیم مدل‌ها چگونه استدلال می‌کنند و به شناسایی رفتار نادرست بالقوه کمک کنیم. به‌عنوان بخشی از این کار، ما یک ارزیابی متن‌باز جدید به نام کنترل‌پذیری CoT معرفی می‌کنیم که بررسی می‌کند آیا مدل‌ها می‌توانند به‌طور عمدی استدلال خود را مبهم کنند تا از نظارت فرار کنند. ما دریافتیم که GPT‑5.4 توانایی Thinking برای کنترل CoT خود پایین است، که یک ویژگی مثبت برای ایمنی است و نشان می‌دهد که مدل توانایی پنهان کردن استدلال خود را ندارد و نظارت بر CoT همچنان یک ابزار ایمنی مؤثر باقی می‌ماند.

در دسترس بودن و قیمت‌گذاری

GPT‑5.4 امروز به‌تدریج در ChatGPT و Codex در حال عرضه است. در API، GPT‑5.4 اکنون به‌صورت gpt-5.4 در دسترس است. GPT‑5.4 نسخه Pro نیز در API با نام gpt-5.4-pro در دسترس است. برای توسعه‌دهندگانی که به حداکثر عملکرد در پیچیده‌ترین وظایف نیاز دارند.

در ChatGPT، GPT‑5.4 Thinking از امروز برای کاربران ChatGPT Plus، Team و Pro در دسترس است و جایگزین GPT‑5.2 می‌شود. Thinking. GPT‑Pro 5.2 مدل Thinking به مدت سه ماه برای کاربران پولی در بخش Legacy Models در انتخابگر مدل در دسترس خواهد ماند و پس از آن در تاریخ 5 ژوئن 2026 بازنشسته می‌شود. افرادی که در طرح‌های Enterprise و Edu هستند می‌توانند از طریق تنظیمات مدیر، دسترسی زودهنگام را فعال کنند. GPT‑5.4 Pro برای طرح‌های Pro و Enterprise در دسترس است. پنجره‌های زمینه(در یک پنجره جدید باز می‌شود) در ChatGPT برای GPT‑5.4 Thinking از GPT‑5.2 Thinking بدون تغییر باقی می‌ماند.

GPT‑5.4 اولین مدل استدلال اصلی ما است که قابلیت‌های کدنویسی پیشرو GPT‑5.3‑codex را در خود جای داده و در حال عرضه در سراسر ChatGPT، API و Codex است. ما آن را GPT‑5.4 می‌نامیم تا آن جهش را بازتاب دهد و انتخاب بین مدل‌ها را هنگام استفاده از Codex ساده‌تر کند. با گذشت زمان، می‌توانید انتظار داشته باشید مدل‌های Instant و مدل‌های Thinking ما با سرعت‌های متفاوتی تکامل پیدا کنند.

GPT‑5.4 در Codex شامل پشتیبانی آزمایشی از پنجره زمینه 1M است. توسعه‌دهندگان می‌توانند این را با پیکربندی model_context_window و model_auto_compact_token_limit امتحان کنند. درخواست‌هایی که از پنجره زمینه استاندارد ۲۷۲K فراتر می‌روند، با نرخ ۲x نسبت به حالت عادی در محدودیت‌های استفاده محاسبه می‌شوند.

در API، GPT‑5.4 به‌ازای هر توکن نسبت به GPT‑5.2 قیمت بالاتری دارد تا قابلیت‌های بهبودیافته‌اش را منعکس کند، در حالی که کارایی بیشتر توکن آن به کاهش تعداد کل توکن‌های موردنیاز برای بسیاری از کارها کمک می‌کند. قیمت‌های Batch و Flex با نصف نرخ استاندارد API در دسترس است، در حالی که پردازش با اولویت، با دو برابر نرخ استاندارد API ارائه می‌شود.

مدل API

قیمت ورودی

قیمت ورودی کش‌شده

قیمت خروجی

gpt-5.2

۱.۷۵ دلار / میلیون توکن

۱.۱۷۵ دلار / میلیون توکن

۱۴ دلار / میلیون توکن

gpt-5.4

۲.۵۰ دلار / میلیون توکن

۰.۲۵ دلار / میلیون توکن

۱۵ دلار / میلیون توکن

gpt-5.2-pro

۲۱ دلار / میلیون توکن

-

۱۶۸ دلار / میلیون توکن

gpt-5.4-pro

۳۰ دلار / میلیون توکن

-

۱۸۰ دلار / میلیون توکن

ارزیابی‌ها

حرفه‌ای

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

۷۰.۹٪

۷۰.۹٪

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

وظایف مدل‌سازی بانکداری سرمایه‌گذاری (داخلی)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

برنامه‌نویسی

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (عمومی)

57.7%

56.8%

۵۵.۶٪

Terminal-Bench 2.0

75.1%

77.3%

62.2%

استفاده از کامپیوتر و بینایی

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (بدون ابزار)

81.2%

79.5%

MMMU Pro (با ابزار)

82.1%

80.4%

استفاده از ابزار

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

اطلس MCP

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

دانشگاهی

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

پژوهش‌های علمی پیشرو

33.0%

36.7%

25.2%

FrontierMath سطح ۱–۳

47.6%

40.7%

FrontierMath سطح 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

۹۲.۴٪

۹۳.۲٪

آخرین آزمون بشریت (بدون ابزار)

39.8%

42.7%

34.5%

36.6%

آخرین آزمون بشریت (با ابزارها)

52.1%

58.7%

45.5%

50.0%

زمینه طولانی

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

گراف‌واک‌ها BFS ۰ هزار–۱۲۸ هزار

93.0%

94.0%

گراف‌واک‌ها BFS ۲۵۶ هزار–۱ میلیون

21.4%

والدهای Graphwalks ۰–۱۲۸ هزار (دقت)

89.8%

89.0%

والدین Graphwalks 256K–1M (دقت)

۳۲.۴٪

OpenAI MRCR v2 ۸ سوزن 4K–8K

97.3%

98.2%

OpenAI MRCR v2 ۸-سوزن ۸ هزار–۱۶ هزار

91.4%

89.3%

OpenAI MRCR v2 ۸-سوزن 16K–32K

97.2%

95.3%

OpenAI MRCR v2 ۸ سوزن 32K–64K

90.5%

92.0%

OpenAI MRCR v2 ۸ سوزن ۶۴ هزار–۱۲۸ هزار

86.0%

85.6%

OpenAI MRCR v2 8-سوزن ۱۲۸ هزار–۲۵۶ هزار

79.3%

77.0%

OpenAI MRCR v2 ۸-سوزن 256K–512K

57.5%

OpenAI MRCR v2 8-سوزنه 512K–1M

۳۶.۶٪

استدلال انتزاعی

ارزیابی

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (تأیید شده)

93.7%

94.5%

۸۶.۲٪

90.5%

ARC-AGI-2 (تأیید شده)

73.3%

83.3%

۵۲.۹٪

54.2% (زیاد)

ارزیابی‌ها بدون استدلال

ارزیابی

GPT‑5.4 (بدون استدلال)

GPT‑5.2
(بدون استدلال)

GPT‑4.1

OmniDocBench (فاصله ویرایش نرمال‌شده)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

ارزیابی‌ها با تلاش استدلال روی xhigh اجرا شدند، مگر در مواردی که خلاف آن مشخص شده باشد. این بنچمارک‌ها در یک محیط تحقیقاتی اجرا شده‌اند که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه بدهد.