امروز، ما GPT‑5.4 را در ChatGPT عرضه میکنیم (بهعنوان GPT‑5.4 Thinking)، API و Codex. این توانمندترین و کارآمدترین مدل پیشرو ما برای کار حرفهای است. ما همچنین GPT‑5.4 Pro را در ChatGPT و API برای افرادی عرضه میکنیم که برای انجام وظایف پیچیده به حداکثر عملکرد نیاز دارند.
GPT‑5.4 بهترین دستاوردهای اخیر ما در استدلال، کدنویسی و جریانهای کاری عاملمحور را در یک مدل پیشرو واحد گرد هم میآورد. این مدل قابلیتهای کدنویسی پیشرو در صنعت از GPT‑5.3‑Codex را در خود ادغام میکند و در عین حال نحوه کار مدل در ابزارها، محیطهای نرمافزاری و وظایف حرفهای مرتبط با صفحهگستردهها، ارائهها و اسناد را بهبود میدهد. نتیجه، مدلی است که کارهای پیچیده واقعی را با دقت و کارایی انجام میدهد و آنچه درخواست کردهاید را با رفتوبرگشت کمتر ارائه میکند.
در ChatGPT، GPT‑5.4 اکنون Thinking میتواند از همان ابتدا یک برنامه از روند فکر کردنش ارائه کند، تا شما در میانه پاسخ مسیر را تنظیم نمایید در حالی که در حال کار است، و به خروجی نهاییای برسید که بدون نوبتهای اضافی، بیشتر با آنچه نیاز دارید همراستا باشد. GPT‑5.4 Thinking همچنین پژوهش عمیق در وب را بهبود میدهد، به ویژه برای پرسوجوهای بسیار خاص، و در عین حال زمینه را برای پرسشهایی که به تفکر طولانیتر نیاز دارند بهتر حفظ میکند. با هم، این بهبودها به این معناست که پاسخهایی با کیفیت بالاتر سریعتر ارائه میشوند و برای وظیفه پیشِرو مرتبط باقی میمانند.
در Codex و API، GPT‑5.4 نخستین مدل همهمنظورهای است که با قابلیتهای بومی و پیشرفته استفاده از کامپیوتر منتشر کردهایم و به عاملها امکان میدهد کامپیوترها را به کار بگیرند و گردشکارهای پیچیده را در میان برنامهها انجام دهند. از ۱ میلیون توکن زمینه پشتیبانی میکند و به عاملها اجازه میدهد وظایف را در افقهای زمانی طولانی برنامهریزی، اجرا و تأیید کنند. GPT‑5.4 همچنین نحوهٔ کار مدلها را در اکوسیستمهای بزرگ ابزارها و اتصالدهندهها با قابلیت جستجوی ابزار بهبود میدهد و به عاملها کمک میکند ابزارهای مناسب را کارآمدتر پیدا کرده و استفاده کنند. در نهایت، GPT‑5.4 کارآمدترین مدل استدلالی ما از نظر مصرف توکن تا امروز است و در مقایسه با GPT‑5.2 برای حل مسائل از توکنهای به مراتب کمتری استفاده میکند—که به کاهش مصرف توکن و سرعتهای بالاتر منجر میشود.
همراه با پیشرفتها در استدلال عمومی، کدنویسی و کارهای دانشی حرفهای، GPT‑5.4 عاملهای قابلاعتمادتر، جریانهای کاری سریعتر برای توسعهدهندگان و خروجیهای باکیفیتتر را در سراسر ChatGPT، API و Codex ممکن میکند.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (بردها یا تساویها) | ۸۳.۰٪ | ۷۰.۹٪ | ۷۰.۹٪ |
SWE-Bench Pro (عمومی) | ۵۷.۷٪ | 56.8% | ۵۵.۶٪ |
OSWorld-Verified | ۷۵.۰٪ | ۷۴.۰%* | 47.3% |
Toolathlon | 54.6% | ۵۱.۹٪ | ۴۶.۳٪ |
BrowseComp | ۸۲.۷٪ | 77.3% | ۶۵.۸٪ |
*قبلاً بهمیزان ۶۴.۷٪ گزارش شده بود. GPT‑5.3‑Codex با بهرهگیری از پارامتر تازهای در API که وضوح اصلی تصویر را حفظ میکند، به امتیاز ۷۴.۰٪ میرسد.
بر اساس قابلیتهای استدلال عمومی GPT‑5.2 GPT‑5.4 نتایجی حتی سازگارتر و صیقلیافتهتر را در وظایف دنیای واقعی که برای متخصصان اهمیت دارند، ارائه میدهد.
در GDPval، که توانایی عاملها را برای تولید کارهای دانشمحور بهخوبی مشخصشده در ۴۴ شغل میآزماید، GPT‑5.4 به یک استاندارد جدید پیشرفته دست مییابد و در 83.0% از مقایسهها با متخصصان صنعت برابری کرده یا از آنها پیشی میگیرد، در مقایسه با 71.0% برای GPT‑5.2.
در GDPval، مدلها تلاش میکنند تا کارهای دانشبنیان بسیار مشخصی را انجام دهند که ۴۴ شغل از ۹ صنعت برتر را که به تولید ناخالص داخلی ایالات متحده کمک میکنند، دربرمیگیرد. وظایف، محصولات واقعی کاری را درخواست میکنند، مانند ارائههای فروش، صفحات گسترده حسابداری، برنامههای مراقبت فوری، نمودارهای تولید، یا ویدیوهای کوتاه. تلاش استدلال برای GPT‑5.4 روی سطح بسیار بالا و برای GPT‑5.2 روی سطح سنگین تنظیم شد. (یک سطح کمی پایینتر در ChatGPT).
“GPT-5.4 بهترین مدلی است که تاکنون امتحان کردهایم. اکنون در صدر جدول رتبهبندی بنچمارک APEX-Agents ما قرار دارد؛ بنچمارکی که عملکرد مدل را برای کارهای خدمات حرفهای اندازهگیری میکند. این مدل در تولید خروجیهای بلندمدت مانند اسلایدها، مدلهای مالی و تحلیلهای حقوقی عملکرد بسیار خوبی دارد و در عین حال با سرعت بیشتر و هزینه کمتر نسبت به مدلهای پیشرفته رقیب اجرا میشود.
ما تمرکز ویژهای بر بهبود توانایی GPT‑5.4 برای ایجاد و ویرایش صفحهگستردهها، ارائهها و اسناد داریم. در یک بنچمارک داخلی از وظایف مدلسازی صفحه گسترده که یک تحلیلگر جوان بانکداری سرمایهگذاری ممکن است انجام دهد، GPT‑5.4 به میانگین امتیاز ۸۷.۵٪ دست مییابد، در مقایسه با ۶۸.۴٪ برای GPT‑5.2. در مجموعهای از اعلانهای ارزیابی ارائه، ارزیابهای انسانی ۶۸.۰٪ مواقع ارائههای GPT‑5.4 را بهدلیل زیباییشناسی قویتر، تنوع بصری بیشتر، و استفاده مؤثرتر از تولید تصویر، به ارائههای GPT‑5.2 ترجیح دادند.

اسناد با تلاش استدلال روی xhigh تنظیمشده تولید شدند
شما میتوانید این قابلیتها را در ChatGPT با استفاده از GPT‑5.4 امتحان کنید Thinking یا Pro. اگر مشتری Enterprise هستید، توصیه میکنیم از افزونههای تازهمنتشرشده ChatGPT برای Excel و Google Sheets(در یک پنجره جدید باز میشود) استفاده کنید که امروز نیز عرضه شدهاند. ما همچنین مهارتهای صفحهگسترده(در یک پنجره جدید باز میشود) و ارائه(در یک پنجره جدید باز میشود) خود را که در Codex و API در دسترس هستند بهروزرسانی کردهایم.
برای ساخت GPT‑5.4 در کارهای دنیای واقعی بهتر، ما به پیشرفت خود در کاهش توهمها و خطاها ادامه دادیم. GPT‑5.4 واقعیترین مدل ما تا به امروز است: در مجموعهای از پرامپتهای ناشناسسازیشده که کاربران در آنها خطاهای واقعی را علامتگذاری کرده بودند، ادعاهای فردی 33% کمتر احتمال دارد که نادرست باشند و پاسخهای کامل آن 18% کمتر احتمال دارد که حاوی هرگونه خطا باشند، نسبت به GPT‑5.2.
“GPT-5.4 معیار جدیدی برای کارهای حقوقیِ سنگین از نظر اسناد تعیین میکند. در ارزیابی BigLaw Bench ما، امتیاز 91% را کسب کرد. در مقایسه با سایر مدلها، GPT-5.4 در حال حاضر در ساختاربندی تحلیلهای معاملاتی پیچیده، حفظ دقت در سراسر قراردادهای طولانی، و ارائه سطح بالای جزئیاتی که متخصصان حقوقی نیاز دارند بهتر است.”
GPT‑5.4 اولین مدل همهمنظوره ما با قابلیتهای استفاده از کامپیوتر بهصورت بومی است و گامی بزرگ رو به جلو برای توسعهدهندگان و عاملها بهشمار میآید. این بهترین مدلِ موجود در حال حاضر برای توسعهدهندگانی است که عاملهایی میسازند که وظایف واقعی را در سراسر وبسایتها و سیستمهای نرمافزاری تکمیل میکنند.
ما GPT‑5.4 را طوری طراحی کردهایم که در طیف گستردهای از بارهای کاریِ استفاده از کامپیوتر، عملکرد بالایی داشته باشد. در نوشتن کد برای کار کردن با کامپیوتر از طریق کتابخانههایی مانند Playwright، و همچنین صدور فرمانهای ماوس و صفحهکلید در پاسخ به عکسهای صفحه، عالی عمل میکند. رفتار آن از طریق پیامهای توسعهدهنده قابل هدایت است، به این معنا که توسعهدهندگان میتوانند رفتار را طوری تنظیم کنند که با موارد استفاده خاص سازگار باشد. توسعهدهندگان حتی میتوانند با مشخص کردن سیاستهای تأیید سفارشی، رفتار ایمنی مدل را متناسب با سطوح مختلف میزان ریسکپذیری پیکربندی کنند.
عملکرد و انعطافپذیری مدل در میان بنچمارکهایی که استفاده از رایانه را در تنظیمات مختلف میسنجند، منعکس میشود. در OSWorld-Verified، که توانایی یک مدل را برای پیمایش یک محیط دسکتاپ از طریق اسکرینشاتها و اقدامات صفحهکلید/ماوس میسنجد، GPT‑5.4 به نرخ موفقیت پیشرفته 75.0% دست مییابد نرخ موفقیت، بسیار فراتر از GPT‑5.2’s 47.3%، و پیشی گرفتن از عملکرد انسان در 72.4%.1
در WebArena-Verified که استفاده از مرورگر را میسنجد، GPT‑5.4 هنگام استفاده از تعامل مبتنی بر DOM و اسکرینشات، به نرخ موفقیت پیشروِ 67.3% دست مییابد، در مقایسه با 65.4% برای GPT‑5.2. در Online-Mind2Web، که استفاده از مرورگر را نیز میسنجد، GPT‑5.4 با تکیه صرف بر مشاهدههای مبتنی بر اسکرینشات، به نرخ موفقیت 92.8% دست مییابد و نسبت به حالت عامل ChatGPT Atlas بهبود نشان میدهد؛ حالتی که به نرخ موفقیت 70.9% میرسد.
بازده ابزار (Tool yield) زمانی است که یک دستیار برای دریافت پاسخ از ابزار، اجرای خود را متوقف کرده و منتظر پاسخ ابزار میماند. اگر ۳ ابزار بهصورت موازی فراخوانی شوند و سپس ۳ ابزار دیگر بهصورت موازی فراخوانی شوند، تعداد بازدهها ۲ خواهد بود. بازدههای ابزار نسبت به فراخوانیهای ابزار شاخص بهتری برای تأخیر هستند، زیرا مزایای موازیسازی را منعکس میکنند.
GPT‑5.4 اسکرینشاتهای یک رابط کاربری مرورگر را تفسیر میکند و از طریق کلیک مبتنی بر مختصات با عناصر رابط کاربری تعامل میکند تا ایمیل ارسال کند و یک رویداد تقویم را زمانبندی کند.
بهبود استفاده از کامپیوتر در GPT‑5.4 بر پایه قابلیتهای بهبود یافته ادراک بصریِ عمومیِ مدل ساخته شده است. در MMMU-Pro، آزمونی از درک بصری و استدلالِ یک مدل، GPT‑5.4 بدون استفاده از ابزار به نرخ موفقیت 81.2% دست مییابد، بهبودی نسبت به GPT‑5.2’s 79.5%. بهبود در ادراک بصری همچنین به قابلیتهای بهتر در تجزیه و تحلیل اسناد نیز منجر میشود. در OmniDocBench، GPT‑5.4 بدون تلاش استدلال به میانگین خطا (اندازهگیریشده با فاصله ویرایشی نرمالشده بین پیشبینی مدل و حقیقت مبنا) برابر با 0.109 میرسد که نسبت به 0.140 در GPT‑5.2 بهبود یافته است.
MMMUPro با تلاش استدلال روی xhigh اجرا شد. OmniDocBench با تلاش استدلال روی none تنظیم شده اجرا شد تا عملکرد کمهزینه و با تأخیر کم را بازتاب دهد.
ما همچنین در حال بهبود درک بصری برای تصاویر متراکم و با وضوح بالا هستیم، جایی که وفاداری کامل اهمیت دارد. از GPT‑5.4 به بعد، ما سطح original جزئیات ورودی(در یک پنجره جدید باز میشود) تصویر را معرفی میکنیم که ادراک با وفاداری کامل را تا سقف 10.24M پیکسلِ کل یا حداکثر بُعد 6000 پیکسل (هرکدام کمتر باشد) پشتیبانی میکند؛ سطح جزئیات ورودی تصویر high اکنون تا سقف 2.56M پیکسلِ کل یا حداکثر بُعد 2048 پیکسل را پشتیبانی میکند. در آزمایشهای اولیه با کاربران API، مشاهده کردیم که هنگام استفاده از original یا high detail، بهبودهای چشمگیری در توانایی بومیسازی، درک تصویر و دقت کلیک حاصل میشود.
«در ارزیابیهای ما که عملکرد استفاده از کامپیوتر را در حدود ۳۰ هزار پورتال HOA و مالیات بر املاک اندازهگیری میکنند، GPT-5.4 در اولین تلاش به نرخ موفقیت ۹۵٪ و در حداکثر سه تلاش به ۱۰۰٪ دست یافت، در مقایسه با حدود ۷۳–۷۹٪ در مدلهای CUA. همچنین وظایف را حدود ۳ برابر سریعتر تکمیل کرد و در عین حال از حدود ۷۰٪ توکن کمتر استفاده کرد، که قابلیت اطمینان و کارایی هزینه را در مقیاس بهطور چشمگیری بهبود داد.»
در API، توسعهدهندگان میتوانند با استفاده از ابزار بهروزشدهی computer به این قابلیتها دسترسی پیدا کنند. لطفاً برای بهترین شیوههای توصیهشده، مستندات بهروزشده(در یک پنجره جدید باز میشود) ما را ببینید.
GPT‑5.4 نقاط قوت کدنویسی GPT‑5.3‑Codex را با قابلیتهای پیشرو در کارهای دانش محور و استفاده از کامپیوتر ترکیب میکند؛ قابلیتهایی که بیشترین اهمیت را در وظایف طولانیمدت دارند، جایی که مدل میتواند از ابزارها استفاده کند، تکرار کند و با مداخله دستی کمتر، کار را هر چه بیشتر پیش ببرد. این مدل در معیار سنجش SWE-Bench Pro عملکردی همسطح یا حتی بهتر از GPT‑5.3‑Codex دارد و در عین حال در مراحل استدلال با تأخیر کمتری پاسخ میدهد.
ما تأخیر را با بررسی رفتار مدلهای خود در محیط تولید برآورد میکنیم و این را بهصورت آفلاین شبیهسازی میکنیم. برآورد تأخیر، مدتزمان فراخوانی ابزار (زمان اجرای کد)، توکنهای نمونهگیریشده و توکنهای ورودی را در نظر میگیرد. تأخیر در دنیای واقعی ممکن است بهطور قابلتوجهی متفاوت باشد و به عوامل بسیاری بستگی دارد که در شبیهسازی ما لحاظ نشدهاند. تلاشهای استدلال از none به xhigh تغییر داده شدند.
در Codex، حالت /fast در صورت فعال شدن سرعت تولید توکن را با GPT‑5.4 تا 1.5 برابر افزایش میدهد. این همان مدل و همان هوشمندی است، فقط سریعتر. این یعنی کاربران میتوانند در حالی که در جریان کار باقی میمانند، از میان وظایف کدنویسی، تکرار و اشکالزدایی عبور کنند. توسعهدهندگان میتوانند از طریق API با همان سرعتهای بالا با استفاده از پردازش اولویتدار(در یک پنجره جدید باز میشود) به GPT‑5.4 دسترسی داشته باشند.
در ارزیابی و تستهای داخلی دریافتیم که GPT‑5.4 در انجام وظایف پیچیده فرانتاند عالی عمل میکند و نتایجی بهطور محسوس زیباتر و کاربردیتر از مدلهایی که پیشتر عرضه کردهایم ارائه میدهد.
به عنوان نمایشی از قابلیتهای بهبودیافته مدل در استفاده از کامپیوتر و کدنویسی که در کنار هم کار میکنند، ما همچنین یک مهارت آزمایشی Codex به نام “Playwright (Interactive)(در یک پنجره جدید باز میشود)” منتشر میکنیم. این به Codex اجازه میدهد اپهای وب و Electron را بهصورت بصری اشکالزدایی کند؛ حتی میتوان از آن برای آزمایش اپی که در حال ساختنش است، در همان حین ساختن آن استفاده کرد.
بازی شبیهسازی پارک تفریحی که با GPT‑5.4 از یک اعلان واحد با مشخصات اندک ساخته شده است و از Playwright Interactive برای پلیتست در مرورگر و از تولید تصویر برای مجموعه داراییهای ایزومتریک استفاده میکند. در این شبیهسازی، قرار دادن مسیرها بر اساس شبکi کاشی، ساخت وسایل و عناصر محیطی، مسیریابی مهمانها، صفبندی و چرخهٔ عملکرد وسایل وجود دارد؛ همچنین شاخصهای پارک مانند پول، تعداد مهمانها، میزان شادی، پاکیزگی و امتیاز کلی بسته به عملکرد چیدمان و واکنش مهمانها افزایش یا کاهش مییابد. از Playwright برای خودکارسازی پلیتستهای مرورگر استفاده شد؛ با ساختن و گسترش پارک، قرار دادن و برداشتن مسیرها و جاذبهها، بررسی ناوبری دوربین، و راستیآزمایی اینکه مهمانها، صفها، وضعیتهای سواریها و معیارهای رابط کاربری در طول چندین دور بازی بهدرستی بهروزرسانی میشدند.
اعلان: از $playwright-interactive و $imagegen استفاده کنید. یک بازی شبیهسازی پارک تفریحی ایزومتریک تعاملی بساز که بتوانم آن را در مرورگر بسازم و در آن حرکت کنم. از imagegen برای شکلدادن به چشمانداز بصری کلی و تولید داراییهای بازی مانند وسایل، مسیرها، زمین، درختان، آب، غرفههای غذا، تزئینات، ساختمانها، آیکونها و عناصر UI استفاده کن. دنیا باید یکپارچه، پرداختشده و از نظر بصری غنی به نظر برسد، با کارگردانی هنری پریمیوم که از نمای ایزومتریک خوب عمل کند. بگذارید مسیرها را قرار دهم و حذف کنم، جاذبهها را اضافه کنم، عناصر صحنه را جایگذاری کنم و در حالی که فعالیت مهمانها، وضعیت وسایل بازی و رشد پارک را پایش میکنم، بهنرمی در پارک حرکت کنم. حرکت باورپذیر مهمانها، سیستمهای ساده مدیریت پارک مثل پول، پاکیزگی، صفبندی و شادی را اضافه کنید و تجربه را بازیگوشانه، واضح و کامل جلوه دهید، نه شبیه یک نمونه اولیه خام. جذابیت، خوانایی و حس قوی بازی را بر واقعگرایی در اولویت قرار دهید.
هنگام پلیتست، حتماً یک پارک را در چندین دور بازی بسازید و گسترش دهید، بررسی کنید که جانمایی و پیمایش روان کار میکنند، تأیید کنید که مهمانها به چیدمان پارک و جاذبهها واکنش نشان میدهند، و مطمئن شوید که تصاویر، رابط کاربری و تعاملات پایدار و منسجم به نظر میرسند.
“مهندسان ما GPT-5.4 را پیدا میکنند طبیعیتر و قاطعتر از مدلهای قبلی . این مدل مسائل مبهم را بدون تردید در تصمیمهای خود حل میکند و برای موازیسازی کارها به طور پیشدستانه عمل میکند تا روند کار متوقف نشود."
با GPT‑5.4، ما نحوه کار مدلها با ابزارهای خارجی را به طور قابل توجهی بهبود دادهایم. عاملها اکنون میتوانند در سراسر اکوسیستمهای ابزار بزرگتر عمل کنند، ابزارهای درست را با قابلیت اطمینان بیشتری انتخاب کنند و جریانهای کاری چندمرحلهای را با هزینه و تأخیر کمتر تکمیل کنند.
در API، GPT‑5.4 قابلیت جستجوی ابزار(در یک پنجره جدید باز میشود) را معرفی میکند که به مدلها اجازه میدهد هنگام دسترسی به ابزارهای متعدد کارآمدتر عمل کنند.
پیشتر، وقتی به یک مدل ابزار داده میشد، همهٔ تعاریف ابزار از ابتدا در دستور گنجانده میشدند. برای سیستمهایی با ابزارهای زیاد، این میتواند هزاران—یا حتی دهها هزار—توکن به هر درخواست اضافه کند، هزینه را افزایش دهد، پاسخها را کندتر کند و زمینه را با اطلاعاتی شلوغ کند که ممکن است مدل هرگز از آن استفاده نکند.
با جستجوی ابزار، GPT‑5.4 در عوض فهرستی سبک از ابزارهای موجود را بههمراه قابلیت جستجوی ابزار دریافت میکند. وقتی مدل نیاز دارد از یک ابزار استفاده کند، میتواند تعریف آن ابزار را جستوجو کند و در همان لحظه آن را به مکالمه پیوست کند.
این رویکرد بهطور چشمگیری تعداد توکنهای موردنیاز برای گردشهای کاریِ پرابزار را کاهش میدهد و کش را حفظ میکند و باعث میشود درخواستها سریعتر و ارزانتر شوند. همچنین به عاملها امکان میدهد که بهطور قابلاعتماد با اکوسیستمهای ابزار بسیار بزرگتر کار کنند. برای سرورهای MCP که ممکن است شامل دهها هزار توکن از تعریفهای ابزار باشند، افزایش بهرهوری میتواند قابلتوجه باشد.
برای نشان دادن افزایش بهرهوری، ما ۲۵۰ وظیفه را از بنچمارک MCP Atlas(در یک پنجره جدید باز میشود) متعلق به Scale با فعال بودن هر ۳۶ سرور MCP در دو حالت ارزیابی کردیم: (۱) در معرض قرار دادن مستقیم هر تابع MCP در زمینه مدل، و (۲) قرار دادن همه سرورهای MCP پشت جستوجوی ابزار. پیکربندی جستجوی ابزار، میزان کل استفاده از توکن را 47% کاهش داد، در حالی که همان دقت را حفظ کرد.
تعداد توکنهای نمونه از میانگینگیری ۲۵۰ وظیفه در مجموعهداده عمومی MCP-Atlas بهدست میآیند.
GPT‑5.4 همچنین فراخوانی ابزار را بهبود میدهد و هنگام تصمیمگیری دربارهٔ اینکه چه زمانی و چگونه در طول استدلال از ابزارها استفاده کند، بهویژه در API، آن را دقیقتر و کارآمدتر میکند. در مقایسه با GPT‑5.2، این مدل در معیار سنجش Toolathlon که میزان توانایی عاملهای هوش مصنوعی در استفاده از ابزارها و APIs دنیای واقعی برای انجام وظایف چندمرحلهای را میسنجد، با تعداد تعاملات کمتر به دقت بالاتری دست مییابد. برای مثال، یک عامل باید ایمیلها را بخواند، پیوستهای تکلیف را استخراج کند، آنها را بارگذاری کند، به آنها نمره بدهد و نتایج را در یک صفحه گسترده ثبت کند.
بازده ابزار (Tool yield) زمانی است که یک دستیار برای دریافت پاسخ از ابزار، اجرای خود را متوقف کرده و منتظر پاسخ ابزار میماند. اگر ۳ ابزار بهصورت موازی فراخوانی شوند و سپس ۳ ابزار دیگر بهصورت موازی فراخوانی شوند، تعداد بازدهها ۲ خواهد بود. بازدههای ابزار نسبت به فراخوانیهای ابزار شاخص بهتری برای تأخیر هستند، زیرا مزایای موازیسازی را منعکس میکنند.
برای موارد استفاده حساس به تأخیر که در آنها حالت reasoning effort = None ترجیح داده میشود، GPT‑5.4 نسبت به نسخههای پیشین خود بهبودهای بیشتری ارائه میدهد.
در t2-bench(در یک پنجره جدید باز میشود)، یک مدل باید برای انجام یک وظیفه خدمات مشتری از ابزارها استفاده کند؛ جایی که ممکن است یک کاربر شبیهسازیشده وجود داشته باشد که بتواند ارتباط برقرار کند و اقداماتی را در وضعیت جهان انجام دهد. مقدار Reasoning effort روی None تنظیم شده است.
GPT‑5.4 در جستجوی وب عاملمحور بهتر است. در BrowseComp، معیاری از اینکه عاملهای هوش مصنوعی تا چه حد میتوانند بهطور مداوم وب را برای یافتن اطلاعات دشوار برای پیدا کردن مرور کنند، GPT‑5.4 نسبت به GPT‑5.2 به میزان ۱۷٪ محض پیشرفت دارد و GPT‑5.4 Pro با امتیاز ۸۹.۳٪ رکورد جدیدی در بهترین عملکرد ثبت میکند.
در عمل، به این معناست که GPT‑5.4 Thinking در پاسخ دادن به پرسشهایی که نیاز به جمعآوری اطلاعات از منابع متعدد در وب دارند، قویتر است. این قابلیت میتواند بهصورت پایدارتر در چندین مرحله جستجو کند تا مرتبطترین منابع را شناسایی کند، بهویژه برای پرسشهایی که پاسخ آن همچون «سوزنی در انبار کاه» است، و آنها را در قالب پاسخی روشن و با استدلالی سنجیده تلفیق کند.
در BrowseComp، ما از یک فهرست مسدودسازی جستوجو استفاده کردیم که وبسایتهای حاوی پاسخهای معیار را از ارزیابی کنار میگذاشت تا از آلودگی داده جلوگیری کرده و سنجشی منصفانه از عملکرد را تضمین کنیم. GPT‑5.4 در تاریخ دیرتری نسبت به GPT‑5.2 سنجیده شد، بنابراین نمرات تغییرات در مدل، سیستم جستوجوی ما و وضعیت اینترنت را منعکس میکنند. GPT‑5.4 با یک فهرست مسدودسازی طولانیتر و بهروزشده آزمایش شد. مدلها از ابزار جستجوی ChatGPT استفاده میکنند که میتواند تفاوتهای کوچکی با جستجوی API داشته باشد.
"GPT-5.4 xhigh پیشرفتهترین سطح عملکرد برای استفاده چندمرحلهای از ابزارها را ارائه میدهد. Zapier برخی از سختگیرانهترین بنچمارکهای استفاده از ابزار در صنعت را اجرا میکند و مدلها را در صدها گردشکار پیشرفته و واقعی آزمایش میکند. GPT-5.4 کاری را تمام کرد که مدلهای قبلی از آن دست کشیدند - پایدارترین مدل تا به امروز.”
مشابه اینکه Codex رویکرد خود را وقتی شروع به کار میکند تشریح میکند، GPT‑5.4 «Thinking» در ChatGPT اکنون برای پرسشهای طولانیتر و پیچیدهتر، کار خود را با یک مقدمه تشریح خواهد کرد. همچنین میتوانید در میانه پاسخ، دستورالعملهای جدید اضافه کنید یا جهت پاسخ را تنظیم کنید. این کار هدایت مدل را به سمت نتیجه دقیق مورد نظر شما آسانتر میکند، بدون اینکه از نو شروع کنید یا به چندین نوبت اضافی دیگر نیاز باشد. این قابلیت اکنون در chatgpt.com(در یک پنجره جدید باز میشود) و اپلیکیشن Android در دسترس است و بهزودی به اپلیکیشن iOS اضافه میشود.
این مدل همچنین میتواند روی وظایف دشوار مدت طولانیتری فکر کند، در حالی که آگاهی قویتری از گامهای پیشین در مکالمه را حفظ میکند. این قابلیت به آن امکان میدهد جریانهای کاری طولانیتر و دستورهای پیچیدهتر را مدیریت کند و در عین حال پاسخها را در تمام مراحل منسجم و مرتبط نگه دارد.
این ویدیو برای اهداف نمایشی سریعتر پخش شده است.
در ماههای اخیر، در حالی که GPT‑5.4 را برای استقرار آماده میکردیم، به بهبود تدابیر حفاظتیای که با GPT‑5.3‑Codex معرفی کرده بودیم ادامه دادهایم. مشابه GPT‑5.3‑Codex، ما GPT‑5.4 را در چارچوب آمادگی خود در سطح توانمندی سایبری بالا در نظر میگیریم و آن را با تدابیر حفاظتی متناظر، همانطور که در کارت سیستم مستند شده است، مستقر میکنیم. این موارد شامل یک پشتهی ایمنی سایبری گسترشیافته است، از جمله سامانههای پایش، کنترلهای دسترسی مطمئن، و مسدودسازی ناهمگام برای درخواستهای پرریسکتر برای مشتریان روی سطوح عدم ذخیره داده (ZDR)، در کنار سرمایهگذاری مستمر در اکوسیستم امنیتی گستردهتر.
از آنجا که قابلیتهای امنیت سایبری ذاتاً دارای استفاده دوگانه هستند، ما ضمن ادامه تنظیم سیاستها و طبقهبندهای خود، رویکردی احتیاطآمیز نسبت به استقرار را حفظ میکنیم. برای برخی مشتریان در سطوح ZDR، مسدودسازی در سطح درخواست همچنان بخشی از سازوکار کاهش ریسک سایبری ما باقی میماند؛ از آنجا که طبقهبندها هنوز در حال بهبود هستند، ممکن است در حالی که به اصلاح این تدابیر حفاظتی ادامه میدهیم، برخی مثبتهای کاذب رخ دهد. این بهروزرسانیها با هدف بهبود نحوه عملکرد تدابیر حفاظتی در عمل انجام میشوند، از جمله کاهش رد درخواستهای غیرضروری و پاسخهای بیشازحد مشروط، در حالی که حفاظتهای قوی در برابر سوءاستفاده را حفظ میکنند.
ما پژوهشهای ایمنی خود را درباره قابلیت کنترل زنجیره تفکر (CoT) ادامه دادهایم تا بهتر درک کنیم مدلها چگونه استدلال میکنند و به شناسایی رفتار نادرست بالقوه کمک کنیم. بهعنوان بخشی از این کار، ما یک ارزیابی متنباز جدید به نام کنترلپذیری CoT معرفی میکنیم که بررسی میکند آیا مدلها میتوانند بهطور عمدی استدلال خود را مبهم کنند تا از نظارت فرار کنند. ما دریافتیم که GPT‑5.4 توانایی Thinking برای کنترل CoT خود پایین است، که یک ویژگی مثبت برای ایمنی است و نشان میدهد که مدل توانایی پنهان کردن استدلال خود را ندارد و نظارت بر CoT همچنان یک ابزار ایمنی مؤثر باقی میماند.
GPT‑5.4 امروز بهتدریج در ChatGPT و Codex در حال عرضه است. در API، GPT‑5.4 اکنون بهصورت gpt-5.4 در دسترس است. GPT‑5.4 نسخه Pro نیز در API با نام gpt-5.4-pro در دسترس است. برای توسعهدهندگانی که به حداکثر عملکرد در پیچیدهترین وظایف نیاز دارند.
در ChatGPT، GPT‑5.4 Thinking از امروز برای کاربران ChatGPT Plus، Team و Pro در دسترس است و جایگزین GPT‑5.2 میشود. Thinking. GPT‑Pro 5.2 مدل Thinking به مدت سه ماه برای کاربران پولی در بخش Legacy Models در انتخابگر مدل در دسترس خواهد ماند و پس از آن در تاریخ 5 ژوئن 2026 بازنشسته میشود. افرادی که در طرحهای Enterprise و Edu هستند میتوانند از طریق تنظیمات مدیر، دسترسی زودهنگام را فعال کنند. GPT‑5.4 Pro برای طرحهای Pro و Enterprise در دسترس است. پنجرههای زمینه(در یک پنجره جدید باز میشود) در ChatGPT برای GPT‑5.4 Thinking از GPT‑5.2 Thinking بدون تغییر باقی میماند.
GPT‑5.4 اولین مدل استدلال اصلی ما است که قابلیتهای کدنویسی پیشرو GPT‑5.3‑codex را در خود جای داده و در حال عرضه در سراسر ChatGPT، API و Codex است. ما آن را GPT‑5.4 مینامیم تا آن جهش را بازتاب دهد و انتخاب بین مدلها را هنگام استفاده از Codex سادهتر کند. با گذشت زمان، میتوانید انتظار داشته باشید مدلهای Instant و مدلهای Thinking ما با سرعتهای متفاوتی تکامل پیدا کنند.
GPT‑5.4 در Codex شامل پشتیبانی آزمایشی از پنجره زمینه 1M است. توسعهدهندگان میتوانند این را با پیکربندی model_context_window و model_auto_compact_token_limit امتحان کنند. درخواستهایی که از پنجره زمینه استاندارد ۲۷۲K فراتر میروند، با نرخ ۲x نسبت به حالت عادی در محدودیتهای استفاده محاسبه میشوند.
در API، GPT‑5.4 بهازای هر توکن نسبت به GPT‑5.2 قیمت بالاتری دارد تا قابلیتهای بهبودیافتهاش را منعکس کند، در حالی که کارایی بیشتر توکن آن به کاهش تعداد کل توکنهای موردنیاز برای بسیاری از کارها کمک میکند. قیمتهای Batch و Flex با نصف نرخ استاندارد API در دسترس است، در حالی که پردازش با اولویت، با دو برابر نرخ استاندارد API ارائه میشود.
مدل API | قیمت ورودی | قیمت ورودی کششده | قیمت خروجی |
gpt-5.2 | ۱.۷۵ دلار / میلیون توکن | ۱.۱۷۵ دلار / میلیون توکن | ۱۴ دلار / میلیون توکن |
gpt-5.4 | ۲.۵۰ دلار / میلیون توکن | ۰.۲۵ دلار / میلیون توکن | ۱۵ دلار / میلیون توکن |
gpt-5.2-pro | ۲۱ دلار / میلیون توکن | - | ۱۶۸ دلار / میلیون توکن |
gpt-5.4-pro | ۳۰ دلار / میلیون توکن | - | ۱۸۰ دلار / میلیون توکن |
حرفهای
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | ۷۰.۹٪ | ۷۰.۹٪ | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
وظایف مدلسازی بانکداری سرمایهگذاری (داخلی) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
برنامهنویسی
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (عمومی) | 57.7% | — | 56.8% | ۵۵.۶٪ | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
استفاده از کامپیوتر و بینایی
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (بدون ابزار) | 81.2% | — | — | 79.5% | — |
MMMU Pro (با ابزار) | 82.1% | — | — | 80.4% | — |
استفاده از ابزار
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
اطلس MCP | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
دانشگاهی
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
پژوهشهای علمی پیشرو | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath سطح ۱–۳ | 47.6% | — | — | 40.7% | — |
FrontierMath سطح 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | ۹۲.۴٪ | ۹۳.۲٪ |
آخرین آزمون بشریت (بدون ابزار) | 39.8% | 42.7% | — | 34.5% | 36.6% |
آخرین آزمون بشریت (با ابزارها) | 52.1% | 58.7% | — | 45.5% | 50.0% |
زمینه طولانی
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
گرافواکها BFS ۰ هزار–۱۲۸ هزار | 93.0% | — | — | 94.0% | — |
گرافواکها BFS ۲۵۶ هزار–۱ میلیون | 21.4% | — | — | — | — |
والدهای Graphwalks ۰–۱۲۸ هزار (دقت) | 89.8% | — | — | 89.0% | — |
والدین Graphwalks 256K–1M (دقت) | ۳۲.۴٪ | — | — | — | — |
OpenAI MRCR v2 ۸ سوزن 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 ۸-سوزن ۸ هزار–۱۶ هزار | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 ۸-سوزن 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 ۸ سوزن 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 ۸ سوزن ۶۴ هزار–۱۲۸ هزار | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-سوزن ۱۲۸ هزار–۲۵۶ هزار | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 ۸-سوزن 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-سوزنه 512K–1M | ۳۶.۶٪ | — | — | — | — |
استدلال انتزاعی
ارزیابی | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (تأیید شده) | 93.7% | 94.5% | — | ۸۶.۲٪ | 90.5% |
ARC-AGI-2 (تأیید شده) | 73.3% | 83.3% | — | ۵۲.۹٪ | 54.2% (زیاد) |
ارزیابیها بدون استدلال
ارزیابی | GPT‑5.4 (بدون استدلال) | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (فاصله ویرایش نرمالشده) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
ارزیابیها با تلاش استدلال روی xhigh اجرا شدند، مگر در مواردی که خلاف آن مشخص شده باشد. این بنچمارکها در یک محیط تحقیقاتی اجرا شدهاند که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه بدهد.
نویسنده
پاورقی
1 عملکرد انسانی گزارششده در OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(در یک پنجره جدید باز میشود).


