امروز ما GPT‑5 را در پلتفرم API خود عرضه میکنیم—بهترین مدل ما تا کنون برای کدنویسی و انجام وظایف مبتنی بر عاملها.
GPT‑5 در تمام معیارهای کلیدی کدنویسی، پیشرفته (SOTA) است و در SWE-bench Verified امتیاز 74.9٪ و در Aider polyglot امتیاز 88٪ را کسب کرده است. ما GPT‑5 را طوری آموزش دادیم که یک همکار واقعی در کدنویسی باشد. این مدل در تولید کد باکیفیت و انجام کارهایی مانند رفع باگ، ویرایش کد و پاسخگویی به پرسشها دربارهٔ پایگاههای کدهای پیچیده، عملکرد بسیار خوبی دارد. این مدل قابل هدایت و مشارکتی است؛ میتواند دستورالعملهای بسیار دقیق را با دقت بالا دنبال کند و پیش از فراخوانی ابزارها و میان آنها، توضیحات اولیهای دربارهٔ اقدامات خود ارائه دهد. این مدل همچنین در کدنویسی فرانتاند عملکرد بسیار خوبی دارد و در تستهای داخلی، در 70 درصد موارد در توسعه وب فرانتاند بر OpenAI o3 برتری داشته است.
ما GPT‑5 را با همکاری آزمایشکنندگان اولیه در استارتآپها و شرکتهای مختلف، بر اساس وظایف واقعی کدنویسی آموزش دادیم. Cursor میگوید GPT‑5 «هوشمندترین مدلی است که تاکنون [آنها] استفاده کردهاند» و «بهطور شگفتآوری باهوش است، بهراحتی هدایت میشود و حتی شخصیتی دارد که [آنها] در مدلهای دیگر ندیدهاند.» Windsurf اعلام کرد که GPT‑5 در ارزیابیهای آنها در سطح SOTA قرار دارد و «نرخ خطای فراخوانی ابزارِ آن نصف مدلهای پیشرو دیگر است». Vercel میگوید «این بهترین مدل هوش مصنوعی برای فرانتاند است، مدلی که هم از نظر حس زیباییشناختی و هم کیفیت کد، عملکردی در سطح بالا دارد و آن را در یک ردهٔ منحصربهفرد قرار میدهد.»
GPT‑5 همچنین در انجام وظایف مبتنی بر عاملها بلندمدت عملکردی ممتاز دارد — و موفق به کسب نتایج در سطح SOTA در τ2-bench telecom شده است (96.7٪)، که معیاری برای فراخوانی ابزارهاست و تنها دو ماه پیش منتشر شده است. هوش ابزاری پیشرفتهتر GPT‑5 به آن این توانایی را میدهد که دهها فراخوانی ابزار را — چه بهصورت متوالی و چه همزمان — بهطور قابلاعتماد زنجیرهوار اجرا کند، بدون آنکه مسیر خود را گم کند. این ویژگی، GPT‑5 را در اجرای کامل وظایف پیچیده و واقعی از ابتدا تا انتها بسیار توانمندتر میسازد. همچنین دستورالعملهای مربوط به ابزارها را با دقت بیشتری دنبال میکند، در مدیریت خطاهای ابزار عملکرد بهتری دارد و در بازیابی محتوا در زمینههای طولانی بسیار توانمند است. Manus میگوید GPT‑5 «بهترین عملکردی را که تاکنون [آنها] از یک مدل واحد در ارزیابیهای داخلیشان دیدهاند، ارائه داده است». Notion میگوید: « زمانی که نیاز به حل وظایف پیچیده در یک مرحله دارید پاسخهای سریع [این مدل]، بهویژه در حالت استدلال پایین، GPT‑5 را به مدلی ایدهآل تبدیل میکند.» Inditex اظهار داشت که «آنچه واقعاً [GPT‑5] را متمایز میکند، عمق استدلال آن است: پاسخهایی ظریف و چندلایه که نشاندهندهٔ درک واقعی از موضوع هستند.»
ما در API خود ویژگیهای جدیدی معرفی میکنیم تا به توسعهدهندگان امکان کنترل بیشتری بر پاسخهای مدل بدهیم. GPT‑5 از یک پارامتر جدید به نام verbosity پشتیبانی میکند (با مقادیر low، medium و high) که به کنترل این موضوع کمک میکند که پاسخها کوتاه و مختصر باشند یا طولانی و جامع. پارامتر reasoning_effort در GPT‑5 اکنون میتواند روی مقدار حداقلی تنظیم شود تا بدون انجام استدلال گسترده، پاسخها سریعتر بازگردانده شوند. ما همچنین یک نوع ابزار جدید ـ ابزارهای سفارشی ـ اضافه کردهایم تا GPT‑5 بتواند ابزارها را بهجای JSON با متن ساده فراخوانی کند. ابزارهای سفارشی از محدودسازی بر اساس گرامرهای مستقل از متن که توسط توسعهدهنده ارائه میشوند، پشتیبانی میکنند.
ما GPT‑5 را در سه نسخه مختلف از طریق API عرضه میکنیم—gpt-5، gpt-5-mini، و gpt-5-nano—تا به توسعهدهندگان انعطافپذیری بیشتری برای توازن میان عملکرد، هزینه و تأخیر ارائه دهیم. در حالی که GPT‑5 در ChatGPT مجموعهای از مدلهای استدلالی، غیراستدلالی و روتر را شامل میشود، GPT‑5 در پلتفرم API همان مدل استدلالی است که بیشترین سطح عملکرد را در ChatGPT تأمین میکند. نکته قابل توجه اینکه GPT‑5 در حالت حداقل استدلال، مدلی متفاوت از مدل بدون استدلال در ChatGPT است و برای توسعهدهندگان بهتر تنظیم شده است. مدلِ بدون استدلالِ مورد استفاده در ChatGPT با نام gpt-5-chat-latest در دسترس است.
برای مطالعهٔ بیشتر دربارهٔ GPT‑5 در ChatGPT و آشنایی با سایر پیشرفتهای ChatGPT، به وبلاگ تحقیقاتی ما مراجعه کنید. برای کسب اطلاعات بیشتر دربارهٔ اینکه شرکتها چگونه از GPT‑5 استقبال کردهاند، به وبلاگ سازمانی ما مراجعه کنید.
GPT‑5 قویترین مدل کدنویسی است که تاکنون منتشر کردهایم. این مدل عملکردی بهتر از o3 در معیارهای کدنویسی و کاربردهای واقعی دارد و بهگونهای دقیق تنظیم شده که در محصولات کدنویسی عاملمحور مانند Cursor، Windsurf، GitHub Copilot و Codex CLI بدرخشد. GPT‑5 آزمایشکنندگان آلفای ما را تحتتأثیر قرار داد و در بسیاری از ارزیابیهای داخلی و خصوصی آنها رکوردهای جدیدی ثبت کرد.
بازخورد اولیه درباره GPT‑5 برای وظایف کدنویسی در دنیای واقعی
«GPT-5 هوشمندترین مدل کدنویسی است که ما استفاده کردهایم. تیم ما دریافته است که GPT-5 بهطرز چشمگیری هوشمند، بهراحتی قابل هدایت، و حتی دارای شخصیتی است که در هیچ مدل دیگری مشاهده نکردهایم. این مدل نهتنها باگهای پیچیده و عمیقاً پنهان را شناسایی میکند، بلکه میتواند عوامل پسزمینهای طولانی و چندمرحلهای را اجرا کند تا وظایف پیچیده را تا پایان دنبال کند—همان نوع مسائلی که مدلهای دیگر را متوقف میکردند. این مدل به ابزار روزمره ما برای انجام همه کارها تبدیل شده است از تعیین محدوده و برنامهریزی PRها گرفته تا تکمیل ساختهای سرتاسری.
در SWE-bench Verified، که یک ارزیابی مبتنی بر وظایف واقعی مهندسی نرمافزار است، GPT‑5 امتیاز 74.9٪ را کسب کرده است؛ رقمی که نسبت به امتیاز 69.1٪ مدل o3 افزایش قابل توجهی نشان میدهد. نکتهٔ قابل توجه این است که GPT‑5 امتیاز بالای خود را با کارایی و سرعت بیشتری به دست میآورد: در مقایسه با o3 در حالت استدلال بالا، GPT‑5 از 22٪ توکنِ خروجی کمتر و 45٪ فراخوانی ابزار کمتری استفاده میکند.
در SWE-bench Verified، به مدل یک مخزن کد همراه با شرح مشکل داده میشود و مدل باید یک پچ برای حل آن مشکل تولید کند. برچسبهای متنی نشاندهنده سطح استدلالِ بالا هستند. امتیازهای ما 23 مورد از 500 مشکلی را که راهحلهایشان به طور قابل اعتمادی روی زیرساخت ما اجرا نشدند، حذف میکند. به GPT‑5 یک پرسش کوتاه داده شد که بر بررسی دقیق راهحلها تأکید داشت؛ همین پرسش برای o3 سودی نداشت.
در Aider polyglot، که یک ارزیابی مربوط به ویرایش کد است، GPT‑5 با امتیاز 88٪ رکورد جدیدی ثبت کرد، رقمی که نشاندهندهٔ کاهش یکسومِ نرخ خطا در مقایسه با o3 است.
در Aider polygot(در یک پنجره جدید باز میشود) (diff)، به یک مدل یک تمرین کدنویسی از Exercism داده میشود و باید راهحلش را به صورت یک کد diff بنویسد. مدلهای استدلال با سطح استدلالِ بالا اجرا شدند.
ما همچنین دریافتهایم که GPT‑5 در کاوش عمیقِ پایگاههای کدها و پاسخگویی به پرسشهایی دربارهٔ نحوهٔ عملکرد یا تعامل بخشهای مختلف، عملکرد بسیار خوبی دارد. در یک پایگاهها کد به پیچیدگی پشتهٔ یادگیری تقویتی OpenAI، دریافتهایم که GPT‑5 میتواند در استدلال دربارهٔ کد و پاسخگویی به پرسشهای مرتبط به ما کمک کند و کارهای روزمرهٔ ما را سرعت ببخشد.
هنگام تولید کد فرانتاند برای برنامههای وب، GPT‑5 از نظر زیباییشناختی حساستر، جاهطلبانهتر و دقیقتر عمل میکند. در مقایسههای کنارهم با o3، GPT‑5 در 70٪ موارد توسط آزمایشکنندگان ما ترجیح داده شد.
در اینجا چند نمونهٔ جالب و گلچینشده از کارهایی که GPT‑5 میتواند تنها با یک دستور انجام دهد، آورده شده است:
پرامپت: لطفاً یک صفحه فرود زیبا و واقعگرایانه برای سرویسی طراحی کن که به عاشقان حرفهای قهوه اشتراکی به مبلغ 200 دلار در ماه ارائه میدهد که این اشتراک شامل اجاره تجهیزات و مربیگری برای برشتهکاری قهوه و تهیه اسپرسوی نهایی است. مخاطب هدف، فردی میانسال در منطقه Bay Area است که احتمالاً در حوزه فناوری فعالیت دارد، تحصیلکرده است، درآمد قابلاختیار دارد و به هنر و علم قهوه علاقهمند است. صفحه را برای بیشینهسازی تبدیل برای ثبتنام 6 ماهه بهینه کن.
نمونههای بیشتر از GPT‑5 را میتوانید در گالری ما اینجا(در یک پنجره جدید باز میشود) ببینید.
GPT‑5 بهعنوان یک همکار توانمندتر عمل میکند، بهویژه در محصولات کدنویسی عاملمحور مانند Cursor، Windsurf، GitHub Copilot و Codex CLI. در حین انجام کار، GPT‑5 میتواند میان فراخوانیهای ابزار، برنامهها، بهروزرسانیها و جمعبندیها را ارائه کند. در مقایسه با مدلهای قبلی ما، GPT‑5 در انجام وظایف جاهطلبانه فعالانهتر عمل میکند و بدون آنکه برای تأیید شما مکث کند یا در برابر پیچیدگیهای بالا دچار تردید شود، کار را پیش میبرد.
در اینجا نمونهای از نحوهٔ عملکرد GPT‑5 هنگام انجام یک کار پیچیده آورده شده است (در این مثال، ساخت یک وبسایت برای یک رستوران):
پس از آنکه کاربر درخواست ساخت یک وبسایت برای رستوران خود را مطرح میکند، GPT‑5 یک برنامه سریع ارائه میدهد، ساختار اولیه اپلیکیشن را ایجاد میکند، وابستگیها را نصب مینماید، محتوای سایت را تولید میکند، یک بیلد اجرا میکند تا خطاهای کامپایل را بررسی کند، خلاصهای از کار خود ارائه میدهد و گامهای بعدی احتمالی را پیشنهاد میکند. این ویدیو تقریباً 3 برابر سریعتر پخش میشود تا در وقت شما صرفهجویی شود؛ مدت زمان واقعی برای ساخت وبسایت حدود سه دقیقه بوده است.
فراتر از کدنویسی عاملمحور، GPT‑5 بهطور کلی در وظایف عاملمحور عملکرد بهتری دارد. GPT‑5 رکوردهای جدیدی را در آزمونهای پیروی از دستورالعمل (با امتیاز 69.6٪ در Scale MultiChallenge، ارزیابیشده توسط o3‑mini) و فراخوانی ابزارها (با امتیاز 96.7٪ در τ2-bench telecom) ثبت کرده است. هوشِ ابزاریِ بهبودیافته این امکان را به GPT‑5 میدهد که با قابلیت اعتماد بیشتر، اقدامات لازم را بهصورت زنجیرهای به هم متصل کند تا وظایف دنیای واقعی را انجام دهد.
بازخورد اولیه درباره GPT‑5 برای وظایف عاملمحور
«GPT-5 یک گام بزرگ به جلو است. این مدل بهترین عملکردی را که تاکنون از یک مدل واحد در ارزیابیهای داخلیمان دیدهایم، ارائه داده است. GPT-5 در انجام وظایف مختلف عاملمحور عالی عمل کرد—حتی قبل از اینکه یک خط کد را تغییر بدهیم یا یک دستور را شخصیسازی کنیم. پیشگفتارهای جدید و کنترل دقیقتر بر استفاده از ابزارها، جهش قابل توجهی در پایداری و هدایتپذیری عوامل ما ایجاد کرد.»
GPT‑5 دستورالعملها را با اطمینان بیشتری نسبت به هر یک از مدلهای قبلی خود دنبال میکند و در آزمونهای COLLIE، Scale MultiChallenge و ارزیابیهای داخلی ما امتیاز بالایی کسب کرده است.
در COLLIE(در یک پنجره جدید باز میشود)، مدلها باید متنی تولید کنند که محدودیتهای مختلف را رعایت کند. در Scale MultiChallenge(در یک پنجره جدید باز میشود)، مدلها در مکالمهها چند نوبتی به چالش کشیده میشوند تا بهدرستی از چهار نوع اطلاعات از پیامهای قبلی استفاده کنند. امتیازهای ما با استفاده از o3‑mini بهعنوان ارزیاب به دست آمدهاند، مدلی که از GPT‑4o دقت بیشتری داشت. در ارزیابی داخلی OpenAI API برای پیروی از دستورالعملها، مدلها باید دستورالعملهای دشواری را دنبال کنند که از بازخورد واقعی توسعهدهندگان استخراج شدهاند. مدلهای استدلال با سطح استدلالِ بالا اجرا شدند.
ما سخت تلاش کردیم تا فراخوانی ابزار را به روشهایی که برای توسعهدهندگان اهمیت دارد، بهبود دهیم. GPT‑5 در پیروی از دستورالعملهای ابزار، در مدیریت خطاهای ابزار و در انجام فراخوانیهای متوالی یا موازی ابزار به صورت پیشگیرانه، عملکرد بهتری دارد. وقتی به آن دستور داده شود، GPT‑5 میتواند پیامهای مقدماتی را قبل و بین فراخوانیهای ابزار ارسال کند تا کاربران را در مورد پیشرفت در طول وظایف طولانیتر عاملمحور بهروزرسانی کند.
دو ماه پیش، τ2-bench telecom توسط Sierra.ai به عنوان یک معیار چالشبرانگیز برای استفاده از ابزار منتشر شد که نشان داد چگونه عملکرد مدل زبان هنگام تعامل با وضعیت محیطی که کاربران میتوانند آن را تغییر دهند، به طور قابل توجهی کاهش مییابد. در انتشارات(در یک پنجره جدید باز میشود) آنها، هیچ مدلی امتیازی بالاتر از 49٪ کسب نکرد. GPT‑5 امتیاز 97٪ را کسب کرده است.
در τ2-bench(در یک پنجره جدید باز میشود)، یک مدل باید از ابزارها برای انجام یک وظیفه خدمات مشتری استفاده کند، جایی که ممکن است کاربری وجود داشته باشد که بتواند ارتباط برقرار کند و در وضعیت جهانی اقداماتی انجام دهد. مدلهای استدلال با سطح استدلالِ بالا اجرا شدند.
GPT‑5 همچنین در پردازش ورودیهای با زمینهٔ طولانی، بهبودهای قابلتوجهی نشان میدهد. در OpenAI-MRCR، که معیاری برای بازیابی اطلاعات در زمینههای طولانی است، GPT‑5 عملکردی بهتر از o3 و GPT‑4.1 دارد، آن هم با اختلافی که در ورودیهای طولانیتر بهطور قابلتوجهی افزایش مییابد.
در OpenAI-MRCR(در یک پنجره جدید باز میشود) (حل ارجاعهای چندمرحلهای)، چندین درخواست کاربر یکسان موسوم به «سوزن» (needle) در میان مجموعهای طولانی از درخواستها و پاسخهای مشابه، که بهعنوان «انبار کاه» (haystack) شناخته میشوند، درج میگردد و از مدل خواسته میشود که پاسخ مربوط به سوزن شماره i را بازتولید کند. نسبت تطابق میانگین، میانگینِ نسبتِ تطابقِ رشتهای بین پاسخ مدل و پاسخ صحیح را اندازهگیری میکند. نقاط در حداکثر 256k token ورودی نشاندهنده میانگینهای 128k–256k token ورودی و غیره هستند. اینجا، 256k معادل 256 * 1,024 = 262,114 token است. مدلهای استدلال با سطح استدلالِ بالا اجرا شدند.
ما همچنین در حال متنباز کردن BrowseComp Long Context(در یک پنجره جدید باز میشود) هستیم، که معیاری جدید برای ارزیابی پرسش و پاسخهای با زمینه طولانی است. در این معیار، به مدل یک پرسش کاربر و فهرستی طولانی از نتایج جستجوی مرتبط داده میشود، و مدل باید بر اساس همین نتایج جستجو به پرسش پاسخ دهد. ما BrowseComp Long Context را طوری طراحی کردیم که واقعگرایانه، چالشبرانگیز و دارای پاسخهای درست و قابل اعتماد باشد. در ورودیهایی که شامل 128K–256K token هستند، GPT‑5 در 89٪ مواقع پاسخ صحیح میدهد.
در API، تمام مدلهای GPT‑5 میتوانند حداکثر 272,000 token ورودی را بپذیرند و حداکثر 128,000 token استدلال و خروجی تولید کنند، که در مجموع طول زمینهٔ آنها را به 400,000 token میرساند.
GPT‑5 نسبت به مدلهای قبلی ما قابلاعتمادتر است. در پرسشهای مربوط به معیارهای LongFact و FactScore، GPT‑5 حدود 80٪ خطاهای واقعی کمتری نسبت به o3 دارد. این باعث میشود برای موارد استفادهٔ عاملمحور که در آنها صحت اهمیت دارد—به ویژه در کد، دادهها و تصمیمگیری مناسبتر باشد.
امتیازهای بالاتر به معنای عملکرد ضعیفتر هستند. LongFact(در یک پنجره جدید باز میشود) و FActScore(در یک پنجره جدید باز میشود) شامل پرسشهای بازِ مربوط به جستوجوی حقایق هستند. ما از یک ارزیاب مبتنی بر مدل زبانی بزرگ (LLM) با قابلیت مرور (browsing) استفاده میکنیم تا پاسخها به پرسشهای این ارزیابیها را از نظر صحت واقعیت بررسی کرده و نسبت ادعاهای نادرست واقعی را اندازهگیری کنیم. جزئیات مربوط به پیادهسازی و ارزیابی را میتوانید در کارت سیستم پیدا کنید. مدلهای استدلال با سطح استدلالِ بالا اجرا شدند. جستجو فعال نشده بود.
به طور کلی، GPT‑5 به گونهای آموزش دیده است که از محدودیتهای خود آگاهتر باشد و بتواند با چالشهای غیرمنتظره بهتر مقابله کند. ما همچنین GPT‑5 را طوری آموزش دادیم که در مورد پرسشهای مربوط به سلامت بسیار دقیقتر عمل کند (برای کسب اطلاعات بیشتر به وبلاگ تحقیقاتی ما مراجعه کنید). همانند تمام مدلهای زبانی، توصیه میکنیم در مواقعی که موضوع حساس یا حیاتی است، حتماً صحت خروجیهای GPT‑5 را بررسی کنید.
توسعهدهندگان میتوانند زمان تفکر GPT‑5 را از طریق پارامتر reasoning_effort در API کنترل کنند. علاوه بر مقادیر قبلی—low، medium (پیشفرض)، و high— GPT‑5 از مقدار minimal نیز پشتیبانی میکند، که سطح استدلال GPT‑5 را به حداقل میرساند تا پاسخ را سریعتر ارائه دهد.
مقادیر بالاتر reasoning_effort کیفیت را به حداکثر میرسانند و مقادیر پایینتر سرعت را افزایش میدهند. همهٔ وظایف به یک اندازه از استدلالِ بیشتر بهرهمند نمیشوند؛ بنابراین توصیه میکنیم آزمایش کنید تا ببینید کدام گزینه برای موارد استفادهای که برایتان اهمیت دارد، بهترین عملکرد را دارد.
برای مثال، استدلال در سطوح بالاتر از low تأثیر چندانی در بازیابی اطلاعات ساده از متنی با زمینه طولانی ندارد، اما چندین درصد بهبود در CharXiv Reasoning(در یک پنجره جدید باز میشود)، یکی از معیارهای استدلال بصری، ایجاد میکند.
تلاش استدلالی GPT‑5 در وظایف مختلف، مزایای متفاوتی ارائه میدهد. برای استدلال CharXiv، GPT‑5 به یک ابزار پایتون دسترسی داده شد.
برای کنترل بهتر طول پیشفرض پاسخهای GPT‑5، ما پارامتر جدیدی به نام verbosity در API معرفی کردهایم، که مقادیر low، medium (پیشفرض) و high را میپذیرد. اگر دستورالعملهای صریح با پارامترهای مربوط به خروجی با جزئیات زیاد در تضاد باشند، دستورالعملهای صریح در اولویت قرار میگیرند. برای مثال، اگر از GPT‑5 بخواهید «یک انشای پنجپاراگرافی بنویسد»، پاسخ مدل باید همیشه شامل پنج پاراگراف باشد، صرفنظر از سطح خروجی با جزئیات زیاد. (با این حال، خودِ پاراگرافها ممکن است طولانیتر یا کوتاهتر باشند).
Verbosity=پایین
Verbosity=متوسط
Verbosity=زیاد
در صورت دستور، GPT‑5 قبل و بین فراخوانیهای ابزار، پیامهای مقدماتی قابل مشاهده برای کاربر را نمایش میدهد. برخلاف پیامهای استدلال پنهان، این پیامهای قابلمشاهده به GPT‑5 اجازه میدهند برنامهها و میزان پیشرفت خود را به کاربر منتقل کند و به کاربران نهایی کمک میکنند رویکرد و هدف پشتِ فراخوانیهای ابزار را بهتر درک کنند.
ما یک نوع ابزار جدید—ابزارهای سفارشی—معرفی میکنیم که به GPT‑5 اجازه میدهد به جای JSON، ابزاری را با متن ساده فراخوانی کند. برای محدود کردن GPT‑5 به پیروی از قالبهای ابزار سفارشی، توسعهدهندگان میتوانند یک عبارت منظم (regex) یا حتی یک گرامر مستقل از متن(در یک پنجره جدید باز میشود) با مشخصات کاملتر ارائه کنند.
پیشتر، رابط ما برای ابزارهایی که توسط توسعهدهندگان تعریف میشدند، نیازمند آن بود که این ابزارها با JSON فراخوانی شوند، قالبی که معمولاً توسط APIهای وب و بهطور کلی توسط توسعهدهندگان استفاده میشود. با این حال، تولید JSON معتبر مستلزم آن است که مدل تمام علامتهای نقلقول، بکاسلشها، خطوط جدید و سایر نویسههای کنترلی را بهطور کامل و صحیح اِسکیپ کند. اگرچه مدلهای ما برای تولید JSON بهخوبی آموزش دیدهاند، اما در ورودیهای طولانی مانند صدها خط کد یا یک گزارش پنجصفحهای احتمال بروز خطا افزایش پیدا میکند. با ابزارهای سفارشی، GPT‑5 میتواند ورودیهای ابزار را بهصورت متن ساده بنویسد، بدون آنکه مجبور باشد تمام کاراکترهایی را که نیاز به اِسکیپ شدن دارند، اِسکیپ کند.
در SWE-bench Verified با استفاده از ابزارهای سفارشی به جای ابزارهای JSON، GPT‑5 تقریباً امتیاز مشابهی کسب میکند.
GPT‑5 مرزهای ایمنی را گسترش میدهد و مدلی قویتر، قابلاعتمادتر و مفیدتر است. GPT‑5 به طور قابل توجهی کمتر از مدلهای قبلی ما دچار توهم میشود، اقدامات و قابلیتهای خود را صادقانهتر به کاربر منتقل میکند و در صورت امکان مفیدترین پاسخ را ارائه میدهد، در حالی که همچنان در محدوده ایمنی باقی میماند. میتوانید اطلاعات بیشتری را در وبلاگ تحقیقاتی ما مطالعه کنید.
GPT‑5 اکنون در پلتفرم API در سه نسخه موجود است: gpt-5، gpt-5-mini، و gpt-5-nano. این قابلیت در API پاسخها (Responses API)، API تکمیل مکالمه (Chat Completions API) در دسترس است و بهصورت پیشفرض در Codex CLI فعال میباشد. GPT‑5 با قیمت 1.25 دلار برای هر 1 میلیون token ورودی و 10 دلار برای هر 1 میلیون token خروجی قیمتگذاری شده است، GPT‑5 mini با قیمت 0.25 دلار برای هر 1 میلیون token ورودی و 2 دلار برای هر 1 میلیون token خروجی و GPT‑5 nano با قیمت 0.05 دلار برای هر 1 میلیون token ورودی و 0.40 دلار برای هر 1 میلیون token خروجی قیمتگذاری شده است.
این مدلها از پارامترهای API مانند reasoning_effort و verbosity پشتیبانی میکنند، همچنین قابلیت استفاده از ابزارهای سفارشی را نیز دارند. آنها همچنین از فراخوانی موازی ابزار، ابزارهای داخلی (مانند جستجوی وب، جستجوی فایل، تولید تصویر و موارد دیگر)، ویژگیهای اصلی API (مانند استریمینگ، خروجیهای ساختاریافته و موارد دیگر)، و همینطور قابلیتهای صرفهجویی در هزینه مانند کشکردن پرامپتها و Batch API پشتیبانی میکنند.
نسخه بدون استدلال GPT‑5 که در ChatGPT استفاده میشود، در API با نام gpt-5-chat-latest موجود است و قیمت آن 1.25 دلار برای هر 1 میلیون token ورودی و 10 دلار برای هر 1 میلیون token خروجی است.
GPT‑5 همچنین در پلتفرمهای مایکروسافت، از جمله Microsoft 365 Copilot، Copilot، GitHub Copilot و Azure AI Foundry، عرضه میشود.
برای شروع، مستندات(در یک پنجره جدید باز میشود) GPT‑5، جزئیات قیمتگذاری(در یک پنجره جدید باز میشود) و راهنمای پرامپتنویسی(در یک پنجره جدید باز میشود) را بررسی کنید.
هوشمند
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | ۹۴٫۶٪ | ۹۱٫۱٪ | ۸۵٫۲٪ | ۸۸٫۹٪ | ۹۲٫۷٪ | ۴۶٫۴٪ | ۴۰٫۲٪ | - |
| FrontierMath(with python tool only) | ۲۶٫۳٪ | ۲۲٫۱٪ | ۹٫۶٪ | ۱۵٫۸٪ | ۱۵٫۴٪ | - | - | - |
| GPQA diamond(no tools) | ۸۵٫۷٪ | ۸۲٫۳٪ | ۷۱٫۲٪ | ۸۳٫۳٪ | ۸۱٫۴٪ | ۶۶٫۳٪ | ۶۵٫۰٪ | ۵۰٫۳٪ |
| HLE[1](no tools) | ۲۴٫۸٪ | ۱۶٫۷٪ | ۸٫۷٪ | ۲۰٫۲٪ | ۱۴٫۷٪ | ۵٫۴٪ | ۳٫۷٪ | - |
| HMMT 2025(no tools) | ۹۳٫۳٪ | ۸۷٫۸٪ | ۷۵٫۶٪ | ۸۱٫۷٪ | ۸۵٫۰٪ | ۲۸٫۹٪ | ۳۵٫۰٪ | - |
[1] تفاوت جزئیای با اعداد گزارششده در پست وبلاگ قبلی ما وجود دارد، زیرا آن نتایج با نسخهی پیشین HLE اجرا شده بودند.
چندوجهی
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | ۸۴٫۲٪ | ۸۱٫۶٪ | ۷۵٫۶٪ | ۸۲٫۹٪ | ۸۱٫۶٪ | ۷۴٫۸٪ | ۷۲٫۷٪ | ۵۵٫۴٪ |
| MMMU-Pro(avg across standard and vision sets) | ۷۸٫۴٪ | ۷۴٫۱٪ | ۶۲٫۶٪ | ۷۶٫۴٪ | ۷۳٫۴٪ | ۶۰٫۳٪ | ۵۸٫۹٪ | ۳۳٫۰٪ |
| CharXiv reasoning(python enabled) | ۸۱٫۱٪ | ۷۵٫۵٪ | ۶۲٫۷٪ | ۷۸٫۶٪ | ۷۲٫۰٪ | ۵۶٫۷٪ | ۵۶٫۸٪ | ۴۰٫۵٪ |
| VideoMMMU, max frame 256 | ۸۴٫۶٪ | ۸۲٫۵٪ | ۶۶٫۸٪ | ۸۳٫۳٪ | ۷۹٫۴٪ | ۶۰٫۹٪ | ۵۵٫۱٪ | ۳۰٫۲٪ |
| ERQA | ۶۵٫۷٪ | ۶۲٫۹٪ | ۵۰٫۱٪ | ۶۴٫۰٪ | ۵۶٫۵٪ | ۴۴٫۳٪ | ۴۲٫۳٪ | ۲۶٫۵٪ |
برنامهنویسی
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $ ۱۱۲ هزار | $ ۷۵ هزار | $ ۴۹ هزار | $ ۸۶ هزار | $ ۶۶ هزار | $ ۳۴ هزار | $ ۳۱ هزار | $ ۹ هزار |
| SWE-bench Verified[2] | ۷۴٫۹٪ | ۷۱٫۰٪ | ۵۴٫۷٪ | ۶۹٫۱٪ | ۶۸٫۱٪ | ۵۴٫۶٪ | ۲۳٫۶٪ | - |
| Aider polyglot(diff) | ۸۸٫۰٪ | ۷۱٫۶٪ | ۴۸٫۴٪ | ۷۹٫۶٪ | ۵۸٫۲٪ | ۵۲٫۹٪ | ۳۱٫۶٪ | ۶٫۲٪ |
[2] ما 23 مورد از 500 مشکلی را که نمیتوانستند روی زیرساخت ما اجرا شوند، حذف میکنیم. فهرست کامل 23 وظیفهای که حذف شدهاند عبارتند از «astropy__astropy-7606»، «astropy__astropy-8707»، «astropy__astropy-8872»،«django__django-10097»، «django__django-7530»،«matplotlib__matplotlib-20488»، «matplotlib__matplotlib-20676»، «matplotlib__matplotlib-20826»، «matplotlib__matplotlib-23299»، «matplotlib__matplotlib-24970»، «matplotlib__matplotlib-25479»، «matplotlib__matplotlib-26342»،«psf__requests-6028»،«pylint-dev__pylint-6528»، «pylint-dev__pylint-7080»، «pylint-dev__pylint-7277»،«pytest-dev__pytest-5262»، «pytest-dev__pytest-7521»،«scikit-learn__scikit-learn-12973»،«sphinx-doc__sphinx-10466»، «sphinx-doc__sphinx-7462»، «sphinx-doc__sphinx-8265»، و «sphinx-doc__sphinx-9367».
پیروی از دستورالعمل
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | ۶۹٫۶٪ | ۶۲٫۳٪ | ۵۴٫۹٪ | ۶۰٫۴٪ | ۵۷٫۵٪ | ۴۶٫۲٪ | ۴۲٫۲٪ | ۳۱٫۱٪ |
| Internal API instruction following eval(hard) | ۶۴٫۰٪ | ۶۵٫۸٪ | ۵۶٫۱٪ | ۴۷٫۴٪ | ۴۴٫۷٪ | ۴۹٫۱٪ | ۴۵٫۱٪ | ۳۱٫۶٪ |
| COLLIE | ۹۹٫۰٪ | ۹۸٫۵٪ | ۹۶٫۹٪ | ۹۸٫۴٪ | ۹۶٫۱٪ | ۶۵٫۸٪ | ۵۴٫۶٪ | ۴۲٫۵٪ |
[3] نکته: ما دریافتیم که ارزیاب پیشفرض در MultiChallenge (یعنی GPT-4o) اغلب پاسخهای مدل را بهاشتباه ارزیابی میکند. ما دریافتیم که جایگزین کردن ارزیاب با یک مدل دارای قابلیت استدلال، مانند o3-mini، دقت ارزیابی را در نمونههایی که بررسی کردهایم بهطور قابلتوجهی افزایش میدهد.
فراخوانی تابع
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | ۶۲٫۶٪ | ۶۰٫۰٪ | ۴۱٫۰٪ | ۶۴٫۸٪ | ۶۰٫۲٪ | ۵۶٫۰٪ | ۵۱٫۰٪ | ۱۴٫۰٪ |
| Tau2-bench retail | ۸۱٫۱٪ | ۷۸٫۳٪ | ۶۲٫۳٪ | ۸۰٫۲٪ | ۷۰٫۵٪ | ۷۴٫۰٪ | ۶۶٫۰٪ | ۲۱٫۵٪ |
| Tau2-bench telecom | ۹۶٫۷٪ | ۷۴٫۱٪ | ۳۵٫۵٪ | ۵۸٫۲٪ | ۴۰٫۵٪ | ۳۴٫۰٪ | ۴۴٫۰٪ | ۱۲٫۱٪ |
متن طولانی
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | ۹۵٫۲٪ | ۸۴٫۳٪ | ۴۳٫۲٪ | ۵۵٫۰٪ | ۵۶٫۴٪ | ۵۷٫۲٪ | ۴۷٫۲٪ | ۳۶٫۶٪ |
| OpenAI-MRCR: 2 needle 256k | ۸۶٫۸٪ | ۵۸٫۸٪ | ۳۴٫۹٪ | - | - | ۵۶٫۲٪ | ۴۵٫۵٪ | ۲۲٫۶٪ |
| Graphwalks bfs <128k | ۷۸٫۳٪ | ۷۳٫۴٪ | ۶۴٫۰٪ | ۷۷٫۳٪ | ۶۲٫۳٪ | ۶۱٫۷٪ | ۶۱٫۷٪ | ۲۵٫۰٪ |
| Graphwalks parents <128k | ۷۳٫۳٪ | ۶۴٫۳٪ | ۴۳٫۸٪ | ۷۲٫۹٪ | ۵۱٫۱٪ | ۵۸٫۰٪ | ۶۰٫۵٪ | ۹٫۴٪ |
| BrowseComp Long Context 128k | ۹۰٫۰٪ | ۸۹٫۴٪ | ۸۰٫۴٪ | ۸۸٫۳٪ | ۸۰٫۰٪ | ۸۵٫۹٪ | ۸۹٫۰٪ | ۸۹٫۴٪ |
| BrowseComp Long Context 256k | ۸۸٫۸٪ | ۸۶٫۰٪ | ۶۸٫۴٪ | - | - | ۷۵٫۵٪ | ۸۱٫۶٪ | ۱۹٫۱٪ |
| VideoMME(long, with subtitle category) | ۸۶٫۷٪ | ۷۸٫۵٪ | ۶۵٫۷٪ | ۸۴٫۹٪ | ۷۹٫۵٪ | ۷۸٫۷٪ | ۶۸٫۴٪ | ۵۵٫۲٪ |
توهمات
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | ۱٫۰٪ | ۰٫۷٪ | ۱٫۰٪ | ۵٫۲٪ | ۳٫۰٪ | ۰٫۷٪ | ۱٫۱٪ | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | ۱٫۲٪ | ۱٫۳٪ | ۲٫۸٪ | ۶٫۸٪ | ۸٫۹٪ | ۱٫۱٪ | ۱٫۸٪ | - |
| FActScore hallucination rate(no tools)[lower is better] | ۲٫۸٪ | ۳٫۵٪ | ۷٫۳٪ | ۲۳٫۵٪ | ۳۸٫۷٪ | ۶٫۷٪ | ۱۰٫۹٪ | - |


