۱۶ مرداد ۱۴۰۴

معرفی GPT‑5 برای توسعه‌دهندگان

بهترین مدل برای کدنویسی و انجام وظایف مبتنی بر عامل‌ها.

در حال بارگذاری…

مقدمه

امروز ما GPT‑5 را در پلتفرم API خود عرضه می‌کنیم—بهترین مدل ما تا کنون برای کدنویسی و انجام وظایف مبتنی بر عامل‌ها.

GPT‑5 در تمام معیارهای کلیدی کدنویسی، پیشرفته (SOTA) است و در SWE-bench Verified امتیاز 74.9٪ و در Aider polyglot امتیاز 88٪ را کسب کرده است. ما GPT‑5 را طوری آموزش دادیم که یک همکار واقعی در کد‌نویسی باشد. این مدل در تولید کد باکیفیت و انجام کارهایی مانند رفع باگ، ویرایش کد و پاسخ‌گویی به پرسش‌ها دربارهٔ پایگاه‌های کد‌های پیچیده، عملکرد بسیار خوبی دارد. این مدل قابل هدایت و مشارکتی است؛ می‌تواند دستورالعمل‌های بسیار دقیق را با دقت بالا دنبال کند و پیش از فراخوانی ابزارها و میان آن‌ها، توضیحات اولیه‌ای دربارهٔ اقدامات خود ارائه دهد. این مدل همچنین در کدنویسی فرانت‌اند عملکرد بسیار خوبی دارد و در تست‌های داخلی، در 70 درصد موارد در توسعه وب فرانت‌اند بر OpenAI o3 برتری داشته است.

ما GPT‑5 را با همکاری آزمایش‌کنندگان اولیه در استارت‌آپ‌ها و شرکت‌های مختلف، بر اساس وظایف واقعی کدنویسی آموزش دادیم. Cursor می‌گوید GPT‑5 «هوشمندترین مدلی است که تاکنون [آن‌ها] استفاده کرده‌اند» و «به‌طور شگفت‌آوری باهوش است، به‌راحتی هدایت می‌شود و حتی شخصیتی دارد که [آن‌ها] در مدل‌های دیگر ندیده‌اند.» Windsurf اعلام کرد که GPT‑5 در ارزیابی‌های آن‌ها در سطح SOTA قرار دارد و «نرخ خطای فراخوانی ابزارِ آن نصف مدل‌های پیشرو دیگر است». Vercel می‌گوید «این بهترین مدل هوش مصنوعی برای فرانت‌اند است، مدلی که هم از نظر حس زیبایی‌شناختی و هم کیفیت کد، عملکردی در سطح بالا دارد و آن را در یک ردهٔ منحصربه‌فرد قرار می‌دهد.»

GPT‑5 همچنین در انجام وظایف مبتنی بر عامل‌ها بلندمدت عملکردی ممتاز دارد — و موفق به کسب نتایج در سطح SOTA در τ²-bench telecom شده است (96.7٪)، که معیاری برای فراخوانی ابزارهاست و تنها دو ماه پیش منتشر شده است. هوش ابزاری پیشرفته‌تر GPT‑5 به آن این توانایی را می‌دهد که ده‌ها فراخوانی ابزار را — چه به‌صورت متوالی و چه هم‌زمان — به‌طور قابل‌اعتماد زنجیره‌وار اجرا کند، بدون آنکه مسیر خود را گم کند. این ویژگی، GPT‑5 را در اجرای کامل وظایف پیچیده و واقعی از ابتدا تا انتها بسیار توانمندتر می‌سازد. همچنین دستورالعمل‌های مربوط به ابزارها را با دقت بیشتری دنبال می‌کند، در مدیریت خطاهای ابزار عملکرد بهتری دارد و در بازیابی محتوا در زمینه‌های طولانی بسیار توانمند است. Manus می‌گوید GPT‑5 «بهترین عملکردی را که تاکنون [آن‌ها] از یک مدل واحد در ارزیابی‌های داخلی‌شان دیده‌اند، ارائه داده است». Notion می‌گوید: « زمانی که نیاز به حل وظایف پیچیده در یک مرحله دارید پاسخ‌های سریع [این مدل]، به‌ویژه در حالت استدلال پایین، GPT‑5 را به مدلی ایده‌آل تبدیل می‌کند.» Inditex اظهار داشت که «آنچه واقعاً [GPT‑5] را متمایز می‌کند، عمق استدلال آن است: پاسخ‌هایی ظریف و چندلایه که نشان‌دهندهٔ درک واقعی از موضوع هستند.»

ما در API خود ویژگی‌های جدیدی معرفی می‌کنیم تا به توسعه‌دهندگان امکان کنترل بیشتری بر پاسخ‌های مدل بدهیم. GPT‑5 از یک پارامتر جدید به نام verbosity پشتیبانی می‌کند (با مقادیر low، medium و high) که به کنترل این موضوع کمک می‌کند که پاسخ‌ها کوتاه و مختصر باشند یا طولانی و جامع. پارامتر reasoning_effort در GPT‑5 اکنون می‌تواند روی مقدار حداقلی تنظیم شود تا بدون انجام استدلال گسترده، پاسخ‌ها سریع‌تر بازگردانده شوند. ما همچنین یک نوع ابزار جدید ـ ابزارهای سفارشی ـ اضافه کرده‌ایم تا GPT‑5 بتواند ابزارها را به‌جای JSON با متن ساده فراخوانی کند. ابزارهای سفارشی از محدودسازی بر اساس گرامرهای مستقل از متن که توسط توسعه‌دهنده ارائه می‌شوند، پشتیبانی می‌کنند.

ما GPT‑5 را در سه نسخه مختلف از طریق API عرضه می‌کنیم—gpt-5، gpt-5-mini، و gpt-5-nano—تا به توسعه‌دهندگان انعطاف‌پذیری بیشتری برای توازن میان عملکرد، هزینه و تأخیر ارائه دهیم. در حالی که GPT‑5 در ChatGPT مجموعه‌ای از مدل‌های استدلالی، غیر‌استدلالی و روتر را شامل می‌شود، GPT‑5 در پلتفرم API همان مدل استدلالی است که بیشترین سطح عملکرد را در ChatGPT تأمین می‌کند. نکته قابل توجه اینکه GPT‑5 در حالت حداقل استدلال، مدلی متفاوت از مدل بدون استدلال در ChatGPT است و برای توسعه‌دهندگان بهتر تنظیم شده است. مدلِ بدون استدلالِ مورد استفاده در ChatGPT با نام gpt-5-chat-latest در دسترس است.

برای مطالعهٔ بیشتر دربارهٔ GPT‑5 در ChatGPT و آشنایی با سایر پیشرفت‌های ChatGPT، به وبلاگ تحقیقاتی ما مراجعه کنید. برای کسب اطلاعات بیشتر دربارهٔ اینکه شرکت‌ها چگونه از GPT‑5 استقبال کرده‌اند، به وبلاگ سازمانی⁠ ما مراجعه کنید.

برنامه‌نویسی

GPT‑5 قوی‌ترین مدل کدنویسی است که تاکنون منتشر کرده‌ایم. این مدل عملکردی بهتر از o3 در معیارهای کدنویسی و کاربردهای واقعی دارد و به‌گونه‌ای دقیق تنظیم شده که در محصولات کدنویسی عامل‌محور مانند Cursor، Windsurf، GitHub Copilot و Codex CLI بدرخشد. GPT‑5 آزمایش‌کنندگان آلفای ما را تحت‌تأثیر قرار داد و در بسیاری از ارزیابی‌های داخلی و خصوصی آن‌ها رکوردهای جدیدی ثبت کرد.

بازخورد اولیه درباره GPT‑5 برای وظایف کدنویسی در دنیای واقعی

«GPT-5 هوشمندترین مدل کدنویسی است که ما استفاده کرده‌ایم. تیم ما دریافته است که GPT-5 به‌طرز چشمگیری هوشمند، به‌راحتی قابل هدایت، و حتی دارای شخصیتی است که در هیچ مدل دیگری مشاهده نکرده‌ایم. این مدل نه‌تنها باگ‌های پیچیده و عمیقاً پنهان را شناسایی می‌کند، بلکه می‌تواند عوامل پس‌زمینه‌ای طولانی و چندمرحله‌ای را اجرا کند تا وظایف پیچیده را تا پایان دنبال کند—همان نوع مسائلی که مدل‌های دیگر را متوقف می‌کردند. این مدل به ابزار روزمره ما برای انجام همه کارها تبدیل شده است از تعیین محدوده و برنامه‌ریزی PRها گرفته تا تکمیل ساخت‌های سرتاسری.

Michael Truell، هم‌بنیان‌گذار و مدیر عامل در Cursor

در SWE-bench Verified، که یک ارزیابی مبتنی بر وظایف واقعی مهندسی نرم‌افزار است، GPT‑5 امتیاز 74.9٪ را کسب کرده است؛ رقمی که نسبت به امتیاز 69.1٪ مدل o3 افزایش قابل توجهی نشان می‌دهد. نکتهٔ قابل توجه این است که GPT‑5 امتیاز بالای خود را با کارایی و سرعت بیشتری به دست می‌آورد: در مقایسه با o3 در حالت استدلال بالا، GPT‑5 از 22٪ توکنِ خروجی کمتر و 45٪ فراخوانی ابزار کمتری استفاده می‌کند.

در SWE-bench Verified⁠، به مدل یک مخزن کد همراه با شرح مشکل داده می‌شود و مدل باید یک پچ برای حل آن مشکل تولید کند. برچسب‌های متنی نشان‌دهنده سطح استدلالِ بالا هستند. امتیازهای ما 23 مورد از 500 مشکلی را که راه‌حل‌هایشان به طور قابل اعتمادی روی زیرساخت ما اجرا نشدند، حذف می‌کند. به GPT‑5 یک پرسش کوتاه داده شد که بر بررسی دقیق راه‌حل‌ها تأکید داشت؛ همین پرسش برای o3 سودی نداشت.

در Aider polyglot، که یک ارزیابی مربوط به ویرایش کد است، GPT‑5 با امتیاز 88٪ رکورد جدیدی ثبت کرد، رقمی که نشان‌دهندهٔ کاهش یک‌سومِ نرخ خطا در مقایسه با o3 است.

در Aider polygot⁠(در یک پنجره جدید باز می‌شود) (diff)، به یک مدل یک تمرین کدنویسی از Exercism داده می‌شود و باید راه‌حلش را به صورت یک کد diff بنویسد. مدل‌های استدلال با سطح استدلالِ بالا اجرا شدند.

ما همچنین دریافته‌ایم که GPT‑5 در کاوش عمیقِ پایگاه‌های کد‌ها و پاسخ‌گویی به پرسش‌هایی دربارهٔ نحوهٔ عملکرد یا تعامل بخش‌های مختلف، عملکرد بسیار خوبی دارد. در یک پایگاه‌ها کد به پیچیدگی پشتهٔ یادگیری تقویتی OpenAI، دریافته‌ایم که GPT‑5 می‌تواند در استدلال دربارهٔ کد و پاسخ‌گویی به پرسش‌های مرتبط به ما کمک کند و کارهای روزمرهٔ ما را سرعت ببخشد.

مهندسی فرانت‌اند

هنگام تولید کد فرانت‌اند برای برنامه‌های وب، GPT‑5 از نظر زیبایی‌شناختی حساس‌تر، جاه‌طلبانه‌تر و دقیق‌تر عمل می‌کند. در مقایسه‌های کنارهم با o3، GPT‑5 در 70٪ موارد توسط آزمایش‌کنندگان ما ترجیح داده شد.

در اینجا چند نمونهٔ جالب و گلچین‌شده از کارهایی که GPT‑5 می‌تواند تنها با یک دستور انجام دهد، آورده شده است:

پرامپت: لطفاً یک صفحه فرود زیبا و واقع‌گرایانه برای سرویسی طراحی کن که به عاشقان حرفه‌ای قهوه اشتراکی به مبلغ 200 دلار در ماه ارائه می‌دهد که این اشتراک شامل اجاره تجهیزات و مربی‌گری برای برشته‌کاری قهوه و تهیه اسپرسوی نهایی است. مخاطب هدف، فردی میانسال در منطقه Bay Area است که احتمالاً در حوزه فناوری فعالیت دارد، تحصیل‌کرده است، درآمد قابل‌اختیار دارد و به هنر و علم قهوه علاقه‌مند است. صفحه را برای بیشینه‌سازی تبدیل برای ثبت‌نام 6 ماهه بهینه کن.

نمونه‌های بیشتر از GPT‑5 را می‌توانید در گالری ما اینجا⁠(در یک پنجره جدید باز می‌شود) ببینید.

همکاری در کدنویسی

GPT‑5 به‌عنوان یک همکار توانمندتر عمل می‌کند، به‌ویژه در محصولات کدنویسی عامل‌محور مانند Cursor، Windsurf، GitHub Copilot و Codex CLI. در حین انجام کار، GPT‑5 می‌تواند میان فراخوانی‌های ابزار، برنامه‌ها، به‌روزرسانی‌ها و جمع‌بندی‌ها را ارائه کند. در مقایسه با مدل‌های قبلی ما، GPT‑5 در انجام وظایف جاه‌طلبانه فعالانه‌تر عمل می‌کند و بدون آنکه برای تأیید شما مکث کند یا در برابر پیچیدگی‌های بالا دچار تردید شود، کار را پیش می‌برد.

در اینجا نمونه‌ای از نحوهٔ عملکرد GPT‑5 هنگام انجام یک کار پیچیده آورده شده است (در این مثال، ساخت یک وب‌سایت برای یک رستوران):

پس از آن‌که کاربر درخواست ساخت یک وب‌سایت برای رستوران خود را مطرح می‌کند، GPT‑5 یک برنامه سریع ارائه می‌دهد، ساختار اولیه اپلیکیشن را ایجاد می‌کند، وابستگی‌ها را نصب می‌نماید، محتوای سایت را تولید می‌کند، یک بیلد اجرا می‌کند تا خطاهای کامپایل را بررسی کند، خلاصه‌ای از کار خود ارائه می‌دهد و گام‌های بعدی احتمالی را پیشنهاد می‌کند. این ویدیو تقریباً 3 برابر سریع‌تر پخش می‌شود تا در وقت شما صرفه‌جویی شود؛ مدت زمان واقعی برای ساخت وب‌سایت حدود سه دقیقه بوده است.

وظایف عامل‌محور

فراتر از کدنویسی عامل‌محور، GPT‑5 به‌طور کلی در وظایف عامل‌محور عملکرد بهتری دارد. GPT‑5 رکوردهای جدیدی را در آزمون‌های پیروی از دستورالعمل (با امتیاز 69.6٪ در Scale MultiChallenge، ارزیابی‌شده توسط o3‑mini) و فراخوانی ابزارها (با امتیاز 96.7٪ در τ²-bench telecom) ثبت کرده است. هوشِ ابزاریِ بهبود‌یافته این امکان را به GPT‑5 می‌دهد که با قابلیت اعتماد بیشتر، اقدامات لازم را به‌صورت زنجیره‌ای به هم متصل کند تا وظایف دنیای واقعی را انجام دهد.

بازخورد اولیه درباره GPT‑5 برای وظایف عامل‌محور

«GPT-5 یک گام بزرگ به جلو است. این مدل بهترین عملکردی را که تاکنون از یک مدل واحد در ارزیابی‌های داخلی‌مان دیده‌ایم، ارائه داده است. GPT-5 در انجام وظایف مختلف عامل‌محور عالی عمل کرد—حتی قبل از اینکه یک خط کد را تغییر بدهیم یا یک دستور را شخصی‌سازی کنیم. پیش‌گفتارهای جدید و کنترل دقیق‌تر بر استفاده از ابزارها، جهش قابل توجهی در پایداری و هدایت‌پذیری عوامل ما ایجاد کرد.»

Yichao «Peak» Ji، هم‌بنیان‌گذار و دانشمند ارشد در Manus

پیروی از دستورالعمل

GPT‑5 دستورالعمل‌ها را با اطمینان بیشتری نسبت به هر یک از مدل‌های قبلی خود دنبال می‌کند و در آزمون‌های COLLIE، Scale MultiChallenge و ارزیابی‌های داخلی ما امتیاز بالایی کسب کرده است.

در COLLIE⁠(در یک پنجره جدید باز می‌شود)، مدل‌ها باید متنی تولید کنند که محدودیت‌های مختلف را رعایت کند. در Scale MultiChallenge⁠(در یک پنجره جدید باز می‌شود)، مدل‌ها در مکالمه‌ها چند نوبتی به چالش کشیده می‌شوند تا به‌درستی از چهار نوع اطلاعات از پیام‌های قبلی استفاده کنند. امتیازهای ما با استفاده از o3‑mini به‌عنوان ارزیاب به دست آمده‌اند، مدلی که از GPT‑4o دقت بیشتری داشت. در ارزیابی داخلی OpenAI API برای پیروی از دستورالعمل‌ها، مدل‌ها باید دستورالعمل‌های دشواری را دنبال کنند که از بازخورد واقعی توسعه‌دهندگان استخراج شده‌اند. مدل‌های استدلال با سطح استدلالِ بالا اجرا شدند.

فراخوانی ابزار

ما سخت تلاش کردیم تا فراخوانی ابزار را به روش‌هایی که برای توسعه‌دهندگان اهمیت دارد، بهبود دهیم. GPT‑5 در پیروی از دستورالعمل‌های ابزار، در مدیریت خطاهای ابزار و در انجام فراخوانی‌های متوالی یا موازی ابزار به صورت پیشگیرانه، عملکرد بهتری دارد. وقتی به آن دستور داده شود، GPT‑5 می‌تواند پیام‌های مقدماتی را قبل و بین فراخوانی‌های ابزار ارسال کند تا کاربران را در مورد پیشرفت در طول وظایف طولانی‌تر عامل‌محور به‌روزرسانی کند.

دو ماه پیش، τ²-bench telecom توسط Sierra.ai به عنوان یک معیار چالش‌برانگیز برای استفاده از ابزار منتشر شد که نشان داد چگونه عملکرد مدل زبان هنگام تعامل با وضعیت محیطی که کاربران می‌توانند آن را تغییر دهند، به طور قابل توجهی کاهش می‌یابد. در انتشارات⁠(در یک پنجره جدید باز می‌شود) آنها، هیچ مدلی امتیازی بالاتر از 49٪ کسب نکرد. GPT‑5 امتیاز 97٪ را کسب کرده است.

در τ2-bench⁠(در یک پنجره جدید باز می‌شود)، یک مدل باید از ابزارها برای انجام یک وظیفه خدمات مشتری استفاده کند، جایی که ممکن است کاربری وجود داشته باشد که بتواند ارتباط برقرار کند و در وضعیت جهانی اقداماتی انجام دهد. مدل‌های استدلال با سطح استدلالِ بالا اجرا شدند.

GPT‑5 همچنین در پردازش ورودی‌های با زمینهٔ طولانی، بهبودهای قابل‌توجهی نشان می‌دهد. در OpenAI-MRCR، که معیاری برای بازیابی اطلاعات در زمینه‌های طولانی است، GPT‑5 عملکردی بهتر از o3 و GPT‑4.1 دارد، آن هم با اختلافی که در ورودی‌های طولانی‌تر به‌طور قابل‌توجهی افزایش می‌یابد.

در OpenAI-MRCR⁠(در یک پنجره جدید باز می‌شود) (حل ارجاع‌های چندمرحله‌ای)، چندین درخواست کاربر یکسان موسوم به «سوزن» (needle) در میان مجموعه‌ای طولانی از درخواست‌ها و پاسخ‌های مشابه، که به‌عنوان «انبار کاه» (haystack) شناخته می‌شوند، درج می‌گردد و از مدل خواسته می‌شود که پاسخ مربوط به سوزن شماره i را بازتولید کند. نسبت تطابق میانگین، میانگینِ نسبتِ تطابقِ رشته‌ای بین پاسخ مدل و پاسخ صحیح را اندازه‌گیری می‌کند. نقاط در حداکثر 256k token ورودی نشان‌دهنده میانگین‌های 128k–256k token ورودی و غیره هستند. اینجا، 256k معادل 256 * 1,024 = 262,114 token است. مدل‌های استدلال با سطح استدلالِ بالا اجرا شدند.

ما همچنین در حال متن‌باز کردن BrowseComp Long Context⁠(در یک پنجره جدید باز می‌شود) هستیم، که معیاری جدید برای ارزیابی پرسش و پاسخ‌های با زمینه طولانی است. در این معیار، به مدل یک پرسش کاربر و فهرستی طولانی از نتایج جستجوی مرتبط داده می‌شود، و مدل باید بر اساس همین نتایج جستجو به پرسش پاسخ دهد. ما BrowseComp Long Context را طوری طراحی کردیم که واقع‌گرایانه، چالش‌برانگیز و دارای پاسخ‌های درست و قابل اعتماد باشد. در ورودی‌هایی که شامل 128K–256K token هستند، GPT‑5 در 89٪ مواقع پاسخ صحیح می‌دهد.

در API، تمام مدل‌های GPT‑5 می‌توانند حداکثر 272,000 token ورودی را بپذیرند و حداکثر 128,000 token استدلال و خروجی تولید کنند، که در مجموع طول زمینهٔ آن‌ها را به 400,000 token می‌رساند.

واقعیت‌گرایی

GPT‑5 نسبت به مدل‌های قبلی ما قابل‌اعتمادتر است. در پرسش‌های مربوط به معیارهای LongFact و FactScore، GPT‑5 حدود 80٪ خطاهای واقعی کمتری نسبت به o3 دارد. این باعث می‌شود برای موارد استفادهٔ عامل‌محور که در آن‌ها صحت اهمیت دارد—به ویژه در کد، داده‌ها و تصمیم‌گیری مناسب‌تر باشد.

امتیازهای بالاتر به معنای عملکرد ضعیف‌تر هستند. LongFact⁠(در یک پنجره جدید باز می‌شود) و FActScore⁠(در یک پنجره جدید باز می‌شود) شامل پرسش‌های بازِ مربوط به جست‌وجوی حقایق هستند. ما از یک ارزیاب مبتنی بر مدل زبانی بزرگ (LLM) با قابلیت مرور (browsing) استفاده می‌کنیم تا پاسخ‌ها به پرسش‌های این ارزیابی‌ها را از نظر صحت واقعیت بررسی کرده و نسبت ادعاهای نادرست واقعی را اندازه‌گیری کنیم. جزئیات مربوط به پیاده‌سازی و ارزیابی را می‌توانید در کارت سیستم⁠ پیدا کنید. مدل‌های استدلال با سطح استدلالِ بالا اجرا شدند. جستجو فعال نشده بود.

به طور کلی، GPT‑5 به گونه‌ای آموزش دیده است که از محدودیت‌های خود آگاه‌تر باشد و بتواند با چالش‌های غیرمنتظره بهتر مقابله کند. ما همچنین GPT‑5 را طوری آموزش دادیم که در مورد پرسش‌های مربوط به سلامت بسیار دقیق‌تر عمل کند (برای کسب اطلاعات بیشتر به وبلاگ تحقیقاتی ما مراجعه کنید). همانند تمام مدل‌های زبانی، توصیه می‌کنیم در مواقعی که موضوع حساس یا حیاتی است، حتماً صحت خروجی‌های GPT‑5 را بررسی کنید.

ویژگی‌های جدید

حداقل تلاش برای استدلال

توسعه‌دهندگان می‌توانند زمان تفکر GPT‑5 را از طریق پارامتر reasoning_effort در API کنترل کنند. علاوه بر مقادیر قبلی—low، medium (پیش‌فرض)، و high— GPT‑5 از مقدار minimal نیز پشتیبانی می‌کند، که سطح استدلال GPT‑5 را به حداقل می‌رساند تا پاسخ را سریع‌تر ارائه دهد.

مقادیر بالاتر reasoning_effort کیفیت را به حداکثر می‌رسانند و مقادیر پایین‌تر سرعت را افزایش می‌دهند. همهٔ وظایف به یک اندازه از استدلالِ بیشتر بهره‌مند نمی‌شوند؛ بنابراین توصیه می‌کنیم آزمایش کنید تا ببینید کدام گزینه برای موارد استفاده‌ای که برایتان اهمیت دارد، بهترین عملکرد را دارد.

برای مثال، استدلال در سطوح بالاتر از low تأثیر چندانی در بازیابی اطلاعات ساده از متنی با زمینه طولانی ندارد، اما چندین درصد بهبود در CharXiv Reasoning⁠(در یک پنجره جدید باز می‌شود)، یکی از معیارهای استدلال بصری، ایجاد می‌کند.

تلاش استدلالی GPT‑5 در وظایف مختلف، مزایای متفاوتی ارائه می‌دهد. برای استدلال CharXiv، GPT‑5 به یک ابزار پایتون دسترسی داده شد.

خروجی با جزئیات زیاد

برای کنترل بهتر طول پیش‌فرض پاسخ‌های GPT‑5، ما پارامتر جدیدی به نام verbosity در API معرفی کرده‌ایم، که مقادیر low، medium (پیش‌فرض) و high را می‌پذیرد. اگر دستورالعمل‌های صریح با پارامترهای مربوط به خروجی با جزئیات زیاد در تضاد باشند، دستورالعمل‌های صریح در اولویت قرار می‌گیرند. برای مثال، اگر از GPT‑5 بخواهید «یک انشای پنج‌پاراگرافی بنویسد»، پاسخ مدل باید همیشه شامل پنج پاراگراف باشد، صرف‌نظر از سطح خروجی با جزئیات زیاد. (با این حال، خودِ پاراگراف‌ها ممکن است طولانی‌تر یا کوتاه‌تر باشند).

Verbosity=پایین

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=متوسط

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=زیاد

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

پیام‌های پیش‌درآمدیِ قبل از فراخوانی ابزار

در صورت دستور، GPT‑5 قبل و بین فراخوانی‌های ابزار، پیام‌های مقدماتی قابل مشاهده برای کاربر را نمایش می‌دهد. برخلاف پیام‌های استدلال پنهان، این پیام‌های قابل‌مشاهده به GPT‑5 اجازه می‌دهند برنامه‌ها و میزان پیشرفت خود را به کاربر منتقل کند و به کاربران نهایی کمک می‌کنند رویکرد و هدف پشتِ فراخوانی‌های ابزار را بهتر درک کنند.

ابزارهای سفارشی

ما یک نوع ابزار جدید—ابزارهای سفارشی—معرفی می‌کنیم که به GPT‑5 اجازه می‌دهد به جای JSON، ابزاری را با متن ساده فراخوانی کند. برای محدود کردن GPT‑5 به پیروی از قالب‌های ابزار سفارشی، توسعه‌دهندگان می‌توانند یک عبارت منظم (regex) یا حتی یک گرامر مستقل از متن⁠(در یک پنجره جدید باز می‌شود) با مشخصات کامل‌تر ارائه کنند.

پیش‌تر، رابط ما برای ابزارهایی که توسط توسعه‌دهندگان تعریف می‌شدند، نیازمند آن بود که این ابزارها با JSON فراخوانی شوند، قالبی که معمولاً توسط APIهای وب و به‌طور کلی توسط توسعه‌دهندگان استفاده می‌شود. با این حال، تولید JSON معتبر مستلزم آن است که مدل تمام علامت‌های نقل‌قول، بک‌اسلش‌ها، خطوط جدید و سایر نویسه‌های کنترلی را به‌طور کامل و صحیح اِسکیپ کند. اگرچه مدل‌های ما برای تولید JSON به‌خوبی آموزش دیده‌اند، اما در ورودی‌های طولانی مانند صدها خط کد یا یک گزارش پنج‌صفحه‌ای احتمال بروز خطا افزایش پیدا می‌کند. با ابزارهای سفارشی، GPT‑5 می‌تواند ورودی‌های ابزار را به‌صورت متن ساده بنویسد، بدون آنکه مجبور باشد تمام کاراکترهایی را که نیاز به اِسکیپ شدن دارند، اِسکیپ کند.

در SWE-bench Verified با استفاده از ابزارهای سفارشی به جای ابزارهای JSON، GPT‑5 تقریباً امتیاز مشابهی کسب می‌کند.

ایمنی

GPT‑5 مرزهای ایمنی را گسترش می‌دهد و مدلی قوی‌تر، قابل‌اعتمادتر و مفیدتر است. GPT‑5 به طور قابل توجهی کمتر از مدل‌های قبلی ما دچار توهم می‌شود، اقدامات و قابلیت‌های خود را صادقانه‌تر به کاربر منتقل می‌کند و در صورت امکان مفیدترین پاسخ را ارائه می‌دهد، در حالی که همچنان در محدوده ایمنی باقی می‌ماند. می‌توانید اطلاعات بیشتری را در وبلاگ تحقیقاتی ما مطالعه کنید.

در دسترس بودن و قیمت گذاری

GPT‑5 اکنون در پلتفرم API در سه نسخه موجود است: gpt-5، gpt-5-mini، و gpt-5-nano. این قابلیت در API پاسخ‌ها (Responses API)، API تکمیل مکالمه (Chat Completions API) در دسترس است و به‌صورت پیش‌فرض در Codex CLI فعال می‌باشد. GPT‑5 با قیمت 1.25 دلار برای هر 1 میلیون token ورودی و 10 دلار برای هر 1 میلیون token خروجی قیمت‌گذاری شده است، GPT‑5 mini با قیمت 0.25 دلار برای هر 1 میلیون token ورودی و 2 دلار برای هر 1 میلیون token خروجی و GPT‑5 nano با قیمت 0.05 دلار برای هر 1 میلیون token ورودی و 0.40 دلار برای هر 1 میلیون token خروجی قیمت‌گذاری شده است.

این مدل‌ها از پارامترهای API مانند reasoning_effort و verbosity پشتیبانی می‌کنند، همچنین قابلیت استفاده از ابزارهای سفارشی را نیز دارند. آنها همچنین از فراخوانی موازی ابزار، ابزارهای داخلی (مانند جستجوی وب، جستجوی فایل، تولید تصویر و موارد دیگر)، ویژگی‌های اصلی API (مانند استریمینگ، خروجی‌های ساختاریافته و موارد دیگر)، و همین‌طور قابلیت‌های صرفه‌جویی در هزینه مانند کش‌کردن پرامپت‌ها و Batch API پشتیبانی می‌کنند.

نسخه بدون استدلال GPT‑5 که در ChatGPT استفاده می‌شود، در API با نام gpt-5-chat-latest موجود است و قیمت آن 1.25 دلار برای هر 1 میلیون token ورودی و 10 دلار برای هر 1 میلیون token خروجی است.

GPT‑5 همچنین در پلتفرم‌های مایکروسافت، از جمله Microsoft 365 Copilot، Copilot، GitHub Copilot و Azure AI Foundry، عرضه می‌شود.

برای شروع، مستندات⁠(در یک پنجره جدید باز می‌شود) GPT‑5، جزئیات قیمت‌گذاری⁠(در یک پنجره جدید باز می‌شود) و راهنمای پرامپت‌نویسی⁠(در یک پنجره جدید باز می‌شود) را بررسی کنید.

ارزیابی‌های دقیق

هوشمند

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	۹۴٫۶٪	۹۱٫۱٪	۸۵٫۲٪	۸۸٫۹٪	۹۲٫۷٪	۴۶٫۴٪	۴۰٫۲٪	-
FrontierMath(with python tool only)	۲۶٫۳٪	۲۲٫۱٪	۹٫۶٪	۱۵٫۸٪	۱۵٫۴٪	-	-	-
GPQA diamond(no tools)	۸۵٫۷٪	۸۲٫۳٪	۷۱٫۲٪	۸۳٫۳٪	۸۱٫۴٪	۶۶٫۳٪	۶۵٫۰٪	۵۰٫۳٪
HLE^[1](no tools)	۲۴٫۸٪	۱۶٫۷٪	۸٫۷٪	۲۰٫۲٪	۱۴٫۷٪	۵٫۴٪	۳٫۷٪	-
HMMT 2025(no tools)	۹۳٫۳٪	۸۷٫۸٪	۷۵٫۶٪	۸۱٫۷٪	۸۵٫۰٪	۲۸٫۹٪	۳۵٫۰٪	-

[1] تفاوت جزئی‌ای با اعداد گزارش‌شده در پست وبلاگ قبلی ما وجود دارد، زیرا آن نتایج با نسخه‌ی پیشین HLE اجرا شده بودند.

چندوجهی

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	۸۴٫۲٪	۸۱٫۶٪	۷۵٫۶٪	۸۲٫۹٪	۸۱٫۶٪	۷۴٫۸٪	۷۲٫۷٪	۵۵٫۴٪
MMMU-Pro(avg across standard and vision sets)	۷۸٫۴٪	۷۴٫۱٪	۶۲٫۶٪	۷۶٫۴٪	۷۳٫۴٪	۶۰٫۳٪	۵۸٫۹٪	۳۳٫۰٪
CharXiv reasoning(python enabled)	۸۱٫۱٪	۷۵٫۵٪	۶۲٫۷٪	۷۸٫۶٪	۷۲٫۰٪	۵۶٫۷٪	۵۶٫۸٪	۴۰٫۵٪
VideoMMMU, max frame 256	۸۴٫۶٪	۸۲٫۵٪	۶۶٫۸٪	۸۳٫۳٪	۷۹٫۴٪	۶۰٫۹٪	۵۵٫۱٪	۳۰٫۲٪
ERQA	۶۵٫۷٪	۶۲٫۹٪	۵۰٫۱٪	۶۴٫۰٪	۵۶٫۵٪	۴۴٫۳٪	۴۲٫۳٪	۲۶٫۵٪

برنامه‌نویسی

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	‎$ ۱۱۲ هزار	‎$ ۷۵ هزار	‎$ ۴۹ هزار	‎$ ۸۶ هزار	‎$ ۶۶ هزار	‎$ ۳۴ هزار	‎$ ۳۱ هزار	‎$ ۹ هزار
SWE-bench Verified^[2]	۷۴٫۹٪	۷۱٫۰٪	۵۴٫۷٪	۶۹٫۱٪	۶۸٫۱٪	۵۴٫۶٪	۲۳٫۶٪	-
Aider polyglot(diff)	۸۸٫۰٪	۷۱٫۶٪	۴۸٫۴٪	۷۹٫۶٪	۵۸٫۲٪	۵۲٫۹٪	۳۱٫۶٪	۶٫۲٪

[2] ما 23 مورد از 500 مشکلی را که نمی‌توانستند روی زیرساخت ما اجرا شوند، حذف می‌کنیم. فهرست کامل 23 وظیفه‌ای که حذف شده‌اند عبارتند از «astropy__astropy-7606»، «astropy__astropy-8707»، «astropy__astropy-8872»،«django__django-10097»، «django__django-7530»،«matplotlib__matplotlib-20488»، «matplotlib__matplotlib-20676»، «matplotlib__matplotlib-20826»، «matplotlib__matplotlib-23299»، «matplotlib__matplotlib-24970»، «matplotlib__matplotlib-25479»، «matplotlib__matplotlib-26342»،«psf__requests-6028»،«pylint-dev__pylint-6528»، «pylint-dev__pylint-7080»، «pylint-dev__pylint-7277»،«pytest-dev__pytest-5262»، «pytest-dev__pytest-7521»،«scikit-learn__scikit-learn-12973»،«sphinx-doc__sphinx-10466»، «sphinx-doc__sphinx-7462»، «sphinx-doc__sphinx-8265»، و «sphinx-doc__sphinx-9367».

پیروی از دستورالعمل

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	۶۹٫۶٪	۶۲٫۳٪	۵۴٫۹٪	۶۰٫۴٪	۵۷٫۵٪	۴۶٫۲٪	۴۲٫۲٪	۳۱٫۱٪
Internal API instruction following eval(hard)	۶۴٫۰٪	۶۵٫۸٪	۵۶٫۱٪	۴۷٫۴٪	۴۴٫۷٪	۴۹٫۱٪	۴۵٫۱٪	۳۱٫۶٪
COLLIE	۹۹٫۰٪	۹۸٫۵٪	۹۶٫۹٪	۹۸٫۴٪	۹۶٫۱٪	۶۵٫۸٪	۵۴٫۶٪	۴۲٫۵٪

[3] نکته: ما دریافتیم که ارزیاب پیش‌فرض در MultiChallenge (یعنی GPT-4o) اغلب پاسخ‌های مدل را به‌اشتباه ارزیابی می‌کند. ما دریافتیم که جایگزین کردن ارزیاب با یک مدل دارای قابلیت استدلال، مانند o3-mini، دقت ارزیابی را در نمونه‌هایی که بررسی کرده‌ایم به‌طور قابل‌توجهی افزایش می‌دهد.

فراخوانی تابع

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	۶۲٫۶٪	۶۰٫۰٪	۴۱٫۰٪	۶۴٫۸٪	۶۰٫۲٪	۵۶٫۰٪	۵۱٫۰٪	۱۴٫۰٪
Tau²-bench retail	۸۱٫۱٪	۷۸٫۳٪	۶۲٫۳٪	۸۰٫۲٪	۷۰٫۵٪	۷۴٫۰٪	۶۶٫۰٪	۲۱٫۵٪
Tau²-bench telecom	۹۶٫۷٪	۷۴٫۱٪	۳۵٫۵٪	۵۸٫۲٪	۴۰٫۵٪	۳۴٫۰٪	۴۴٫۰٪	۱۲٫۱٪

متن طولانی

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	۹۵٫۲٪	۸۴٫۳٪	۴۳٫۲٪	۵۵٫۰٪	۵۶٫۴٪	۵۷٫۲٪	۴۷٫۲٪	۳۶٫۶٪
OpenAI-MRCR: 2 needle 256k	۸۶٫۸٪	۵۸٫۸٪	۳۴٫۹٪	-	-	۵۶٫۲٪	۴۵٫۵٪	۲۲٫۶٪
Graphwalks bfs <128k	۷۸٫۳٪	۷۳٫۴٪	۶۴٫۰٪	۷۷٫۳٪	۶۲٫۳٪	۶۱٫۷٪	۶۱٫۷٪	۲۵٫۰٪
Graphwalks parents <128k	۷۳٫۳٪	۶۴٫۳٪	۴۳٫۸٪	۷۲٫۹٪	۵۱٫۱٪	۵۸٫۰٪	۶۰٫۵٪	۹٫۴٪
BrowseComp Long Context 128k	۹۰٫۰٪	۸۹٫۴٪	۸۰٫۴٪	۸۸٫۳٪	۸۰٫۰٪	۸۵٫۹٪	۸۹٫۰٪	۸۹٫۴٪
BrowseComp Long Context 256k	۸۸٫۸٪	۸۶٫۰٪	۶۸٫۴٪	-	-	۷۵٫۵٪	۸۱٫۶٪	۱۹٫۱٪
VideoMME(long, with subtitle category)	۸۶٫۷٪	۷۸٫۵٪	۶۵٫۷٪	۸۴٫۹٪	۷۹٫۵٪	۷۸٫۷٪	۶۸٫۴٪	۵۵٫۲٪

توهمات

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	۱٫۰٪	۰٫۷٪	۱٫۰٪	۵٫۲٪	۳٫۰٪	۰٫۷٪	۱٫۱٪	-
LongFact-Objects hallucination rate(no tools)[lower is better]	۱٫۲٪	۱٫۳٪	۲٫۸٪	۶٫۸٪	۸٫۹٪	۱٫۱٪	۱٫۸٪	-
FActScore hallucination rate(no tools)[lower is better]	۲٫۸٪	۳٫۵٪	۷٫۳٪	۲۳٫۵٪	۳۸٫۷٪	۶٫۷٪	۱۰٫۹٪	-

2025

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

Introducing OpenAI Presence

محصول۳۱ تیر ۱۴۰۵

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 اکنون مدل ترجیحی در Microsoft 365 Copilot است

محصول۱۸ تیر ۱۴۰۵

GPT-5.6: هوشمندی پیشرو که هم‌گام با بلندپروازی شما مقیاس‌پذیر می‌شود

محصول۱۸ تیر ۱۴۰۵