معرفی GPT‑5
هوشمندترین، سریعترین و مفیدترین مدل ما تاکنون، با تفکر داخلی که هوش در سطح متخصص را در دسترس همه قرار میدهد.
ما GPT‑5، بهترین سیستم هوش مصنوعیمان تا به حال، را معرفی میکنیم. GPT‑5 یک جهش قابل توجه در هوش نسبت به تمام مدلهای قبلی ما است و عملکردی پیشرفته در زمینههای برنامهنویسی، ریاضیات، نوشتن، سلامت، ادراک بصری و موارد دیگر دارد. این یک سیستم یکپارچه است که میداند چه زمان باید سریع پاسخ دهد و چه زمان بیشتر فکر کند تا پاسخهای کارشناسی ارائه بدهد. GPT‑5 برای همه کاربران در دسترس است، با این تفاوت که مشترکین Plus استفاده بیشتری دارند و مشترکین Pro به GPT‑5 pro دسترسی پیدا میکنند، نسخهای با استدلال گستردهتر برای پاسخهای حتی جامعتر و دقیقتر.
GPT‑5 سیستمی یکپارچه با یک مدل هوشمند و کارآمد است که به اکثر سوالات پاسخ میدهد، یک مدل استدلال عمیقتر (تفکر GPT‑5) برای مشکلات دشوارتر، و یک روتر لحظهای که به سرعت تصمیم میگیرد بر اساس نوع مکالمه، پیچیدگی، نیازهای ابزار و قصد صریح شما (مثلاً اگر در سوال بگویید «درباره این موضوع خوب فکر کن») از کدام استفاده کند. روتر به طور مداوم با استفاده از سیگنالهای واقعی آموزش داده میشود، از جمله زمانی که کاربران مدلها را تغییر میدهند، نرخهای ترجیحی برای پاسخها و صحت اندازهگیری شده، که با گذشت زمان بهبود مییابد. وقتی به محدودیتهای استفاده رسیدید، یک نسخه کوچک از هر مدل درخواستهای باقیمانده را مدیریت میکند. در آینده نزدیک، قصد داریم این قابلیتها را در یک مدل واحد ادغام کنیم.
GPT‑5 نه تنها در معیارها از مدلهای قبلی بهتر عمل میکند و سریعتر به سؤالات پاسخ میدهد، بلکه—مهمتر از همه—برای پرسشهای دنیای واقعی مفیدتر است. ما پیشرفتهای قابل توجهی در کاهش توهمات، بهبود پیروی از دستورالعملها و به حداقل رساندن چاپلوسی داشتهایم، در حالی که عملکرد GPT‑5 را در سه مورد از رایجترین کاربردهای ChatGPT ارتقا دادهایم: نوشتن، برنامهنویسی و سلامت.
GPT‑5 قویترین مدل برنامهنویسی ما تا امروز است. این نشاندهنده پیشرفتهای خاص در تولید فرانتاند پیچیده و اشکالزدایی مخازن بزرگتر است. اغلب میتواند وبسایتها، برنامهها و بازیهای زیبا و واکنشگرا را با توجه به حساسیت زیباییشناختی تنها با یک درخواست ایجاد کند و بهطور شهودی و با سلیقه ایدهها را به واقعیت تبدیل کند. آزمایشکنندگان اولیه همچنین به انتخابهای طراحی آن اشاره کردند و درک بسیار بهتری از مواردی مانند فاصلهگذاری، تایپوگرافی و فضای سفید را گزارش کردند. برای جزئیات کامل در مورد آنچه GPT‑5 برای توسعهدهندگان عرضه میکند، اینجا را ببینید.
در اینجا چند نمونه از آنچه GPT‑5 تنها با یک درخواست ایجاد کرده، آورده شده است:
درخواست: یک برنامه تکصفحهای در یک فایل HTML واحد با الزامات زیر ایجاد کنید:
- نام: Jumping Ball Runner
- هدف: از روی موانع بپرید و تا جایی که میتوانید زنده بمانید.
- ویژگیها: افزایش سرعت، ردیابی امتیاز بالا، دکمه تلاش مجدد و صداهای خندهدار برای اقدامات و رویدادها.
- رابط کاربری باید رنگارنگ باشد و دارای پسزمینههای پیمایش اختلاف منظر باشد.
- شخصیتها باید کارتونی به نظر برسند و تماشایشان سرگرمکننده باشد.
- بازی باید برای همه لذتبخش باشد.
GPT‑5 تواناترین همکار نویسندگی ما تا به حال است که میتواند در هدایت و ترجمه ایدههای خام به نوشتهای جذاب و طنینانداز با عمق و ریتم ادبی به شما کمک کند. با اطمینان بیشتر نوشتن را مدیریت میکند که شامل ابهام ساختاری است، مانند حفظ پنتامتر ایامبیک بدون قافیه یا شعر آزاد که بهطور طبیعی جریان دارد و رعایت فرم را با وضوح بیانی ترکیب میکند. این قابلیتهای بهبود یافته نوشتن به این معنی است که ChatGPT در کمک به شما در کارهای روزمره مانند تهیه و ویرایش گزارشها، ایمیلها، یادداشتها و موارد دیگر بهتر است. سبکهای نوشتاری GPT‑5 و GPT‑4o را میتوان در جدول زیر مقایسه کرد.
GPT‑5 بهترین مدل ما برای سؤالات مربوط به سلامت است که کاربران را قادر میسازد از سلامت خود مطلع شوند و از آن مراقبت کنند. این مدل در HealthBench به طور قابل توجهی بالاتر از هر مدل قبلی امتیاز کسب میکند، یک ارزیابی که اوایل امسال بر اساس سناریوهای واقعبینانه و معیارهای تعریفشده توسط پزشکان منتشر کردیم. در مقایسه با مدلهای قبلی، بیشتر شبیه یک شریک فکری فعال عمل میکند، بهطور فعال نگرانیهای بالقوه را شناسایی کرده و سوالاتی میپرسد تا پاسخهای مفیدتری ارائه دهد. این مدل اکنون پاسخهای دقیقتر و قابلاعتمادتر ارائه میدهد و با زمینه، سطح دانش و جغرافیای کاربر سازگار میشود و به این ترتیب میتواند پاسخهای ایمنتر و مفیدتری را در طیف گستردهای از سناریوها ارائه کند. نکته مهم آن است که ChatGPT جایگزین متخصص پزشکی نمیشود - آن را به عنوان یک شریک در نظر بگیرید که کمک میکند نتایج را درک کنید، در زمانی که با ارائهدهندگان دارید سوالات مناسب بپرسید و گزینهها را هنگام تصمیمگیری در نظر بگیرید.
میتوانید برخی از مزایای GPT‑5 نسبت به مدلهای قبلی ما در حوزههای مختلف - غنیتر، دقیقتر و مفیدتر - را در این مثالها مشاهده کنید:
GPT-4o
GPT-5
پاسخ GPT‑5 قوس احساسی بزرگتری را با پایانی قویتر، تصاویری واضح و استعارههای چشمگیر («پرچمهای سیاه کشوری که دیگر وجود ندارد»، «ناقوس کیوتو که عصر را به پایین تپه میغلتاند») به تصویر میکشد که حس زندهای از فرهنگ و مکان را ایجاد میکند. نسخه GPT‑4o از ساختار و طرح قافیه قابل پیشبینیتری پیروی میکند و به جای نشان دادن، میگوید («او گریه میکند و نمیگوید»).
* پاسخی بین 4o و OpenAI o3 را بر اساس اینکه کدام مدل برای درخواست داده شده بهتر عمل کرد، انتخاب کردیم.
GPT‑5 در کل بسیار باهوشتر است، همانطور که از عملکرد آن در معیارهای دانشگاهی و ارزیابیشده توسط انسان، به ویژه در ریاضی، برنامهنویسی، ادراک بصری و سلامت، مشخص است. این مدل، سطح جدیدی از پیشرفت را در ریاضیات (۹۴.۶٪ در AIME 2025 بدون ابزار)، برنامهنویسی در دنیای واقعی (۷۴.۹٪ در SWE-bench Verified، ۸۸٪ در Aider Polyglot)، درک چندوجهی (۸۴.۲٪ در MMMU) و سلامت (۴۶.۲٪ در HealthBench Hard) ایجاد میکند- و این پیشرفتها در استفاده روزمره، خود را نشان میدهند. با استدلال گسترده GPT‑5 pro، این مدل همچنین یک SOTA جدید را بر روی GPQA ثبت میکند و بدون ابزار ۸۸.۴٪ امتیاز کسب میکند.
*نتایج AIME با ابزارها نباید مستقیماً با عملکرد مدلهایی که به ابزارها دسترسی ندارند مقایسه شوند؛ آنها نمونهای از چگونگی استفاده مؤثر GPT‑5 از ابزارهای موجود هستند.
تمام اجرای ارزیابیهای SWE-bench از زیرمجموعه ثابتی از n=477 وظایف تأیید شده استفاده میکنند که در زیرساخت داخلی ما اعتبارسنجی شدهاند.
GPT‑5 پیشرفتهای قابل توجهی در معیارهایی نشان میدهد که پیروی از دستورالعملها و استفاده از ابزارهای عامل را میسنجند، قابلیتهایی که به آن اجازه میدهند بهطور قابلاعتماد درخواستهای چندمرحلهای را انجام دهد، بین ابزارهای مختلف هماهنگ شود و با تغییرات در زمینه سازگار شود. در عمل، این بدان معناست که در انجام وظایف پیچیده و در حال تکامل بهتر عمل میکند. GPT‑5 میتواند دستورالعملهای شما را با وفاداری بیشتر دنبال کند و با استفاده از ابزارهای موجود، کارهای بیشتری را از ابتدا تا انتها انجام دهد.
این مدل در طیف گستردهای از معیارهای چندرسانهای، شامل استدلال بصری، ویدئویی، فضایی و علمی برتری دارد. عملکرد قویتر چندرسانهای به این معناست که ChatGPT میتواند با دقت بیشتر بر روی تصاویر و ورودیهای غیرمتنی دیگر استدلال کند، چه تفسیر یک نمودار باشد، چه خلاصهسازی عکس یک ارائه، یا پاسخ به سوالات درباره یک دیاگرام.
GPT‑5 همچنین بهترین مدل ما در یک معیار داخلی است که عملکرد را در کارهای پیچیده و ارزشمند اقتصادی اندازهگیری میکند. هنگام استفاده از استدلال، GPT‑5 در حدود نیمی از موارد با کارشناسان قابل مقایسه یا بهتر است و در عین حال از o3 و عامل ChatGPT در کارهای مربوط به بیش از ۴۰ شغل از جمله حقوق، لجستیک، فروش و مهندسی پیشی میگیرد.
روششناسی برای ارزیابیهای فوق: نتایج برای GPT‑4o نشاندهنده جدیدترین نسخه مدل در ChatGPT تا آگوست 2025 است. همه مدلها در تنظیمات «تلاش استدلال» بالا ارزیابی میشوند. تلاش استدلال میتواند در ChatGPT متفاوت باشد و سطح بالا نشاندهنده حداکثر تجربهای است که یک کاربر ممکن است هنگام استفاده از مدل داشته باشد.
GPT‑5 در زمان تفکر کمتر، بهرهوری بیشتری دارد. در ارزیابیهای ما، GPT‑5 (با تفکر) نسبت به OpenAI o3 با 50-80٪ توکن کمتر، در همه قابلیتها، از جمله استدلال بصری، برنامهنویسی عامل و حل مسائل علمی در سطح کارشناسی ارشد، عملکرد بهتری دارد.
GPT‑5 بر روی ابررایانههای Microsoft Azure AI آموزش دیده است.
GPT‑5 به طور قابل توجه کمتر از مدلهای قبلی ما دچار توهم میشود. با فعالسازی جستجوی وب بر روی درخواستهای ناشناس که نماینده ترافیک تولید ChatGPT هستند، پاسخهای GPT‑5 حدود ۴۵٪ کمتر از GPT‑4o احتمال دارد که حاوی خطای واقعی باشند و هنگام تفکر، پاسخهای GPT‑5 نسبت به OpenAI o3 حدود ۸۰٪ کمتر احتمال دارد که حاوی خطای واقعی باشند.
ما بهطور ویژه در قابلاعتمادتر کردن مدلهایمان هنگام استدلال دربارهٔ پرسشهای پیچیده و باز، سرمایهگذاری کردهایم. بر این اساس، ارزیابیهای جدیدی را برای آزمون استرس واقعیتهای باز اضافه کردهایم. ما نرخ توهم GPT‑5 را هنگام پردازش سوالات باز برای جستجوی حقیقت از دو معیار عمومی واقعیتسنجی اندازهگیری کردیم: LongFact(در یک پنجره جدید باز میشود) (مفاهیم و اشیاء) و FActScore(در یک پنجره جدید باز میشود). در تمام این معیارها، «تفکر GPT‑5» کاهش شدید توهمات را نشان میدهد—حدود شش برابر کمتر از o3—که نشاندهنده یک جهش واضح به جلو در تولید محتوای طولانی و دقیق است. جزئیات پیادهسازی و درجهبندی برای ارزیابیهای ما در این معیارها را میتوانید در کارت سیستم پیدا کنید.
در کنار بهبود واقعیت، GPT‑5 (با تفکر) به طور صادقانهتر اقدامات و قابلیتهای خود را به کاربر منتقل میکند، بهویژه برای وظایفی که غیرممکن، نامشخص یا فاقد ابزارهای کلیدی هستند. به منظور دستیابی به پاداش بالا در طول آموزش، مدلهای استدلال ممکن است یاد بگیرند که در مورد تکمیل موفقیت آمیز یک کار دروغ بگویند یا در مورد پاسخ نامشخص بیش از حد اعتماد به نفس داشته باشند. به عنوان مثال، برای آزمایش این موضوع، ما تمام تصاویر را از دستورالعملهای معیار چندمنظوره CharXiv حذف کردیم و دریافتیم که OpenAI o3 هنوز در 86.7٪ مواقع درباره تصاویر غیرموجود پاسخهای مطمئن ارائه میدهد، در مقایسه با فقط 9٪ برای GPT‑5.
هنگام استدلال، GPT‑5 با دقت بیشتری تشخیص میدهد که چه زمان کارها نمیتوانند انجام شوند و محدودیتهای خود را بهوضوح بیان میکند. ما نرخ فریب را در شرایطی که شامل وظایف برنامهنویسی غیرممکن و داراییهای چندرسانهای گمشده بود، ارزیابی کردیم و دریافتیم که GPT‑5 (با تفکر) در مقایسه با o3 در همه موارد کمتر فریبنده است. در مجموعه بزرگی از مکالمهها که نماینده ترافیک واقعی ChatGPT هستند، نرخ فریب را از ۴.۸٪ برای o3 به ۲.۱٪ در پاسخهای استدلالی GPT‑5 کاهش دادهایم. در حالی که این یک پیشرفت معنادار برای کاربران است، کارهای بیشتری باید انجام شود و ما به تحقیق برای بهبود واقعیت و صداقت مدلهای خود ادامه میدهیم. جزئیات بیشتر را میتوانید در کارت سیستم پیدا کنید.
قبل از کاهش
پس از کاهش
GPT‑5 مرز ایمنی را جلوتر میبرد. در گذشته، ChatGPT عمدتاً به آموزش ایمنی مبتنی بر امتناع متکی بود: بر اساس درخواست کاربر، مدل باید یا مطابقت کند یا امتناع ورزد. در حالی که این نوع آموزش برای درخواستهای صریحاً مخرب به خوبی عمل میکند، ممکن است در مواجهه با موقعیتهایی که قصد کاربر نامشخص است یا اطلاعات میتواند به روشهای خوشخیم یا مخرب استفاده شود، دچار مشکل شود. آموزش امتناع به ویژه برای حوزههای با کاربرد دوگانه مانند ویروسشناسی انعطافناپذیر است، جایی که میتوان یک درخواست بیضرر را با خیال راحت در سطح بالا تکمیل کرد، اما اگر با جزئیات تکمیل شود، ممکن است به یک عامل بد کمک کند.
برای GPT‑5، ما نوع جدیدی از آموزش ایمنی - تکمیلهای ایمن - را معرفی کردیم که به مدل یاد میدهد تا در صورت امکان، مفیدترین پاسخ را ارائه دهد و در عین حال در مرزهای ایمنی باقی بماند. گاهی اوقات، این ممکن است به معنای پاسخ دادن به بخشی از سوال کاربر یا فقط پاسخ دادن به صورت کلی باشد. اگر مدل نیاز به امتناع داشته باشد، GPT‑5 آموزش دیده است تا به طور شفاف به شما بگوید که چرا امتناع می کند و همچنین جایگزین های ایمن ارائه می دهد. هم در آزمایشهای کنترلشده و هم در مدلهای تولید خودمان، دریافتیم که این رویکرد ظریفتر است و امکان پیمایش بهتر سوالات با کاربرد دوگانه، مقاومت بیشتر در برابر نیت مبهم و رد بیش از حد غیرضروری کمتر را فراهم میکند. برای اطلاعات بیشتر در مورد رویکرد جدید ما در آموزش ایمنی، و همچنین جزئیات کامل در مورد روششناسی، معیارها و نتایج، به مقاله تکمیل ایمن ما مراجعه کنید.
ایمنی و مفید بودن (با توجه به پاسخهای ایمن) در انواع مختلف قصد فرمان. GPT‑5 (با تفکر) هم ایمنی بالاتر و هم مفیدیت بیشتری را در همه انواع قصدهای فرمان نشان میدهد.
در مجموع، GPT‑5 در مقایسه با GPT‑4o، کمتر به طور افراطی موافق است، از ایموجیهای غیرضروری کمتری استفاده میکند و در پیگیریها، ظریفتر و متفکرانهتر عمل میکند. باید کمتر حس «صحبت کردن با هوش مصنوعی» را داشته باشد و بیشتر شبیه گفتگو با یک دوست صمیمی و مفید با هوش در سطح دکترا باشد.
اوایل امسال، ما یک بهروزرسانی برای GPT‑4o منتشر کردیم که ناخواسته باعث شد مدل بیش از حد چاپلوس، یا بیش از حد مطلوب یا موافق باشد. به سرعت تغییر را بازگرداندیم و از آن زمان برای درک و کاهش این رفتار تلاش کردهایم:
- توسعه ارزیابیهای جدید برای اندازهگیری سطح چاپلوسی
- بهبود آموزش ما بهگونهای که مدل کمتر چاپلوس باشد—برای مثال، اضافه کردن مثالهایی که معمولاً منجر به توافق بیش از حد میشوند، و سپس آموزش دادن به آن که این کار را نکند.
در ارزیابیهای هدفمند چاپلوسی با استفاده از درخواستهایی که بهطور خاص برای استخراج پاسخهای چاپلوسانه طراحی شدهاند، GPT‑5 بهطور معنیدار پاسخهای چاپلوسانه را کاهش داد (از 14.5٪ به کمتر از 6٪). گاهی اوقات، کاهش چاپلوسی میتواند با کاهش رضایت کاربران همراه باشد، اما بهبودهایی که انجام دادیم، چاپلوسی را بیش از نصف کاهش داد و در عین حال دستاوردهای قابل اندازهگیری دیگری را نیز ارائه داد، بنابراین کاربران همچنان مکالمات سازنده و با کیفیت بالا دارند—یعنی در راستای هدف ما برای کمک به افراد برای استفاده خوب از ChatGPT.
GPT‑5 در پیروی از دستورالعملها به طور قابلتوجه بهتر است و ما شاهد بهبود متناسبی در توانایی آن برای پیروی از دستورالعملهای سفارشی هستیم.
ما همچنین یک پیشنمایش تحقیقاتی از چهار شخصیت از پیش تعیینشده جدید برای همه کاربران ChatGPT ارائه میدهیم که با بهبود قابلیت هدایت ممکن شده است. این شخصیت ها که در ابتدا برای گفتگوی نوشتاری در دسترس هستند و بعدا به دستیار صوتی می آیند، به شما امکان می دهند نحوه تعامل ChatGPT را بدون نوشتن درخواست های سفارشی تنظیم کنید. چهار گزینه اولیه، Cynic، Robot، Listener و Nerd، انتخابی هستند، در هر زمان در تنظیمات قابل تغییرند و برای تطبیق با سبک ارتباطیات طراحی شدهاند.
همه این شخصیتهای جدید معیارهای داخلی ما را برای کاهش چاپلوسی برآورده میکنند یا از آن فراتر میروند.
ما مشتاقانه منتظر یادگیری و تکرار بر اساس بازخورد اولیه هستیم.
ما تصمیم گرفتیم مدل «تفکر GPT‑5» را به عنوان قابلیت بالا در حوزه بیولوژیکی و شیمیایی در نظر بگیریم و اقدامات حفاظتی قوی را برای به حداقل رساندن خطرات مرتبط با آن به اندازه کافی اجرا کردهایم. ما این مدل را با ارزیابی های ایمنی مان تحت چارچوب آمادگی خودمان به شدت آزمایش کردیم و 5,000 ساعت همکاری قرمز با شرکایی مانند CAISI و AISI انگلستان را انجام دادیم.
مشابه رویکرد ما برای عامل ChatGPT، در حالی که ما شواهد قطعی نداریم که نشان دهد این مدل می تواند به یک تازه کار در ایجاد آسیب های بیولوژیکی شدید - آستانه تعریف(در یک پنجره جدید باز میشود) شده ما برای قابلیت بالا - به طور معنادار کمک کند، در حال حاضر یک رویکرد احتیاط را اتخاذ می کنیم و اکنون در حال فعال کردن محافظت های مورد نیاز هستیم تا آمادگی را برای زمانی که چنین قابلیت هایی در دسترس باشد افزایش دهیم. در نتیجه، «تفکر GPT‑5» دارای یک پشته ایمنی قوی با یک سیستم دفاعی چند لایه برای زیستشناسی است: مدلسازی جامع تهدید، آموزش مدل برای جلوگیری از تولید محتوای مضر از طریق پارادایم جدید تکمیلهای ایمن، طبقهبندیها و مانیتورهای استدلال همیشه فعال و خطوط اجرای شفاف.
درباره رویکرد ایمنی قوی ما برای GPT‑5 در کارت سیستم ما بیشتر بخوانید.
برای وظایف بسیار چالشبرانگیز و پیچیده، ما همچنین GPT‑5 pro را منتشر میکنیم که جایگزین OpenAI o3‑pro میشود، یک نسخه از GPT‑5 که برای مدت طولانیتر فکر میکند و از محاسبات موازی زمان آزمون مقیاسپذیر اما کارآمد استفاده میکند تا بالاترین کیفیت و جامعترین پاسخها را ارائه دهد. GPT‑5 pro به بالاترین عملکرد در خانواده GPT‑5 در چندین معیار چالشبرانگیز هوش، از جمله عملکرد پیشرفته در GPQA که شامل سوالات علمی بسیار دشوار است، دست یافته است.
در ارزیابیهای بیش از 1000 دستورالعمل استدلال واقعی با ارزش اقتصادی، کارشناسان خارجی 67.8٪ مواقع GPT‑5 pro را به "GPT‑5 تفکر" ترجیح دادند. GPT‑5 Pro 22 درصد خطاهای عمده کمتری داشت و در حوزههای سلامت، علوم، ریاضیات و برنامهنویسی برجسته بود. کارشناسان پاسخهای آن را مرتبط، مفید و جامع ارزیابی کردند.
GPT‑5 پیشفرض جدید در ChatGPT است که جایگزین GPT‑4o، OpenAI o3، OpenAI o4-mini، GPT‑4.1 و GPT‑4.5 برای کاربران واردشده میشود. فقط ChatGPT را باز کنید و سوال تان را تایپ کنید؛ GPT‑5 بقیه کارها را مدیریت می کند و وقتی پاسخ از آن سود برد،استدلال را به طور خودکار اعمال می کند. کاربران پولی همچنان میتوانند «GPT‑5 Thinking» را از انتخابگر مدل انتخاب کنند یا چیزی مانند «در مورد این خوب فکر کن» را در فرمان تایپ کنند تا اطمینان حاصل شود که هنگام تولید پاسخ از استدلال استفاده میشود.
GPT‑5 از امروز برای همه کاربران Plus، Pro، Team و Free منتشر میشود و دسترسی برای کاربران Enterprise و Edu از هفته آینده فراهم خواهد شد. کاربران Pro، Plus و Team همچنین میتوانند با ورود به ChatGPT، برنامهنویسی با GPT‑5 را در Codex CLI(در یک پنجره جدید باز میشود) شروع کنند.
همانند GPT‑4o، تفاوت بین دسترسی رایگان و پولی به GPT‑5 در حجم استفاده است. مشترکین Pro به دسترسی نامحدود به GPT‑5 و GPT‑5 Pro دسترسی دارند. کاربران Plus میتوانند به راحتی از آن به عنوان مدل پیشفرض خود برای سوالات روزمره استفاده کنند، با استفاده بسیار بیشتر از کاربران رایگان. مشتریان Team، Enterprise و Edu میتوانند به راحتی از GPT‑5 به عنوان مدل پیشفرض خود برای کارهای روزمره استفاده کنند، البته با محدودیتهای سخاوتمندانه که اعتماد کل سازمانها به GPT‑5 را آسان میکند. برای کاربران ChatGPT Free، قابلیتهای استدلال کامل ممکن است چند روز طول بکشد تا به طور کامل عرضه شوند. وقتی کاربران رایگان به محدودیتهای استفاده از GPT‑5 برسند، به GPT‑5 mini، یک مدل کوچکتر، سریعتر و بسیار توانمند، منتقل میشوند.
نویسنده
پاورقی
*اختلاف کوچکی در اعداد گزارش شده در پست قبلی وبلاگ ما وجود دارد، زیرا آنها بر روی نسخه قبلی HLE اجرا شده بودند.
**متوجه شدیم که امتیازدهنده پیشفرض در MultiChallenge (GPT-4o) اغلب به پاسخهای مدل امتیاز اشتباه میدهد. متوجه شدیم که جایگزینی گریدر با یک مدل استدلالی، مانند o3-mini، دقت در درجهبندی را به طور قابل توجه در نمونههایی که بررسی کردهایم، بهبود میبخشد.
***برای MMMUPro، میانگین امتیازات استاندارد و دید را محاسبه کردیم.
مشارکتکنندگان
Aaditya Singh، Adam Fry، Adam Perelman، Adam Tart، Adi Ganesh، Ahmed El-Kishky، Aidan McLaughlin، Aiden Low، AJ Ostrow، Akhila Ananthram، Akshay Nathan، Alan Luo، Alec Helyar، Aleksander Madry، Aleksandr Efremov، Aleksandra Spyra، Alex Baker-Whitcomb، Alex Beutel، Alex Karpenko، Alex Makelov، Alex Neitz، Alex Wei، Alexandra Barr، Alexandre Kirchmeyer، Alexey Ivanov، Alexi Christakis، Alistair Gillespie، Allison Tam، Ally Bennett، Alvin Wan، Alyssa Huang، Amy McDonald Sandjideh، Amy Yang، Ananya Kumar، Andre Saraiva، Andrea Vallone، Andrei Gheorghe، Andres Garcia Garcia، Andrew Braunstein، Andrew Liu، Andrew Schmidt، Andrey Mereskin، Andrey Mishchenko، Andy Applebaum، Andy Rogerson، Ann Rajan، Annie Wei، Anoop Kotha، Anubha Srivastava، Anushree Agrawal، Arun Vijayvergiya، Ashley Tyra، Ashvin Nair، Avi Nayak، Ben Eggers، Bessie Ji، Beth Hoover، Bill Chen، Blair Chen، Boaz Barak، Borys Minaiev، Botao Hao، Bowen Baker، Brad Lightcap، Brandon McKinzie، Brandon Wang، Brendan Quinn، Brian Fioca، Brian Hsu، Brian Yang، Brian Yu، Brian Zhang، Brittany Brenner، Callie Riggins Zetino، Cameron Raymond، Camillo Lugaresi، Carolina Paz، Cary Hudson، Cedric Whitney، Chak Li، Charles Chen، Charlotte Cole، Chelsea Voss، Chen Ding، Chen Shen، Chengdu Huang، Chris Colby، Chris Hallacy، Chris Koch، Chris Lu، Christina Kaplan، Christina Kim، CJ Minott-Henriques، Cliff Frey، Cody Yu، Coley Czarnecki، Colin Reid، Colin Wei، Cory Decareaux، Cristina Scheau، Cyril Zhang، Cyrus Forbes، Da Tang، Dakota Goldberg، Dan Roberts، Dana Palmie، Daniel Kappler، Daniel Levine، Daniel Wright، Dave Leo، David Lin، David Robinson، Declan Grabb، Derek Chen، Derek Lim، Derek Salama، Dibya Bhattacharjee، Dimitris Tsipras، Dinghua Li، Dingli Yu، DJ Strouse، Drew Williams، Dylan Hunn، Ed Bayes، Edwin Arbus، Ekin Akyurek، Elaine Ya Le، Elana Widmann، Eli Yani، Elizabeth Proehl، Enis Sert، Enoch Cheung، Eri Schwartz، Eric Han، Eric Jiang، Eric Mitchell، Eric Sigler، Eric Wallace، Erik Ritter، Erin Kavanaugh، Evan Mays، Evgenii Nikishin، Fangyuan Li، Felipe Petroski Such، Filipe de Avila Belbute Peres، Filippo Raso، Florent Bekerman، Foivos Tsimpourlas، Fotis Chantzis، Francis Song، Francis Zhang، Gaby Raila، Garrett McGrath، Gary Briggs، Gary Yang، Giambattista Parascandolo، Gildas Chabot، Grace Kim، Grace Zhao، Gregory Valiant، Guillaume Leclerc، Hadi Salman، Hanson Wang، Hao Sheng، Haoming Jiang، Haoyu Wang، Haozhun Jin، Harshit Sikchi، Heather Schmidt، Henry Aspegren، Honglin Chen، Huida Qiu، Hunter Lightman، Ian Covert، Ian Kivlichan، Ian Silber، Ian Sohl، Ibrahim Hammoud، Ignasi Clavera، Ikai Lan، Ilge Akkaya، Ilya Kostrikov، Irina Kofman، Isak Etinger، Ishaan Singal، Jackie Hehir، Jacob Huh، Jacqueline Pan، Jake Wilczynski، Jakub Pachocki، James Lee، James Quinn، Jamie Kiros، Janvi Kalra، Jasmyn Samaroo، Jason Wang، Jason Wolfe، Jay Chen، Jay Wang، Jean Harb، Jeffrey Han، Jeffrey Wang، Jennifer Zhao، Jeremy Chen، Jerene Yang، Jerry Tworek، Jesse Chand، Jessica Landon، Jessica Liang، Ji Lin، Jiancheng Liu، Jianfeng Wang، Jie Tang، Jihan Yin، Joanne Jang، Joel Morris، Joey Flynn، Johannes Ferstad، Johannes Heidecke، John Fishbein، John Hallman، Jonah Grant، Jonathan Chien، Jonathan Gordon، Jongsoo Park، Jordan Liss، Jos Kraaijeveld، Joseph Guay، Joseph Mo، Josh Lawson، Josh McGrath، Joshua Vendrow، Joy Jiao، Julian Lee، Julie Steele، Julie Wang، Junhua Mao، Kai Chen، Kai Hayashi، Kai Xiao، Kamyar Salahi، Kan Wu، Karan Sekhri، Karan Sharma، Karan Singhal، Karen Li، Kenny Nguyen، Keren Gu-Lemberg، Kevin King، Kevin Liu، Kevin Stone، Kevin Yu، Kristen Ying، Kristian Georgiev، Kristie Lim، Kushal Tirumala، Kyle Miller، Lama Ahmad، Larry Lv، Laura Clare، Laurance Fauconnet، Lauren Itow، Lauren Yang، Laurentia Romaniuk، Leah Anise، Lee Byron، Leher Pathak، Leon Maksin، Leyan Lo، Leyton Ho، Li Jing، Liang Wu، Liang Xiong، Lien Mamitsuka، Lin Yang، Lindsay McCallum، Lindsey Held، Liz Bourgeois، Logan Engstrom، Lorenz Kuhn، Louis Feuvrier، Lu Zhang، Lucas Switzer، Lukas Kondraciuk، Lukasz Kaiser، Manas Joglekar، Mandeep Singh، Mandip Shah، Manuka Stratta، Marcus Williams، Mark Chen، Mark Sun، Marselus Cayton، Martin Li، Marvin Zhang، Marwan Aljubeh، Matt Nichols، Matthew Haines، Max Schwarzer، Mayank Gupta، Meghan Shah، Melody Huang، Meng Dong، Mengqing Wang، Mia Glaese، Micah Carroll، Michael Lampe، Michael Malek، Michael Sharman، Michael Zhang، Michele Wang، Michelle Pokrass، Mihai Florian، Mikhail Pavlov، Miles Wang، Ming Chen، Mingxuan Wang، Minnia Feng، Mo Bavarian، Molly Lin، Moose Abdool، Mostafa Rohaninejad، Nacho Soto، Natalie Staudacher، Natan LaFontaine، Nathan Marwell، Nelson Liu، Nick Preston، Nick Turley، Nicklas Ansman، Nicole Blades، Nikil Pancha، Nikita Mikhaylin، Niko Felix، Nikunj Handa، Nishant Rai، Nitish Keskar، Noam Brown، Ofir Nachum، Oleg Boiko، Oleg Murk، Olivia Watkins، Oona Gleeson، Pamela Mishkin، Patryk Lesiewicz، Paul Baltescu، Pavel Belov، Peter Zhokhov، Philip Pronin، Phillip Guo، Phoebe Thacker، Qi Liu، Qiming Yuan، Qinghua Liu، Rachel Dias، Rachel Puckett، Rahul Arora، Ravi Teja Mullapudi، Raz Gaon، Reah Miyara، Rennie Song، Rishabh Aggarwal، RJ Marsan، Robel Yemiru، Robert Xiong، Rohan Kshirsagar، Rohan Nuttall، Roman Tsiupa، Ronen Eldan، Rose Wang، Roshan James، Roy Ziv، Rui Shu، Ruslan Nigmatullin، Saachi Jain، Saam Talaie، Sam Altman، Sam Arnesen، Sam Toizer، Sam Toyer، Samuel Miserendino، Sandhini Agarwal، Sarah Yoo، Savannah Heon، Scott Ethersmith، Sean Grove، Sean Taylor، Sebastien Bubeck، Sever Banesiu، Shaokyi Amdo، Shengjia Zhao، Sherwin Wu، Shibani Santurkar، Shiyu Zhao، Shraman Ray Chaudhuri، Shreyas Krishnaswamy، Shuaiqi (Tony) Xia، Shuyang Cheng، Shyamal Anadkat، Simón Posada Fishman، Simon Tobin، Siyuan Fu، Somay Jain، Song Mei، Sonya Egoian، Spencer Kim، Spug Golden، SQ Mah، Steph Lin، Stephen Imm، Steve Sharpe، Steve Yadlowsky، Sulman Choudhry، Sungwon Eum، Suvansh Sanjeev، Tabarak Khan، Tal Stramer، Tao Wang، Tao Xin، Tarun Gogineni، Taya Christianson، Ted Sanders، Tejal Patwardhan، Thomas Degry، Thomas Shadwell، Tianfu Fu، Tianshi Gao، Timur Garipov، Tina Sriskandarajah، Toki Sherbakov، Tomer Kaftan، Tomo Hiratsuka، Tongzhou Wang، Tony Song، Tony Zhao، Troy Peterson، Val Kharitonov، Victoria Chernova، Vineet Kosaraju، Vishal Kuo، Vitchyr Pong، Vivek Verma، Vlad Petrov، Wanning Jiang، Weixing Zhang، Wenda Zhou، Wenlei Xie، Wenting Zhan، Wes McCabe، Will DePue، Will Ellsworth، Wulfie Bain، Wyatt Thompson، Xiangning Chen، Xiangyu Qi، Xin Xiang، Xinwei Shi، Yann Dubois، Yaodong Yu، Yara Khakbaz، Yifan Wu، Yilei Qian، Yin Tat Lee، Yinbo Chen، Yizhen Zhang، Yizhong Xiong، Yonglong Tian، Young Cha، Yu Bai، Yu Yang، Yuan Yuan، Yuanzhi Li، Yufeng Zhang، Yuguang Yang، Yujia Jin، Yun Jiang، Yunyun Wang، Yushi Wang، Yutian Liu، Zach Stubenvoll، Zehao Dou، Zheng Wu، Zhigang Wang


