ما در حال معرفی GPT‑5.2 هستیم، که توانمندترین سری مدلها تا کنون برای کار حرفهای دانش است.
در حال حاضر، کاربر متوسط ChatGPT Enterprise میگوید که هوش مصنوعی روزانه ۴۰ تا ۶۰ دقیقه برایشان صرفهجویی میکند و کاربران پرمصرف میگویند که بیش از ۱۰ ساعت در هفته برایشان صرفهجویی میکند. ما GPT‑5.2 را طراحی کردیم تا برای قفلگشایی ارزش اقتصادی بیشتری برای مردم عمل کند؛ این سیستم در ایجاد صفحات گسترده، ساخت ارائهها، نوشتن کد، درک تصاویر، فهم زمینههای طولانی، استفاده از ابزارها و مدیریت پروژههای پیچیده و چندمرحلهای بهتر عمل میکند.
GPT‑5.2 یک استاندارد جدید در بسیاری از معیارها ایجاد کرده است، از جمله GDPval، جایی که در وظایف دانشمحور بهخوبی تعریفشده در ۴۴ شغل مختلف از حرفهایهای صنعت پیشی میگیرد.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (بردها یا مساویها) | ۷۰.۹٪ | ۳۸.۸٪ (GPT‑5) |
SWE-Bench Pro (عمومی) | ۵۵.۶٪ | ۵۰.۸٪ |
SWE-bench Verified | ۸۰.۰٪ | ۷۶.۳٪ |
GPQA Diamond (بدون ابزار) | ۹۲.۴٪ | ۸۸.۱٪ |
استدلال CharXiv (با پایتون) | ۸۸.۷٪ | ۸۰.۳٪ |
HMMT (Feb 2025) | ۹۹.۴٪ | ۹۶.۳٪ |
FrontierMath (سطح 1–3) | ۴۰.۳٪ | ۳۱.۰٪ |
ARC-AGI-1 (Verified) | ۸۶.۲٪ | ۷۲.۸٪ |
ARC-AGI-2 (Verified) | ۵۲.۹٪ | ۱۷.۶٪ |
Notion(در یک پنجره جدید باز میشود)، Box(در یک پنجره جدید باز میشود)، Shopify(در یک پنجره جدید باز میشود)، Harvey(در یک پنجره جدید باز میشود) و Zoom(در یک پنجره جدید باز میشود) مشاهده کردند که GPT‑5.2 عملکردی در سطح پیشرفته در استدلال بلندمدت و فراخوانی ابزارها نشان میدهد. Databricks(در یک پنجره جدید باز میشود) ،Hex(در یک پنجره جدید باز میشود) و Triple Whale(در یک پنجره جدید باز میشود) دریافتند که GPT‑5.2 در وظایف علم داده عاملمحور و تحلیل اسناد بسیار عالی عمل میکند. Cognition(در یک پنجره جدید باز میشود)، Warp(در یک پنجره جدید باز میشود)، Charlie Labs(در یک پنجره جدید باز میشود)، JetBrains(در یک پنجره جدید باز میشود) و Augment Code(در یک پنجره جدید باز میشود) میگویند GPT‑5.2 عملکرد کدنویسی عاملانه پیشرفتهای ارائه میدهد که بهبودهای قابل اندازهگیری در زمینههایی مانند کدنویسی تعاملی، بررسی کد و یافتن اشکال دارد.
در ChatGPT، GPT‑5.2 Instant، Thinking و Pro از امروز شروع به عرضه میکنند، ابتدا با طرحهای پولی. در API، اکنون برای همه توسعهدهندگان در دسترس هستند.
بهطور کلی، GPT‑5.2 بهبودهای قابلتوجهی در هوش عمومی، درک متنهای طولانی، فراخوانی ابزارهای عاملمحور و بینایی به ارمغان میآورد—که آن را در اجرای وظایف پیچیده و واقعی از ابتدا تا انتها بهتر از هر مدل قبلی میکند.
GPT‑5.2 Thinking بهترین مدل تا به حال برای استفاده حرفهای و در دنیای واقعی است. در GDPval، یک ارزیابی که وظایف دانشمحور بهخوبی مشخصشده را در ۴۴ شغل اندازهگیری میکند، GPT‑5.2 Thinking یک امتیاز پیشرفته جدید ثبت میکند و اولین مدل ما است که در سطح یا بالاتر از یک متخصص انسانی عمل میکند. بهطور خاص، GPT‑5.2 به گفته داوران انسانی متخصص، Thinking در ۷۰.۹٪ از مقایسهها در وظایف دانشی GDPval از متخصصان برتر صنعت پیشی میگیرد یا با آنها برابری میکند. این وظایف شامل تهیه ارائهها، صفحات گسترده و سایر آثار میشود. GPT‑5.2 Thinking خروجیهای وظایف GDPval را با سرعتی بیش از ۱۱ برابر و با هزینهای کمتر از ۱٪ هزینه کارشناسان حرفهای تولید کرد، که نشان میدهد وقتی با نظارت انسانی همراه شود، GPT‑5.2 میتواند به کار حرفهای کمک کند. برآوردهای سرعت و هزینه بر اساس معیارهای تاریخی است؛ سرعت در ChatGPT ممکن است متفاوت باشد.
در GDPval، مدلها تلاش میکنند تا کارهای دانشبنیان بهخوبی تعریفشده را در ۴۴ شغل از ۹ صنعت برتر که به تولید ناخالص داخلی ایالات متحده کمک میکنند، انجام دهند. وظایف محصولات واقعی کاری را درخواست میکنند، مانند ارائههای فروش، صفحات گسترده حسابداری، برنامههای مراقبت فوری، نمودارهای تولید، یا ویدیوهای کوتاه. در ChatGPT، GPT‑5.2 Thinking ابزارهای جدیدی دارد که GPT‑5 Thinking ندارد.
هنگام بررسی یکی از خروجیهای بهویژه خوب، یکی از داوران GDPval اظهار داشت: «این یک جهش هیجانانگیز و قابل توجه در کیفیت خروجی است... [به نظر میرسد] که توسط یک شرکت حرفهای با کارکنان انجام شده و دارای طراحی و چیدمان بسیار خوبی است و برای هر دو تحویل توصیههای شگفتانگیزی دارد، هرچند که در یکی از آنها هنوز برخی از خطاهای جزئی برای اصلاح داریم.»
علاوه بر این، در معیار داخلی ما برای وظایف مدلسازی صفحه گسترده تحلیلگر جوان بانکداری سرمایهگذاری - مانند ایجاد یک مدل سهگانه برای یک شرکت Fortune 500 با قالببندی و استنادهای صحیح، یا ساخت یک مدل خرید اهرمی برای خصوصیسازی - امتیاز متوسط GPT 5.2 Thinking در هر وظیفه ۹.۳٪ بالاتر از GPT‑5.1 است. از ۵۹.۱٪ به ۶۸.۴٪ افزایش یافت.
مقایسههای کنارهم نشان میدهند که پیچیدگی و قالببندی در صفحات گسترده و اسلایدهای تولید شده توسط GPT‑5.2 بهبود یافته است. Thinking:

دستور: یک مدل برنامهریزی نیروی کار بساز: تعداد کارکنان، برنامه استخدام، ترک خدمت، و تأثیر بودجه. بخشهای مهندسی، بازاریابی، حقوقی و فروش را شامل کنید.
برای استفاده از قابلیتهای جدید صفحهگسترده و ارائه در ChatGPT، باید در یک طرح پولی باشید و GPT‑5.2 Thinking یا Pro را انتخاب کنید. تولیدات پیچیده ممکن است چند دقیقه طول بکشد تا تولید شوند.
GPT‑5.2 Thinking یک استاندارد جدید با امتیاز 55.6٪ در SWE-bench Pro، که یک ارزیابی دقیق از مهندسی نرمافزار در دنیای واقعی است، تعیین کرده است. برخلاف SWE-bench تأییدشده که فقط Python را آزمایش میکند، SWE-bench Pro چهار زبان را آزمایش میکند و هدفش این است که در برابر آلودگی مقاومتر، چالشبرانگیزتر، متنوعتر و مرتبطتر با صنعت باشد.
در SWE-bench Pro(در یک پنجره جدید باز میشود)، به مدل یک مخزن کد داده میشود و باید یک وصله برای حل یک وظیفه واقعی مهندسی نرمافزار تولید کند.
در SWE-bench تأیید شده (بدون رسم نمودار)، GPT‑5.2 Thinking به رکورد جدید ۸۰٪ ما دست یافته است.
برای استفاده حرفهای روزمره، این به مدلی تبدیل میشود که میتواند بهطور قابل اعتمادتری کد تولیدی را اشکالزدایی کند، درخواستهای ویژگی را پیادهسازی کند، پایگاههای کد بزرگ را بازسازی کند و اصلاحات را از ابتدا تا انتها با مداخله دستی کمتر انجام دهد.
GPT‑5.2 Thinking در مهندسی نرمافزار فرانتاند نیز بهتر از GPT‑5.1 Thinking است. آزمایشکنندگان اولیه دریافتند که این ابزار در توسعه فرانتاند و کارهای پیچیده یا غیرمتعارف رابط کاربری—بهویژه شامل عناصر سهبعدی—بهطور قابلتوجهی قویتر است و آن را به یک شریک قدرتمند روزانه برای مهندسان در سراسر لایهها تبدیل میکند. چند نمونه از آنچه میتواند تنها با یک دستور تولید کند، ببینید:
درخواست: یک اپلیکیشن تکصفحهای در یک فایل HTML واحد با الزامات زیر ایجاد کن:
- نام: شبیهسازی موج اقیانوس
- هدف: نمایش امواج متحرک واقعی.
- ویژگیها: تغییر سرعت باد، ارتفاع موج، نورپردازی.
- رابط کاربری باید آرامشبخش و واقعی باشد.
آزمایشکنندگان اولیه نظرات خود را درباره GPT‑5.2 به اشتراک گذاشتند قابلیتهای کدنویسی:
GPT-5.2 بزرگترین جهش برای مدلهای GPT در کدنویسی عاملمحور از زمان GPT-5 را نشان میدهد و یک مدل کدنویسی پیشرفته در محدوده قیمت خود است. افزایش نسخه کمتر از حد جهش در هوش را نشان میدهد. ما هیجانزدهایم که آن را به صورت پیشفرض در سراسر Windsurf و چندین بار کاری اصلی Devin قرار دهیم.
GPT‑5.2 Thinking کمتر از GPT‑5.1 Thinking دچار توهم میشود. در مجموعهای از پرسشهای ناشناس از ChatGPT، پاسخهای دارای خطا ۳۸٪rel کمتر شایع بودند. برای حرفهایها، این به معنای کاهش اشتباهات هنگام استفاده از مدل برای تحقیق، نوشتن، تحلیل و پشتیبانی از تصمیمگیری است—که مدل را برای کارهای دانشی روزمره قابلاعتمادتر میکند.
تلاش استدلال به حداکثر موجود تنظیم شد و ابزار جستجو فعال شد. خطاها توسط مدلهای دیگر شناسایی شدند که ممکن است خودشان نیز خطا کنند. نرخ خطا در سطح ادعا بسیار کمتر از نرخ خطا در سطح پاسخ است، زیرا اکثر پاسخها شامل ادعاهای زیادی هستند.
مانند همه مدلها، GPT‑5.2 تفکر کامل نیست. برای هر چیز مهمی، جوابهایش را دوباره چک کن.
GPT‑5.2 Thinking یک استاندارد جدید در استدلال با زمینه طولانی ایجاد میکند و عملکرد برتری در OpenAI MRCRv2 به دست میآورد—ارزیابیای که توانایی مدل در ادغام اطلاعات پراکنده در اسناد طولانی را میسنجد. در وظایف دنیای واقعی مانند تحلیل عمیق اسناد که نیاز به اطلاعات مرتبط در میان صدها هزار توکن دارد، GPT‑5.2 تفکر بهطور قابلتوجهی دقیقتر از GPT‑5.1 Thinking است. به طور خاص، این اولین مدلی است که دیدهایم که در نوع MRCR چهار سوزنی (تا ۲۵۶ هزار توکن) به دقت نزدیک به ۱۰۰٪ دست مییابد.
از نظر عملی، این امر متخصصان را قادر میسازد تا از GPT‑5.2 برای کار با اسناد طولانی - مانند گزارشها، قراردادها، مقالات تحقیقاتی، رونوشتها و پروژههای چند فایلی - استفاده کنند و در عین حال انسجام و دقت را در صدها هزار توکن حفظ کنند. این ویژگی GPT‑5.2 را بهویژه برای تحلیل عمیق، ترکیب و جریانهای کاری پیچیده و چندمنبعی بسیار مناسب میکند.
در OpenAI-MRCR(در یک پنجره جدید باز میشود) نسخه ۲ (حل ارجاعهای چندمرحلهای)، چندین درخواست کاربر یکسان موسوم به «سوزن» (needle) در میان مجموعهای طولانی از درخواستها و پاسخهای مشابه، که بهعنوان «انبار کاه» (haystack) شناخته میشوند، درج میگردد و از مدل خواسته میشود که پاسخ مربوط به سوزن شماره n را بازتولید کند. نسخه ۲ این ارزیابی حدود ۵٪ از وظایفی که دارای مقادیر صحیح نادرست بودند را اصلاح میکند. نسبت تطابق میانگین، میانگینِ نسبتِ تطابقِ رشتهای بین پاسخ مدل و پاسخ صحیح را اندازهگیری میکند. نقاط در حداکثر 256k توکن ورودی نشاندهنده میانگینهای 128k–256k توکن ورودی و غیره هستند. اینجا، 256k معادل 256 * 1,024 = 262,114 توکن است. تلاش استدلال به حداکثر موجود تنظیم شده بود.
برای وظایفی که از تفکر فراتر از حداکثر پنجره زمینه بهره میبرند، GPT‑5.2 تفکر با نقطه پایانی جدید Responses /compact ما سازگار است که پنجره مؤثر مدل را گسترش میدهد. این به GPT‑5.2 اجازه میدهد Thinking به انجام گردشهای کاری که ابزارهای بیشتری نیاز دارند و طولانیمدت هستند و در غیر این صورت ممکن است به دلیل طول زمینه محدود شوند. برای اطلاعات بیشتر، در مستندات API(در یک پنجره جدید باز میشود) ما بخوانید.
GPT‑5.2 Thinking قویترین مدل دیداری ما تا کنون است که نرخ خطاها را در استدلال نموداری و فهم رابط کاربری نرمافزار تقریباً به نصف کاهش میدهد.
برای استفاده حرفهای روزمره، این به این معناست که مدل میتواند داشبوردها، اسکرینشاتهای محصول، نمودارهای فنی و گزارشهای بصری را با دقت بیشتری تفسیر کند—پشتیبانی از جریانهای کاری در حوزههای مالی، عملیاتی، مهندسی، طراحی و پشتیبانی مشتری که اطلاعات بصری در آنها نقش مرکزی دارد.
در CharXiv Reasoning(در یک پنجره جدید باز میشود)، مدلها به سوالات درباره نمودارهای بصری از مقالات علمی پاسخ میدهند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر تنظیم شد.
در ScreenSpot-Pro(در یک پنجره جدید باز میشود)، مدلها باید درباره اسکرینشاتهای با وضوح بالا از رابطهای کاربری گرافیکی در محیطهای حرفهای مختلف استدلال کنند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر تنظیم شد. بدون ابزار پایتون، امتیازات بسیار پایینتر هستند. توصیه میکنیم ابزار پایتون را در وظایف بینایی مانند این فعال کنید.
در مقایسه با مدلهای قبلی، GPT‑5.2 Thinking درک قویتری از نحوه قرارگیری عناصر در یک تصویر دارد، که در وظایفی که چیدمان نسبی نقش کلیدی در حل مسئله ایفا میکند، مفید است. در مثال زیر، از مدل میخواهیم که اجزای موجود در ورودی تصویری (در این مورد، یک مادربرد) را شناسایی کند و برچسبهایی با جعبههای مرزی تقریبی برگرداند. حتی در یک تصویر با کیفیت پایین، GPT‑5.2 مناطق اصلی را شناسایی کرده و جعبههایی را قرار میدهد که تقریباً با مکانهای واقعی هر جزء مطابقت دارند، در حالی که GPT‑5.1 تنها چند بخش را برچسبگذاری کرده و درک بسیار ضعیفتری از ترتیب فضایی آنها دارد.
GPT‑5.1

GPT‑5.2

GPT‑5.2 به یک حالت جدید پیشرفته با امتیاز 98.7٪ در Tau2-bench Telecom دست یافته است و توانایی آن را در استفاده مطمئن از ابزارها در وظایف طولانی و چندمرحلهای نشان میدهد.
برای موارد استفاده حساس به تأخیر، GPT‑5.2 Thinking همچنین در استدلال بسیار بهتر عمل میکند و نیازی به هیچ تلاشی ندارد. بهطور قابلتوجهی بهتر از GPT‑5.1 و GPT‑4.1 عمل میکند.
در τ2-bench(در یک پنجره جدید باز میشود)، مدلها از ابزارها برای انجام وظایف پشتیبانی مشتری در یک تعامل چندمرحلهای با یک کاربر شبیهسازیشده استفاده میکنند. برای حوزه مخابرات، ما یک دستورالعمل کوتاه و به طور کلی مفید را در پیام سیستم گنجاندیم تا عملکرد را بهبود دهیم. ما زیرمجموعه خطوط هوایی را به دلیل کیفیت پایینتر ارزیابیهای حقیقت زمینی حذف کردیم.
برای حرفهایها، این به معنای گردشهای کاری سرتاسری قویتر است—مثل حل موارد پشتیبانی مشتری، استخراج دادهها از سیستمهای مختلف، اجرای تحلیلها و تولید خروجیهای نهایی با کاهش شکستها بین مراحل.
برای مثال، وقتی یک سوال پیچیده در خدمات مشتری که نیاز به حل چند مرحلهای دارد پرسیده میشود، مدل میتواند به طور مؤثرتری یک جریان کاری کامل را در میان چندین عوامل هماهنگ کند. در مورد زیر، یک مسافر گزارش میدهد که پروازش تأخیر داشته، اتصال پروازش را از دست داده، یک شب در نیویورک اقامت کرده و نیاز به صندلی پزشکی دارد. GPT‑5.2 کل زنجیره وظایف را مدیریت میکند—رزرو مجدد، صندلیهای کمک ویژه، و جبران خسارت—و نتیجهای کاملتر از GPT‑5.1 ارائه میدهد.
GPT‑5.1

GPT‑5.2

یکی از امیدهای ما برای هوش مصنوعی این است که تحقیقات علمی را به نفع همه تسریع کند. در این راستا، ما با دانشمندان همکاری کرده و به آنها گوش دادهایم تا ببینیم چگونه هوش مصنوعی میتواند کارشان را تسریع کند و ماه گذشته برخی از آزمایشهای اولیه همکاری را اینجا به اشتراک گذاشتیم.
ما معتقدیم GPT‑5.2 Pro و GPT‑5.2 Thinking بهترین مدلهای جهان برای کمک و تسریع کار دانشمندان هستند. در مورد GPQA Diamond، یک معیار پرسش و پاسخ در سطح تحصیلات تکمیلی و مورد تایید گوگل، GPT‑5.2 Pro به ۹۳.۲ درصد دست یافت و پس از آن GPT‑5.2 با اختلاف کمی قرار گرفت. Thinking در حال حاضر ۹۲.۴٪ است.
در GPQA Diamond(در یک پنجره جدید باز میشود)، مدلها به سوالات چندگزینهای درباره فیزیک، شیمی و زیستشناسی پاسخ میدهند. هیچ ابزاری فعال نبود و تلاش استدلال به حداکثر تنظیم شده بود.
در FrontierMath (سطح 1 تا 3)، ارزیابی ریاضیات در سطح تخصصی، GPT‑5.2 Thinking یک استاندارد جدید در هنر ایجاد کرد و ۴۰.۳٪ از مسائل را حل کرد.
در FrontierMath(در یک پنجره جدید باز میشود)، مدلها مسائل ریاضی در سطح کارشناسی را حل میکنند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر میزان تنظیم شد.
ما شروع به مشاهده این کردهایم که مدلهای هوش مصنوعی به طور معناداری پیشرفت در ریاضیات و علوم را به روشهای ملموس تسریع میکنند. به عنوان مثال، در کارهای اخیر با GPT‑5.2 Pro، محققان یک سوال باز در نظریه یادگیری آماری را بررسی کردند. در یک محیط محدود و بهخوبی تعریفشده، مدل پیشنهادی یک اثبات ارائه کرد که توسط نویسندگان تأیید و با کارشناسان خارجی بررسی شد، که نشان میدهد چگونه مدلهای پیشرفته میتوانند با نظارت دقیق انسانی به تحقیقات ریاضی کمک کنند.
در ARC-AGI-1 (تأیید شده)، یک معیار طراحیشده برای اندازهگیری توانایی استدلال عمومی، GPT‑5.2 اولین مدلی است که از آستانه ۹۰٪ عبور کرده است و از ۸۷٪ توسط o3‑preview در سال گذشته بهبود یافته است، در حالی که هزینه دستیابی به آن عملکرد را تقریباً ۳۹۰ برابر کاهش داده است.
در ARC-AGI-2 (تأیید شده)، که سختی را افزایش میدهد و استدلال سیال را بهتر جدا میکند، GPT‑5.2 Thinking به یک استاندارد جدید برای مدلهای زنجیره تفکر دست یافت و امتیاز ۵۲.۹٪ را کسب کرد. GPT‑5.2 Pro حتی عملکرد بهتری دارد و به ۵۴.۲٪ میرسد و توانایی مدل را در استدلال از طریق مسائل جدید و انتزاعی بیشتر گسترش میدهد.
بهبودها در این ارزیابیها نشاندهنده بهبودهای GPT‑5.2 است. استدلال چندمرحلهای قویتر، دقت بیشتر در محاسبات، و حل مسئله قابلاعتمادتر در وظایف فنی پیچیده.
این چیزی است که آزمایشکنندگان اولیه ما درباره GPT‑5.2 میگویند:
GPT-5.2 قفلگشایی یک تغییر کامل معماری برای ما. ما یک سیستم چندعاملی شکننده را به یک ابرعامل با بیش از ۲۰ ابزار تبدیل کردیم. بهترین قسمت این است که، بهسادگی کار میکند. مگا عامل سریعتر، هوشمندتر و ۱۰۰ برابر آسانتر برای نگهداری است. ما شاهد کاهش چشمگیر تأخیر، تقویت قابل توجه در فراخوانی ابزارها هستیم و دیگر نیازی به درخواستهای گسترده سیستم نداریم زیرا نسخه 5.2 به طور تمیز و با یک درخواست ساده و یکخطی اجرا میشود. این حس مثل جادوی خالص است.
در ChatGPT، کاربران باید متوجه بشوند که GPT‑5.2 در استفاده روزمره بهتر به نظر میرسد—ساختارمندتر، قابل اعتمادتر و همچنان لذتبخش برای گفتگو.
GPT‑5.2 Instant یک ابزار سریع و توانمند برای کارهای روزمره و یادگیری است که بهبودهای واضحی در سوالات جستجوی اطلاعات، راهنماها و مرورها، نوشتار فنی و ترجمه داشته و بر اساس لحن گرمتر و گفتگوییتری که در GPT‑5.1 Instant معرفی شده بود، ساخته شده است. آزمایشکنندگان اولیه بهویژه به توضیحات شفافتری اشاره کردند که اطلاعات کلیدی را در ابتدا ارائه میکند.
GPT‑5.2 Thinking برای کارهای عمیقتر طراحی شده تا بهت کمک کنه وظایف پیچیدهتری رو با دقت بیشتری انجام بدی—بهویژه در زمینه کدنویسی، خلاصهسازی اسناد طولانی، پاسخ به سوالات درباره فایلهای بارگذاریشده، کار با ریاضیات و منطق بهصورت گامبهگام، و پشتیبانی از برنامهریزی و تصمیمگیری با ساختار واضحتر و جزئیات مفیدتر.
GPT‑5.2 Pro هوشمندترین و قابلاعتمادترین گزینه ما برای سوالات دشوار است که در آنها پاسخ با کیفیت بالاتر ارزش انتظار را دارد. آزمایشهای اولیه نشان میدهد که خطاهای عمده کمتری دارد و عملکرد قویتری در حوزههای پیچیده مانند برنامهنویسی دارد.
GPT‑5.2 بر اساس تحقیقات تکمیل ایمن که با GPT‑5 معرفی کردیم، ساخته شده است. این تحقیقات به مدل آموزش میدهد تا مفیدترین پاسخ را ارائه دهد و در عین حال در مرزهای ایمنی باقی بماند.
با این انتشار، ما به کار خود برای تقویت پاسخهای مدلهایمان در مکالمات حساس ادامه دادیم، با بهبودهای معنادار در نحوه پاسخدهی آنها به درخواستهایی که نشانههای خودکشی یا خودآزاری، ناراحتی روانی یا وابستگی عاطفی به مدل را نشان میدهند. این مداخلات هدفمند منجر به کاهش پاسخهای نامطلوب در هر دو نسخهٔ GPT‑5.2 شدهاند. Instant و GPT‑5.2 Thinking در مقایسه با مدلهای GPT‑5.1 و مدلهای GPT‑5 Instant and Thinking. جزئیات بیشتر را میتوانید در کارت سیستم پیدا کنید.
ما در مراحل اولیه راهاندازی مدل پیشبینی سن خود هستیم تا بتوانیم به طور خودکار محافظتهای محتوایی را برای کاربرانی که زیر ۱۸ سال هستند اعمال کنیم، به منظور محدود کردن دسترسی به محتوای حساس. این بر پایه رویکرد فعلی ما به کاربرانی است که میدانیم زیر ۱۸ سال هستند و کنترلهای والدین ما استوار است.
GPT‑5.2 یک گام در سری بهبودهای مداوم است و ما هنوز کارمان تمام نشده است. در حالی که این نسخه دستاوردهای معناداری در هوشمندی و بهرهوری ارائه میدهد، میدانیم که در برخی زمینهها مردم خواهان چیزهای بیشتری هستند. در ChatGPT، داریم روی مسائل شناختهشدهای مثل امتناع بیشازحد کار میکنیم و در عین حال، همچنان سطح ایمنی و قابلیت اطمینان را به طور کلی ارتقا میدهیم. این تغییرات پیچیده هستند و ما تمرکز داریم که آنها را به درستی انجام دهیم.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
سلامت روان | ۰٫۹۹۵ | ۰٫۸۸۳ | ۰٫۹۱۵ | ۰٫۶۸۴ |
وابستگی احساسی | ۰٫۹۳۸ | ۰.۹۴۵ | ۰.۹۵۵ | ۰٫۷۸۵ |
خودزنی | ۰٫۹۳۸ | ۰٫۹۲۵ | ۰.۹۶۳ | ۰٫۹۳۷ |
در ChatGPT، امروز عرضه GPT‑5.2 (Instant، Thinking و Pro) را آغاز میکنیم، ابتدا با طرحهای پولی (Plus، Pro، Go، Business، Enterprise). ما GPT‑5.2 را به تدریج مستقر میکنیم تا ChatGPT را تا حد امکان روان و قابل اعتماد نگه داریم؛ اگر در ابتدا آن را ندیدی، لطفاً بعداً دوباره امتحان کن. در ChatGPT، GPT‑5.1 برای کاربران پرداختی به مدت سه ماه تحت مدلهای قدیمی در دسترس خواهد بود و پس از آن، ما GPT‑5.1 را غیرفعال خواهیمChatGPT
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑جدیدترین |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
در پلتفرم API ما، GPT‑5.2 قابلیت Thinking از امروز در API پاسخها و API تکمیل گفتگو بهصورت gpt-5.2 در دسترس تو است. و GPT‑5.2 فوری به صورت gpt-5.2-گفتگو-جدیدترین. GPT‑5.2 Pro در Responses API به عنوان gpt-5.2-pro در دسترس است. توسعهدهندگان اکنون میتوانند پارامتر استدلال را در GPT‑5.2 تنظیم کنند. Pro، و هر دو GPT‑5.2 Pro و GPT‑5.2 اکنون Thinking از تلاش استدلالی جدید «پنجم xhigh» برای وظایفی که کیفیت در آنها بسیار مهم است، پشتیبانی میکند.
GPT‑5.2 با قیمت ۱.۷۵ دلار به ازای هر ۱ میلیون توکن ورودی و ۱۴ دلار به ازای هر ۱ میلیون توکن خروجی قیمتگذاری شده است، با ۹۰٪ تخفیف برای ورودیهای کششده. در ارزیابیهای متعدد عامل، متوجه شدیم که با وجود GPT‑5.2 هزینه بیشتر به ازای هر token، اما هزینه دستیابی به سطح معینی از کیفیت به دلیل کارایی بیشتر token در GPT‑5.2 کمتر شد.
در حالی که قیمت اشتراک ChatGPT ثابت مانده است، در API، GPT‑5.2 به دلیل قابلیتهای بیشترش نسبت به GPT‑5.1 به ازای هر token قیمت بالاتری دارد. قیمت آن همچنان پایینتر از سایر مدلهای پیشرو است، بنابراین مردم میتوانند به طور عمیق در کارهای روزانه و برنامههای اصلیشان از آن استفاده کنند.
مدل | ورودی | ورودی حافظه کوتاه مدت | خروجی |
gpt-5.2 / | $۱٫۷۵ | ۰٫۱۷۵ دلار | $14 |
gpt-5.2-pro | $21 | - | ۱۶۸ دلار |
gpt-5.1 / | ۱٫۲۵ دلار | ۰٫۱۲۵ دلار | $۱۰ |
gpt-5-pro | $15 | - | ۱۲۰ دلار |
ما در حال حاضر هیچ برنامهای برای کنار گذاشتن GPT‑5.1 نداریم. GPT‑5 یا GPT‑4.1 در API و هرگونه برنامهریزی برای توقف پشتیبانی را با اطلاعرسانی کافی به توسعهدهندگان اعلام خواهد شد. در حالی که GPT‑5.2 به خوبی به صورت پیشفرض در Codex کار خواهد کرد، انتظار داریم نسخهای از GPT‑5.2 که برای Codex بهینهسازی شده است را در هفتههای آینده منتشر کنیم.
GPT‑5.2 با همکاری شرکای قدیمی ما، NVIDIA و Microsoft ساخته شده است. مراکز داده Azure و GPUهای NVIDIA، از جمله H100، H200 و GB200-NVL72، زیرساخت آموزشی در مقیاس بزرگ OpenAI را تقویت میکنند و باعث افزایش قابل توجهی در هوش مدلها میشوند. این همکاری به ما امکان میدهد تا با اطمینان محاسبات را مقیاسپذیر کنیم و مدلهای جدید را سریعتر به بازار عرضه کنیم.
در زیر، امتیازات جامع بنچمارک برای GPT‑5.2 را گزارش میکنیم Thinking، به همراه یک زیرمجموعه برای GPT‑5.2 Pro
حرفهای
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
برنامهنویسی
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
واقعیتگرایی
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
زمینه طولانی
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
چشمانداز
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
کاربرد ابزار
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
دانشگاهی
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
استدلال انتزاعی
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
مدلها با حداکثر تلاش استدلالی موجود در API ما (xhigh برای GPT‑5.2) اجرا شدند. Thinking & Pro، و سطح بالا برای GPT‑5.1 Thinking)، به جز برای ارزیابیهای حرفهای، که در آن GPT‑5.2 تفکر با حداکثر تلاش استدلالی موجود در ChatGPT Pro اجرا شد. بنچمارکها در یک محیط تحقیقاتی انجام شدند، که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه بدهد.
* برای SWE-Lancer، ما 40 مورد از 237 مشکلی که روی زیرساخت ما اجرا نشدند را حذف میکنیم.


