پرش به محتوای اصلی
OpenAI

۲۰ آذر ۱۴۰۴

محصولانتشار

معرفی GPT‑5.2

پیشرفته‌ترین مدل مرزی برای کار حرفه‌ای و عوامل طولانی‌مدت.

در حال بارگذاری…

ما در حال معرفی GPT‑5.2 هستیم، که توانمندترین سری مدل‌ها تا کنون برای کار حرفه‌ای دانش است.

در حال حاضر، کاربر متوسط ChatGPT Enterprise می‌گوید که هوش مصنوعی روزانه ۴۰ تا ۶۰ دقیقه برایشان صرفه‌جویی می‌کند و کاربران پرمصرف می‌گویند که بیش از ۱۰ ساعت در هفته برایشان صرفه‌جویی می‌کند. ما GPT‑5.2 را طراحی کردیم تا برای قفل‌گشایی ارزش اقتصادی بیشتری برای مردم عمل کند؛ این سیستم در ایجاد صفحات گسترده، ساخت ارائه‌ها، نوشتن کد، درک تصاویر، فهم زمینه‌های طولانی، استفاده از ابزارها و مدیریت پروژه‌های پیچیده و چندمرحله‌ای بهتر عمل می‌کند.

GPT‑5.2 یک استاندارد جدید در بسیاری از معیارها ایجاد کرده است، از جمله GDPval، جایی که در وظایف دانش‌محور به‌خوبی تعریف‌شده در ۴۴ شغل مختلف از حرفه‌ای‌های صنعت پیشی می‌گیرد.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (بردها یا مساوی‌ها)
وظایف کار دانشی

۷۰.۹٪

۳۸.۸٪ (GPT‑5)

SWE-Bench Pro (عمومی)
مهندسی نرم‌افزار

۵۵.۶٪

۵۰.۸٪

SWE-bench Verified
مهندسی نرم‌افزار

۸۰.۰٪

۷۶.۳٪

GPQA Diamond (بدون ابزار)
سؤالات علمی

۹۲.۴٪

۸۸.۱٪

استدلال CharXiv (با پایتون)
سؤالات شکل‌های علمی

۸۸.۷٪

۸۰.۳٪

HMMT (Feb 2025)
مسابقات ریاضی

۹۹.۴٪

۹۶.۳٪

FrontierMath (سطح 1–3)
ریاضیات پیشرفته

۴۰.۳٪

۳۱.۰٪

ARC-AGI-1 (Verified)
استدلال انتزاعی

۸۶.۲٪

۷۲.۸٪

ARC-AGI-2 (Verified)
استدلال انتزاعی

۵۲.۹٪

۱۷.۶٪

Notion(در یک پنجره جدید باز می‌شود)، Box(در یک پنجره جدید باز می‌شود)، Shopify(در یک پنجره جدید باز می‌شود)، Harvey(در یک پنجره جدید باز می‌شود) و Zoom(در یک پنجره جدید باز می‌شود) مشاهده کردند که GPT‑5.2 عملکردی در سطح پیشرفته در استدلال بلندمدت و فراخوانی ابزارها نشان می‌دهد. Databricks(در یک پنجره جدید باز می‌شود) ،Hex(در یک پنجره جدید باز می‌شود) و Triple Whale(در یک پنجره جدید باز می‌شود) دریافتند که GPT‑5.2 در وظایف علم داده عامل‌محور و تحلیل اسناد بسیار عالی عمل می‌کند. Cognition(در یک پنجره جدید باز می‌شود)، Warp(در یک پنجره جدید باز می‌شود)، Charlie Labs(در یک پنجره جدید باز می‌شود)، JetBrains(در یک پنجره جدید باز می‌شود) و Augment Code(در یک پنجره جدید باز می‌شود) می‌گویند GPT‑5.2 عملکرد کدنویسی عاملانه پیشرفته‌ای ارائه می‌دهد که بهبودهای قابل اندازه‌گیری در زمینه‌هایی مانند کدنویسی تعاملی، بررسی کد و یافتن اشکال دارد.

در ChatGPT، GPT‑5.2 Instant، Thinking و Pro از امروز شروع به عرضه می‌کنند، ابتدا با طرح‌های پولی. در API، اکنون برای همه توسعه‌دهندگان در دسترس هستند.

به‌طور کلی، GPT‑5.2 بهبودهای قابل‌توجهی در هوش عمومی، درک متن‌های طولانی، فراخوانی ابزارهای عامل‌محور و بینایی به ارمغان می‌آورد—که آن را در اجرای وظایف پیچیده و واقعی از ابتدا تا انتها بهتر از هر مدل قبلی می‌کند.

عملکرد مدل

وظایف ارزشمند از نظر اقتصادی

GPT‑5.2 Thinking بهترین مدل تا به حال برای استفاده حرفه‌ای و در دنیای واقعی است. در GDPval، یک ارزیابی که وظایف دانش‌محور به‌خوبی مشخص‌شده را در ۴۴ شغل اندازه‌گیری می‌کند، GPT‑5.2 Thinking یک امتیاز پیشرفته جدید ثبت می‌کند و اولین مدل ما است که در سطح یا بالاتر از یک متخصص انسانی عمل می‌کند. به‌طور خاص، GPT‑5.2 به گفته داوران انسانی متخصص، Thinking در ۷۰.۹٪ از مقایسه‌ها در وظایف دانشی GDPval از متخصصان برتر صنعت پیشی می‌گیرد یا با آن‌ها برابری می‌کند. این وظایف شامل تهیه ارائه‌ها، صفحات گسترده و سایر آثار می‌شود. GPT‑5.2 Thinking خروجی‌های وظایف GDPval را با سرعتی بیش از ۱۱ برابر و با هزینه‌ای کمتر از ۱٪ هزینه کارشناسان حرفه‌ای تولید کرد، که نشان می‌دهد وقتی با نظارت انسانی همراه شود، GPT‑5.2 می‌تواند به کار حرفه‌ای کمک کند. برآوردهای سرعت و هزینه بر اساس معیارهای تاریخی است؛ سرعت در ChatGPT ممکن است متفاوت باشد.

در GDPval، مدل‌ها تلاش می‌کنند تا کارهای دانش‌بنیان به‌خوبی تعریف‌شده را در ۴۴ شغل از ۹ صنعت برتر که به تولید ناخالص داخلی ایالات متحده کمک می‌کنند، انجام دهند. وظایف محصولات واقعی کاری را درخواست می‌کنند، مانند ارائه‌های فروش، صفحات گسترده حسابداری، برنامه‌های مراقبت فوری، نمودارهای تولید، یا ویدیوهای کوتاه. در ChatGPT، GPT‑5.2 Thinking ابزارهای جدیدی دارد که GPT‑5 Thinking ندارد.

هنگام بررسی یکی از خروجی‌های به‌ویژه خوب، یکی از داوران GDPval اظهار داشت: «این یک جهش هیجان‌انگیز و قابل توجه در کیفیت خروجی است... [به نظر می‌رسد] که توسط یک شرکت حرفه‌ای با کارکنان انجام شده و دارای طراحی و چیدمان بسیار خوبی است و برای هر دو تحویل توصیه‌های شگفت‌انگیزی دارد، هرچند که در یکی از آن‌ها هنوز برخی از خطاهای جزئی برای اصلاح داریم.»

علاوه بر این، در معیار داخلی ما برای وظایف مدل‌سازی صفحه گسترده تحلیلگر جوان بانکداری سرمایه‌گذاری - مانند ایجاد یک مدل سه‌گانه برای یک شرکت Fortune 500 با قالب‌بندی و استنادهای صحیح، یا ساخت یک مدل خرید اهرمی برای خصوصی‌سازی - امتیاز متوسط GPT 5.2 Thinking در هر وظیفه ۹.۳٪ بالاتر از GPT‑5.1 است. از ۵۹.۱٪ به ۶۸.۴٪ افزایش یافت.

مقایسه‌های کنارهم نشان می‌دهند که پیچیدگی و قالب‌بندی در صفحات گسترده و اسلایدهای تولید شده توسط GPT‑5.2 بهبود یافته است. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

دستور: یک مدل برنامه‌ریزی نیروی کار بساز: تعداد کارکنان، برنامه استخدام، ترک خدمت، و تأثیر بودجه. بخش‌های مهندسی، بازاریابی، حقوقی و فروش را شامل کنید.

برای استفاده از قابلیت‌های جدید صفحه‌گسترده و ارائه در ChatGPT، باید در یک طرح پولی باشید و GPT‑5.2 Thinking یا Pro را انتخاب کنید. تولیدات پیچیده ممکن است چند دقیقه طول بکشد تا تولید شوند.

برنامه‌نویسی

GPT‑5.2 Thinking یک استاندارد جدید با امتیاز 55.6٪ در SWE-bench Pro، که یک ارزیابی دقیق از مهندسی نرم‌افزار در دنیای واقعی است، تعیین کرده است. برخلاف SWE-bench تأییدشده که فقط Python را آزمایش می‌کند، SWE-bench Pro چهار زبان را آزمایش می‌کند و هدفش این است که در برابر آلودگی مقاوم‌تر، چالش‌برانگیزتر، متنوع‌تر و مرتبط‌تر با صنعت باشد.

در SWE-bench Pro(در یک پنجره جدید باز می‌شود)، به مدل یک مخزن کد داده می‌شود و باید یک وصله برای حل یک وظیفه واقعی مهندسی نرم‌افزار تولید کند.

در SWE-bench تأیید شده (بدون رسم نمودار)، GPT‑5.2 Thinking به رکورد جدید ۸۰٪ ما دست یافته است.

برای استفاده حرفه‌ای روزمره، این به مدلی تبدیل می‌شود که می‌تواند به‌طور قابل اعتمادتری کد تولیدی را اشکال‌زدایی کند، درخواست‌های ویژگی را پیاده‌سازی کند، پایگاه‌های کد بزرگ را بازسازی کند و اصلاحات را از ابتدا تا انتها با مداخله دستی کمتر انجام دهد.

GPT‑5.2 Thinking در مهندسی نرم‌افزار فرانت‌اند نیز بهتر از GPT‑5.1 Thinking است. آزمایش‌کنندگان اولیه دریافتند که این ابزار در توسعه فرانت‌اند و کارهای پیچیده یا غیرمتعارف رابط کاربری—به‌ویژه شامل عناصر سه‌بعدی—به‌طور قابل‌توجهی قوی‌تر است و آن را به یک شریک قدرتمند روزانه برای مهندسان در سراسر لایه‌ها تبدیل می‌کند. چند نمونه از آنچه می‌تواند تنها با یک دستور تولید کند، ببینید:

درخواست: یک اپلیکیشن تک‌صفحه‌ای در یک فایل HTML واحد با الزامات زیر ایجاد کن:
- نام: شبیه‌سازی موج اقیانوس
- هدف: نمایش امواج متحرک واقعی.
- ویژگی‌ها: تغییر سرعت باد، ارتفاع موج، نورپردازی.
- رابط کاربری باید آرامش‌بخش و واقعی باشد.

آزمایش‌کنندگان اولیه نظرات خود را درباره GPT‑5.2 به اشتراک گذاشتند قابلیت‌های کدنویسی:

GPT-5.2 بزرگترین جهش برای مدل‌های GPT در کدنویسی عامل‌محور از زمان GPT-5 را نشان می‌دهد و یک مدل کدنویسی پیشرفته در محدوده قیمت خود است. افزایش نسخه کمتر از حد جهش در هوش را نشان می‌دهد. ما هیجان‌زده‌ایم که آن را به صورت پیش‌فرض در سراسر Windsurf و چندین بار کاری اصلی Devin قرار دهیم.
Jeff Wang، مدیر عامل Windsurf

واقعیت‌گرایی

GPT‑5.2 Thinking کمتر از GPT‑5.1 Thinking دچار توهم می‌شود. در مجموعه‌ای از پرسش‌های ناشناس از ChatGPT، پاسخ‌های دارای خطا ۳۸٪rel کمتر شایع بودند. برای حرفه‌ای‌ها، این به معنای کاهش اشتباهات هنگام استفاده از مدل برای تحقیق، نوشتن، تحلیل و پشتیبانی از تصمیم‌گیری است—که مدل را برای کارهای دانشی روزمره قابل‌اعتمادتر می‌کند.

تلاش استدلال به حداکثر موجود تنظیم شد و ابزار جستجو فعال شد. خطاها توسط مدل‌های دیگر شناسایی شدند که ممکن است خودشان نیز خطا کنند. نرخ خطا در سطح ادعا بسیار کمتر از نرخ خطا در سطح پاسخ است، زیرا اکثر پاسخ‌ها شامل ادعاهای زیادی هستند.

مانند همه مدل‌ها، GPT‑5.2 تفکر کامل نیست. برای هر چیز مهمی، جواب‌هایش را دوباره چک کن.

زمینه طولانی

GPT‑5.2 Thinking یک استاندارد جدید در استدلال با زمینه طولانی ایجاد می‌کند و عملکرد برتری در OpenAI MRCRv2 به دست می‌آورد—ارزیابی‌ای که توانایی مدل در ادغام اطلاعات پراکنده در اسناد طولانی را می‌سنجد. در وظایف دنیای واقعی مانند تحلیل عمیق اسناد که نیاز به اطلاعات مرتبط در میان صدها هزار توکن دارد، GPT‑5.2 تفکر به‌طور قابل‌توجهی دقیق‌تر از GPT‑5.1 Thinking است. به طور خاص، این اولین مدلی است که دیده‌ایم که در نوع MRCR چهار سوزنی (تا ۲۵۶ هزار توکن) به دقت نزدیک به ۱۰۰٪ دست می‌یابد.

از نظر عملی، این امر متخصصان را قادر می‌سازد تا از GPT‑5.2 برای کار با اسناد طولانی - مانند گزارش‌ها، قراردادها، مقالات تحقیقاتی، رونوشت‌ها و پروژه‌های چند فایلی - استفاده کنند و در عین حال انسجام و دقت را در صدها هزار توکن حفظ کنند. این ویژگی GPT‑5.2 را به‌ویژه برای تحلیل عمیق، ترکیب و جریان‌های کاری پیچیده و چندمنبعی بسیار مناسب می‌کند.

در OpenAI-MRCR⁠(در یک پنجره جدید باز می‌شود) نسخه ۲ (حل ارجاع‌های چندمرحله‌ای)، چندین درخواست کاربر یکسان موسوم به «سوزن» (needle) در میان مجموعه‌ای طولانی از درخواست‌ها و پاسخ‌های مشابه، که به‌عنوان «انبار کاه» (haystack) شناخته می‌شوند، درج می‌گردد و از مدل خواسته می‌شود که پاسخ مربوط به سوزن شماره n را بازتولید کند. نسخه ۲ این ارزیابی حدود ۵٪ از وظایفی که دارای مقادیر صحیح نادرست بودند را اصلاح می‌کند. نسبت تطابق میانگین، میانگینِ نسبتِ تطابقِ رشته‌ای بین پاسخ مدل و پاسخ صحیح را اندازه‌گیری می‌کند. نقاط در حداکثر 256k توکن ورودی نشان‌دهنده میانگین‌های 128k–256k توکن ورودی و غیره هستند. اینجا، 256k معادل 256 * 1,024 = 262,114 توکن است. تلاش استدلال به حداکثر موجود تنظیم شده بود.

برای وظایفی که از تفکر فراتر از حداکثر پنجره زمینه بهره می‌برند، GPT‑5.2 تفکر با نقطه پایانی جدید Responses /compact ما سازگار است که پنجره مؤثر مدل را گسترش می‌دهد. این به GPT‑5.2 اجازه می‌دهد Thinking به انجام گردش‌های کاری که ابزارهای بیشتری نیاز دارند و طولانی‌مدت هستند و در غیر این صورت ممکن است به دلیل طول زمینه محدود شوند. برای اطلاعات بیشتر، در مستندات API(در یک پنجره جدید باز می‌شود) ما بخوانید.

چشم‌انداز

GPT‑5.2 Thinking قوی‌ترین مدل دیداری ما تا کنون است که نرخ خطاها را در استدلال نموداری و فهم رابط کاربری نرم‌افزار تقریباً به نصف کاهش می‌دهد.

برای استفاده حرفه‌ای روزمره، این به این معناست که مدل می‌تواند داشبوردها، اسکرین‌شات‌های محصول، نمودار‌های فنی و گزارش‌های بصری را با دقت بیشتری تفسیر کند—پشتیبانی از جریان‌های کاری در حوزه‌های مالی، عملیاتی، مهندسی، طراحی و پشتیبانی مشتری که اطلاعات بصری در آن‌ها نقش مرکزی دارد.

در CharXiv Reasoning(در یک پنجره جدید باز می‌شود)، مدل‌ها به سوالات درباره نمودارهای بصری از مقالات علمی پاسخ می‌دهند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر تنظیم شد.

در ScreenSpot-Pro(در یک پنجره جدید باز می‌شود)، مدل‌ها باید درباره اسکرین‌شات‌های با وضوح بالا از رابط‌های کاربری گرافیکی در محیط‌های حرفه‌ای مختلف استدلال کنند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر تنظیم شد. بدون ابزار پایتون، امتیازات بسیار پایین‌تر هستند. توصیه می‌کنیم ابزار پایتون را در وظایف بینایی مانند این فعال کنید.

در مقایسه با مدل‌های قبلی، GPT‑5.2 Thinking درک قوی‌تری از نحوه قرارگیری عناصر در یک تصویر دارد، که در وظایفی که چیدمان نسبی نقش کلیدی در حل مسئله ایفا می‌کند، مفید است. در مثال زیر، از مدل می‌خواهیم که اجزای موجود در ورودی تصویری (در این مورد، یک مادربرد) را شناسایی کند و برچسب‌هایی با جعبه‌های مرزی تقریبی برگرداند. حتی در یک تصویر با کیفیت پایین، GPT‑5.2 مناطق اصلی را شناسایی کرده و جعبه‌هایی را قرار می‌دهد که تقریباً با مکان‌های واقعی هر جزء مطابقت دارند، در حالی که GPT‑5.1 تنها چند بخش را برچسب‌گذاری کرده و درک بسیار ضعیف‌تری از ترتیب فضایی آن‌ها دارد.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

فراخوانی ابزار

GPT‑5.2 به یک حالت جدید پیشرفته با امتیاز 98.7٪ در Tau2-bench Telecom دست یافته است و توانایی آن را در استفاده مطمئن از ابزارها در وظایف طولانی و چندمرحله‌ای نشان می‌دهد.

برای موارد استفاده حساس به تأخیر، GPT‑5.2 Thinking همچنین در استدلال بسیار بهتر عمل می‌کند و نیازی به هیچ تلاشی ندارد. به‌طور قابل‌توجهی بهتر از GPT‑5.1 و GPT‑4.1 عمل می‌کند.

در τ2-bench⁠(در یک پنجره جدید باز می‌شود)، مدل‌ها از ابزارها برای انجام وظایف پشتیبانی مشتری در یک تعامل چندمرحله‌ای با یک کاربر شبیه‌سازی‌شده استفاده می‌کنند. برای حوزه مخابرات، ما یک دستورالعمل کوتاه و به طور کلی مفید را در پیام سیستم گنجاندیم تا عملکرد را بهبود دهیم. ما زیرمجموعه خطوط هوایی را به دلیل کیفیت پایین‌تر ارزیابی‌های حقیقت زمینی حذف کردیم.

برای حرفه‌ای‌ها، این به معنای گردش‌های کاری سرتاسری قوی‌تر است—مثل حل موارد پشتیبانی مشتری، استخراج داده‌ها از سیستم‌های مختلف، اجرای تحلیل‌ها و تولید خروجی‌های نهایی با کاهش شکست‌ها بین مراحل.

برای مثال، وقتی یک سوال پیچیده در خدمات مشتری که نیاز به حل چند مرحله‌ای دارد پرسیده می‌شود، مدل می‌تواند به طور مؤثرتری یک جریان کاری کامل را در میان چندین عوامل هماهنگ کند. در مورد زیر، یک مسافر گزارش می‌دهد که پروازش تأخیر داشته، اتصال پروازش را از دست داده، یک شب در نیویورک اقامت کرده و نیاز به صندلی پزشکی دارد. GPT‑5.2 کل زنجیره وظایف را مدیریت می‌کند—رزرو مجدد، صندلی‌های کمک ویژه، و جبران خسارت—و نتیجه‌ای کامل‌تر از GPT‑5.1 ارائه می‌دهد.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

علوم و ریاضی

یکی از امیدهای ما برای هوش مصنوعی این است که تحقیقات علمی را به نفع همه تسریع کند. در این راستا، ما با دانشمندان همکاری کرده و به آن‌ها گوش داده‌ایم تا ببینیم چگونه هوش مصنوعی می‌تواند کارشان را تسریع کند و ماه گذشته برخی از آزمایش‌های اولیه همکاری را اینجا به اشتراک گذاشتیم.

ما معتقدیم GPT‑5.2 Pro و GPT‑5.2 Thinking بهترین مدل‌های جهان برای کمک و تسریع کار دانشمندان هستند. در مورد GPQA Diamond، یک معیار پرسش و پاسخ در سطح تحصیلات تکمیلی و مورد تایید گوگل، GPT‑5.2 Pro به ۹۳.۲ درصد دست یافت و پس از آن GPT‑5.2 با اختلاف کمی قرار گرفت. Thinking در حال حاضر ۹۲.۴٪ است.

در GPQA Diamond(در یک پنجره جدید باز می‌شود)، مدل‌ها به سوالات چندگزینه‌ای درباره فیزیک، شیمی و زیست‌شناسی پاسخ می‌دهند. هیچ ابزاری فعال نبود و تلاش استدلال به حداکثر تنظیم شده بود.

در FrontierMath (سطح 1 تا 3)، ارزیابی ریاضیات در سطح تخصصی، GPT‑5.2 Thinking یک استاندارد جدید در هنر ایجاد کرد و ۴۰.۳٪ از مسائل را حل کرد.

در FrontierMath(در یک پنجره جدید باز می‌شود)، مدل‌ها مسائل ریاضی در سطح کارشناسی را حل می‌کنند. یک ابزار پایتون فعال شد و تلاش استدلال به حداکثر میزان تنظیم شد.

ما شروع به مشاهده این کرده‌ایم که مدل‌های هوش مصنوعی به طور معناداری پیشرفت در ریاضیات و علوم را به روش‌های ملموس تسریع می‌کنند. به عنوان مثال، در کارهای اخیر با GPT‑5.2 Pro، محققان یک سوال باز در نظریه یادگیری آماری را بررسی کردند. در یک محیط محدود و به‌خوبی تعریف‌شده، مدل پیشنهادی یک اثبات ارائه کرد که توسط نویسندگان تأیید و با کارشناسان خارجی بررسی شد، که نشان می‌دهد چگونه مدل‌های پیشرفته می‌توانند با نظارت دقیق انسانی به تحقیقات ریاضی کمک کنند.

ARC-AGI 2

در ARC-AGI-1 (تأیید شده)، یک معیار طراحی‌شده برای اندازه‌گیری توانایی استدلال عمومی، GPT‑5.2 اولین مدلی است که از آستانه ۹۰٪ عبور کرده است و از ۸۷٪ توسط o3‑preview در سال گذشته بهبود یافته است، در حالی که هزینه دستیابی به آن عملکرد را تقریباً ۳۹۰ برابر کاهش داده است.

در ARC-AGI-2 (تأیید شده)، که سختی را افزایش می‌دهد و استدلال سیال را بهتر جدا می‌کند، GPT‑5.2 Thinking به یک استاندارد جدید برای مدل‌های زنجیره تفکر دست یافت و امتیاز ۵۲.۹٪ را کسب کرد. GPT‑5.2 Pro حتی عملکرد بهتری دارد و به ۵۴.۲٪ می‌رسد و توانایی مدل را در استدلال از طریق مسائل جدید و انتزاعی بیشتر گسترش می‌دهد.

بهبودها در این ارزیابی‌ها نشان‌دهنده بهبودهای GPT‑5.2 است. استدلال چندمرحله‌ای قوی‌تر، دقت بیشتر در محاسبات، و حل مسئله قابل‌اعتمادتر در وظایف فنی پیچیده.

این چیزی است که آزمایش‌کنندگان اولیه ما درباره GPT‑5.2 می‌گویند:

GPT-5.2 قفل‌گشایی یک تغییر کامل معماری برای ما. ما یک سیستم چندعاملی شکننده را به یک ابرعامل با بیش از ۲۰ ابزار تبدیل کردیم. بهترین قسمت این است که، به‌سادگی کار می‌کند. مگا عامل سریع‌تر، هوشمندتر و ۱۰۰ برابر آسان‌تر برای نگهداری است. ما شاهد کاهش چشمگیر تأخیر، تقویت قابل توجه در فراخوانی ابزارها هستیم و دیگر نیازی به درخواست‌های گسترده سیستم نداریم زیرا نسخه 5.2 به طور تمیز و با یک درخواست ساده و یک‌خطی اجرا می‌شود. این حس مثل جادوی خالص است.
ای‌جی اورباخ، مدیر عامل Triple Whale

GPT‑5.2 در ChatGPT

در ChatGPT، کاربران باید متوجه بشوند که GPT‑5.2 در استفاده روزمره بهتر به نظر می‌رسد—ساختارمندتر، قابل اعتمادتر و همچنان لذت‌بخش برای گفتگو.

GPT‑5.2 Instant یک ابزار سریع و توانمند برای کارهای روزمره و یادگیری است که بهبودهای واضحی در سوالات جستجوی اطلاعات، راهنماها و مرورها، نوشتار فنی و ترجمه داشته و بر اساس لحن گرم‌تر و گفتگویی‌تری که در GPT‑5.1 Instant معرفی شده بود، ساخته شده است. آزمایش‌کنندگان اولیه به‌ویژه به توضیحات شفاف‌تری اشاره کردند که اطلاعات کلیدی را در ابتدا ارائه می‌کند.

GPT‑5.2 Thinking برای کارهای عمیق‌تر طراحی شده تا بهت کمک کنه وظایف پیچیده‌تری رو با دقت بیشتری انجام بدی—به‌ویژه در زمینه کدنویسی، خلاصه‌سازی اسناد طولانی، پاسخ به سوالات درباره فایل‌های بارگذاری‌شده، کار با ریاضیات و منطق به‌صورت گام‌به‌گام، و پشتیبانی از برنامه‌ریزی و تصمیم‌گیری با ساختار واضح‌تر و جزئیات مفیدتر.

GPT‑5.2 Pro هوشمندترین و قابل‌اعتمادترین گزینه ما برای سوالات دشوار است که در آن‌ها پاسخ با کیفیت بالاتر ارزش انتظار را دارد. آزمایش‌های اولیه نشان می‌دهد که خطاهای عمده کمتری دارد و عملکرد قوی‌تری در حوزه‌های پیچیده مانند برنامه‌نویسی دارد.

ایمنی

GPT‑5.2 بر اساس تحقیقات تکمیل ایمن که با GPT‑5 معرفی کردیم، ساخته شده است. این تحقیقات به مدل آموزش می‌دهد تا مفیدترین پاسخ را ارائه دهد و در عین حال در مرزهای ایمنی باقی بماند.

با این انتشار، ما به کار خود برای تقویت پاسخ‌های مدل‌هایمان در مکالمات حساس ادامه دادیم، با بهبودهای معنادار در نحوه پاسخ‌دهی آن‌ها به درخواست‌هایی که نشانه‌های خودکشی یا خودآزاری، ناراحتی روانی یا وابستگی عاطفی به مدل را نشان می‌دهند. این مداخلات هدفمند منجر به کاهش پاسخ‌های نامطلوب در هر دو نسخهٔ GPT‑5.2 شده‌اند. Instant و GPT‑5.2 Thinking در مقایسه با مدل‌های GPT‑5.1 و مدل‌های GPT‑5 Instant and Thinking. جزئیات بیشتر را می‌توانید در کارت سیستم پیدا کنید.

ما در مراحل اولیه راه‌اندازی مدل پیش‌بینی سن خود هستیم تا بتوانیم به طور خودکار محافظت‌های محتوایی را برای کاربرانی که زیر ۱۸ سال هستند اعمال کنیم، به منظور محدود کردن دسترسی به محتوای حساس. این بر پایه رویکرد فعلی ما به کاربرانی است که می‌دانیم زیر ۱۸ سال هستند و کنترل‌های والدین ما استوار است.

GPT‑5.2 یک گام در سری بهبودهای مداوم است و ما هنوز کارمان تمام نشده است. در حالی که این نسخه دستاوردهای معناداری در هوشمندی و بهره‌وری ارائه می‌دهد، می‌دانیم که در برخی زمینه‌ها مردم خواهان چیزهای بیشتری هستند. در ChatGPT، داریم روی مسائل شناخته‌شده‌ای مثل امتناع بیش‌ازحد کار می‌کنیم و در عین حال، همچنان سطح ایمنی و قابلیت اطمینان را به طور کلی ارتقا می‌دهیم. این تغییرات پیچیده هستند و ما تمرکز داریم که آنها را به درستی انجام دهیم.

ارزیابی‌های سلامت روان


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

سلامت روان

۰٫۹۹۵

۰٫۸۸۳

۰٫۹۱۵

۰٫۶۸۴

وابستگی احساسی

۰٫۹۳۸

۰.۹۴۵

۰.۹۵۵

۰٫۷۸۵

خودزنی

۰٫۹۳۸

۰٫۹۲۵

۰.۹۶۳

۰٫۹۳۷

در دسترس بودن و قیمت گذاری

در ChatGPT، امروز عرضه GPT‑5.2 (Instant، Thinking و Pro) را آغاز می‌کنیم، ابتدا با طرح‌های پولی (Plus، Pro، Go، Business، Enterprise). ما GPT‑5.2 را به تدریج مستقر می‌کنیم تا ChatGPT را تا حد امکان روان و قابل اعتماد نگه داریم؛ اگر در ابتدا آن را ندیدی، لطفاً بعداً دوباره امتحان کن. در ChatGPT، GPT‑5.1 برای کاربران پرداختی به مدت سه ماه تحت مدل‌های قدیمی در دسترس خواهد بود و پس از آن، ما GPT‑5.1 را غیرفعال خواهیمChatGPT

نام‌گذاری مدل در ChatGPT و API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑جدیدترین

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

در پلتفرم API ما، GPT‑5.2 قابلیت Thinking از امروز در API پاسخ‌ها و API تکمیل گفتگو به‌صورت gpt-5.2 در دسترس تو است. و GPT‑5.2 فوری به صورت gpt-5.2-گفتگو-جدیدترین. GPT‑5.2 Pro در Responses API به عنوان gpt-5.2-pro در دسترس است. توسعه‌دهندگان اکنون می‌توانند پارامتر استدلال را در GPT‑5.2 تنظیم کنند. Pro، و هر دو GPT‑5.2 Pro و GPT‑5.2 اکنون Thinking از تلاش استدلالی جدید «پنجم xhigh» برای وظایفی که کیفیت در آن‌ها بسیار مهم است، پشتیبانی می‌کند.

GPT‑5.2 با قیمت ۱.۷۵ دلار به ازای هر ۱ میلیون توکن ورودی و ۱۴ دلار به ازای هر ۱ میلیون توکن خروجی قیمت‌گذاری شده است، با ۹۰٪ تخفیف برای ورودی‌های کش‌شده. در ارزیابی‌های متعدد عامل، متوجه شدیم که با وجود GPT‑5.2 هزینه بیشتر به ازای هر token، اما هزینه دستیابی به سطح معینی از کیفیت به دلیل کارایی بیشتر token در GPT‑5.2 کمتر شد.

در حالی که قیمت اشتراک ChatGPT ثابت مانده است، در API، GPT‑5.2 به دلیل قابلیت‌های بیشترش نسبت به GPT‑5.1 به ازای هر token قیمت بالاتری دارد. قیمت آن همچنان پایین‌تر از سایر مدل‌های پیشرو است، بنابراین مردم می‌توانند به طور عمیق در کارهای روزانه و برنامه‌های اصلی‌شان از آن استفاده کنند.

قیمت به ازای هر میلیون توکن

مدل

ورودی

ورودی حافظه کوتاه مدت

خروجی

gpt-5.2 /
gpt-5.2-chat-جدیدترین

$۱٫۷۵

۰٫۱۷۵ دلار

$14

gpt-5.2-pro

$21

-

۱۶۸ دلار

gpt-5.1 /
gpt-5.1-chat-جدیدترین

۱٫۲۵ دلار

۰٫۱۲۵ دلار

$۱۰

gpt-5-pro

$15

-

۱۲۰ دلار

ما در حال حاضر هیچ برنامه‌ای برای کنار گذاشتن GPT‑5.1 نداریم. GPT‑5 یا GPT‑4.1 در API و هرگونه برنامه‌ریزی برای توقف پشتیبانی را با اطلاع‌رسانی کافی به توسعه‌دهندگان اعلام خواهد شد. در حالی که GPT‑5.2 به خوبی به صورت پیش‌فرض در Codex کار خواهد کرد، انتظار داریم نسخه‌ای از GPT‑5.2 که برای Codex بهینه‌سازی شده است را در هفته‌های آینده منتشر کنیم.

شرکای ما

GPT‑5.2 با همکاری شرکای قدیمی ما، NVIDIA و Microsoft ساخته شده است. مراکز داده Azure و GPUهای NVIDIA، از جمله H100، H200 و GB200-NVL72، زیرساخت آموزشی در مقیاس بزرگ OpenAI را تقویت می‌کنند و باعث افزایش قابل توجهی در هوش مدل‌ها می‌شوند. این همکاری به ما امکان می‌دهد تا با اطمینان محاسبات را مقیاس‌پذیر کنیم و مدل‌های جدید را سریع‌تر به بازار عرضه کنیم.

ضمیمه

ارزیابی‌های دقیق

در زیر، امتیازات جامع بنچمارک برای GPT‑5.2 را گزارش می‌کنیم Thinking، به همراه یک زیرمجموعه برای GPT‑5.2 Pro

حرفه‌ای
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
برنامه‌نویسی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
واقعیت‌گرایی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
زمینه طولانی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
چشم‌انداز
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
کاربرد ابزار
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
دانشگاهی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
استدلال انتزاعی
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

مدل‌ها با حداکثر تلاش استدلالی موجود در API ما (xhigh برای GPT‑5.2) اجرا شدند. Thinking & Pro، و سطح بالا برای GPT‑5.1 Thinking)، به جز برای ارزیابی‌های حرفه‌ای، که در آن GPT‑5.2 تفکر با حداکثر تلاش استدلالی موجود در ChatGPT Pro اجرا شد. بنچمارک‌ها در یک محیط تحقیقاتی انجام شدند، که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه بدهد.

* برای SWE-Lancer، ما 40 مورد از 237 مشکلی که روی زیرساخت ما اجرا نشدند را حذف می‌کنیم.

نویسنده

OpenAI