۲۷ آذر ۱۴۰۴

معرفی GPT‑5.2‑Codex

پیشرفته‌ترین مدل کدنویسی عامل‌محور برای مهندسی نرم‌افزار حرفه‌ای و امنیت سایبری دفاعی.

امروز GPT‑5.2‑Codex را منتشر می‌کنیم، پیشرفته‌ترین مدل کد نویسی عاملی تا به حال برای مهندسی نرم‌افزار پیچیده و در دنیای واقعی. GPT‑5.2‑Codex نسخه‌ای از GPT‑5.2⁠ است که برای کدنویسی عامل‌محور در Codex بهینه‌سازی شده است، شامل بهبودهایی در کارهای بلند مدت از طریق فشرده‌سازی زمینه، عملکرد قوی‌تر در تغییرات بزرگ کد مانند بازسازی و مهاجرت‌ها، بهبود عملکرد در محیط‌های ویندوز و قابلیت‌های امنیت سایبری به‌طور قابل‌توجهی قوی‌تر.

همان‌طور که مدل‌های ما به پیشرفت در مرزهای هوش ادامه می‌دهند، مشاهده کرده‌ایم که این بهبودها به جهش‌های قابلیت در حوزه‌های تخصصی مانند امنیت سایبری⁠ نیز منجر می‌شوند. برای مثال، تنها در هفته گذشته، یک محقق امنیتی با استفاده از GPT‑5.1‑Codex‑Max با استفاده از Codex CLI، یک آسیب‌پذیری در React شناسایی و به‌صورت مسئولانه افشاء⁠(در یک پنجره جدید باز می‌شود) شد که می‌توانست منجر به افشای کد منبع شود.

GPT‑5.2‑Codex قابلیت‌های امنیت سایبری قوی‌تری نسبت به هر مدلی که تاکنون منتشر کرده‌ایم، دارد. این پیشرفت‌ها می‌توانند به تقویت امنیت سایبری در مقیاس بزرگ کمک کنند، اما همچنین خطرات جدیدی با استفاده دو گانه ایجاد می‌کنند که نیازمند استقرار دقیق است. در حالی که GPT‑5.2‑Codex به سطح «بالا»ی قابلیت سایبری تحت چارچوب آمادگی ما نمی‌رسد، ما در حال طراحی رویکرد استقرار⁠ خود با توجه به رشد قابلیت‌های آینده هستیم.

ما GPT‑5.2‑Codex را منتشر می‌کنیم امروز در تمامی سطوح Codex برای کاربران پرداختی ChatGPT در دسترس است و در هفته‌های آینده به سمت فعال‌سازی ایمن دسترسی به GPT‑5.2‑Codex برای کاربران API پیش می‌رویم. به طور همزمان، ما در حال اجرای یک برنامه آزمایشی با دسترسی مطمئن و فقط با دعوت‌نامه به قابلیت‌های آینده و مدل‌های مجازتر برای متخصصان و سازمان‌های معتبر هستیم که بر روی کارهای دفاعی امنیت سایبری تمرکز می‌کنند. ما باور داریم که این رویکرد استقرار، دسترسی و ایمنی را متعادل خواهد کرد.

پیشرفت در مرزهای مهندسی نرم‌افزار در دنیای واقعی

GPT‑5.2‑Codex بر اساس نقاط قوت GPT‑5.2⁠ در کارهای حرفه‌ای دانش و GPT‑5.1‑Codex‑Max⁠توسعه یافته است قابلیت‌های کد نویسی عامل‌محور و استفاده از ترمینال در مرزهای پیشرفته. GPT‑5.2‑Codex اکنون در درک زمینه‌های طولانی، فراخوانی ابزارهای قابل اعتماد، بهبود در واقعیت‌گرایی، و فشرده‌سازی بومی بهتر شده است، که آن را به یک شریک قابل اعتمادتر برای وظایف کد نویسی طولانی‌مدت تبدیل می‌کند، در حالی که در استدلال خود بهینه‌سازی توکن را حفظ می‌کند.

GPT‑5.2‑Codex به عملکرد پیشرفته‌ای در SWE-Bench Pro و Terminal-Bench 2.0 دست یافته است، که بنچمارک‌هایی برای ارزیابی عملکرد عاملانه در طیف گسترده‌ای از وظایف در محیط‌های واقعی ترمینال طراحی شده‌اند. همچنین در کدنویسی عامل‌محور در محیط‌های بومی ویندوز بسیار مؤثرتر و قابل‌اعتمادتر است و بر اساس قابلیت‌هایی که در GPT‑5.1‑Codex‑Max معرفی شده‌اند، توسعه یافته است.

با این بهبودها، Codex توانایی بیشتری در کار با مخازن بزرگ در جلسات طولانی با حفظ کامل زمینه دارد. این می‌تواند وظایف پیچیده‌ای مانند بازسازی‌های بزرگ، مهاجرت‌های کد و ساخت ویژگی‌ها را با اطمینان بیشتری انجام دهد — و بدون از دست دادن مسیر، حتی زمانی که برنامه‌ها تغییر می‌کنند یا تلاش‌ها شکست می‌خورند، به تکرار ادامه دهد.

در ⁠⁠⁠⁠SWE-Bench Pro، به مدل یک مخزن کد داده می‌شود و باید یک وصله برای حل یک وظیفه واقعی در مهندسی نرم‌افزار تولید کند. Terminal-Bench 2.0 یک بنچمارک برای ارزیابی عوامل هوش مصنوعی در محیط‌های واقعی ترمینال است. وظایف شامل کامپایل کد، آموزش مدل‌ها و راه‌اندازی سرورها می‌شود.

عملکرد قوی‌تر دیداری به GPT‑5.2‑Codex این امکان را می‌دهد که اسکرین شات‌ها، نمودارهای فنی، چارت‌ها و سطوح رابط کاربری را که در جلسات کد نویسی به اشتراک گذاشته می‌شوند، با دقت بیشتری تفسیر کند.

Codex می‌تونه طرح‌های اولیه طراحی رو بگیره و به سرعت به نمونه‌های اولیه کاربردی تبدیل کنه، و تو می‌تونی با Codex جفت بشی تا این نمونه‌ها رو به تولید برسونی.

طرح اولیه طراحی

ماکت طراحی که برای ایجاد یک نمونه اولیه وب با Codex-5.2 استفاده شده است

نمونه اولیه تولید شده توسط GPT‑5.2‑Codex

پیشرفت در مرزهای سایبری

وقتی عملکرد یکی از ارزیابی‌های اصلی امنیت سایبری خود را در طول زمان ترسیم می‌کنیم، می‌بینیم که یک جهش تند در قابلیت‌ها از GPT‑5‑Codex شروع می‌شود، سپس یک جهش بزرگ دیگر با GPT‑5.1‑Codex‑Max و اکنون یک جهش سوم با GPT‑5.2‑Codex رخ می‌دهد. ما انتظار داریم که مدل‌های آینده هوش مصنوعی به این مسیر ادامه دهند. در حال آماده‌سازی، ما به گونه‌ای برنامه‌ریزی و ارزیابی می‌کنیم که هر مدل جدید بتواند به سطوح «بالا»ی قابلیت امنیت سایبری برسد، همان‌طور که توسط چارچوب آمادگی⁠⁠(در یک پنجره جدید باز می‌شود) ما اندازه‌گیری می‌شود. در حالی که GPT‑5.2‑Codex هنوز به سطح «بالا»ی قابلیت سایبری نرسیده است، ما در حال آماده‌سازی برای مدل‌های آینده‌ای هستیم که از این آستانه عبور کنند. به دلیل افزایش قابلیت‌های سایبری، تدابیر حفاظتی بیشتری در مدل و محصول اضافه کرده‌ایم که در کارت سیستم⁠ توضیح داده شده‌اند.

ارزیابی حرفه‌ای Capture-the-Flag (CTF) سنجش می‌کند که مدل تا چه اندازه می‌تواند چالش‌های پیشرفته و چند مرحله‌ای دنیای واقعی را (که نیاز به مهارت‌های امنیت سایبری در سطح حرفه‌ای دارند) در محیط لینوکس حل کند.

قابلیت‌های سایبری واقعی

جامعه مدرن بر نرم‌افزار متکی است و قابلیت اطمینان آن به امنیت سایبری قوی بستگی دارد—حفظ سیستم‌های حیاتی در بانکداری، بهداشت و درمان، ارتباطات و خدمات ضروری به صورت آنلاین، حفاظت از داده‌های حساس و اطمینان از اینکه مردم بتوانند به نرم‌افزاری که هر روز به آن وابسته‌اند، اعتماد کنند. آسیب‌پذیری‌ها می‌توانند مدت‌ها قبل از اینکه کسی از وجود آن‌ها مطلع شود، وجود داشته باشند و یافتن، اعتبارسنجی و رفع آن‌ها اغلب به جامعه‌ای از مهندسان و پژوهشگران امنیتی مستقل که به ابزارهای مناسب مجهز هستند، وابسته است.

در 11 دسامبر 2025، تیم React سه آسیب‌پذیری امنیتی را که بر برنامه‌های ساخته شده با React Server Components تأثیر می‌گذاشتند، منتشر کرد. آن‌چه این افشاگری را قابل توجه می‌کرد، نه تنها خود آسیب‌پذیری‌ها بود، بلکه نحوه کشف آن‌ها نیز بود.

اندرو مک‌فرسون، مهندس ارشد امنیتی در پریوی (شرکت Stripe)، از GPT‑5.1‑Codex‑Max استفاده می‌کرد با Codex CLI و دیگر عوامل کد نویسی برای بازتولید و بررسی یک آسیب‌پذیری بحرانی متفاوت در React که هفته قبل افشاء شده بود، به نام React2Shell⁠(در یک پنجره جدید باز می‌شود) (CVE-2025-55182⁠(در یک پنجره جدید باز می‌شود)). هدف او این بود که ارزیابی کند مدل تا چه حد می‌تواند در تحقیقات آسیب‌پذیری دنیای واقعی کمک کند.

او در ابتدا چندین تحلیل بدون نیاز به نمونه را امتحان کرد و مدل را ترغیب کرد تا پچ را بررسی کرده و آسیب‌پذیری‌ای که برطرف می‌کند را شناسایی کند. وقتی که این روش نتیجه‌ای نداد، او به رویکردی با حجم بالاتر و تکراری‌تر در درخواست‌ها روی آورد. وقتی این روش‌ها موفق نشدند، او Codex را از طریق جریان‌های کاری استاندارد امنیتی دفاعی هدایت کرد—راه‌اندازی یک محیط آزمایش محلی، تحلیل سطوح حمله احتمالی و استفاده از فازینگ برای بررسی سیستم با ورودی‌های نادرست. در حین تلاش برای باز تولید مشکل اصلی React2Shell، Codex رفتارهای غیرمنتظره‌ای را نشان داد که نیاز به بررسی عمیق‌تری داشت. در طول یک هفته، این فرآیند منجر به کشف آسیب‌پذیری‌های ناشناخته‌ای شد که به‌صورت مسئولانه به تیم React گزارش شدند.

نمودار جریان با عنوان «کشف آسیب‌پذیری با Codex: CVE-2025-55183» که یک جریان کاری را نشان می‌دهد که با یک مخزن Git شروع می‌شود و Codex کد را برای یافتن آسیب‌پذیری‌ها اسکن می‌کند. یک تلاش صفر-شات شکست می‌خورد، و به دنبال آن یک فرآیند با راهنمایی کارشناس انجام می‌شود که کدبیس را بررسی می‌کند، اهداف ممکن را شناسایی می‌کند، یک هارنس می‌سازد و تست فازینگ را در برابر یک اپلیکیشن نمونه با بازاعتبار سنجی انجام می‌دهد. نتایج برای ایجاد یک اثبات مفهوم تأیید می‌شوند، که منجر به افشای مسئولانه و یک وصله می‌شود که به مخزن اعمال می‌شود.

این نشان می‌دهد که چگونه سیستم‌های پیشرفته هوش مصنوعی می‌توانند به طور قابل توجهی کارهای امنیتی دفاعی را در نرم‌افزارهای پر کاربرد و دنیای واقعی تسریع کنند. در عین حال، قابلیت‌هایی که به مدافعان کمک می‌کنند سریع‌تر عمل کنند، می‌توانند توسط بازیگران بد نیز مورد سوء استفاده قرار گیرند.

همان‌طور که سیستم‌های عاملی در انجام وظایف مرتبط با امنیت سایبری توانمندتر می‌شوند، ما آن را به عنوان یک اولویت اصلی قرار داده‌ایم که این پیشرفت‌ها به‌طور مسئولانه به کار گرفته شوند—هر پیشرفت در توانایی را با محافظت‌های قوی‌تر، کنترل‌های دسترسی محکم‌تر و همکاری مداوم با جامعه امنیتی همراه کنیم.

توانمند سازی دفاع سایبری از طریق دسترسی مطمئن

تیم‌های امنیتی ممکن است با محدودیت‌هایی مواجه شوند زمانی که تلاش می‌کنند تا بازیگران تهدید را شبیه‌سازی کنند، بد افزارها را برای پشتیبانی از اصلاحات تحلیل کنند، یا زیر ساخت‌های حیاتی را تحت آزمایش فشار قرار دهند. ما در حال توسعه یک برنامه آزمایشی دسترسی مطمئن هستیم تا این اصطکاک را برای کاربران و سازمان‌های واجد شرایط از بین ببریم و به مدافعان مطمئن اجازه دهیم از قابلیت‌های پیشرفته هوش مصنوعی در زمینه امنیت سایبری استفاده کنند و دفاع سایبری را تسریع بخشند.

در ابتدا، برنامه آزمایشی فقط برای متخصصان امنیتی معتبر با سابقه افشای مسئولانه آسیب‌پذیری‌ها و سازمان‌هایی با موارد استفاده حرفه‌ای در امنیت سایبری به صورت دعوت‌نامه‌ای خواهد بود. شرکت‌کنندگان واجد شرایط به مدل‌های بسیار توانمند ما برای کاربردهای دفاعی دسترسی خواهند داشت تا کارهای دو گانه مشروع را ممکن کنند.

اگر شما یک حرفه‌ای امنیتی هستید یا بخشی از سازمانی که کارهای امنیتی اخلاقی مانند تحقیق در مورد آسیب‌پذیری‌ها یا تیم‌سازی قرمز مجاز انجام می‌دهید، ما از شما دعوت می‌کنیم تا علاقه‌مندی‌تان را برای پیوستن ابراز کنید و نظرتان را درباره آنچه که دوست دارید از برنامه ببینید، اینجا⁠(در یک پنجره جدید باز می‌شود) به اشتراک بگذارید.

نتیجه‌گیری

GPT‑5.2‑Codex نشان‌دهنده یک پیشرفت در چگونگی پشتیبانی هوش مصنوعی پیشرفته از مهندسی نرم‌افزار در دنیای واقعی و حوزه‌های تخصصی مانند امنیت سایبری است—به توسعه‌دهندگان و مدافعان کمک می‌کند تا با کارهای پیچیده و بلندمدت مقابله کنند و ابزارهای موجود برای تحقیقات امنیتی مسئولانه را تقویت می‌کند.

با معرفی GPT‑5.2‑Codex با عرضه تدریجی، همراه کردن استقرار با تدابیر حفاظتی، و همکاری نزدیک با جامعه امنیتی، هدف ما این است که تأثیر دفاعی را به حداکثر برسانیم و در عین حال خطر سوء استفاده را کاهش دهیم. آنچه از این انتشار یاد می‌گیریم، مستقیماً بر نحوه گسترش دسترسی در طول زمان تأثیر خواهد گذاشت، زیرا مرزهای نرم‌افزار و سایبری به پیشرفت خود ادامه می‌دهند.

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 اکنون مدل ترجیحی در Microsoft 365 Copilot است

محصول۱۸ تیر ۱۴۰۵

ChatGPT اکنون همراه شما برای بلند پروازانه ترین کارهاست

محصول۱۸ تیر ۱۴۰۵

GPT-5.6: هوشمندی پیشرو که هم‌گام با بلندپروازی شما مقیاس‌پذیر می‌شود

محصول۱۸ تیر ۱۴۰۵