ما یک مدل جدید معرفی میکنیم که قابلیتهای بیشتری از آنچه Codex میتواند انجام دهد را آزاد میکند: GPT‑5.3‑Codex، قویترین مدل کدنویسی عامل تا به امروز. این مدل هم عملکرد پیشرفته کدنویسی GPT‑5.2‑Codex و هم قابلیتهای استدلال و دانش حرفهای GPT‑5.2 را در یک مدل ترکیب میکند که همچنین 25% سریعتر است. این امکان را فراهم میکند تا وظایف طولانیمدتی را بر عهده بگیرد که شامل تحقیق، استفاده از ابزار و اجرای پیچیده میباشند. درست مانند یک همکار، شما میتوانید در حین کار با GPT‑5.3‑Codex، بدون از دست دادن زمینه، آن را هدایت کرده و با آن تعامل داشته باشید.
GPT‑5.3‑Codex اولین مدل ما است که در ایجاد خود نقش اساسی ایفا کرد. تیم Codex از نسخههای اولیه برای رفع اشکال آموزش خود، مدیریت استقرار خود و عیبیابی نتایج تستها و ارزیابیها استفاده کرد—تیم ما از اینکه Codex تا چه حد توانست توسعه خود را تسریع کند شگفتزده شد.
با GPT‑5.3‑Codex، Codex از یک عامل که میتواند کد بنویسد و بازبینی کند به عاملی تبدیل میشود که میتواند تقریباً هر کاری را که توسعهدهندگان و متخصصان میتوانند روی یک کامپیوتر انجام دهند، انجام دهد.
GPT‑5.3‑Codex یک رکورد جدید در صنعت در SWE-Bench Pro و Terminal-Bench ثبت میکند و مطابق چهار معیار ما برای اندازهگیری تواناییهای کدنویسی، عاملگری و قابلیتهای دنیای واقعی، عملکرد قویای در OSWorld و GDPval، نشان میدهد.
GPT‑5.3‑Codex عملکرد پیشرفتهای در SWE-Bench Pro، ارزیابی دقیق مهندسی نرمافزار دنیای واقعی، به دست میآورد. در حالی که SWE‑bench Verified فقط تستهای پایتون را انجام میدهد، SWE-Bench Pro چهار زبان را پوشش میدهد و در برابر آلودگی مقاومتر، چالشبرانگیزتر، متنوعتر و مرتبطتر با صنعت است. این مدل همچنین عملکرد پیشرفتهتری در Terminal-Bench 2.0 از خود نشان میدهد، که مهارتهای ترمینالی را که یک عامل کدنویسی مانند Codex به آن نیاز دارد اندازهگیری میکند. قابل توجه است که GPT‑5.3‑Codex این کار را با توکنهای کمتری نسبت به هر مدل قبلی انجام میدهد و به کاربران این امکان را میدهد که بیشتر بسازند.
ترکیب قابلیتهای پیشرفته کدنویسی، بهبودهای زیباییشناسی و فشردهسازی منجر به مدلی شده است که میتواند کارهای چشمگیری انجام دهد و بازیها و اپلیکیشنهای پیچیده و کاربردی را از صفر در طول چند روز بسازد. برای آزمایش قابلیتهای توسعه وب و توانمندیهای عاملگری طولانیمدت مدل، از GPT‑5.3‑Codex خواستیم دو بازی بسازد: نسخه دوم بازی مسابقه از راهاندازی اپلیکیشن Codex و یک بازی غواصی. با استفاده از مهارت توسعه بازی وب و دستورهای از پیشانتخاب شده و عمومی مانند «باگ را اصلاح کن» یا «بهبود بازی»، GPT‑5.3‑Codex بهطور مستقل بازیها را در طول میلیونها توکن بهصورت تکراری اجرا کرد. تریلرها را تماشا کنید و خودتان بازیها را بازی کنید تا ببینید Codex چه کارهایی میتواند انجام دهد.
یک بازی مسابقهای، همراه با رانندههای مختلف، هشت نقشه و حتی آیتمهایی که میتوان با کلید فاصله از آنها استفاده کرد. اینجا خودتان امتحانش کنید(در یک پنجره جدید باز میشود)!
یک بازی غواصی که در آن صخرههای مرجانی مختلف را کاوش میکنید، همه را جمعآوری میکنید تا دانشنامهٔ ماهیهای خود را کامل کنید، و در تمام این مدت اکسیژن، فشار و خطرات را مدیریت میکنید. اینجا خودتان امتحانش کنید(در یک پنجره جدید باز میشود)!
GPT‑5.3‑Codex همچنین وقتی از آن میخواهید وبسایتهای روزمره بسازد، در مقایسه با GPT‑5.2‑Codex، منظور شما را بهتر درک میکند. دستورهای ساده یا با جزئیات کم اکنون بهطور پیشفرض به سایتهایی با قابلیتهای بیشتر و مقادیر پیشفرض معقول هدایت میشوند و به شما یک بوم آغازین قویتر میدهند تا ایدههایتان را به واقعیت تبدیل کنید.
برای مثال، از GPT‑5.3‑Codex و GPT‑5.2‑Codex خواستیم که دو صفحه فرود زیر را بسازند. GPT‑5.3‑Codex بهطور خودکار طرح سالانه را به عنوان قیمت ماهانه تخفیفخورده نمایش داد، بهطوری که تخفیف واضح و عمدی به نظر میرسید، نه اینکه مجموع سالانه را ضرب کند. همچنین یک چرخفلک نظرات خودکار با سه نقل قول مختلف از کاربران ایجاد کرد، به جای یک نقل قول، که منجر به صفحهای شد که بهطور پیشفرض کاملتر و آماده تولید به نظر میرسید.
Prompt (دستور): یک صفحه فرود برای Quiet KPI بسازید، یک خلاصه هفتگی متریک که برای بنیانگذاران دوستانه است. زیباییشناسی، سبک نرم SaaS، کارتهای شیشهای، گرادیان بنفش به آبی، تاری ملایم. بخشها، قهرمان با جمعآوری ایمیل، شبکه کارتهای گزارش نمونه، ردیف ادغامها، چرخش نظرها، سوئیچ قیمتگذاری ماهانه و سالانه، سوالات متداول، فوتر.
- قلم Satoshi یا مشابه آن، سانس سرراست هندسی.
- دکمهها با گوشههای نرم، شعاع 14 پیکسل، حالتهای فوکوس قوی.
- یک نمایش آشکارسازی مبتنی بر پیماپیش با سلیقه اضافه کنید.
مهندسان نرمافزار، طراحان، مدیران محصول و دانشمندان داده کارهایی بسیار فراتر از تولید کد انجام میدهند. GPT‑5.3‑Codex برای پشتیبانی از تمام کارها در چرخه عمر نرمافزار مانند —رفع اشکال، استقرار، پایش، نوشتن PRDها، ویرایش متن، پژوهش کاربر، تستها، معیارها و موارد دیگر ساخته شده است. قابلیتهای عاملمحور آن فراتر از نرمافزار میرود و به شما کمک میکند هر چیزی را که میخواهید بسازید—چه ساخت اسلایدها باشد و چه تحلیل دادهها در صفحات گسترده.
با مهارتهای سفارشی مشابه آنچه برای نتایج قبلی GDPval ما استفاده شد، GPT‑5.3‑Codex همچنین عملکرد قویای در کارهای دانش حرفهای از خود نشان میدهد که GDPval آن را اندازهگیری میکند و با GPT‑5.2 مطابقت دارد. GDPval یک ارزیابی است که OpenAI در سال 2025 منتشر کرد و عملکرد مدل را در انجام وظایف مشخصشده دانشمحور در 44 شغل اندازهگیری میکند. این وظایف شامل مواردی مانند ساخت ارائهها، صفحهگستردهها و سایر محصولات کاری است.
در زیر چند نمونه از کارهایی که عامل تولید کرده است، آمده است.
پرامپت + زمینهٔ وظیفه
GPT-5.3-Codex output

OSWorld یک معیار استفاده از کامپیوترِ عاملمحور است که در آن عامل باید وظایف بهرهوری را در یک محیط بصریِ دسکتاپِ کامپیوتر تکمیل کند. GPT‑5.3‑Codex قابلیتهای استفاده از کامپیوتر بسیار قویتری نسبت به مدلهای قبلی GPT نشان میدهد.
در OSWorld-Verified، مدلها از بینایی برای انجام وظایف مختلف کامپیوتری استفاده میکنند. امتیاز انسانها حدود ~72% است.
نتایج بهدستآمده در زمینههای کدنویسی، فرانتاند، استفاده از کامپیوتر و وظایف دنیای واقعی نشان میدهند که GPT‑5.3‑Codex نه تنها در انجام وظایف فردی بهتر است، بلکه نشاندهندهی یک تغییر اساسی به سوی یک عامل همهمنظوره واحد است که میتواند در سراسر طیف کامل کار فنی دنیای واقعی استدلال کند، بسازد و اجرا کند.
با قدرتمندتر شدن قابلیتهای مدل، شکاف از اینکه عاملها قادر به انجام چه کارهایی هستند به اینکه انسانها تا چه اندازه میتوانند بهراحتی با بسیاری از آنها که بهصورت موازی کار میکنند تعامل کنند، آنها را هدایت و نظارت کنند، تغییر میکند. اپلیکیشن Codex مدیریت و هدایت نمایندگان را بسیار آسانتر میکند، و اکنون با GPT‑5.3‑Codex این موضوع تعاملیتر است. با مدل جدید، Codex بهروزرسانیهای مکرر ارائه میدهد تا در حین کار، از تصمیمهای کلیدی و پیشرفتها مطلع بمانید. بهجای اینکه منتظر یک خروجی نهایی بمانید، میتوانید در زمان واقعی تعامل کنید—سؤال بپرسید، رویکردها را بررسی کنید و به سمت راهحل هدایت شوید. GPT‑5.3‑Codex درباره اینکه چه کاری انجام میدهد توضیح میدهد، به بازخورد پاسخ میدهد و از ابتدا تا انتها شما را در جریان قرار میدهد.
امکان هدایت مدل در حین کار در اپلیکیشن را در Settings > General > Follow-up behavior فعال کنید.
بهبودهای سریع اخیر Codex بر پایه نتایج پروژههای پژوهشیای استوار است که در سراسر OpenAI طی ماهها یا سالها انجام شدهاند. Codex این پروژههای تحقیقاتی را تسریع میکند و بسیاری از پژوهشگران و مهندسان در OpenAI امروز شغل خود را بهطور اساسی متفاوت از آنچه فقط دو ماه پیش بود توصیف میکنند. حتی نسخههای اولیه GPT‑5.3‑Codex قابلیتهای استثنایی از خود نشان داد که به تیم ما اجازه داد با نسخههای قبلی کار کند تا آموزش را بهبود بخشد و از استقرار نسخههای بعدی پشتیبانی کند.
Codex برای طیف بسیار گستردهای از وظایف مفید است و این امر فهرست کردن کامل روشهایی که به تیمهای ما کمک میکند را دشوار میسازد. به عنوان چند نمونه، تیم تحقیقاتی از Codex برای نظارت و رفع اشکال اجرای آموزش این نسخه استفاده کرد. این پژوهش را فراتر از اشکالزدایی مشکلات زیرساختی شتاب بخشید: به ردیابی الگوها در طول دوره آموزش کمک کرد، تحلیلی عمیق از کیفیت تعامل ارائه داد، راهحلهایی پیشنهاد کرد و برنامههای کاربردی غنی برای پژوهشگران انسانی ساخت تا بهطور دقیق درک کنند که رفتار مدل چگونه با مدلهای قبلی متفاوت است.
تیم مهندسی از Codex برای بهینهسازی و تطبیق چارچوب برای GPT‑5.3‑Codex استفاده کرد. زمانی که شروع به مشاهده موارد عجیب و غریب که بر کاربران تأثیر میگذاشتیم، اعضای تیم از Codex برای شناسایی باگهای رندرینگ زمینه و علت اصلی نرخ پایین هیت کش استفاده کردند. GPT‑5.3‑Codex همچنان در طول راهاندازی به تیم کمک میکند تا با مقیاسبندی دینامیک خوشههای GPU برای سازگاری با افزایش ترافیک و حفظ پایداری تأخیر، کارایی را حفظ کند.
در طول آزمون آلفا، یک پژوهشگر میخواست بفهمد که GPT‑5.3‑Codex در هر نوبت چه مقدار کار اضافی انجام میدهد و تفاوت مرتبط در بهرهوری چقدر است. GPT‑5.3‑Codex چندین دستهبند ساده regex برای برآورد فرکانس درخواستهای شفافسازی، پاسخهای مثبت و منفی کاربران و پیشرفت در انجام وظیفه پیشنهاد داد و سپس آنها را بهصورت مقیاسپذیر بر روی تمام لاگهای جلسات اجرا کرد و گزارشی با نتیجهگیری خود تولید کرد. افرادی که با Codex کار میکردند خوشحالتر بودند، زیرا عامل هدف آنها را بهتر درک میکرد و در هر نوبت پیشرفت بیشتری داشت و سوالات شفافسازی کمتری میپرسید.
به دلیل اینکه GPT‑5.3‑Codex بسیار با نسخههای پیشین خود متفاوت است، دادههای حاصل از آزمون آلفا نتایج غیرمعمول و خلاف انتظار متعددی را نشان داد. یک دانشمند داده تیم با GPT‑5.3‑Codex همکاری کرد تا پایپلاینهای داده جدیدی بسازد و نتایج را بسیار غنیتر از آنچه ابزارهای استاندارد داشبوردسازی ما ممکن میکردند، به صورت بصری نمایش دهد. نتایج بهطور مشترک با Codex تحلیل شدند، که بهطور مختصر بینشهای کلیدی را از میان هزاران نقطه داده در کمتر از سه دقیقه خلاصه کرد.
بهصورت جداگانه، همهٔ این وظایف نمونههای جالبی از این هستند که Codex چگونه میتواند به پژوهشگران و سازندگان محصول کمک کند. در مجموع، دریافتیم که این قابلیتهای جدید منجر به شتابگیری قدرتمند در تیمهای تحقیقاتی، مهندسی و محصول ما شدند.
در ماههای اخیر، شاهد پیشرفتهای معناداری در عملکرد مدلها در وظایف امنیت سایبری بودهایم که هم به نفع توسعهدهندگان و هم به نفع متخصصان امنیت بوده است. بهطور همزمان، ما در حال آمادهسازی تدابیر حفاظتی سایبری تقویتشده بودهایم تا از استفادهٔ دفاعی و تابآوری گستردهتر اکوسیستم پشتیبانی نماییم.
GPT‑5.3‑Codex اولین مدلی است که ما آن را به عنوان نسخهای با قابلیت بالا برای وظایف مرتبط با امنیت سایبری تحت چارچوب آمادگی خود طبقهبندی میکنیم، و اولین مدلی است که بهطور مستقیم برای شناسایی آسیبپذیریهای نرمافزاری آموزش دادهایم. در حالی که شواهد قطعی نداریم که بتواند حملات سایبری را بهصورت سرتاسری خودکار کند، ما رویکردی احتیاطآمیز در پیش گرفتهایم و جامعترین مجموعه ایمنی امنیت سایبری خود تا به امروز را مستقر میکنیم. اقدامات کاهشدهنده ما شامل آموزش ایمنی، نظارت خودکار، دسترسی مطمئن برای قابلیتهای پیشرفته، و خطوط اجرایی شامل اطلاعات تهدید است.
از آنجا که امنیت سایبری ذاتاً دارای استفاده دوگانه است، ما رویکردی مبتنی بر شواهد و تکرارشونده را اتخاذ کردهایم که توانایی مدافعان را برای یافتن و رفع آسیبپذیریها تسریع میکند و در عین حال سوءاستفاده را کاهش میدهد. بهعنوان بخشی از این کار، ما دسترسی مطمئن برای سایبر، یک برنامه آزمایشی برای تسریع پژوهش در زمینه دفاع سایبری را راهاندازی میکنیم.
ما در حال سرمایهگذاری در تدابیر حفاظتی اکوسیستم هستیم، مانند گسترش بتای خصوصی Aardvark، عامل تحقیقاتی امنیتی ما، به عنوان اولین پیشنهاد در مجموعه محصولات و ابزارهای امنیتی Codex، و همکاری با نگهدارندگان نرمافزارهای منبعباز برای ارائه اسکن رایگان کدبیس برای پروژههای پرکاربرد مانند Next.js—، جایی که یک محقق امنیتی از Codex برای یافتن آسیبپذیریها استفاده کرد که هفته گذشتهافشا (در یک پنجره جدید باز میشود) شد.
با تکیه بر برنامه کمکهزینه امنیت سایبری 1 میلیون دلاری ما که در سال 2023 راهاندازی شد، ما همچنین متعهد به ارائه 10 میلیون دلار اعتبار API هستیم تا با توانمندترین مدلهای خود، بهویژه برای نرمافزارهای متنباز و سامانههای زیرساخت حیاتی، دفاع سایبری را تسریع کنیم. سازمانهایی که در پژوهش امنیتی با نیت خیر فعالیت میکنند میتوانند از طریق برنامه Cybersecurity Grant برای دریافت اعتبار API و پشتیبانی درخواست دهند.
GPT‑5.3‑Codex با طرحهای پولی ChatGPT در دسترس است، در هر جایی که میتوانید از Codex استفاده کنید: برنامه، رابط خط فرمان (CLI)، افزونه IDE و وب. ما در حال کار هستیم تا به زودی دسترسی به API را به صورت ایمن فعال کنیم.
با این بهروزرسانی، اکنون GPT‑5.3‑Codex را برای کاربران Codex به میزان 25% سریعتر اجرا میکنیم، که این امر به لطف بهبودهای زیرساخت و استک استنتاج ما حاصل شده است و منجر به تعاملات و نتایج سریعتر میشود.
GPT‑5.3‑Codex بهصورت مشترک برای سیستمهای NVIDIA GB200 NVL72 طراحی شده، با آنها آموزش داده شده و روی آنها ارائه شده است. ما از NVIDIA بابت همکاریشان سپاسگزاریم.
با GPT‑5.3‑Codex، Codex فراتر از نوشتن کد حرکت کرده و از آن به عنوان ابزاری برای اداره کردن کامپیوتر و انجام کارها به طور کامل استفاده میکند. با پیش بردن مرزهای آنچه یک عامل کدنویسی میتواند انجام دهد، ما همچنین در حال گشودن طیف گستردهتری از کارهای دانشی هستیم—از ساخت و استقرار نرمافزار تا پژوهش، تحلیل و اجرای وظایف پیچیده. آنچه که به عنوان تمرکز بر بهترین بودن به عنوان یک عامل کدنویسی شروع شد، اکنون به مبنای یک همکار عمومیتر بر روی کامپیوتر تبدیل شده است، که هم دامنه افرادی که میتوانند بسازند و هم آنچه که با Codex ممکن است را گسترش میدهد.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (عمومی) | 56.8% | 56.4% | ۵۵.۶٪ |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
OSWorld-Verified | 64.7% | 38.2% | 37.9% |
GDPval (بردها یا تساویها) | ۷۰.۹٪ | - | 70.9% (زیاد) |
چالشهای Capture The Flag در امنیت سایبری | 77.6% | 67.4% | 67.7% |
SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |


