امروز، ما یک پیشنمایش پژوهشی از GPT‑5.3‑Codex‑Spark را منتشر میکنیم، نسخهای کوچکتر از GPT‑5.3‑Codex و نخستین مدل ما که برای کدنویسی در زمان واقعی طراحی شده است. Codex-Spark برای ایجاد احساسی نزدیک به آنی بهینهسازی شده است—در حالی که برای وظایف کدنویسی دنیای واقعی همچنان بسیار توانمند باقی میماند، سرعت تولید 15x سریعتر را ارائه میدهد.
Codex-Spark اولین نقطه عطف در همکاری ما با Cerebras را رقم میزند که آن را در ژانویه اعلام کردیم. ما Codex-Spark را بهعنوان یک پیشنمایش تحقیقاتی با کاربران ChatGPT Pro به اشتراک میگذاریم تا توسعهدهندگان بتوانند زودتر شروع به آزمایش کنند، در حالی که ما با Cerebras همکاری میکنیم تا ظرفیت مرکز داده را افزایش دهیم، تجربه کاربری را بهبود بخشیم و مدل پیشرو بزرگتر خود را مستقر کنیم.
مدلهای پیشرو جدید ما تواناییهای خاصی در انجام وظایف طولانیمدت نشان دادهاند و میتوانند بهطور خودمختار برای ساعتها، روزها یا حتی هفتهها بدون نیاز به مداخله کار کنند. Codex-Spark نخستین مدل ما است که بهطور خاص برای کار با Codex در زمان واقعی طراحی شده است—ویرایشهای هدفمند انجام میدهد، منطق را بازطراحی میکند، یا رابطها را بهبود میدهد و نتایج را بلافاصله مشاهده میکند. با Codex-Spark، خانواده Codex اکنون هم از وظایف بلندمدت و جاهطلبانه و هم از انجام کار در همان لحظه، پشتیبانی میکند. امیدواریم از نحوه استفاده توسعهدهندگان از آن بیاموزیم و همزمان با ادامه گسترش دسترسی، بازخوردها را ادغام کنیم.
در زمان عرضه، Codex-Spark دارای پنجره زمینه 128k است و فقط متنی است. در طول پیشنمایش پژوهشی، Codex-Spark محدودیت نرخ مخصوص به خود را خواهد داشت و استفاده از آن در محدودیتهای نرخ استاندارد محاسبه نخواهد شد. با این حال، زمانی که تقاضا بالا باشد، ممکن است دسترسی کندتر یا صف موقت را مشاهده کنید، زیرا ما قابلیت اطمینان را در میان کاربران متعادل میکنیم.
Codex-Spark برای کار تعاملی بهینهسازی شده است، جایی که تأخیر به اندازه هوشمندی اهمیت دارد. شما میتوانید با مدل تقریباً مانند یک همکارِ همزمان کار کنید—در حین کار آن را متوقف کنید یا مسیرش را تغییر دهید، و بدون اینکه منتظر تکمیل انتشار بمانید، سریعاً تکرار و اصلاح کنید. چون برای سرعت تنظیم شده است، Codex-Spark سبک کاری پیشفرض خود را سبک نگه میدارد: ویرایشهای حداقلی و هدفمند انجام میدهد و بهطور خودکار تستها را اجرا نمیکند مگر اینکه شما از آن بخواهید.
Codex-Spark یک مدل کوچک بسیار توانمند است که برای استنتاج سریع بهینهسازی شده است. در SWE-Bench Pro و Terminal-Bench 2.0، دو معیار سنجش توانمندی مهندسی نرمافزار عاملمحور، GPT‑5.3‑Codex‑Spark عملکرد ضعیفتری نسبت به GPT‑5.3‑Codex دارد، اما میتواند وظیفه را در کسری از زمان انجام دهد.
مدتزمان بهعنوان مجموع (1) زمان تولید خروجی (توکنهای خروجی ÷ سرعت نمونهبرداری)، (2) زمان پیشپرکردن (توکنهای پیشپرکردن ÷ سرعت پیشپرکردن)، (3) مجموع زمان اجرای ابزار، و (4) مجموع سربار شبکه برآورد میشود.
همانطور که Codex-Spark را آموزش میدادیم، مشخص شد که سرعت مدل تنها بخشی از معادله برای همکاری در زمان واقعی است—ما همچنین نیاز داشتیم تأخیر را در سراسر کل فرآیند درخواست-پاسخ کاهش دهیم. ما بهبودهای تأخیر سرتاسری را در بستر اجرای خود پیادهسازی کردیم که به نفع همه مدلها است. در پشت صحنه، نحوه جریان پاسخها از client به server و بازگشت آن را سادهسازی کردیم، بخشهای کلیدی از پشته استنتاج خود را بازنویسی کردیم، و نحوه مقداردهی اولیه sessionها را بازطراحی کردیم تا نخستین توکن قابل مشاهده زودتر ظاهر شود و Codex در حین تکرار پاسخگو باقی بماند. با معرفی یک اتصال WebSocket پایدار و بهینهسازیهای هدفمند در داخل Responses API، هزینه اضافی هر رفتوبرگشت client/server را 80%، هزینه اضافی هر توکن را 30%، و زمان تا نخستین توکن را 50% کاهش دادیم. مهم نیست کدام مدل را انتخاب میکنید، در سراسر Codex یک چرخه فشردهتر را تجربه خواهید کرد.
Codex-Spark روی Wafer Scale Engine 3(در یک پنجره جدید باز میشود) متعلق به Cerebras اجرا میشود—یک شتابدهنده هوش مصنوعی طراحیشده بهطور اختصاصی برای استنتاج پرسرعت که یک لایه سرویسدهی با اولویت تأخیر به Codex میدهد. ما با Cerebras همکاری کردیم تا این مسیر کمتأخیر را به همان پشته سرویسدهی تولیدیِ سایر ناوگان خود اضافه کنیم، بهگونهای که بهصورت یکپارچه در سراسر Codex کار کند و ما را برای پشتیبانی از مدلهای آینده آماده سازد.
«آنچه بیش از همه درباره GPT-5.3-Codex-Spark ما را هیجانزده میکند، همکاری با OpenAI و جامعه توسعهدهندگان برای کشف این است که استنتاج سریع چه چیزهایی را ممکن میسازد—الگوهای تعامل جدید، موارد استفاده جدید، و تجربهای کاملاً متفاوت از مدل. این پیشنمایش فقط آغاز راه است.»
GPUها همچنان در سراسر فرآیندهای آموزش و استنتاج ما بنیادین باقی میمانند و مقرونبهصرفهترین توکنها را برای استفاده گسترده ارائه میدهند. Cerebras این بنیاد را با برتری در جریانهای کاری که به تأخیر بسیار پایین نیاز دارند تکمیل میکند و چرخه سرتاسری را فشردهتر میسازد تا Codex هنگام تکرار پاسخگوتر شود.
Codex-Spark امروز بهعنوان یک پیشنمایش پژوهشی برای تمامی کاربران ChatGPT Pro در جدیدترین نسخههای اپلیکیشن Codex، CLI و افزونه VS Code راهاندازی میشود. از آنجا که روی سختافزار تخصصی با تأخیر پایین اجرا میشود، میزان استفاده از آن تحت یک محدودیت نرخ جداگانه مدیریت میشود که ممکن است در طول پیشنمایش تحقیقاتی بر اساس میزان تقاضا تنظیم شود. علاوه بر این، ما Codex-Spark را در API برای مجموعه کوچکی از شرکای طراحی در دسترس قرار میدهیم تا بفهمیم توسعهدهندگان چگونه میخواهند Codex-Spark را در محصولاتشان ادغام کنند. ما در هفتههای آینده، در حالی که به تنظیم یکپارچهسازی خود تحت سناریوهای اجرایی واقعی ادامه میدهیم، دسترسی را گسترش خواهیم داد.
Codex-Spark در حال حاضر فقط متنمحور است و دارای یک context window با ظرفیت 128 هزار توکن است، و اولین مدل در خانوادهای از مدلهای فوقسریع بهشمار میرود. با یادگیری بیشتر همراه با جامعهٔ توسعهدهندگان دربارهٔ اینکه مدلهای سریع در کدنویسی کجا میدرخشند، قابلیتهای بیشتری را معرفی خواهیم کرد—از جمله مدلهای بزرگتر، طول زمینههای بیشتر، و ورودیهای چندوجهی.
Codex-Spark شامل همان آموزشهای ایمنی است که برای مدلهای اصلی ما انجام شده، از جمله آموزشهای مرتبط با حوزهٔ سایبری و امنیت. ما Codex-Spark را بهعنوان بخشی از فرایند استاندارد استقرار خود ارزیابی کردیم که شامل ارزیابیهای پایه برای قابلیتهای سایبری و سایر توانمندیها میشود، و به این نتیجه رسیدیم که احتمال معقولی برای رسیدن آن به آستانهٔ چارچوب آمادگی ما در سطح قابلیت بالای امنیت سایبری وجود ندارد.
Codex-Spark اولین گام بهسوی یک Codex با دو حالت مکمل است: استدلال و اجرا با افق زمانی طولانی، و همکاری بلادرنگ برای تکرار سریع. با گذشت زمان، این حالتها با یکدیگر ادغام خواهند شد—Codex میتواند شما را در یک حلقهٔ تعاملی فشرده نگه دارد، در حالی که کارهای طولانیتر را در پسزمینه به زیرعاملها واگذار میکند، یا زمانی که گستره و سرعت میخواهید وظایف را بهصورت موازی میان مدلهای متعدد توزیع کند، تا مجبور نباشید از همان ابتدا تنها یک حالت را انتخاب کنید.
با توانمندتر شدن مدلها، سرعت تعامل به وضوح به یک گلوگاه تبدیل میشود. استنتاج فوقسریع آن حلقه را تنگتر میکند، استفاده از Codex را طبیعیتر میسازد و امکانات را برای هر کسی که ایدهای را به نرمافزار کاربردی تبدیل میکند، گسترش میدهد.


