Перейти до основного вмісту
OpenAI

Представляємо GPT‑5.2‑Codex

Найсучасніша передова модель агентного програмування для професійної програмної інженерії та оборонної кібербезпеки.

Сьогодні ми випускаємо GPT‑5.2‑Codex, найсучаснішу модель агентного програмування для складної програмної інженерії в реальних сценаріях використання. GPT‑5.2‑Codex — це версія GPT‑5.2, додатково оптимізована для агентної розробки в Codex, що включає покращення для довгострокової роботи завдяки стисненню контексту, кращу продуктивність при великих змінах коду, таких як рефакторинг та міграції, покращену продуктивність у середовищах Windows та значно потужніші можливості кібербезпеки.

Наші моделі продовжують розвиватися на передовій інтелекту, і ми вже спостерігаємо, як ці вдосконалення призводять до суттєвого нарощення можливостей у спеціалізованих галузях, таких як кібербезпека. Наприклад, лише минулого тижня дослідник із безпеки, використовуючи GPT‑5.1‑Codex‑Max за допомогою Codex CLI виявив та відповідально розкрив(відкривається у новому вікні) у React вразливість, яка могла б призвести до розкриття вихідного коду.

GPT‑5.2‑Codex має потужніші можливості в сфері кібербезпеки, ніж будь-яка модель, яку ми випускали раніше. Ці досягнення можуть допомогти зміцнити кібербезпеку в масштабі, але вони також створюють нові ризики подвійного використання, які вимагають обережного впровадження. Хоча GPT‑5.2‑Codex не досягає «високого» рівня кіберможливостей за нашою програмою готовності, ми розробляємо наш підхід до впровадження з урахуванням майбутнього зростання можливостей.

Сьогодні ми випускаємо GPT‑5.2‑Codex на всіх рівнях Codex для платних користувачів ChatGPT; наразі ми працюємо над безпечним наданням доступу до GPT‑5.2‑Codex для користувачів API у найближчі тижні. Паралельно ми запускаємо пілотний проєкт із довіреним доступом за запрошенням до майбутніх можливостей і більш ліберальних моделей для перевірених професіоналів та організацій, які зосереджені на оборонній роботі в сфері кібербезпеки. Ми вважаємо, що такий підхід до розгортання забезпечує баланс доступності з безпекою.

Розширюючи межі розробки ПО в реальних умовах

GPT‑5.2‑Codex розвиває сильні сторони GPT‑5.2 у професійній роботі зі знаннями, а щодо GPT‑5.1‑Codex‑Max— передові можливості агентної розробки та використання терміналу. GPT‑5.2‑Codex тепер краще розуміє обширний контекст, стабільно викликає інструменти, покращує фактичність та має вбудовану компресію, що робить його більш надійним партнером для тривалих завдань із програмування, зберігаючи при цьому його ефективність у використанні токенів у своїх міркуваннях.

GPT‑5.2‑Codex досягає передової продуктивності на SWE-Bench Pro та Terminal-Bench 2.0, бенчмарках, розроблених для тестування агентної продуктивності на різноманітних завданнях у реалістичних термінальних середовищах. Він також значно ефективніший і надійніший в агентному програмуванні в рідних середовищах Windows: цей функціонал базується на можливостях, представлених у GPT‑5.1‑Codex‑Max.

Завдяки цим покращенням Codex здатний працювати у великих репозиторіях протягом тривалих сеансів, зберігаючи повний контекст. Він може більш надійно виконувати складні завдання, наприклад об'ємні рефакторинги, міграції коду та створення функцій — продовжуючи роботу без втрати орієнтації, навіть коли плани змінюються або спроби зазнають невдачі.

У SWE-Bench Pro⁠⁠⁠⁠ моделі надається репозиторій коду, і вона повинна створити патч для вирішення реалістичного завдання з інженерії програмного забезпечення. Terminal-Bench 2.0 — це бенчмарк для тестування ШІ-агентів у реальних термінальних середовищах. Завдання включають компіляцію коду, навчання моделей та налаштування серверів.

Покращена продуктивність сприйняття візуальної інформації дозволяє GPT‑5.2‑Codex точніше інтерпретувати знімки екранів, технічні схеми, графіки та інтерфейси користувача, що завантажуються під час сеансів розробки.

Codex може швидко перетворювати макети дизайну на функціональні прототипи, а ви можете співпрацювати з Codex, щоб перенести ці прототипи у виробництво.

Макет дизайну
Макет дизайну, який використано, щоб створити веб-прототип із Codex-5.2
Прототип, згенерований GPT‑5.2‑Codex

Просування рубежів кібербезпеки

Фіксуючи продуктивність на одному з наших оцінювань кібербезпеки з часом, ми спостерігали різке зростання можливостей, починаючи з GPT‑5‑Codex, наступний значний стрибок — із GPT‑5.1‑Codex‑Max, а тепер ще один — із GPT‑5.2‑Codex. Ми очікуємо, що майбутні моделі ШІ продовжать рух у цьому напрямку. У процесі підготовки ми плануємо та оцінюємо кожну нову модель так, щоб вона могла досягти «високого» рівня можливостей кібербезпеки, що вимірюється за нашою програмою готовності⁠(відкривається у новому вікні). Хоча GPT‑5.2‑Codex ще не досяг «високого» рівня кіберможливостей, ми готуємося до майбутніх моделей, які перетнуть цей поріг. Через розширення кіберможливостей ми ввели в модель та продукт додаткові заходи безпеки, інформація про які викладені в системній картці.

Професійне оцінювання типу Capture-the-Flag (CTF) визначає, як часто модель здатна розв'язувати складні, багатокрокові реальні завдання, що вимагають професійних навичок у сфері кібербезпеки, у середовищі Linux.

Кіберможливості в реальних умовах

Сучасне суспільство працює на програмному забезпеченні, і його надійність залежить від сильної кібербезпеки — підтримки критичних систем у банківській сфері, охороні здоров'я, комунікаціях та основних службах онлайн, захисту конфіденційних даних та забезпечення довіри людей до програмного забезпечення, на яке вони покладаються щодня. Вразливості можуть існувати задовго до того, як про них стане відомо, і їхнє виявлення, перевірка та виправлення часто залежать від спільноти інженерів та незалежних дослідників безпеки, які мають відповідні інструменти.

11 грудня 2025 року команда React опублікувала звіт про знайдені три вразливості безпеки, що впливають на додатки, створені за допомогою компонентів React Server. Примітними були не лише самі вразливості, а й те, як їх було виявлено.

Ендрю МакФерсон, головний інженер із безпеки в Privy (компанія Stripe), використовував GPT‑5.1‑Codex‑Max із Codex CLI та іншими агентами розробки, щоб відтворити та вивчити іншу критичну вразливість React, виявлену тиждень тому, відому як React2Shell(відкривається у новому вікні) (CVE-2025-55182(відкривається у новому вікні)). Його метою було оцінити, наскільки добре модель може допомогти у дослідженні вразливостей у реальному світі.

Спочатку він спробував кілька zero-shot аналізів, спонукаючи модель дослідити патч і визначити виявлену вразливість. Коли це не дало результатів, він перейшов до підходу з більшим обсягом ітеративних підказок. Коли й ці підходи не дали результату, він провів Codex через стандартні робочі процеси захисної безпеки: налаштування локального тестового середовища, аналіз потенційних поверхонь атаки та використання фазингу для перевірки системи за допомогою некоректних уведень. При спробі відтворити оригінальну проблему React2Shell Codex виявив несподівані приклади поведінки, які вимагали глибшого дослідження. Зрештою, протягом одного тижня цей процес призвів до виявлення раніше невідомих вразливостей: інформацію про кожну з них було відповідально передано команді React.

Блок-схема під назвою «Виявлення вразливостей за допомогою Codex: CVE-2025-55183», що демонструє робочий процес, який починається зі сканування Git-репозиторію та коду Codex на вразливості. Спроба zero-shot зазнає невдачі, після чого запускається інший процес під керівництвом експерта, який аналізує кодову базу, визначає можливі цілі, створює інструментарій і виконує фазз-тестування на прикладі програми з повторною перевіркою. Результати перевіряються для створення доказу концепції, подальшого відповідального розкриття інформації та створення патча, який застосовується до репозиторію.

Це демонструє, як передові системи ШІ можуть суттєво прискорити роботу з оборонної безпеки в широко використовуваному, реальному програмному забезпеченні. У той же час ті можливості, що допомагають захисникам діяти швидше, можуть також бути використані зловмисниками.

Оскільки агентні системи стають більш здатними у виконанні завдань, пов'язаних з кібербезпекою, ми робимо основним пріоритетом забезпечення відповідального впровадження цих досягнень, поєднуючи кожне підвищення можливостей із посиленими захисними механізмами, жорсткішим контролем доступу та постійною співпрацею з безпековою спільнотою.

Посилення кіберзахисту через довірений доступ

Команди безпеки можуть стикатися з обмеженнями при спробах імітувати дії зловмисників, аналізувати шкідливе програмне забезпечення для підтримки усунення проблем або проводити стрес-тестування критичної інфраструктури. Ми розробляємо пілотний проєкт надійного доступу, що вилучає ці перешкоди для кваліфікованих користувачів та організацій, дозволяючи надійним захисникам використовувати передові можливості ШІ для збільшення потужності кіберзахисту.

Спочатку пілотна програма буде доступна лише за запрошенням для перевірених фахівців із безпеки, які мають досвід відповідального розкриття вразливостей, та організацій з чітким професійним сценарієм використання у сфері кібербезпеки. Учасники, що відповідають вимогам, отримають доступ до наших найпотужніших моделей для оборонних випадків використання, що дозволить проводити легітимну роботу з подвійним використанням.

Якщо ви є фахівцем з безпеки або частиною організації, що займається етичною роботою в галузі безпеки, такою як дослідження вразливостей або авторизоване тестування на проникнення, ми запрошуємо вас висловити зацікавленість у приєднанні до нашої програми та поділитися відгуками про те, що ви хотіли б побачити від програми тут(відкривається у новому вікні).

Висновок

GPT‑5.2‑Codex — це крок уперед у тому, як передовий ШІ може підтримувати реальну розробку програмного забезпечення та ставати в нагоді в таких галузях, як кібербезпека, допомагаючи розробникам і захисникам вирішувати складні, тривалі завдання, одночасно посилюючи інструменти, доступні для відповідального дослідження безпеки.

Впроваджуючи GPT‑5.2‑Codex поступово, поєднуючи розгортання із реалізацією заходів безпеки та тісно співпрацюючи зі спільнотою безпеки, ми прагнемо максимізувати захисний вплив, одночасно зменшуючи ризик зловживання. Те, що ми дізнаємося з цього релізу, безпосередньо вплине на те, як ми розширюватимемо доступ із часом, оскільки програмне забезпечення і кібербезпека продовжують розвиватися.

Автор

OpenAI