Mayo 16, 2025

Ipinakikilala ang Codex

Isang cloud-based na software engineering agent na kayang gumawa ng maraming gawain nang sabay-sabay, na pinapagana ng codex-1. Available na para sa mga user ng ChatGPT Pro, Business, at Enterprise ngayong araw, at parating na para sa mga user ng Plus.

Subukan ang Codex

Dashboard asking ‘What should we code next?’ with a prompt box, repo/branch selectors, and a task list on a pastel code-themed backdrop.

Naglo-load…

Update noong Hunyo 3, 2025: Magagamit na ng mga user ng ChatGPT Plus ang Codex. Pinapayagan din namin ang mga user na magbigay ng access sa internet sa Codex habang isinasagawa ang gawain. Mangyaring sumangguni sa changelog⁠(magbubukas sa bagong window) at docs⁠(magbubukas sa bagong window) para sa higit pang mga detalye.

Ngayon, ilulunsad namin ang preview ng pagsasaliksik sa Codex: isang cloud-based na software engineering agent na kayang gumawa ng maraming gawain nang sabay-sabay. Ang Codex ay pwedeng gumawa ng mga gawain para sa iyo gaya ng pagsusulat ng mga tampok, pagsagot sa mga tanong tungkol sa iyong codebase, pag-aayos ng mga bug, at pag-propose ng mga pull request para sa pagsusuri; bawat gawain ay tumatakbo sa sarili nitong cloud sandbox environment, na naka-preload sa iyong repository.

Ang Codex ay pinagagana ng codex-1, isang bersyon ng OpenAI o3 na na-optimize para sa software engineering. Sinanay ito gamit ang pagpapatibay ng pag-aaral sa mga gawain sa real-world na pag-code sa iba't ibang environment upang bumuo ng code na malapit na sumasalamin sa istilo ng tao at mga kagustuhan sa PR, sumusunod nang tumpak sa mga tagubilin, at maaaring paulit-ulit na magpatakbo ng mga pagsubok hanggang sa makakuha ito ng pasadong resulta. Sinisimulan namin ang paglulunsad ng Codex sa mga user ng ChatGPT Pro, Enterprise, at Business ngayong araw, na may suporta para sa Plus at Edu na parating na.

Paano gumagana ang Codex

Ngayon, maaari mong ma-access ang Codex sa sidebar ng ChatGPT at bigyan ito ng mga bagong gawain sa pag-code sa pamamagitan ng pag-type ng prompt at pag-click sa “Code”. Kung gusto mong magtanong kay Codex tungkol sa iyong codebase, i-click ang "Magtanong". Ang bawat gawain ay isa-isang pinoproseso sa hiwalay at nakabukod na environment kung saan naka-preload ang iyong codebase. Maaaring basahin at i-edit ng Codex ang mga file, pati na rin ang magpatakbo ng mga utos kabilang ang mga test harness, linter, at type checker. Ang pagkumpleto ng gawain ay karaniwang tumatagal sa pagitan ng 1 at 30 minuto, depende sa pagiging kumplikado, at pwede mong subaybayan ang progreso ng Codex sa real time.

Kapag natapos na ng Codex ang isang gawain, isinasagawa nito ang mga pagbabago sa environment nito. Ang Codex ay nagbibigay ng napapatunayang ebidensya ng mga aksyon nito sa pamamagitan ng mga sipi ng mga log ng terminal at mga output ng pagsubok, na nagpapahintulot sa iyo na subaybayan ang bawat hakbang na ginawa sa panahon ng pagkumpleto ng gawain. Pagkatapos ay pwede mong suriin ang mga resulta, humiling ng karagdagang mga rebisyon, buksan ang isang pull request sa GitHub, o direktang isama ang mga pagbabago sa iyong lokal na environment. Sa produkto, pwede mong i-configure ang environment ng Codex para tumugma nang husto sa iyong totoong environment sa pag-develop.

Maaaring gabayan ang Codex ng mga AGENTS.md file na inilagay sa loob ng iyong repo. Mga text file ito na katulad ng README.md, kung saan pwede mong sabihin sa Codex kung paano mag-navigate sa iyong codebase, kung aling mga utos ang patakbuhin para sa pagsubok, at kung paano pinakamahusay na sumunod sa mga karaniwang kasanayan ng iyong proyekto. Tulad ng mga developer na tao, pinakamahusay na gumaganap ang mga Codex agent kapag may naka-configure na mga environment ng dev, maaasahang mga setup ng pagsubok, at malinaw na dokumentasyon.

Sa mga pagsusuri sa pag-code at panloob na mga benchmark, ang codex-1 ay nagpapakita ng malakas na pagganap kahit na walang mga AGENTS.md na file o pasadyang scaffolding.

Hindi nakasama ang 23 beripikadong SWE-Bench na mga sample na hindi maaaring patakbuhin sa aming panloob na imprastraktura. sinubukan ang codex-1 sa maximum na haba ng konteksto na 192k token at katamtamang 'pagsisikap sa pangangatuwiran', na siyang setting na magagamit sa produkto ngayon. Para sa mga detalye tungkol sa mga pagsusuri sa o3, tingnan dito⁠.

Ang aming panloob na benchmark ng mga gawain ng SWE ay maingat na piniling hanay ng mga totoong gawain ng SWE sa OpenAI.

Pagbuo ng mga ligtas at mapagkakatiwalaang mga agent

Inilalabas namin ang Codex bilang isang preview ng pagsasaliksik, alinsunod sa aming diskarte sa paulit-ulit na pag-deploy. Inuna namin ang seguridad at transparency sa pagdidisenyo ng Codex upang maberipika ng mga user ang mga output nito - isang proteksyon na nagiging mas mahalaga habang nagiging mas kumplikado ang mga hinahawakang gawan ng AI nang mag-isa, at habang nagbabago ang mga isinasaalang-alang sa kaligtasan. Pwedeng tingnan ng mga user ang trabaho ng Codex sa pamamagitan ng mga sipi, log ng terminal, at mga resulta ng pagsubok. Kapag hindi sigurado o nahaharap sa mga pagpalya sa pagsubok, malinaw na ipinapahayag ng Codex agent ang mga isyung ito, na nagpapahintulot sa mga user na gumawa ng matalinong desisyon tungkol sa kung paano magpatuloy. Mahalaga pa rin para sa mga user na mano-manong suriin at patunayan ang lahat ng code na binuo ng agent bago ito isama at ipatupad.

Code-review screenshot with a test-file overlay verifying quoted filenames, plus summary and passing tests on a blue backdrop.

Code-review screenshot with a black terminal overlay showing one passing test for quoted filenames; summary and diff of the ‘Fix /diff error with special characters’ change visible on a blue-pastel background.

Pag-ayon sa mga kagustuhan ng tao

Isang pangunahing layunin habang sinasanay ang codex-1 ay ihanay ang mga output nang malapit sa mga kagustuhan at pamantayan ng tao sa pag-code. Kung ikukumpara sa OpenAI o3, ang codex-1 ay palaging gumagawa ng mas malinis na mga patch na handa para sa agarang pagsusuri ng tao at integrasyon sa mga karaniwang daloy ng trabaho.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Pag-iwas sa pang-aabuso

Ang pag-iingat laban sa mga nakapipinsalang application ng AI-driven software engineering, tulad ng pagbuo ng malware, ay nagiging mas kritikal. Kasabay nito, mahalaga na ang mga hakbang sa proteksyon ay hindi labis na hadlangan ang mga lehitimo at kapaki-pakinabang na mga application na maaaring gumamit ng mga pamamaraan na kung minsan ay ginagamit din sa pagbuo ng malware, tulad ng mababang antas ng kernel engineering.

Para balansehin ang kaligtasan at paggamit, sinanay ang Codex na tukuyin at eksaktong tanggihan ang mga kahilingang naglalayong bumuo ng nakapipinsalang software, habang malinaw na nakikilala at sinusuportahan ang mga lehitimong gawain. Pinahusay din namin ang aming mga balangkas ng patakaran at isinama ang mahigpit na pagsusuri sa kaligtasan upang epektibong palakasin ang mga hangganang ito. Naglabas kami ng addendum sa o3 System Card⁠ para ipakita ang mga pagsusuring ito.

Ligtas na pagsasagawa

Ang Codex agent ay gumagana nang ganap sa loob ng isang ligtas, nakahiwalay na lalagyan sa cloud. Habang isinasagawa ang gawain, naka-disable ang pag-access sa internet, na nililimitahan ang pakikipag-ugnayan ng agent sa code na malinaw na ibinigay sa pamamagitan ng mga repositoryo ng GitHub at mga paunang naka-install na dependency na na-configure ng user sa pamamagitan ng isang setup script. Hindi ma-access ng agent ang mga panlabas na website, mga API, o iba pang mga serbisyo.

Mga unang kaso sa paggamit

Ang mga teknikal na team sa OpenAI ay nagsimula nang gumamit ng Codex bilang bahagi ng kanilang pang-araw-araw na toolkit. Kadalasang ginagamit ito ng mga inhinyero ng OpenAI para i-offload ang mga paulit-ulit at maayos na saklaw na mga gawain, tulad ng pag-refactor, pag-rename, at pagsusulat ng mga gawain, na kung hindi ay makakasira ng pokus. Makubuluhan din ito sa pagbuo ng bagong mga tampok, pagkakabit ng mga bahagi, pag-aayos ng mga bug, at pagbalangkas ng dokumentasyon. Ang mga team ay bumubuo ng mga bagong gawi sa paligid nito: pag-triage ng mga isyu sa on-call, pagpaplano ng mga gawain sa simula ng araw, at pag-offload ng mga nasa background na gawain upang patuloy na umusad. Dahil nababawasan ang pag-iiba ng konteksto at paglitaw ng mga gawaing nalimutan, tinutulungan ng Codex ang mga inhinyero na makatapos nang mas mabilis, at manatiling nakatuon sa kung ano ang pinakamahalaga.

Bago ilunsad ito, nakikipagtulungan din kami sa isang maliit na grupo ng mga panlabas na tagasubok upang mas maunawaan kung paano gumaganap ang Codex sa iba't ibang codebase, proseso ng pag-develop, at mga team.

Inaalam ng Cisco⁠(magbubukas sa bagong window) kung paano matutulungan ng Codex ang kanilang mga team sa engineering upang maisakatuparan ang mga ambisyosong ideya nang mas mabilis. Bilang dati pang mga katuwang sa disenyo, tinutulungan ng Cisco ang paghubog ng hinaharap ng Codex sa pamamagitan ng pagsusuri nito para sa mga kaso sa paggamit sa totoong mundo sa kanilang portfolio ng produkto at pagbibigay ng feedback sa OpenAI team.
Gumagamit ng Temporal⁠(magbubukas sa bagong window) ng Codex para pabilisin ang pag-develop ng mga tampok, i-debug ang mga isyu, magsulat at magsagawa ng mga pagsubok, at mag-refactor ng malalaking codebase. Tinutulungan din sila nitong manatiling nakatuon sa pamamagitan ng pagpapatakbo ng mga kumplikadong gawain sa background—pinapanatili ang mga inhinyero sa daloy habang pinapabilis ang pag-ulit.
Ginagamit ng Superhuman⁠(magbubukas sa bagong window) ang Codex para pabilisin ang maliliit ngunit paulit-ulit na gawain tulad ng pagpapabuti ng saklaw ng pagsubok at pag-aayos ng mga pagpalya sa integrasyon. Tinutulungan din sila nitong magpadala nang mas mabilis sa pamamagitan ng pagpapahintulot sa mga tagapamahala ng produkto na mag-ambag ng magaan na mga pagbabago sa code nang hindi kinakailangang humingi ng tulong sa isang inhinyero, maliban na lang sa pagsusuri ng code.
Ginagamit ng Kodiak⁠(magbubukas sa bagong window) ang Codex para tumulong sa pagsusulat ng mga tool sa pag-debug, pagbutihin ang saklaw ng pagsubok, at i-refactor ang code—pinapabilis ang pag-develop ng Kodiak Driver, ang kanilang teknolohiya sa autonomous na pagmamaneho. Ang Codex ay naging isang mahalagang sanggunian na tumutulong sa mga inhinyero na maunawaan ang mga hindi pamilyar na bahagi ng stack sa pamamagitan ng pagpapakita ng may-katuturang konteksto at mga nakaraang pagbabago.

Batay sa mga natutunan mula sa mga maagang tagasubok, inirerekomenda naming magtalaga ng mga gawain na may malinaw na saklaw sa maraming agent nang sabay-sabay, at subukan ang iba't ibang uri ng mga gawain at prompt upang mahusay na mapag-aralan ang mga kakayahan ng modelo.

Mga Update sa Codex CLI

Noong nakaraang buwan, inilunsad namin ang Codex CLI, isang magaan na open-source na agent sa pag-code na tumatakbo sa terminal mo. Dinadala nito ang kapangyarihan ng mga modelo tulad ng o3 at o4-mini sa iyong lokal na daloy ng trabaho, na ginagawang madali ang pagpares sa kanila upang makumpleto ang mga gawain nang mas mabilis.

Ngayon, naglalabas din kami ng mas maliit na bersyon ng codex-1, isang bersyon ng o4-mini na partikular na dinisenyo para sa paggamit sa Codex CLI. Sinusuportahan ng bagong modelong ito ang mas mabilis na mga daloy ng trabaho sa CLI at naka-optimize ito para sa mababang-latency na Q&A at pag-edit ng code, habang pinapanatili ang parehong kahusayan sa pagsunod sa mga tagubilin at istilo. Magagamit na ito ngayon bilang default na modelo sa Codex CLI at sa API bilang codex-mini-latest. Ang pinagbabatayang snapshot ay regular na maa-update habang patuloy naming pinapahusay ang modelong Codex-mini.

Pinapadali rin naming ikonekta ang iyong developer account sa Codex CLI. Sa halip na mano-manong bumuo at mag-configure ng API token, maaari ka na ngayong mag-sign in gamit ang iyong ChatGPT account at piliin ang organisasyon ng API na gusto mong gamitin. Awtomatiko naming bubuuin at iko-configure ang API Key para sa iyo. Ang mga Plus at Pro na user na magsa-sign in sa Codex CLI gamit ang ChatGPT ay maaari na ring makakuha ng $5 at $50 sa libreng kredito ng API, ayon sa pagkakabanggit, mula mamaya hanggang sa susunod na 30 araw.

Kakayahang magamit, pagpepresyo, at limitasyon ng Codex

Simula ngayon, ilulunsad namin ang Codex sa mga user ng ChatGPT Pro, Enterprise, at Business sa buong mundo, na may suporta para sa Plus at Edu na parating na. Magkakaroon ang mga user ng malawak na access nang walang dagdag na bayad sa mga susunod na linggo para magalugarin mo kung ano ang kayang gawin ng Codex. Pagkatapos nito, ilulunsad namin ang limitadong access at mga flexible na opsyon sa pagpepresyo na magpapahintulot sa iyong bumili ng karagdagang paggamit on-demand. Plano naming palawakin ang access para sa mga user ng Plus at Edu sa lalong madaling panahon.

Para sa mga developer na gumagamit ng codex-mini-latest, ang modelo ay magagamit sa Responses API at nagkakahalaga ng $1.50 kada 1M input token at $6 kada 1M output token, na may 75% na diskuwento sa prompt caching.

Ang Codex ay nasa maagang yugto pa ng pagde-develop dito. Bilang preview ng pagsasaliksik, sa kasalukuyan ay kulang ito sa mga tampok tulad ng mga input ng larawan para sa frontend na trabaho, at ang kakayahang itama ang agent habang ito ay nagtatrabaho. Dagdag pa, ang pag-aatas ng remote na agent ay mas matagal kaysa sa interaktibong pag-edit, na maaaring mangailangan ng ilang panahon para masanay dito. Sa paglipas ng panahon, ang interaksyon sa mga Codex agent ay unti-unting magiging katulad ng hindi sabayang pakikipagtulungan sa mga katrabaho. Habang umuunlad ang mga kakayahan ng modelo, inaasahan naming hahawak ang mga agent ng mas kumplikadong mga gawain sa loob ng mas mahabang panahon.

Ano ang susunod

Naiisip namin ang isang hinaharap kung saan ang mga developer ay magsusulong sa trabaho na gusto nilang angkinin at ipinapasa ang natitira sa mga agent—gumagalaw nang mas mabilis a nagiging mas produktibo dahil sa AI. Para makamit iyon, bumubuo kami ng isang suite ng mga tool ng Codex na may suporta para sa parehong real-time na pakikipagtulungan at asynchronous na delegasyon.

Ang paggamit ng mga tool ng AI tulad ng Codex CLI at iba pa ay mabilis na naging pamantayan sa industriya, na tumutulong sa mga developer na magtrabaho nang mas mabilis habang nagko-code. Pero naniniwala kami na ang asynchronous, multi-agent na daloy ng trabaho na ipinakilala ng Codex sa ChatGPT ay magiging de facto na paraan ng mga engineer para makagawa ng mataas na kalidad na code.

Sa huli, nakikita namin ang dalawang mode ng interaksyon—real-time na pagpapares at pag-aatas ng gawain—na magtatagpo. Makikipagtulungan ang mga developer sa mga AI agent sa kanilang mga IDE at pang-araw-araw na mga tool para magtanong, makakuha ng mga mungkahi, at i-offload ang mas mahabang mga gawain, lahat sa isang pinag-isang daloy ng trabaho.

Sa hinaharap, pinaplano naming magpakilala ng mas interaktibo at mas maiaangkop na mga daloy ng trabaho ng agent. Malapit nang makapagbigay ng patnubay ang mga developer sa kalagitnaan ng gawain, makipagtulungan sa mga estratehiya sa pagpapatupad, at makatanggap ng mga maagap na update sa progreso. Nakikita rin namin ang mas malalim na integrasyon sa mga tool na ginagamit mo: sa kasalukuyan, kumokonekta ang Codex sa GitHub, at hindi magtatagal, maitatakda ang mga gawain mula sa Codex CLI, ChatGPT Desktop, pati na rin sa mga tool tulad ng iyong pansubaybay ng isyu o CI system.

Ang software engineering ay isa sa pinakaunang mga industriyang nakakaranas ng makabuluhang pagtaas sa produktibidad na dulot ng AI, na nagbubukas ng mga bagong posibilidad para sa mga indibidwal at maliliit na team. Bagama't positibo ang pananaw namin tungkol sa mga benepisyong ito, nakikipagtulungan din kami sa mga katuwang upang mas maunawaan ang mga implikasyon ng malawakang paggamit ng agent sa mga daloy ng trabaho ng developer, pagpapaunlad ng kakayahan sa mga tao, mga antas ng kakayahan, at heograpiya.

Simula pa lang ito—at nasasabik kaming makita kung ano ang magagawa mo gamit ang Codex.

Replay ng livestream

Apendise

Mensahe ng sistema

Ibinabahagi namin ang mensahe ng sistema ng Codex-1 para matulungan ang mga developer na maunawaan ang default na gawi ng modelo at iakma ang Codex para gumana nang epektibo sa mga pasadyang daloy ng trabaho. Halimbawa, hinihikayat ng mensahe ng system ng codex-1 ang Codex na patakbuhin ang lahat ng mga pagsubok na nabanggit sa AGENTS.md file, pero kung kulang ka sa oras, pwede mong ipalaktaw sa Codex ang mga pagsubok na ito.

Plain Text

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

May-akda

OpenAI