16. svibnja 2025.

Predstavljamo Codex

Agent za softverski inženjering u oblaku koji može paralelno raditi na mnogim zadacima, a pokreće ga Codex-1. Dostupno korisnicima planova ChatGPT Pro, Business i Enterprise već danas, a uskoro i korisnicima plana Plus.

Isprobajte Codex

Dashboard asking ‘What should we code next?’ with a prompt box, repo/branch selectors, and a task list on a pastel code-themed backdrop.

Učitavanje…

Dopuna od 3. lipnja 2025.: Codex je sada dostupan korisnicima plana ChatGPT Plus. Također omogućujemo korisnicima da Codexu omoguće pristup internetu tijekom izvršavanja zadatka. Pogledajte popis promjena⁠(otvara se u novom prozoru) i dokumentaciju⁠(otvara se u novom prozoru) za više detalja.

Danas pokrećemo pregled novih značajki Codexa: agenta za softverski inženjering u oblaku koji može raditi na mnogim zadacima istovremeno. Codex može obavljati zadatke za vas kao što su pisanje značajki, odgovaranje na pitanja o vašoj bazi koda, ispravljanje grešaka i predlaganje pull requestova za pregled; svaki zadatak radi u vlastitom cloud sandbox okruženju, unaprijed učitanom s vašim repozitorijem.

Codex pokreće codex-1, verzija modela OpenAI o3 optimizirana za softversko inženjerstvo. Treniran je metodama učenja potkrepljivanjem na stvarnim programerskim zadacima u raznim okruženjima kako bi stvarao kȏd koji vrlo vjerno odražava ljudski stil i preferencije pri izradi PR-ova, točno slijedi upute te može višekratno pokretati testove sve dok ne dobije prolazan rezultat. Danas počinjemo uvoditi Codex za korisnike ChatGPT Pro, Enterprise i Business, a podrška za Plus i Edu dolazi uskoro.

Kako funkcionira Codex

Danas možete pristupiti Codexu putem bočne trake u ChatGPT‑u i dodijeliti mu nove zadatke kodiranja upisivanjem upita i klikom na „Code”.. Ako želite postaviti Codexu pitanje o svojoj kodnoj bazi, kliknite „Ask”.. Svaki zadatak obrađuje se neovisno u zasebnom, izoliranom okruženju unaprijed učitanom vašom kodnom bazom. Codex može čitati i uređivati datoteke te pokretati naredbe, uključujući testne okvire, lint-provjere i provjeru tipova. Završetak zadatka obično traje između jedne i 30 minuta, ovisno o složenosti, a napredak Codexa možete pratiti u stvarnom vremenu.

Nakon što Codex završi zadatak, primjenjuje svoje promjene u vlastitu okruženju. Codex pruža provjerljive dokaze o svojim radnjama putem citata terminalskih zapisa i izlaza testova, omogućujući vam praćenje svakog koraka tijekom izvršavanja zadatka. Zatim možete pregledati rezultate, zatražiti daljnje revizije, otvoriti GitHub pull request ili izravno integrirati promjene u svoje lokalno okruženje. U proizvodu možete konfigurirati Codex okruženje kako bi što više odgovaralo vašem stvarnom razvojnom okruženju.

Codex se može voditi pomoću datoteka AGENTS.md smještenih u vašem repozitoriju. To su tekstualne datoteke, slične datoteci README.md, gdje možete obavijestiti Codex kako se kretati kroz vašu bazu koda, koje naredbe pokrenuti za testiranje i kako se najbolje pridržavati standardnih praksi vašeg projekta. Kao i ljudski razvojni inženjeri, Codex agenti najbolje rade kad im se osiguraju konfigurirana razvojna okruženja, pouzdane postavke testiranja i jasna dokumentacija.

U evaluacijama programiranja i internim referentnim testovima model codex-1 pokazuje snažne rezultate čak i bez datoteka AGENTS.md ili prilagođene strukture (scaffoldinga).

23 uzoraka SWE-Bench Verified koji se nisu mogli pokrenuti na našoj internoj infrastrukturi izuzeti su. Model codex-1 testiran je s najvećom duljinom konteksta od 192 tisuće tokena i srednjom razinom „napora u rezoniranju”, što je postavka koja je od danas dostupna u proizvodu. Detalje o evaluacijama modela o3 pogledajte ovdje⁠.

Naš interni SWE zadatak benchmark je pažljivo odabran skup stvarnih internih SWE zadataka u OpenAI-ju.

Izgradnja sigurnih i pouzdanih agenata

Codex objavljujemo kao istraživačku probnu verziju, u skladu s našom strategijom postupnog uvođenja. Kod osmišljavanja Codexa dali smo prednost sigurnosti i transparentnosti kako bi korisnici mogli provjeriti njegove rezultate – zaštitnu mjeru koja postaje sve važnija kako modeli samostalno preuzimaju složenije zadatke kodiranja i kako se sigurnosni zahtjevi razvijaju. Korisnici mogu provjeriti Codexov rad putem citata, zapisa terminala i rezultata testova. Kad je nesiguran ili kad testovi ne prolaze, Codexov agent to jasno priopćava, omogućujući korisnicima donošenje informiranih odluka o daljnjim koracima. I dalje je nužno da korisnici ručno pregledaju i provjere sav kȏd koji generira agent prije integracije i izvođenja.

Code-review screenshot with a test-file overlay verifying quoted filenames, plus summary and passing tests on a blue backdrop.

Code-review screenshot with a black terminal overlay showing one passing test for quoted filenames; summary and diff of the ‘Fix /diff error with special characters’ change visible on a blue-pastel background.

Usklađivanje s ljudskim preferencijama

Primarni cilj tijekom obuke codexa-1 bio je uskladiti izlaze s ljudskim preferencijama i standardima kodiranja. U usporedbi s modelom OpenAI o3, codex-1 dosljedno proizvodi čišće zakrpe spremne za trenutni ljudski pregled i integraciju u standardne tijekove rada.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prevencija zloupotrebe

Zaštita od zlonamjernih primjena softverskog inženjerstva potpomognutog umjetnom inteligencijom, poput razvoja zlonamjernog softvera, postaje sve važnija. Istovremeno, važno je i da zaštitne mjere ne ometaju nepotrebno legitimne i korisne aplikacije koje mogu uključivati tehnike koje se ponekad koriste i u razvoju zlonamjernog softvera, poput rada na niskoj razini jezgre operacijskog sustava.

Kako bi se uravnotežila sigurnost i korisnost, Codex je obučen za prepoznavanje i precizno odbijanje zahtjeva usmjerenih na razvoj zlonamjernog softvera, uz jasno razlikovanje i podršku legitimnim zadacima. Također smo poboljšali naše okvire politika i uključili rigorozne sigurnosne procjene kako bismo učinkovito ojačali te granice. Objavili smo dodatak dokumentu o sustavu modela o3⁠ kako bismo obuhvatili ta dodatna vrednovanja.

Sigurna izvedba

Agent Codex radi u potpunosti unutar sigurnog, izoliranog spremnika u oblaku. Tijekom izvršavanja zadatka pristup internetu je isključen, pa je interakcija agenta ograničena isključivo na kȏd koji je izričito dostavljen putem GitHub repozitorija i na unaprijed instalirane ovisnosti koje je korisnik konfigurirao putem skripte za postavljanje. Agent ne može pristupiti eksternim web stranicama, API-jima ili drugim uslugama.

Rani primjeri upotrebe

Tehnički timovi u OpenAI-ju počeli su koristiti Codex kao dio svog svakodnevnog alata. Najčešće ga koriste inženjeri OpenAI-ja za rasterećenje repetitivnih, dobro definiranih zadataka, poput refaktoriranja, preimenovanja i pisanja testova, koji bi inače ometali koncentraciju. Jednako je koristan za postavljanje novih značajki, povezivanje komponenti, ispravljanje pogrešaka i izradu dokumentacije. Timovi stvaraju nove navike oko Codexa: rješavaju hitne upite, planiraju zadatke na početku dana i prebacuju pozadinski posao na agenta kako bi stalno napredovali. Smanjujući učestalo prebacivanje konteksta i podsjećajući na zaboravljene obveze, Codex pomaže inženjerima da brže isporučuju rezultate i ostanu usredotočeni na ono što je najvažnije.

Prije samog izlaska, surađivali smo i s malom skupinom vanjskih testera kako bismo bolje razumjeli kako Codex funkcionira u različitim kodnim bazama, razvojnim procesima i timovima.

Cisco⁠(otvara se u novom prozoru) istražuje kako Codex može pomoći njihovim inženjerskim timovima da brže realiziraju ambiciozne ideje. Kao rani dizajnerski partner, Cisco pomaže oblikovati budućnost Codexa procjenjujući ga za stvarne slučajeve upotrebe u svom portfelju proizvoda i pružajući povratne informacije timu OpenAI-ja.
Temporal⁠(otvara se u novom prozoru) koristi Codex za ubrzavanje razvoja novih značajki, otklanjanje pogrešaka, pisanje i izvođenje testova te refaktoriranje velikih kodnih baza. Također im pomaže da ostanu usredotočeni izvršavanjem složenih zadataka u pozadini tako da inženjeri ostaju u toku u tijeku dok ubrzavaju iteraciju.
Superhuman⁠(otvara se u novom prozoru) koristi Codex za ubrzavanje malih, ali repetitivnih zadataka poput poboljšanja pokrivenosti testovima i ispravljanja pogrešaka integracije. Također im pomaže brže isporučiti omogućujući voditeljima proizvoda da doprinesu laganim izmjenama koda bez angažiranja inženjera, osim za pregled koda.
Kodiak⁠(otvara se u novom prozoru) koristi Codex za pomoć u pisanju alata za otklanjanje grešaka, poboljšanje pokrivenosti testiranjem i refaktoriranje koda – ubrzavajući razvoj Kodiak Drivera, njihove tehnologije autonomne vožnje. Codex im je postao i vrijedan referentni alat, pomažući inženjerima razumjeti nepoznate dijelove sustava tako što izdvaja relevantan kontekst i ranije promjene.

Na temelju iskustava ranih korisnika preporučujemo da istodobno dodijelite jasno definirane zadatke većem broju agenata te da isprobavate različite vrste zadataka i upita kako biste što učinkovitije istražili mogućnosti modela.

Ažuriranja za Codex CLI

Prošli mjesec pokrenuli smo Codex CLI, lagani open-source agent za programiranje koji se pokreće u vašem terminalu. Donosi snagu modela kao što su o3 i o4-mini u vaš lokalni tijek rada, olakšavajući zajednički rad s njima kako biste zadatke obavili brže.

Danas objavljujemo i manju verziju modela codex-1, varijantu modela o4-mini posebno prilagođenu za uporabu u Codex CLI-ju. Ovaj novi model omogućuje brže tijekove rada u CLI-ju i optimiziran je za nisko kašnjenje u pitanjima i odgovorima o kodu te u uređivanju koda, a pritom zadržava iste prednosti u praćenju uputa i stilu. Dostupan je već sad kao zadani model u Codex CLI-ju i u API-ju pod nazivom codex-mini-latest. modela redovito će se ažurirati dok nastavljamo poboljšavati model Codex-mini.

Povezivanje vašeg developerskog računa s Codex CLI-jem sad je puno jednostavnije. Umjesto ručnog generiranja i postavljanja API oznake, možete se prijaviti svojim ChatGPT računom i odabrati API organizaciju koju želite koristiti. API ključ automatski ćemo izraditi i postaviti umjesto vas. Plus i Pro korisnici koji se prijave na Codex CLI putem ChatGPT‑a također mogu početi iskorištavati 5 i 50 USD u besplatnim API kreditima kasnije danas tijekom sljedećih 30 dana.

Dostupnost, cijene i ograničenja Codexa

Počevši od danas, uvodimo Codex za korisnike ChatGPT Pro, Enterprise i Business diljem svijeta, a podrška za planove Plus i Edu dolazi uskoro. Korisnici će imati širok pristup bez dodatnih troškova u nadolazećim tjednima kako biste mogli istražiti što sve Codex može, nakon čega ćemo uvesti ograničen pristup i fleksibilne opcije cijena koje vam omogućuju kupnju dodatne potrošnje na zahtjev. Planiramo uskoro proširiti pristup korisnicima planova Plus i Edu.

model je dostupan putem Responses API-ja i naplaćuje se 1,50 USD za 1 milijun ulaznih tokena te 6 USD za 1 milijun izlaznih tokena, uz 75-postotni popust za predmemoriranje upita.

Codex je još u ranoj fazi razvoja. Kao istraživačka probna verzija trenutačno nema značajke kao što su slikovni unosi za rad na korisničkom sučelju niti mogućnost ispravljanja tijeka rada agenta dok radi. Osim toga, delegiranje zadataka udaljenom agentu traje dulje od interaktivnog uređivanja, na što se treba priviknuti. S vremenom će interakcija s Codex agentima sve više nalikovati asinkronoj suradnji s kolegama. Kako mogućnosti modela napreduju, očekujemo da će agenti preuzimati sve složenije zadatke tijekom dužih vremenskih razdoblja.

Što je sljedeće

Zamišljamo budućnost u kojoj će razvojni inženjeri preuzimati posao koji žele sami raditi – a ostatak delegirati agentima, napredujući brže i postižući veću produktivnost uz pomoć umjetne inteligencije. Kako bismo to postigli, gradimo paket alata Codex koji pružaju podršku za suradnju u stvarnom vremenu i asinkrono delegiranje.

Povezivanje s AI alatima poput Codex CLI-ja i drugih brzo je postalo industrijski standard, pomažući razvojnim inženjerima da brže napreduju u pisanju koda. Ali vjerujemo da će asinkroni radni proces s više agenata, koji je Codex uveo u ChatGPT, postati de facto način na koji inženjeri proizvode visokokvalitetan kȏd.

U konačnici, vidimo kako se ova dva načina interakcije – uparivanje u stvarnom vremenu i delegiranje zadataka – konvergiraju. Razvojni inženjeri će surađivati s AI agentima u svojim IDE-ima i svakodnevnim alatima kako bi postavljali pitanja, dobivali prijedloge i preusmjeravali dulje zadatke, sve u jedinstvenom tijeku rada.

Gledajući unaprijed, planiramo uvesti interaktivnije i fleksibilnije radne tokove za agente. Razvojni inženjeri će uskoro moći pružati smjernice usred zadatka, surađivati na strategijama implementacije i primati proaktivna ažuriranja o napretku. Također predviđamo dublje integracije među alatima koje već koristite: danas se Codex povezuje s GitHubom, a uskoro ćete moći dodijeliti zadatke iz Codex CLI-ja, ChatGPT Desktopa ili čak alata kao što su vaš sustav za praćenje problema ili CI sustav.

Softverski inženjering jedna je od prvih industrija koja je ostvarila značajne dobitke u produktivnosti potaknute umjetnom inteligencijom, otvarajući nove mogućnosti za pojedince i male timove. Iako smo optimistični u vezi s ovim dobicima, surađujemo i s partnerima kako bismo bolje razumjeli implikacije široko rasprostranjenog usvajanja agenata na tijekove rada razvojnih inženjera, razvoj vještina među ljudima, razine vještina i geografska područja.

Ovo je tek početak – i jedva čekamo vidjeti što ćete izgraditi s Codexom.

Repriza prijenosa uživo

Dodatak

Poruka sustava

Dijelimo poruku sustava modela codex-1 kako bismo pomogli programerima razumjeti zadano ponašanje modela i prilagoditi Codex tako da učinkovito radi u prilagođenim radnim tokovima. Primjerice, poruka sustava za codex-1 potiče Codex da pokrene sve testove spomenute u datoteci „AGENTS.md”, no ako ste u stisci s vremenom, možete zatražiti da te testove preskoči.

Običan tekst

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Autor

OpenAI