2025. május 16.

Bemutatkozik a Codex

Egy felhőalapú szoftverfejlesztő ügynök, amely számos feladatot képes párhuzamosan elvégezni, a codex-1 segítségével. Ma elérhető a ChatGPT Pro, Business és Enterprise felhasználók számára, és hamarosan a Plus felhasználók számára is.

Próbálja ki a Codexet

Dashboard asking ‘What should we code next?’ with a prompt box, repo/branch selectors, and a task list on a pastel code-themed backdrop.

Betöltés…

Frissítés 2025. június 3-án: A Codex mostantól elérhető a ChatGPT Plus felhasználók számára. Azt is lehetővé tesszük, hogy a felhasználók internet-hozzáférést biztosítsanak a Codex számára a feladatok végrehajtása során. Kérjük, tekintsd meg a változásnaplót⁠(új ablakban nyílik meg) és a dokumentumokat⁠(új ablakban nyílik meg) a további részletekért.

Ma elindítjuk a Codex kutatási előnézetét: egy felhőalapú szoftverfejlesztési ügynök, amely számos feladaton képes párhuzamosan dolgozni. A Codex olyan feladatokat végezhet el helyetted, mint funkciók írása, a kódbázissal kapcsolatos kérdések megválaszolása, hibák kijavítása és pull requestek felajánlása felülvizsgálatra; minden feladat a saját felhőalapú sandbox környezetben fut, amelybe előre betöltődik a tárral.

A Codexet a codex-1 hajtja, amely az OpenAI o3 szoftverfejlesztésre optimalizált változata. Valós kódolási feladatokon, különböző környezetekben, megerősítéses tanulással képezték ki, hogy olyan kódot generáljon, amely szorosan tükrözi az emberi stílust és a PR-preferenciákat, pontosan követi az utasításokat, és képes iteratívan teszteket futtatni, amíg el nem éri a sikeres eredményt. Ma kezdjük el a Codex bevezetését a ChatGPT Pro, Enterprise és Business felhasználók számára, a Plus és Edu támogatás pedig hamarosan elérhető lesz.

Hogyan működik a Codex

Ma a Codexhez a ChatGPT oldalsávján keresztül férhetsz hozzá, és új kódolási feladatok hozzárendelését végezheted el egy utasítás begépelésével és a „Kód” gombra kattintva. Ha kérdést szeretnél feltenni a Codexnek a kódbázisoddal kapcsolatban, kattints a „Kérdezz” lehetőségre. Minden feladatot önállóan dolgozunk fel egy különálló, elszigetelt környezetben, amely előre fel van töltve a kódbázisoddal. A Codex képes fájlokat olvasni és szerkeszteni, valamint parancsokat futtatni, beleértve a tesztrendszereket, lintereket és típusellenőrzőket. A feladat elvégzése általában 1 és 30 perc között tart, a bonyolultságtól függően, és a Codex előrehaladását valós időben követheted nyomon.

Amint a Codex befejezi a feladatot, a változásokat a környezetben rögzíti. A Codex a terminálnaplók és a tesztkimenetek hivatkozásain keresztül ellenőrizhető bizonyítékot nyújt a műveleteiről, így nyomon követhető a feladat elvégzése során végrehajtott minden lépés. Ezután áttekintheted az eredményeket, kérhetsz további módosításokat, megnyithatsz egy GitHub pull requestet, vagy közvetlenül integrálhatod a változásokat a helyi környezetedbe. A termékben a Codex környezetet úgy konfigurálhatod, hogy a lehető legjobban illeszkedjen a valódi fejlesztői környezetedhez.

A Codex irányítását a tárolóban elhelyezett ügynök fájlokkal, azaz az AGENTS.md fájlokkal lehet megvalósítani. Ezek README.md-hez hasonló szövegfájlok, amelyekben megadhatja a Codexnek, hogyan navigáljon a kódbázisában, mely parancsokat futtassa a teszteléshez, és hogyan tartsa be legjobban a projekt szabványos gyakorlatát. Az emberi fejlesztőkhöz hasonlóan a Codex-ügynökök is akkor teljesítenek a legjobban, ha konfigurált fejlesztői környezetet, megbízható tesztelési beállításokat és világos dokumentációt kapnak.

A kódértékelések és a belső teljesítménymérők tekintetében a codex-1 AGENTS.md fájlok vagy egyéni vázszerkezet nélkül is kiváló teljesítményt nyújt.

23 SWE-Bench A belső infrastruktúránkon nem futtatható, ellenőrzött mintákat kizártuk. A codex-1-et maximális 192k token kontextushosszal és közepes „érvelési erőfeszítéssel” teszteltük, amely beállítás ma már a termékben is elérhető. Az o3 értékelésekről itt⁠ találsz részleteket.

Az OpenAI belső SWE feladatainak benchmarkja egy válogatott gyűjtemény a valós világban használt belső SWE feladatokból.

Biztonságos és megbízható ügynökök létrehozása

A Codexet kutatási előnézetként adjuk ki, összhangban az iteratív bevezetési stratégiánkkal. A Codex tervezésekor elsődleges fontosságot tulajdonítottunk a biztonságnak és az átláthatóságnak, hogy a felhasználók ellenőrizhessék az eredményeket – ez egy egyre fontosabbá váló biztosíték, mivel az AI-modellek egyre összetettebb kódolási feladatokat végeznek önállóan, és a biztonsági szempontok is folyamatosan fejlődnek. A felhasználók hivatkozások, terminálnaplók és teszteredmények segítségével ellenőrizhetik a Codex munkáját. Bizonytalan helyzetekben vagy tesztelési hibák esetén a Codex ügynök kifejezetten jelzi ezeket a problémákat, így a felhasználók tájékozott döntéseket hozhatnak a további lépésekről. Továbbra is elengedhetetlen, hogy a felhasználók manuálisan átnézzék és validálják az ügynök által generálás során létrehozott kódot az integráció és végrehajtás előtt.

Code-review screenshot with a test-file overlay verifying quoted filenames, plus summary and passing tests on a blue backdrop.

Code-review screenshot with a black terminal overlay showing one passing test for quoted filenames; summary and diff of the ‘Fix /diff error with special characters’ change visible on a blue-pastel background.

Igazodás az emberi preferenciákhoz

A codex-1 betanításának elsődleges célja az volt, hogy a kimeneteket szorosan összehangolják az emberi kódolási preferenciákkal és szabványokkal. Az OpenAI o3‑hoz képest a codex-1 következetesen tisztább javításokat készít, amelyek készen állnak az azonnali emberi felülvizsgálatra és a szabványos munkafolyamatokba való integrálásra.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Visszaélések megelőzése

Az AI-alapú szoftverfejlesztés rosszindulatú alkalmazásai, például a rosszindulatú szoftverek fejlesztése elleni védelem egyre fontosabbá válik. Ugyanakkor fontos, hogy a védelmi intézkedések ne akadályozzák indokolatlanul a törvényes és hasznos alkalmazásokat, amelyek néha a rosszindulatú szoftverek fejlesztéséhez is használt technikákat, például alacsony szintű kernel-fejlesztést alkalmaznak.

A biztonság és a hasznosság egyensúlyának megteremtése érdekében a Codexet arra képezték ki, hogy felismerje és pontosan elutasítsa a rosszindulatú szoftverek fejlesztésére irányuló kérelmeket, miközben világosan megkülönbözteti és támogatja a jogos feladatokat. Emellett továbbfejlesztettük a szabályozási keretrendszereinket, és szigorú biztonsági értékeléseket építettünk be ezeknek a határoknak a hatékony megerősítése érdekében. Közzétettünk egy kiegészítést az o3 System Cardhoz⁠, hogy tükrözze ezeket az értékeléseket.

Biztonságos végrehajtás

A Codex ügynök teljes egészében egy biztonságos, izolált konténerben működik a felhőben. A feladat végrehajtása során az internet-hozzáférés le van tiltva, így az ügynök interakciója kizárólag a GitHub-tárolókban kifejezetten megadott kódra és a felhasználó által egy beállítási szkript segítségével konfigurált, előre telepített függőségekre korlátozódik. Az ügynök nem férhet hozzá külső weboldalakhoz, API-khoz vagy más szolgáltatásokhoz.

Korai felhasználási esetek

Az OpenAI technikai csapatai elkezdték használni a Codexet a mindennapi eszköztáruk részeként. Leggyakrabban az OpenAI fejlesztői használják ismétlődő, jól körülhatárolt feladatok átruházására, mint például a refaktorálás, átnevezés és tesztek írása, amelyek egyébként megszakítanák a fókuszt. Ugyanilyen hasznos új funkciók létrehozásához, komponensek bekötéséhez, hibák javításához és dokumentáció megírásához. A csapatok új szokásokat alakítanak ki: az ügyeleti problémák kezelése, a feladatok megtervezése a nap elején, és a háttérmunka átruházása a folyamatos haladás érdekében. A kontextusváltások csökkentésével és az elfeledett teendők feltárásával a Codex segít a fejlesztőknek a gyorsabb szállításban és abban, hogy a legfontosabb dolgokra koncentrálhassanak.

A kiadás előkészítése során egy kis külső tesztelői csoporttal is együttműködünk, hogy jobban megértsük, hogyan teljesít a Codex különböző kódbázisokban, fejlesztési folyamatokban és csapatokban.

A Cisco⁠(új ablakban nyílik meg) azt vizsgálja, hogyan segítheti a Codex fejlesztői csapatai ambiciózus ötleteinek gyorsabb megvalósítását. Korai tervezési partnerként a Cisco segít alakítani a Codex jövőjét azzal, hogy termékportfóliójában valós felhasználási esetek alapján értékeli a rendszert, és visszajelzést ad az OpenAI csapatának.
A Temporal⁠(új ablakban nyílik meg) a Codexet használja a funkciók fejlesztésének felgyorsítására, a hibák kijavítására, a tesztek írására és végrehajtására, valamint a nagy kódbázisok átalakítására. Ez is segít nekik fókuszban maradni azáltal, hogy összetett feladatokat futtat a háttérben — így a fejlesztők folyamatosan dolgozhatnak, miközben felgyorsítják az iterációt.
A Superhuman⁠(új ablakban nyílik meg) a Codexet használja apró, de ismétlődő feladatok felgyorsítására, mint például a tesztlefedettség javítása és az integrációs hibák elhárítása. Emellett segít a gyorsabb szállításban is, mivel lehetővé teszi a termékmenedzserek számára, hogy könnyű kódmódosításokat hajtsanak végre anélkül, hogy fejlesztőt kellene bevonniuk, kivéve a kód felülvizsgálatát.
A Kodiak⁠(új ablakban nyílik meg) a Codexet használja hibakereső eszközök írására, a tesztlefedettség javítására és a kód refaktorálására — felgyorsítva a Kodiak Driver, az önvezető technológiájuk fejlesztését. A Codex értékes referenciaeszközzé is vált, amely segít a fejlesztőknek megérteni a stack ismeretlen részeit azáltal, hogy releváns kontextust és korábbi változásokat jelenít meg.

A korai tesztelőktől szerzett tapasztalatok alapján azt javasoljuk, hogy jól körülhatárolt feladatokat több ügynöknek egyszerre rendeljenek hozzá, és különböző típusú feladatokkal és utasításokkal kísérletezzenek, hogy hatékonyan feltárják a modell képességeit.

A Codex CLI frissítései

A múlt hónapban elindítottuk a Codex CLI-t, egy könnyű, nyílt forráskódú kódoló ügynököt, amely a terminálon fut. Az olyan modellek erejét, mint az o3 és az o4-mini, beépíti a helyi munkafolyamatodba, így könnyen párosíthatod őket a feladatok gyorsabb elvégzéséhez.

Ma kiadjuk a codex-1 kisebb verzióját is, az o4-mini egy olyan változatát, amelyet kifejezetten a Codex CLI-ben való használatra terveztek. Ez az új modell gyorsabb munkafolyamatokat támogat a CLI-ben, és alacsony késleltetésű kódkérdések és -szerkesztéshez van optimalizálva, miközben megőrzi az utasítások követésében és a stílusban meglévő erősségeit. Jelenleg a Codex CLI alapértelmezett modelljeként és az API-ban codex-mini-latest néven érhető el. Az alapul szolgáló pillanatkép rendszeresen frissül, ahogy tovább fejlesztjük a Codex-mini modellt.

Emellett sokkal könnyebbé tesszük a fejlesztői fiókod Codex CLI-hez való csatlakoztatását. Az API-token manuális generálása és konfigurálása helyett mostantól bejelentkezhetsz a ChatGPT‑fiókoddal, és kiválaszthatod a használni kívánt API-szervezetet. Mi automatikusan generáljuk és konfiguráljuk az API-kulcsot. A Plus és Pro felhasználók, akik a ChatGPT‑vel jelentkeznek be a Codex CLI-be, ma későbbi időpontban, a következő 30 napban 5, illetve 50 dollár értékű ingyenes API-krediteket is igénybe vehetnek.

Codex elérhetősége, árképzése és korlátai

A mai nappal világszerte bevezetjük a Codex-et a ChatGPT Pro, Enterprise és Business felhasználók számára, a Plus és Edu ügyfélszolgálata hamarosan elérhető lesz. A felhasználók a következő hetekben további költségek nélkül bőségesen hozzáférhetnek a szolgáltatáshoz, így kipróbálhatják a Codex képességeit. Ezt követően bevezetjük a korlátozott hozzáférést és a rugalmas árazási lehetőségeket, amelyekkel igény szerint további használati jogokat vásárolhatnak. Hamarosan bővítjük a hozzáférést a Plus és Edu felhasználók részére.

A codex-mini-latest-tel fejlesztők számára a modell a Responses API-n érhető el, ára 1,50 USD 1 millió bemeneti token és 6 USD 1 millió kimeneti token után, 75%-os gyorsítótárazási kedvezménnyel.

A Codex még a fejlesztés korai szakaszában van. Kutatási előnézetként jelenleg hiányoznak belőle olyan funkciók, mint a frontend munkához szükséges képbemenetek és az ügynök működése közbeni korrekciójának lehetősége. Ezenkívül a távoli ügynöknek való delegálás hosszabb időt vesz igénybe, mint az interaktív szerkesztés, amihez némi időre lehet szükség a megszokáshoz. Idővel a Codex ügynökökkel való interakció egyre inkább hasonlítani fog a kollégákkal való aszinkron együttműködésre. A modell képességeinek fejlődésével arra számítunk, hogy az ügynökök hosszabb időn át egyre összetettebb feladatokat fognak kezelni.

Mi következik?

Olyan jövőt képzelünk el, ahol a fejlesztők irányítják a saját munkájukat, és a többit ügynökökre bízzák — gyorsabban haladnak és produktívabbak lesznek az AI segítségével. Ennek elérése érdekében egy Codex eszközkészletet fejlesztünk, amely támogatja mind a valós idejű együttműködést, mind az aszinkron delegálást.

Az olyan AI-eszközökkel való párosítás, mint a Codex CLI és mások, gyorsan az iparági normává vált, segítve a fejlesztőket a gyorsabb kódírásban. De úgy véljük, hogy a Codex által a ChatGPT‑ben bevezetett aszinkron, többügynökös munkafolyamat lesz a fejlesztők de facto módszere a kiváló minőségű kódok előállításában.

Végső soron azt látjuk, hogy ez a két interakciós mód — a valós idejű párosítás és a feladatok delegálása — összefonódik. A fejlesztők az IDE-jükön és a mindennapi eszközeiken keresztül együttműködnek az AI-ügynökökkel, hogy kérdéseket tegyenek fel, javaslatokat kapjanak és hosszabb feladatokat adjanak át, mindezt egy egységes munkafolyamatban.

A jövőben interaktívabb és rugalmasabb ügynöki munkafolyamatok bevezetését tervezzük. A fejlesztők hamarosan képesek lesznek útmutatást adni a feladat közben, együttműködni a megvalósítási stratégiákban, és proaktív haladási frissítéseket kapni. Emellett mélyebb integrációkat is tervezünk a már használt eszközök között: ma a Codex a GitHub-hoz kapcsolódik, de hamarosan lehetőség nyílik feladatok kiosztására a Codex CLI-ből, a ChatGPT Desktopból, vagy akár olyan eszközökből is, mint az issue tracker vagy a CI rendszer.

A szoftverfejlesztés az egyik első iparág, amely jelentős AI-vezérelt termelékenységnövekedést tapasztal, új lehetőségeket nyitva az egyének és a kis csapatok számára. Bár optimisták vagyunk ezekkel a nyereségekkel kapcsolatban, partnereinkkel is együttműködünk, hogy jobban megértsük az ügynökök széles körű alkalmazásának hatását a fejlesztői munkafolyamatokra, a készségek fejlesztésére az emberek, a készségszintek és a földrajzi területek között.

Ez csak a kezdet — és izgatottan várjuk, hogy mit fogsz létrehozni a Codex segítségével.

Élő közvetítés visszajátszása

Függelék

Rendszerüzenet

Megosztjuk a codex-1 rendszerüzenetet, hogy a fejlesztők megértsék a modell alapértelmezett viselkedését, és úgy alakítsák a Codexet, hogy az hatékonyan működjön az egyéni munkafolyamatokban. Például a codex-1 rendszerüzenet arra ösztönzi a Codexet, hogy futtassa az AGENTS.md fájlban említett összes tesztet, de ha kevés az időd, kérheted a Codexet, hogy hagyja ki ezeket a teszteket.

Egyszerű szöveg

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Szerző

OpenAI