2025년 5월 16일

Codex 소개

codex-1이 구동하는 여러 가지 작업을 동시에 진행할 수 있는 클라우드 기반 소프트웨어 엔지니어링 에이전트. ChatGPT Pro, Team, Enterprise 사용자는 오늘부터 사용할 수 있으며, Plus 사용자도 곧 사용할 수 있습니다.

Codex를 사용해 보세요

파스텔 코드 테마의 배경에 ‘What should we code next?’라고 묻는 대시보드와 프롬프트 상자, 리포지토리/브랜치 선택기, 작업 목록이 있음.

로딩 중...

2025년 6월 3일 업데이트: 이제 ChatGPT Plus 사용자가 Codex를 사용할 수 있습니다. 인터넷 액세스 권한 설정을을 통해 사용자가 Codex로 작업을 실행하는 동안 인터넷에 액세스할 수도 있습니다. 더 자세한 내용은 changelog⁠(새 창에서 열기) 및 문서⁠(새 창에서 열기)를 참조하세요.

오늘 여러 작업을 동시에 처리할 수 있는 클라우드 기반 소프트웨어 엔지니어링 에이전트인 Codex의 리서치 프리뷰를 공개합니다. Codex는 기능 작성, 코드베이스 관련 질의응답, 버그 수정, 검토를 위한 풀 리퀘스트 제안 등의 작업을 대신 수행할 수 있으며, 각 작업은 리포지토리가 미리 로드된 자체 클라우드 샌드박스 환경에서 실행됩니다.

Codex는 소프트웨어 엔지니어링에 최적화된 OpenAI o3 버전인 codex-1로 구동됩니다. Codex는 다양한 환경에서 실제 코딩 작업에 대한 강화 학습을 통해 훈련하여 사람의 스타일과 PR 선호도를 가장 근접하게 반영하고 지침을 정확하게 준수하고, 합격 결과를 얻을 때까지 반복적으로 테스트를 실행할 수 있는 코드를 생성합니다. 오늘부터 ChatGPT Pro, Enterprise, Team 사용자에게 Codex를 점진적으로 제공하기 시작했습니다. Plus와 Edu 사용자에게도 곧 제공할 예정입니다.

Codex의 작동 방식

이제 ChatGPT의 사이드바를 통해 Codex에 액세스하여 프롬프트를 입력하고 “코드”를 클릭하여 새 코딩 작업을 할당할 수 있습니다. Codex에게 코드베이스에 대해 질문하려면 “질문하기”를 클릭합니다. 각 작업은 코드베이스가 미리 로드된 별도의 격리된 환경에서 독립적으로 처리됩니다. Codex는 파일을 읽고 편집할 수 있으며, 테스트 하네스, 린터, 타입 체커 등의 명령을 실행할 수 있습니다. 일반적으로 작업을 완료하는데 복잡성에 따라 1분에서 30분 정도 소요되며, 실시간으로 Codex의 진행 상황을 모니터링할 수 있습니다.

Codex는 작업을 완료하면 해당 환경에 변경 사항을 커밋합니다. Codex는 터미널 로그와 테스트 출력의 인용을 통해 작업에 대한 검증 가능한 증거를 제공하기 때문에 작업 완료 중 수행한 각 단계를 추적할 수 있습니다. 그런 다음, 결과를 검토하고, 추가 수정을 요청하거나 GitHub 풀 리퀘스트를 열거나 변경 사항을 로컬 환경에 직접 통합할 수 있습니다. 제품에서 실제 개발 환경과 최대한 근접하게 Codex 환경을 구성할 수 있습니다.

Codex는 리포지토리 내에 있는 AGENTS.md 파일을 통해 동작을 제어할 수 있습니다. 이 파일들은 README.md와 유사한 텍스트 파일로, 코드베이스를 탐색하는 방법, 테스트를 위해 실행해야 하는 명령어, 프로젝트의 표준 관행을 가장 잘 준수하는 방법을 Codex에 알려줄 수 있습니다. 인간 개발자와 마찬가지로 Codex 에이전트도 구성된 개발 환경, 안정적인 테스트 설정, 명확한 문서가 제공될 때 최고의 성능을 발휘할 수 있습니다.

codex-1은 코딩 평가과 내부 벤치마크에서 AGENTS.md 파일이나 맞춤형 추가 지원 없이도 강력한 성능을 보여줍니다.

내부 인프라에서 실행할 수 없는 23 SWE-Bench Verified 샘플은 제외되었습니다. codex-1은 192k 토큰의 최대 컨텍스트 길이와 중간 ‘이성 사용’에서 테스트를 거쳤으며, 현재 제품에서 사용할 수 있는 설정입니다. o3 평가에 대한 자세한 내용은 여기⁠를 참조하세요.

저희 내부 SWE 작업 벤치마크는 선별된 OpenAI의 실제 내부 SWE 작업입니다.

안전하고 신뢰할 수 있는 에이전트 구축

점진적인 배포 전략에 따라 리서치 프리뷰로 Codex를 공개합니다. Codex를 설계할 때 보안과 투명성을 가장 우선시하여 사용자가 출력을 확인할 수 있도록 했습니다. 이는 AI 모델이 더 복잡한 코딩 작업을 독립적으로 처리하고 안전에 대한 고려 사항이 발전함에 따라 점점 더 중요해지고 있는 안전장치입니다. 사용자는 인용, 터미널 로그, 테스트 결과를 통해 Codex의 작업을 확인할 수 있습니다. 불확실한 상황을 마주하거나 테스트가 실패했을 때 Codex 에이전트는 이러한 문제를 명시적으로 전달하여 사용자가 어떻게 진행할 지에 대해 정보에 입각한 결정을 내릴 수 있도록 지원합니다. 에이전트가 생성한 모든 코드를 통합하고 실행하기 전에 사용자가 직접 검토하고 유효성을 검사하는 일은 여전히 필요합니다.

파란색 배경에 인용된 파일명을 확인하는 테스트 파일이 오버레이되어 있고, 요약과 성공한 테스트 결과가 보이는 코드 검토 스크린샷.

파란색 파스텔 배경에 인용된 파일 이름에 대한 테스트 통과를 보여주는 검은색 터미널이 오버레이되어 있고, ‘Fix /diff error with special characters’ 변경 사항의 요약 및 diff가 표시된 코드 검토 스크린샷.

인간의 선호도에 맞춰 조정

codex-1을 훈련하는 과정에서 주요 목표는 인간의 코딩 선호도와 표준에 가깝게 출력 결과를 조정하는 것이었습니다. OpenAI o3에 비해 codex-1은 사람이 즉시 검토하고 표준 워크플로에 통합할 수 있는 깔끔한 패치를 일관적으로 생성합니다.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

남용 방지

멀웨어 개발과 같은 AI 기반 소프트웨어 엔지니어링을 악의적인 활용으로부터 보호하는 것이 점점 더 중요해지고 있습니다. 동시에, 보호 조치가 합법적이고 유익한 활용 과도하게 제한하지 않는 것도 중요합니다. 예를 들어, 저수준 커널 엔지니어링은 멀웨어 개발에도 사용되지만 합법적이고 유용하게 사용할 수도 있습니다.

안전과 유용성의 균형을 맞추기 위해 Codex는 악성 소프트웨어 개발을 목적으로 하는 요청을 식별하고 정확하게 거부하면서 합법적인 작업을 명확하게 구분하고 지원하도록 훈련되었습니다. 또한 이러한 경계를 효과적으로 강화하기 위해 정책 프레임워크를 개선하고 엄격한 안전 평가를 통합했습니다. 이러한 평가를 반영하여 o3 시스템 카드의 부록⁠을 공개했습니다.

안전한 실행

Codex 에이전트는 클라우드의 안전하고 격리된 컨테이너 내에서만 작동합니다. 작업을 실행하는 동안에는 인터넷 액세스가 비활성화되어, 에이전트의 상호작용은 GitHub 리포지토리를 통해 명시적으로 제공되는 코드와 사용자가 설정 스크립트를 통해 구성한 사전 설치된 종속성으로만 제한됩니다. 에이전트는 외부 웹사이트, API 또는 기타 서비스에 액세스할 수 없습니다.

초기 사용 사례

OpenAI의 기술팀은 일상적인 툴킷의 일부로 Codex를 사용하기 시작했습니다. OpenAI 엔지니어는 주로 리팩토링, 이름 변경, 테스트 작성과 같이 반복적이고 범위가 명확한 작업과 같이 집중력이 떨어지는 작업을 처리하는 데 Codex를 사용합니다. 새로운 기능 추가 지원, 구성 요소 배선, 버그 수정, 문서 초안 작성 등에도 유용하게 사용할 수 있습니다. 팀은 대기 중인 문제를 분류하고, 하루를 시작할 때 작업을 계획하고, 계속 업무를 진행할 수 있도록 백그라운드 작업을 처리하는 데 Codex를 사용하는 등 새로운 업무 방식을 만들어가고 있습니다. Codex는 컨텍스트 스위칭을 줄이고, 잊어버린 할 일을 다시 알려주어 엔지니어가 더 빨리 작업을 진행하고 가장 중요한 일에 집중할 수 있도록 지원합니다.

또한 출시에 앞두고 다양한 코드베이스, 개발 프로세스, 팀에서 Codex가 어떻게 작동하는지 더 잘 파악하기 위해 소규모의 외부 테스터 그룹과 협력해 오고 있습니다.

Cisco⁠(새 창에서 열기)은 Codex가 엔지니어링 팀이 야심 찬 아이디어를 더 빨리 실현할 수 있도록 어떻게 도울 수 있는지 탐구하고 있습니다. 초기 설계 파트너인 Cisco는 제품 포트폴리오 전반에서 실제 사용 사례를 평가하고, OpenAI 팀에 피드백을 제공하여 Codex의 미래를 만들어 나가는 데 도움을 주고 있습니다.
Temporal⁠(새 창에서 열기)은 Codex를 사용하여 기능 개발, 문제 디버깅, 테스트 작성 및 실행, 대규모 코드베이스 리팩토링을 가속화합니다. 또한 백그라운드에서 복잡한 작업을 실행하여 엔지니어가 반복 작업 속도를 높이면서 흐름을 유지하여 집중력을 유지할 수 있도록 도와줍니다.
Superhuman⁠(새 창에서 열기)은 Codex를 사용하여 테스트 커버리지 개선 및 통합 실패 수정과 같은 작지만 반복적인 작업의 속도를 높입니다. 또한 Codex는 제품 관리자가 코드 검토를 제외하고는 엔지니어의 도움을 받지 않고도 가벼운 코드를 변경할 수 있도록 지원하여 제품을 더 빠르게 출시할 수 있습니다.
Kodiak⁠(새 창에서 열기)은 Codex를 사용하여 디버깅 도구 작성, 테스트 커버리지 개선, 코드 리팩터링을 지원하여 자율 주행 기술인 Kodiak Driver의 개발을 가속화하고 있습니다. 또한 Codex는 관련 컨텍스트와 과거 변경 사항을 알려주어 엔지니어가 스택의 익숙하지 않은 부분을 이해하는 데 도움을 주는 유용한 참조 도구가 되었습니다.

초기 테스터의 학습을 바탕으로 여러 에이전트에게 범위가 명확한 작업을 동시에 할당하고, 다양한 유형의 작업과 프롬프트를 실험하여 모델의 기능을 효과적으로 탐색할 것을 권장하고 있습니다.

Codex CLI 업데이트

지난달에는 터미널에서 실행되는 경량 오픈소스 코딩 에이전트인 Codex CLI를 출시했습니다. Codex CLI는 o3와 o4-mini와 같은 모델의 강력한 기능을 로컬 워크플로에 도입하여 해당 모델을 쉽게 페어링하여 작업을 더 빠르게 완료할 수 있습니다.

오늘 Codex CLI에서 사용할 수 있도록 특별히 설계된 o4-mini 버전인 codex-1의 더 작은 버전도 출시합니다. 이 새로운 모델은 CLI에서 더 빠른 워크플로를 지원하고, 지연 시간이 짧은 코드 질의응답과 편집에 최적화되어 있으며, 지침 및 스타일 준수에 대한 강점은 동일하게 유지합니다. 현재 Codex CLI에서는 기본 모델로 사용할 수 있으며, API에서는 codex-mini-latest로 사용할 수 있습니다. 기본 스냅샷은 Codex-mini 모델을 지속적으로 개선하면서 정기적으로 업데이트될 예정입니다.

또한 개발자 계정을 Codex CLI에 훨씬 쉽게 연결할 수 있도록 개선하고 있습니다. 이제 수동으로 API 토큰을 생성하고 구성하는 대신 ChatGPT 계정으로 로그인하여 사용하고자 하는 API 조직을 선택할 수 있습니다. 저희가 자동으로 API 키를 생성하고 구성해 드립니다. 또한 ChatGPT로 Codex CLI에 로그인하는 Plus와 Pro 사용자는 오늘 오후부터 앞으로 30일 동안 각각 $5와 $50의 무료 API 크레딧을 사용할 수 있습니다.

Codex 가용성, 가격, 제약 사항

오늘부터 전 세계의 ChatGPT Pro, Enterprise, Team 사용자에게 Codex를 점진적으로 제공하기 시작했으며, Plus와 Edu 사용자에 대한 지원도 곧 제공될 예정입니다. 앞으로 몇 주 동안은 추가 비용 없이 넉넉한 액세스 권한을 제공하여 사용자들은 Codex가 무엇을 할 수 있는지 살펴볼 수 있습니다. 그 이후에는 사용량 제한 방식과 필요에 따라 추가 사용량을 구매할 수 있는 유연한 가격 옵션을 출시할 예정입니다. 곧 Plus 및 Edu 사용자도 이용할 수 있도록 액세스 권한을 확대할 계획입니다.

Codex-mini-latest를 사용하여 개발하는 개발자의 경우 Responses API에서 이 모델을 사용할 수 있으며, 가격은 입력 토큰 100만 개당 $1.50, 출력 토큰 100만 개당 $6로 75% 프롬프트 캐싱 할인을 제공합니다.

Codex는 아직 개발 초기 단계입니다. 리서치 프리뷰이기 때문에 현재 프런트엔드 작업을 위한 이미지 입력과 에이전트가 작동하는 동안 경로를 수정하는 기능과 같은 기능이 부족합니다. 또한 원격 에이전트에게 위임하는 작업은 대화형 편집보다 시간이 오래 걸리므로 익숙해지는 데 시간이 좀 걸릴 수 있습니다. 시간이 지남에 따라 Codex 에이전트와의 상호작용은 점점 더 동료와의 비동기식 협업과 비슷해질 것입니다. 모델의 능력이 발전함에 따라 에이전트가 더 오랫동안 더 복잡한 작업을 처리할 것으로 예상합니다.

앞으로 공개될 것들

우리는 개발자가 소유하고 싶은 작업만 진행하고 나머지는 에이전트에게 위임하는, AI와 함께 더 빠르게 움직이고 생산성을 높이는 미래를 상상합니다. 이를 위해 실시간 협업과 비동기 위임을 모두 지원하는 Codex 도구 제품군을 구축하고 있습니다.

Codex CLI와 같은 AI 도구와 페어링하는 것이 업계 표준으로 빠르게 자리 잡아 개발자가 더 빠르게 코딩 작업을 할 수 있도록 지원하고 있습니다. 하지만 ChatGPT의 Codex가 도입한 비동기식 멀티 에이전트 워크플로가 엔지니어가 고품질 코드를 생산하는 실질적인 방식이 될 것으로 믿습니다.

궁극적으로 실시간 페어링과 작업 위임이라는 두 가지 상호작용 방식이 만나 수렴할 것으로 보고 있습니다. 개발자는 IDE와 일상적인 도구 전반에서 AI 에이전트와 협업하여 질문하고, 제안을 받고, 더 긴 작업을 맡기는 등 모든 것을 통합된 워크플로 내에서 수행하게 될 것입니다.

앞으로 더욱 상호작용적이고 유연한 에이전트 워크플로를 도입할 계획입니다. 개발자는 곧 작업 중간에 지침을 제공하고, 구현 전략에 대해 협업하고, 사전에 진행 상황에 대한 업데이트를 받을 수 있게 될 것입니다. 또한 이미 사용 중인 도구 전반에 걸쳐 더욱 긴밀한 통합을 구상하고 있습니다. 현재 Codex는 GitHub와 연결되어 있으며, 곧 Codex CLI, ChatGPT Desktop 또는 이슈 트래커나 CI 시스템과 같은 도구에서 작업을 할당할 수 있습니다.

소프트웨어 엔지니어링은 AI 기반의 상당한 생산성 향상을 가장 먼저 경험한 산업 중 하나로, 개인과 소규모 팀에게 새로운 가능성을 열어줍니다. 우리는 이러한 이점을 낙관적으로 바라보고 있지만, 광범위한 에이전트 도입이 개발자 워크플로와 개인, 기술 수준 및 지역 전반에 걸친 기술 개발에 미치는 영향을 더 잘 파악하기 위해 파트너와 협력하고 있습니다.

이것은 시작에 불과합니다. 여러분이 Codex로 무엇을 만들 수 있을지 기대됩니다.

라이브 스트리밍 다시 재생

부록

시스템 메시지

개발자가 모델의 기본 행동을 이해하고 Codex가 맞춤형 워크플로에서 효과적으로 작동하도록 조정하는 데 도움이 되도록 codex-1 시스템 메시지를 공유하고 있습니다. 예를 들어, codex-1 시스템 메시지는 Codex가 AGENTS.md 파일에 언급된 모든 테스트를 실행하도록 권장하지만, 시간이 부족한 경우 Codex에 이러한 테스트를 건너뛰도록 요청할 수 있습니다.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

저자

OpenAI