16 de maio de 2025

Apresentamos o Codex

Um agente de engenharia de software em nuvem que pode trabalhar em várias tarefas ao mesmo tempo, com a tecnologia codex-1. Disponível a partir de hoje para usuários do ChatGPT Pro, Team e Enterprise. Em breve, para usuários Plus.

Experimente o Codex

Painel com a pergunta: "What should we code next?" com uma caixa de prompt, seletores de repositório e ramo e uma lista de tarefas sobre fundo pastel com tema de programação.

Carregando…

Atualização em 3 de junho de 2025: O Codex já está disponível para usuários do ChatGPT Plus. Agora, os usuários podem permitir que o Codex acesse a internet durante a execução de tarefas. Consulte o registro de alterações⁠(abre em uma nova janela) e a documentação⁠(abre em uma nova janela) para ver mais detalhes.

Hoje, lançamos uma prévia para pesquisa do Codex, um agente de engenharia de software na nuvem que pode trabalhar em várias tarefas ao mesmo tempo. O Codex executa tarefas para você como programar recursos, responder perguntas sobre sua base de código, corrigir erros e propor pull requests para revisão; cada tarefa é executada de forma independente em um ambiente de teste próprio, pré-configurado com seu repositório.

O Codex roda com o codex-1, uma versão do OpenAI o3 otimizada para engenharia de software. Ele foi treinado com aprendizagem por reforço em tarefas reais de programação em diversos ambientes, de forma a gerar código muito parecido com o estilo e as preferências humanas de PR, seguindo instruções com precisão e executando testes iterativos até conseguir um resultado correto. Estamos iniciando hoje o lançamento do Codex para usuários do ChatGPT Pro, Enterprise e Team, e em breve também para usuários Plus e Edu.

Como funciona o Codex

Você já pode acessar o Codex pela barra lateral do ChatGPT e atribuir novas tarefas de programação. Basta digitar um prompt e clicar em "Gerar código". Para perguntar algo ao Codex sobre sua base de código, clique em “Perguntar”. Cada tarefa é processada de forma independente em um ambiente separado e isolado, pré-carregado com sua base de código. O Codex lê e edita arquivos e ainda executa comandos, como estruturas de teste, analisadores de código (linters) e verificadores de tipos. As tarefas geralmente levam de 1 a 30 minutos, dependendo da complexidade, e você pode acompanhar o progresso em tempo real.

Ao concluir uma tarefa, o Codex implementa as alterações no ambiente dele. Ele oferece evidências verificáveis de suas ações em citações de logs de terminal e resultados de testes, permitindo que você acompanhe cada passo da execução da tarefa. Você pode analisar os resultados, solicitar novas revisões, abrir uma pull request do GitHub ou integrar as alterações diretamente ao seu ambiente local. No produto, você pode configurar o ambiente do Codex em paralelo ao seu ambiente real de desenvolvimento com o máximo possível de semelhança.

O Codex pode ser orientado por arquivos AGENTS.md colocados em seu repositório. Esses arquivos de texto, assim como um README.md, informam ao Codex como navegar pela sua base de código, que comandos usar nos testes e como seguir os padrões do seu projeto. Assim como desenvolvedores humanos, o desempenho dos agentes Codex melhora com ambientes de desenvolvimento definidos, configurações de teste confiáveis e documentação clara.

Em avaliações de programação e benchmarks internos, o codex-1 apresenta desempenho sólido mesmo sem arquivos AGENTS.md ou estruturas básicas personalizadas.

23 amostras SWE-Bench verificadas que não eram executáveis em nossa infraestrutura foram excluídas. O codex-q foi testado com um máximo de 192.000 tokens de contexto e "esforço de reflexão" médio, que é a configuração disponibilizada hoje no produto. Veja aqui⁠ os detalhes das avaliações do o3.

Nossa referência interna de tarefa SWE é um conjunto selecionado de tarefas internas de SWE do mundo real na OpenAI.

Criar agentes seguros e confiáveis

Estamos lançando o Codex como prévia para pesquisa, seguindo nossa estratégia de implementação iterativa. Priorizamos segurança e transparência no design do Codex, para que os usuários possam verificar os resultados. Essa proteção fica cada vez mais importante conforme os modelos de IA passam a gerenciar tarefas mais complexas de forma independente e surgem novas questões de segurança. Os usuários podem conferir o trabalho do Codex com citações, logs de terminal e resultados de teste. Se houver incertezas ou falhas nos testes, o agente do Codex relata explicitamente essas questões, permitindo que os usuários tomem decisões esclarecidas sobre como proceder. Continua sendo essencial que os usuários revisem e validem manualmente qualquer código gerado pelos agentes antes da integração e execução.

Captura de tela de revisão de código com sobreposição de arquivo de teste para verificar nomes de arquivo citados, além de resumo e testes em execução sobre fundo azul.

Captura de tela de revisão de código com imagem sobreposta de terminal preto mostrando um teste aprovado para nomes de arquivo citados; resumo e diferenciais da alteração "‘Fix /diff error with special characters" visível sobre fundo azul-pastel.

Alinhamento com preferências humanas

Um dos principais objetivos do treinamento do codex-1 foi alinhar os resultados às preferências e aos padrões humanos de programação. Em relação ao OpenAI o3, o codex-1 produz patches mais limpos com uniformidade, prontos para revisão humana imediata e integração aos fluxos de trabalho padrão.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prevenção contra abusos

É cada vez mais importante evitar a aplicação mal-intencionada de engenharia de software baseada em IA, como desenvolvimento de malwares. Ao mesmo tempo, é importante que as proteções não impeçam indevidamente aplicações legítimas e benéficas, que podem envolver técnicas usadas às vezes para desenvolvimento de malware, como engenharia de kernels de nível inferior.

Para equilibrar segurança e utilidade, o Codex foi treinado para identificar e recusar corretamente solicitações que possam gerar softwares mal-intencionados, mas distinguir e aceitar tarefas legítimas. Também melhoramos nossas estruturas de políticas e incorporamos avaliações rigorosas de segurança para reforçar esses limites com eficácia. Publicamos um adendo ao Cartão do Sistema do o3⁠ que demonstra essas avaliações.

Execução segura

O agente do Codex opera totalmente inserido num ambiente em nuvem seguro e isolado. Durante a execução da tarefa, o acesso à internet é desabilitado, limitando a interação do agente apenas ao código fornecido explicitamente pelos repositórios do GitHub e às dependências pré-instaladas configuradas pelo usuário com um script de configuração. O agente não tem acesso a sites, APIs ou outros serviços externos.

Casos de uso iniciais

Equipes técnicas da OpenAI começaram a incluir o Codex em seu kit de ferramentas cotidiano. Ele é usado com mais frequência pelos engenheiros da OpenAI para executar tarefas repetitivas com escopo bem definido e que podem gerar distração do objetivo principal, como refatorar, renomear e escrever testes. Também é útil para gerar código personalizado para novos recursos, acionar componentes, corrigir erros e esboçar documentação. As equipes estão criando novos hábitos com ele: triagem de novos problemas, planejamento de tarefas no começo do dia e delegação de tarefas em segundo plano para dar sequência ao trabalho. Com a redução de mudanças de contexto e lembretes para tarefas esquecidas, o Codex ajuda os programadores a acelerar as entregas e manter o foco no mais importante.

Com a aproximação do lançamento, também estamos trabalhando com um pequeno grupo de testadores externos para entender melhor o desempenho do Codex em diversas bases de código, processos de desenvolvimento e equipes.

A Cisco⁠(abre em uma nova janela) está explorando como o Codex pode ajudar suas equipes de engenharia a concretizar ideias ambiciosas com mais rapidez. Parceira de design desde o início, a Cisco está ajudando a definir o futuro do Codex, avaliando seu uso em casos práticos em todo o portfólio de produtos e oferecendo feedback para a equipe da OpenAI.
A Temporal⁠(abre em uma nova janela) usa o Codex para acelerar o desenvolvimento de recursos, depurar erros, programar e executar testes e refatorar grandes bases de código. Isso também ajuda a manter o foco, executando tarefas complexas em segundo plano enquanto os desenvolvedores mantêm o fluxo e aceleram as iterações.
A Superhuman⁠(abre em uma nova janela) usa o Codex para acelerar pequenas tarefas repetitivas, como melhorar a cobertura de testes e resolver problemas de integração. Ele também ajuda a acelerar as entregas, permitindo que os gerentes de produto realizem pequenas alterações no código, com um desenvolvedor sendo chamado somente para a revisão.
A Kodiak⁠(abre em uma nova janela) está usando o Codex para gerar ferramentas de depuração, melhorar a cobertura dos testes e refatorar código, acelerando o desenvolvimento do Kodiak Driver, sua ferramenta de direção autônoma. O Codex também se tornou uma ferramenta de referência importante que esclarece partes desconhecidas do sistema para os desenvolvedores, mostrando o contexto relevante e as últimas alterações.

Considerando os aprendizados dos primeiros testadores, recomendamos atribuir tarefas com escopo bem definido a vários agentes simultâneos e experimentar diversos tipos de tarefas e prompts para explorar melhor a capacidade do modelo.

Atualizações do Codex CLI

No mês passado, lançamos o Codex CLI, um agente de programação leve e de código aberto que é executado no seu terminal. Ele apresenta a potência de modelos como o o3 e o o4-mini para seu fluxo de trabalho local, podendo ser usado facilmente com esses recursos para a aceleração de tarefas.

Hoje, também estamos lançando uma versão menor do codex-1, uma versão do o4-mini feita especificamente para ser usada no Codex CLI. Esse novo modelo funciona com fluxos de trabalho mais rápidos na CLI e é otimizado para perguntas e respostas e edição de código de baixa latência, mantendo as mesmas vantagens em termos de obediência às instruções e estilo. Ele já está disponível como modelo padrão no Codex CLI e na API, como codex-mini-latest. O instantâneo associado será atualizado regularmente, à medida que continuamos aprimorando o modelo Codex-mini.

Também estamos facilitando a conexão de sua conta de desenvolvedor com o Codex CLI. Em vez de gerar e configurar manualmente um token de API, você já pode iniciar uma sessão com sua conta do ChatGPT e selecionar a organização da API que deseja usar. Nós geramos e configuramos a chave API automaticamente para você. Usuários do Plus e do Pro que iniciarem sessão no Codex CLI com o ChatGPT também podem começar a resgatar US$ 5 e US$ 50, respectivamente, em créditos de API pelos próximos 30 dias.

Disponibilidade, preços e limitações do Codex

Estamos lançando hoje o Codex para usuários globais do ChatGPT Pro, Enterprise e Team hoje, e em breve também para usuários Plus e Edu. Os usuários terão acesso amplo sem custo adicional pelas próximas semanas para poderem explorar as possibilidades do Codex. Em seguida, ofereceremos acesso limitado e preços flexíveis para compra de uso adicional sob demanda. Planejamos expandir o acesso para usuários Plus e Edu em breve.

Para desenvolvedores que usam o codex-mini-latest, o modelo está disponível na API Responses, com preço de US$ 1,50 por 1 milhão de tokens de entrada e US$ 6 por 1 milhão de tokens de saída, com desconto de 75% para cache de prompt.

O Codex ainda está nos primeiros estágios de desenvolvimento. Como prévia para pesquisa, ele ainda não tem recursos como entrada de imagens para trabalho de frontend e nem permite corrigir o agente durante o a execução da tarefa. Além disso, é preciso acostumar-se com o fato de que delegar o trabalho a um agente remoto demora mais do que a edição interativa. Com a tempo, a interação com os agentes do Codex ficará cada vez mais parecida com uma colaboração assíncrona com colegas. Conforme a capacidade do modelo se desenvolve, acreditamos que os agentes poderão executar tarefas mais complexas por períodos mais longos.

O que vem a seguir

Imaginamos um futuro em que os desenvolvedores executarão o trabalho que desejam dominar e delegarão o restante aos agentes, acelerando suas entregas e sua produtividade com a IA. Para isso, estamos criando um conjunto de ferramentas Codex com suporte para colaboração em tempo real e delegação assíncrona.

A integração de ferramentas de IA, como o Codex CLI e outras, está se tornando um padrão do setor, ajudando os desenvolvedores a programar mais rápido. Acreditamos, no entanto, que o fluxo de trabalho assíncrono com vários agentes do Codex no ChatGPT pode se tornar a forma padrão de produzir código de alta qualidade.

Imaginamos que as duas formas de interação (integração em tempo real e delegação de tarefas) possam convergir. Os desenvolvedores vão colaborar com agentes de IA em seus IDEs e com ferramentas comuns para fazer perguntas, receber sugestões e delegar tarefas mais longas, tudo no mesmo fluxo de trabalho unificado.

Para o futuro, pretendemos apresentar mais fluxos de trabalho interativo e flexíveis para agentes. Logo, os desenvolvedores poderão oferecer orientação durante as tarefas, colaborar em estratégias de implementação e receber atualizações proativas de progresso. Também prevemos uma melhor integração com as ferramentas que você já usa: hoje, o Codex se conecta ao GitHub, e logo você poderá atribuir tarefas pelo Codex CLI, ChatGPT Desktop e até mesmo seu rastreador de problemas ou sistema de CI.

A engenharia de software é um dos primeiros setores a perceber ganhos consideráveis de produtividade com a IA, o que abre novas possibilidades para profissionais independentes e pequenas equipes. Estamos otimistas com esses ganhos, mas também estamos colaborando com parceiros para entender melhor as consequências da adoção generalizada de agentes nos fluxos de trabalho dos desenvolvedores, no desenvolvimento de habilidades das pessoas, em níveis de habilidade e em regiões diferentes.

Estamos só no começo, e será um prazer ver o que você pode fazer com o Codex.

Replay da live

Apêndice

Mensagem do sistema

Estamos compartilhando a mensagem do sistema codex-1 para ajudar os desenvolvedores a entender o comportamento padrão do modelo e preparar o Codex para funcionar corretamente em fluxos de trabalho personalizados. Por exemplo: a mensagem do sistema codex-1 estimula o Codex a executar todos os testes mencionados no arquivo AGENTS.md, mas se você estiver com pouco tempo, pode pedir para que ele pule esses testes.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Autoria

OpenAI