16 de mayo de 2025

Presentamos Codex

Un agente de ingeniería de software basado en la nube que puede trabajar en muchas tareas en paralelo, impulsado por codex-1. Disponible ya para los usuarios de ChatGPT Pro, Team y Enterprise, y próximamente para los usuarios Plus.

Prueba Codex

Panel de control con la pregunta «¿Qué deberíamos programar a continuación?», un cuadro de diálogo, selectores de repositorios/ramas y una lista de tareas sobre un fondo en tonos pastel con motivos relacionados con la programación.

Cargando…

Actualización del 3 de junio de 2025: Codex ya está disponible para los usuarios de ChatGPT Plus. También permitimos a los usuarios proporcionar Codex con acceso a Internet durante la ejecución de las tareas. Consulte el registro de cambios⁠(se abre en una ventana nueva) y la documentación⁠(se abre en una ventana nueva) para más información.

Hoy lanzamos una vista previa de Codex, un agente de ingeniería de software basado en la nube que puede trabajar en muchas tareas de forma paralela. Codex es capaz de realizar tareas por ti, como escribir funciones, responder preguntas sobre tu código base, corregir errores y proponer pull requests para que los revises; cada tarea se ejecuta en su propio entorno sandbox en la nube, previamente cargado con tu repositorio.

Codex funciona con codex-1, una versión de OpenAI o3 optimizada para la ingeniería de software. Se entrenó mediante aprendizaje por refuerzo en tareas de programación del mundo real en diversos entornos para generar código que se asemeja mucho al generado por humanos y a las preferencias de PR, que se ajusta con precisión a las instrucciones y que puede ejecutar pruebas de forma iterativa hasta obtener un resultado satisfactorio. Comenzamos ya a implementar Codex en ChatGPT Pro, Enterprise y Team, y pronto estará disponible para Plus y Edu.

Cómo funciona Codex

Puedes acceder ya a Codex a través de la barra lateral de ChatGPT y asignarle nuevas tareas de programación escribiendo un comando y haciendo clic en «Programar». Si deseas hacerle una pregunta a Codex sobre tu código base, haz clic en «Preguntar». Cada tarea se procesa de forma independiente en un entorno aislado y separado, previamente cargado con tu código base. Codex puede leer y editar archivos, así como ejecutar comandos, incluyendo pruebas, linters y verificadores de tipos. La finalización de las tareas suele tardar entre 1 y 30 minutos, dependiendo de la complejidad, y puede supervisar el progreso de Codex en tiempo real.

Cuando Codex ha completado una tarea, confirma los cambios en el entorno. Codex proporciona pruebas verificables de sus acciones mediante citas de registros de terminales y resultados de pruebas, lo que permite rastrear cada paso realizado durante la finalización de la tarea. A continuación, puedes revisar los resultados, solicitar más revisiones, abrir un pull request de GitHub o integrar directamente los cambios en tu entorno local. En el producto, puedes configurar el entorno Codex para que se ajuste lo máximo posible a tu entorno de desarrollo real.

Codex puede guiarse mediante archivos AGENTS.md ubicados en tu repositorio. Se trata de archivos de texto, similares a README.md, en los que puedes indicar a Codex cómo navegar por tu código base, qué comandos ejecutar para realizar pruebas y cuál es la mejor manera de adherirse a las prácticas estándar de tu proyecto. Al igual que los desarrolladores humanos, los agentes de Codex funcionan mejor cuando se les proporcionan entornos de desarrollo configurados, configuraciones de prueba fiables y documentación clara.

En las evaluaciones de código y las pruebas internas, codex-1 muestra un rendimiento sólido incluso sin archivos AGENTS.md ni scaffolding personalizado.

Se excluyeron 23 muestras verificadas por SWE-Bench que no se pudieron ejecutar en nuestra infraestructura interna. codex-1 se probó con una longitud de contexto máxima de 192 000 tókenes y un «esfuerzo de razonamiento» medio, que es la configuración que estará disponible en el producto actual. Para obtener más información sobre las evaluaciones o3, consulta aquí⁠.

Nuestro punto de referencia interno para tareas de SWE es un conjunto seleccionado de tareas internas reales de SWE en OpenAI.

Creación de agentes seguros y fiables

Estamos lanzando Codex como una versión preliminar para investigación, en línea con nuestra estrategia de implementación iterativa. Al diseñar Codex, hemos dado prioridad a la seguridad y la transparencia para que los usuarios puedan verificar los resultados, una garantía que cada vez tiene mayor importancia a medida que los modelos de IA realizan tareas de programación más complejas de forma independiente y evolucionan las consideraciones en el ámbito de la seguridad. Los usuarios pueden comprobar el trabajo de Codex a través de citas, registros de terminal y resultados de pruebas. Cuando existen dudas o se producen fallos en las pruebas, el agente de Codex comunica explícitamente estos problemas, lo que permite a los usuarios tomar decisiones informadas sobre cómo proceder. Sigue siendo esencial que los usuarios revisen y validen manualmente todo el código generado por los agentes antes de la integración y ejecución.

Captura de pantalla de la revisión del código con un archivo de prueba superpuesto que verifica los nombres de archivo entre comillas, además de un resumen y las pruebas superadas sobre un fondo azul.

Captura de pantalla de la revisión del código con una terminal negra superpuesta que muestra una prueba superada para los nombres de archivo entre comillas; resumen y diferencia del cambio «Corregir/diferenciar error con caracteres especiales» visible sobre un fondo azul pastel.

Alineación con las preferencias humanas

Uno de los objetivos principales durante el entrenamiento del codex-1 fue alinear los resultados con las preferencias y los estándares de programación humanos. En comparación con OpenAI o3, codex-1 produce sistemáticamente parches más limpios, ya preparados para la revisión inmediata por parte de personas y la integración en flujos de trabajo estándar.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prevención del uso indebido

Cada vez es más importante protegerse contra las aplicaciones maliciosas de la ingeniería de software basada en la IA, como el desarrollo de malware. Simultáneamente, es importante que las medidas de protección no obstaculicen innecesariamente otras aplicaciones legítimas y beneficiosas que puedan implicar técnicas que a veces también se utilizan para el desarrollo de malware, como la ingeniería de kernel de bajo nivel.

A fin de encontrar el debido equilibrio entre seguridad y utilidad, Codex se ha entrenado para identificar y rechazar con precisión las solicitudes destinadas al desarrollo de software malicioso, y distingue claramente y da soporte a las tareas legítimas. También hemos mejorado nuestros marcos normativos e incorporado rigurosas evaluaciones de seguridad para reforzar estos límites de manera eficaz. Hemos publicado un apéndice a la ficha técnica del sistema o3⁠ para reflejar estas evaluaciones.

Ejecución segura

El agente Codex opera íntegramente dentro de un contenedor seguro y aislado en la nube. Durante la ejecución de la tarea, se desactiva el acceso a Internet, lo que limita la interacción del agente únicamente al código proporcionado explícitamente a través de los repositorios de GitHub y las dependencias preinstaladas configuradas por el usuario mediante un script de configuración. El agente no puede acceder a páginas web, API ni otros servicios externos.

Primeros casos de uso

Los equipos técnicos de OpenAI han comenzado a utilizar Codex como parte de sus herramientas diarias. Los ingenieros de OpenAI lo utilizan mucho para evitar realizar tareas repetitivas y bien definidas, como refactorizar, renombrar y escribir pruebas, que suponen una pérdida de concentración. También es útil para crear nuevas funciones, conectar componentes, corregir errores y redactar documentación. Los equipos están creando nuevos hábitos asociados: resolviendo problemas de guardia, planificando las tareas al comienzo de la jornada y descargando el trabajo en segundo plano para seguir avanzando. Gracias a la reducción de los cambios de contexto y a la posibilidad de ver tareas pendientes olvidadas, Codex ayuda a los ingenieros a trabajar más rápido y a centrarse en lo que más importa.

Antes del lanzamiento, también hemos estado trabajando con un grupo pequeño de evaluadores externos para comprender mejor cómo funciona Codex en diferentes bases de código, procesos de desarrollo y equipos.

Cisco⁠(se abre en una ventana nueva) está analizando cómo puede ayudar Codex a sus equipos de ingeniería a hacer realidad sus ideas con mayor rapidez. Como primeros socios de diseño, Cisco está ayudando a dar forma al futuro de Codex evaluándolo para casos de uso reales en toda su cartera de productos y aportando comentarios al equipo de OpenAI.
Temporal⁠(se abre en una ventana nueva) utiliza Codex para acelerar el desarrollo de funciones, depurar problemas, escribir y ejecutar pruebas, y refactorizar grandes bases de código. También les ayuda a concentrarse al ejecutar tareas complejas en segundo plano, a fin de permitir a los ingenieros mantener el ritmo de trabajo y acelerar la iteración.
Superhuman⁠(se abre en una ventana nueva) utiliza Codex para acelerar tareas pequeñas pero repetitivas, como mejorar la cobertura de pruebas y corregir fallos de integración. También les ayuda a realizar envíos más rápidos, ya que permite a los gestores de productos aportar pequeños cambios en el código sin necesidad de recurrir a un ingeniero, salvo para la revisión del código.
Kodiak⁠(se abre en una ventana nueva) está utilizando Codex para ayudar a escribir herramientas de depuración, mejorar la cobertura de pruebas y refactorizar el código, acelerando así el desarrollo del controlador Kodiak, su tecnología de conducción autónoma. Codex también se ha convertido en una útil herramienta de referencia, ya que ayuda a los ingenieros a comprender las partes desconocidas del stack al mostrar el contexto relevante y los cambios anteriores.

Basándonos en lo aprendido con los primeros evaluadores, recomendamos asignar tareas bien definidas a varios agentes simultáneamente y experimentar con diferentes tipos de tareas e indicaciones para explorar las capacidades del modelo de manera eficaz.

Actualizaciones de Codex CLI

El mes pasado lanzamos Codex CLI, un agente de programación ligero y de código abierto que se ejecuta en la terminal. Ofrece la potencia de modelos como o3 y o4-mini a tu flujo de trabajo local, lo que facilita completar tareas más rápidamente.

Hoy también lanzamos una versión más reducida de codex-1, una versión de o4-mini diseñada específicamente para el uso en Codex CLI. Este nuevo modelo admite flujos de trabajo más rápidos en la CLI y está optimizado para preguntas y respuestas y edición de código de baja latencia, al tiempo que conserva las mismas ventajas en cuanto al seguimiento de instrucciones y el estilo. Ya está disponible como modelo predeterminado en Codex CLI y en la API como codex-mini-latest. La captura subyacente se actualizará periódicamente a medida que continuemos mejorando el modelo Codex-mini.

También estamos facilitando la conexión de tu cuenta de desarrollador a Codex CLI. En lugar de generar y configurar manualmente un token de API, ahora puedes iniciar sesión con tu cuenta de ChatGPT y seleccionar la organización de API que desees utilizar. Generaremos y configuraremos automáticamente la clave API por ti. Los usuarios Plus y Pro que inicien sesión en Codex CLI con ChatGPT también podrán empezar a canjear hoy mismo, y durante los próximos 30 días, 5 USD y 50 USD en créditos API gratuitos, respectivamente.

Disponibilidad, precios y limitaciones de Codex

A partir de hoy, vamos a implementar Codex en ChatGPT Pro, Enterprise y Team para todos los usuarios a nivel mundial, y pronto estará disponible para Plus y Edu. Los usuarios tendrán acceso ilimitado sin coste adicional durante las próximas semanas para poder explorar las plenas funcionalidades de Codex. Posteriormente, implementaremos un acceso limitado y opciones de precios flexibles que te permitirán adquirir un uso adicional bajo demanda. Tenemos previsto ampliar pronto el acceso a los usuarios Plus y Edu.

Para los desarrolladores que programan con codex-mini-latest, el modelo está disponible en la Responses API y tiene un precio de 1,50 USD por cada millón de tókenes de entrada y 6 USD por cada millón de tokens de salida, con un 75 % de descuento en indicaciones almacenadas en caché.

Codex aún se encuentra en una fase inicial de desarrollo. Como avance de la investigación, actualmente carece de funcionalidades como la entrada de imágenes para el trabajo frontend y la capacidad de corregir el rumbo del agente mientras está trabajando. Además, delegar en un agente remoto lleva más tiempo que la edición interactiva, por lo que puede resultar difícil acostumbrarse. Con el tiempo, la interacción con los agentes de Codex se parecerá cada vez más a la colaboración asíncrona con compañeros de trabajo. A medida que avancen las capacidades de los modelos, prevemos que los agentes serán capaces de realizar tareas más complejas durante periodos más prolongados.

¿Cuáles son las perspectivas de futuro?

Imaginamos un futuro en el que los desarrolladores son los que dirigen el trabajo que quieren llevar a cabo, y delegan el resto a agentes, a fin de avanzar más rápido y ser más productivos gracias a la IA. Para conseguirlo, estamos creando un conjunto de herramientas Codex que admiten tanto la colaboración en tiempo real como la delegación asíncrona.

La combinación con herramientas de IA como Codex CLI y otras se ha convertido rápidamente en algo habitual en la industria, ya que ayuda a los desarrolladores a programar más rápido. Pero creemos que el flujo de trabajo asíncrono y multiagente introducido por Codex en ChatGPT se convertirá en la forma habitual en que los ingenieros producirán código de alta calidad.

En última instancia, creemos que estos dos modos de interacción, el emparejamiento en tiempo real y la delegación de tareas, convergerán. Los desarrolladores colaborarán con agentes de IA en sus IDE y herramientas cotidianas para hacer preguntas, obtener sugerencias y poder evitar la realización de tareas más largas, todo ello en un flujo de trabajo unificado.

De cara al futuro, tenemos previsto introducir flujos de trabajo más interactivos y flexibles para los agentes. Los desarrolladores pronto podrán ofrecer indicaciones durante la tarea, colaborar en estrategias de implementación y recibir actualizaciones proactivas sobre el progreso. También prevemos integraciones más estrechas entre las herramientas que ya utilizas: actualmente, Codex se conecta con GitHub y, en breve, podrás asignar tareas desde Codex CLI, ChatGPT Desktop o incluso herramientas como tu gestor de incidencias o tu sistema de integración continua.

La ingeniería de software es una de las primeras industrias en experimentar importantes aumentos de productividad impulsados por la IA, lo que abre nuevas posibilidades para las personas y los equipos pequeños. Aunque somos optimistas con respecto a estos avances, también estamos colaborando con nuestros socios para comprender mejor las implicaciones que tiene la adopción generalizada de los agentes en los flujos de trabajo de los desarrolladores, el desarrollo de habilidades entre las personas, los niveles de competencia y las zonas geográficas.

Esto es solo el principio, y estamos deseando ver qué eres capaz de hacer con Codex.

Retransmisión del directo

Anexo

Mensaje del sistema

Compartimos el mensaje del sistema codex-1 para ayudar a los desarrolladores a comprender el comportamiento predeterminado del modelo y adaptar Codex para que funcione de manera eficaz en flujos de trabajo personalizados. Por ejemplo, el mensaje del sistema codex-1 anima a Codex a ejecutar todas las pruebas mencionadas en el archivo AGENTS.md, pero si tienes poco tiempo, puedes pedirle a Codex que omita estas pruebas.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Autor

OpenAI