16 de mayo de 2025

Presentamos Codex

Un agente de ingeniería de software basado en la nube que puede realizar muchas tareas en paralelo, basado en codex-1. Está disponible a partir de hoy para los usuarios de ChatGPT Pro, Team y Enterprise, y próximamente para los usuarios de la versión Plus.

Prueba Codex

Panel de control que pregunta “¿Qué deberíamos programar a continuación?” con un cuadro de diálogo, selectores de repositorio/rama y una lista de tareas sobre un fondo en tonos pastel con temática de programación.

Cargando...

Actualización del 3 de junio de 2025: Codex ya está disponible para los usuarios de ChatGPT Plus. Además, habilitamos a los usuarios para que le proporcionen a Codex acceso a Internet durante la ejecución de las tareas. Consulta changelog⁠(se abre en una nueva ventana) y los documentos⁠(se abre en una nueva ventana) si deseas obtener más detalles.

Hoy, presentamos una vista previa de la investigación de Codex: un agente de ingeniería de software basado en la nube que puede realizar muchas tareas en paralelo, basado en codex-1. Codex puede realizar tareas por ti, como escribir características, responder preguntas sobre tu código base, corregir errores y proponer solicitudes de extracción para su revisión; cada tarea se ejecuta en su propio entorno aislado en la nube, que se carga previamente con tu repositorio.

Codex se basa en codex-1, una versión de OpenAI o3 optimizada para la ingeniería de software. Se entrenó utilizando el aprendizaje por refuerzo en tareas de programación del mundo real en diversos entornos para generar código que reflejara fielmente el estilo humano y las preferencias de solicitudes de extracción, se ajustara con precisión a las instrucciones y pudiera ejecutar pruebas de forma iterativa hasta obtener un resultado positivo. Hoy empezamos a implementar Codex para los usuarios de ChatGPT Pro, Enterprise y Team, y muy pronto lo haremos para los usuarios de Plus y Edu.

Cómo funciona Codex

Hoy puedes acceder a Codex a través de la barra lateral de ChatGPT y asignarle nuevas tareas de programación escribiendo un mensaje y haciendo clic en “Programar”. Si quieres hacer una pregunta a Codex sobre tu código base, haz clic en “Preguntar”. Cada tarea se procesa de forma independiente en un entorno separado y aislado, cargado previamente con tu código base. Codex puede leer y editar archivos, así como ejecutar comandos, incluida la herramienta de ejecución de pruebas, las comprobaciones de código (linter) y los comprobadores de tipos. La finalización de las tareas suele llevar entre 1 y 30 minutos, según la complejidad, y puedes supervisar el progreso de Codex en tiempo real.

Una vez que Codex completa una tarea, confirma los cambios en su entorno. Codex proporciona pruebas verificables de sus acciones mediante citas de registros de terminales y salidas de pruebas, lo que te permite hacer un seguimiento de cada paso que se toma durante la finalización de la tarea. A continuación, puedes revisar los resultados, solicitar nuevas revisiones, abrir una solicitud de extracción en GitHub o integrar directamente los cambios en tu entorno local. En el producto, puedes configurar el entorno de Codex para que se ajuste a tu entorno de desarrollo real en la medida de lo posible.

Los archivos AGENTS.md colocados en tu repositorio pueden guiar a Codex. Son archivos de texto, parecidos a README.md, en los que puedes informar a Codex sobre cómo navegar por tu código base, qué comandos ejecutar para las pruebas y cuál es la mejor forma de cumplir con las prácticas estándar de tu proyecto. Al igual que los desarrolladores humanos, los agentes de Codex funcionan mejor cuando disponen de entornos de desarrollo configurados, configuraciones de prueba fiables y documentación clara.

En evaluaciones de programación y pruebas de referencia internas, codex-1 muestra un gran rendimiento, incluso sin archivos AGENTS.md ni andamiaje personalizado.

Se excluyeron 23 muestras verificadas por SWE-Bench que no se podían ejecutar en nuestra infraestructura interna. codex-1 se probó con una longitud de contexto máxima de 192 000 tokens y un “esfuerzo de razonamiento” medio, que es la configuración que estará disponible en el producto en la actualidad. Para obtener más detalles sobre las evaluaciones de o3, consulta aquí⁠.

Nuestra prueba de referencia de tareas de SWE internas es un conjunto seleccionado de tareas de SWE internas del mundo real en OpenAI.

Creación de agentes seguros y de confianza

Presentamos Codex como una vista previa de investigación, en línea con nuestra estrategia de implementación iterativa. A la hora de diseñar Codex, priorizamos la seguridad y la transparencia para que los usuarios puedan verificar sus salidas, una medida de seguridad que es cada vez más importante a medida que los modelos de IA gestionan de forma independiente tareas de programación más complejas y evolucionan las consideraciones de seguridad. Los usuarios pueden comprobar el trabajo de Codex mediante citas, registros de terminales y resultados de pruebas. En caso de duda o de errores en las pruebas, el agente de Codex comunica explícitamente estos problemas, lo que permite a los usuarios tomar decisiones informadas sobre cómo proceder. Sigue siendo esencial que los usuarios revisen y validen manualmente todo el código generado por el agente antes de su integración y ejecución.

Captura de pantalla de revisión del código con un archivo de prueba superpuesto que verifica los nombres de archivo citados, además del resumen y las pruebas superadas sobre un fondo azul.

Captura de pantalla de revisión del código con una superposición de terminal negra que muestra una prueba superada para nombres de archivo citados; resumen y diferencias del cambio “Fix /diff error with special characters” visibles sobre un fondo azul pastel.

Alineación con las preferencias humanas

Uno de los principales objetivos del entrenamiento de codex-1 era alinear las salidas con las preferencias y normas de programación humanas. En comparación con OpenAI o3, codex-1 produce sistemáticamente segmentos más limpios listos para su revisión humana inmediata y su integración en flujos de trabajo estándar.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prevención de abusos

La protección contra las aplicaciones maliciosas de la ingeniería de software basada en IA, como el desarrollo de malware, es cada vez más crítica. Al mismo tiempo, es importante que las medidas de protección no obstaculicen indebidamente las aplicaciones legítimas y beneficiosas que pueden implicar técnicas que en ocasiones también se utilizan para el desarrollo de malware, como la ingeniería de kernel de bajo nivel.

Para equilibrar seguridad y utilidad, Codex fue entrenado para identificar y rechazar con precisión las solicitudes dirigidas al desarrollo de software malicioso, mientras que distingue claramente y favorece las tareas legítimas. Además, mejoramos nuestros marcos normativos e incorporamos rigurosas evaluaciones de seguridad para reforzar estos límites con eficacia. Publicamos un anexo a la tarjeta del sistema de o3⁠ para reflejar estas evaluaciones.

Ejecución segura

El agente de Codex funciona completamente dentro de un contenedor seguro y aislado en la nube. Durante la ejecución de la tarea, el acceso a Internet está deshabilitado, lo que limita la interacción del agente únicamente al código proporcionado de forma explícita a través de los repositorios de GitHub y las dependencias previamente instaladas configuradas por el usuario mediante un script de configuración. El agente no puede acceder a sitios web externos, API u otros servicios.

Casos de uso iniciales

Los equipos técnicos de OpenAI han empezado a utilizar Codex como parte de sus herramientas cotidianas. Los ingenieros de OpenAI lo utilizan con más frecuencia para descargar tareas repetitivas y bien definidas, como refactorizar, renombrar y escribir pruebas, que de otro modo interrumpirían el enfoque. Es igualmente útil para “andamiar” nuevas funciones, cablear componentes, corregir errores y redactar documentación. Los equipos están creando nuevos hábitos en torno a esta herramienta: evaluación de prioridades de problemas urgentes, planificación de tareas al comienzo del día y descarga de trabajo de fondo para seguir avanzando. Al reducir los cambios de contexto y sacar a la luz las tareas pendientes olvidadas, Codex ayuda a los ingenieros a trabajar más rápido y a centrarse en lo más importante.

Antes del lanzamiento, también trabajamos con un pequeño grupo de evaluadores externos para comprender mejor el rendimiento de Codex en distintos tipos de código base, procesos de desarrollo y equipos.

Cisco⁠(se abre en una nueva ventana) está explorando el modo en que Codex puede ayudar a sus equipos de ingeniería a poner en práctica ideas ambiciosas con mayor rapidez. En su calidad de primeros socios de diseño, Cisco está ayudando a diseñar el futuro de Codex mediante la evaluación de casos de uso reales en su cartera de productos y el envío de comentarios al equipo de OpenAI.
Temporal⁠(se abre en una nueva ventana) utiliza Codex para acelerar el desarrollo de funciones, depurar problemas, escribir y ejecutar pruebas y refactorizar grandes códigos base. También les ayuda a mantener la concentración mediante la ejecución de tareas complejas en segundo plano, lo que mantiene a los ingenieros ocupados y acelera la iteración.
Superhuman⁠(se abre en una nueva ventana) utiliza Codex para acelerar tareas pequeñas pero repetitivas, como mejorar la cobertura de las pruebas y solucionar errores de integración. También les ayuda a realizar envíos más rápidos, ya que permite a los gerentes de producto contribuir con cambios ligeros en el código sin tener que recurrir a un ingeniero, excepto para la revisión de este.
Kodiak⁠(se abre en una nueva ventana) utiliza Codex para escribir herramientas de depuración, mejorar la cobertura de las pruebas y refactorizar el código, lo que permite acelerar el desarrollo de Kodiak Driver, su tecnología de conducción autónoma. Codex también se ha convertido en una valiosa herramienta de referencia, que ayuda a los ingenieros a comprender partes desconocidas de la pila al mostrar el contexto relevante y los cambios anteriores.

Basándonos en lo aprendido en las primeras pruebas, recomendamos asignar tareas bien definidas a diversos agentes simultáneamente y experimentar con distintos tipos de tareas y mensajes para explorar con eficacia las funcionalidades del modelo.

Actualizaciones de Codex CLI

El mes pasado lanzamos Codex CLI, un ligero agente de programación de código abierto que se ejecuta en tu terminal. Aporta la potencia de modelos como o3 y o4-mini a tu flujo de trabajo local, lo que facilita el emparejamiento con ellos para completar tareas con mayor rapidez.

Además, lanzamos una versión más pequeña de codex-1, una versión de o4-mini diseñado específicamente para su uso en Codex CLI. Este nuevo modelo es compatible con flujos de trabajo más rápidos en CLI y se ha optimizado para realizar preguntas y respuestas sobre el código y editarlo con baja latencia, sin perder las mismas ventajas en cuanto a estilo y seguimiento de instrucciones. Ya está disponible como modelo predeterminado en Codex CLI y en la API como codex-mini-latest. La captura subyacente se actualizará periódicamente a medida que sigamos mejorando el modelo Codex-mini.

También estamos facilitando la conexión de tu cuenta de desarrollador a Codex CLI. En lugar de generar y configurar manualmente un token de API, ahora puedes iniciar sesión con tu cuenta de ChatGPT y seleccionar la organización de la API que deseas utilizar. Generaremos y configuraremos automáticamente la clave de API por ti. Los usuarios de Plus y Pro que se registren en Codex CLI con ChatGPT también podrán empezar a canjear $5 y $50 en créditos API gratuitos, respectivamente, a partir de hoy y durante los próximos 30 días.

Disponibilidad, precios y limitaciones de Codex

A partir de hoy, empezamos a implementar Codex para los usuarios de ChatGPT Pro, Enterprise y Team a nivel global, y pronto lo haremos para los usuarios de Plus y Edu. Los usuarios dispondrán de un generoso acceso sin costo adicional durante las próximas semanas para que puedan explorar lo que Codex puede hacer, después de lo cual implementaremos un acceso con tarifa limitada y opciones de precios flexibles que te permitirán adquirir un uso adicional bajo demanda. Tenemos previsto ampliar pronto el acceso a los usuarios de Plus y Edu.

Para los desarrolladores que utilicen codex-mini-latest, el modelo está disponible en la API de Respuesta y tiene un precio de $1,50 por 1 millón de tokens de entrada y $6 por 1 millón de tokens de salida, con un 75 % de descuento por almacenamiento en caché.

Codex aún se encuentra en una fase temprana de desarrollo. Como vista previa de investigación, actualmente carece de funciones como la entrada de imágenes para el trabajo de front-end, y la capacidad de corregir el curso del agente mientras trabaja. Además, delegar en un agente remoto lleva más tiempo que la edición interactiva, a la que puede costar acostumbrarse. Con el tiempo, la interacción con los agentes de Codex se parecerá cada vez más a la colaboración asíncrona con colegas. A medida que avanzan las funcionalidades del modelo, prevemos que los agentes realicen tareas más complejas durante períodos prolongados.

¿Qué sigue?

Imaginamos un futuro en el que los desarrolladores se encarguen del trabajo que les interesa y deleguen el resto en los agentes, lo que les permitirá avanzar más rápido y ser más productivos gracias a la IA. Para lograrlo, estamos creando un conjunto de herramientas Codex que admiten tanto la colaboración en tiempo real como la delegación asíncrona.

El emparejamiento con herramientas de IA como Codex CLI y otras se ha convertido rápidamente en una norma del sector, y ayuda a los desarrolladores a agilizar el proceso de programación. Pero creemos que el flujo de trabajo asíncrono y de varios agentes introducido por Codex en ChatGPT se convertirá en la forma de hecho en la que los ingenieros produzcan código de alta calidad.

En última instancia, vemos que estos dos modos de interacción —emparejamiento en tiempo real y delegación de tareas— convergen. Los desarrolladores colaborarán con agentes de IA a través de sus entornos de desarrollo integrados (IDE) y herramientas cotidianas para hacer preguntas, obtener sugerencias y descargar tareas más largas, todo ello en un flujo de trabajo unificado.

En el futuro, tenemos previsto introducir flujos de trabajo de agentes más interactivos y flexibles. Los desarrolladores pronto podrán proporcionar orientación durante las tareas, colaborar en las estrategias de implementación y recibir actualizaciones proactivas de los progresos. Además, prevemos integraciones más profundas con las herramientas que ya utilizas: actualmente Codex se conecta con GitHub, y pronto podrás asignar tareas desde Codex CLI, ChatGPT Desktop, o incluso herramientas como tu herramienta de seguimiento de errores o sistema de integración continua (CI).

La ingeniería de software es uno de los primeros sectores en experimentar un aumento significativo de la productividad basada en la IA, lo que abre nuevas posibilidades para las personas y los equipos pequeños. Aunque somos optimistas con respecto a estos avances, también estamos colaborando con nuestros socios para comprender mejor las implicaciones de la adopción generalizada de los agentes en los flujos de trabajo de los desarrolladores, el desarrollo de habilidades entre las personas, los niveles de habilidad y las áreas geográficas.

Esto es solo el principio, y deseamos ver lo que construyes con Codex.

Retransmisión en directo

Apéndice

Mensaje del sistema

Compartimos el mensaje del sistema codex-1 para ayudar a los desarrolladores a comprender el comportamiento predeterminado del modelo y adaptar Codex para que funcione con eficacia en flujos de trabajo personalizados. Por ejemplo, el mensaje del sistema codex-1 invita a Codex a ejecutar todas las pruebas mencionadas en el archivo AGENTS.md, pero si tienes poco tiempo, puedes pedir a Codex que omita estas pruebas.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Autor

OpenAI