17 de julio de 2025

Presentamos al agente ChatGPT: Un puente entre la investigación y la acción

ChatGPT ahora piensa y actúa, eligiendo de forma proactiva entre un conjunto de habilidades autónomas para completar tareas por ti usando su propia computadora.

Pruébalo en ChatGPT

Cargando...

ChatGPT ahora puede trabajar por ti utilizando su propia computadora y ejecutando tareas complejas de principio a fin.

Ahora, puedes pedirle a ChatGPT que se encargue de solicitudes como “mira mi calendario e infórmame sobre las próximas reuniones con clientes basadas en noticias recientes”, “haz los preparativos y compra los ingredientes para hacer un desayuno japonés para cuatro personas” o “analiza a tres competidores y crea una presentación de diapositivas”. Entonces, ChatGPT navegará de forma inteligente por sitios web, filtrará resultados, te pedirá que inicies sesión de forma segura cuando sea necesario, ejecutará códigos, hará análisis e incluso elaborará presentaciones de diapositivas y hojas de cálculo editables que resuman sus conclusiones.

Esta nueva capacidad se basa en un sistema unificado de agentes. En ella, se combinan tres fortalezas que ya estaban presentes en avances anteriores: La capacidad de interactuar con sitios web de Operator⁠, la habilidad para sintetizar información de la investigación a fondo⁠ y la inteligencia y fluidez conversacional de ChatGPT.

Para llevar a cabo estas tareas, ChatGPT cuenta con su propio ordenador virtual, que alterna de forma fluida entre el razonamiento y la acción para procesar flujos de trabajo complejos de principio a fin, siguiendo tus instrucciones en todo momento.

Lo más importante de todo esto es que tú siempre tendrás el control. De hecho, ChatGPT te pide permiso antes de ejecutar cualquier acción que pueda implicar consecuencias significativas y que tú puedes interrumpir con toda facilidad, además de tomar el control del navegador o, directamente, detener las tareas.

A partir de hoy, los usuarios Pro, Plus y Team pueden activar las nuevas capacidades autónomas del agente ChatGPT directamente a través del menú desplegable de herramientas del redactor, con solo seleccionar “modo Agent” en cualquier momento de la conversación.

Es verdad, el agente ChatGPT ya es una poderosa herramienta para el manejo de tareas complejas, pero el lanzamiento de hoy es solo el comienzo. Con el tiempo, seguiremos incorporando regularmente mejoras significativas, para que resulte más capaz y útil a un mayor número de personas.

La evolución natural de Operator y la investigación a fondo

Anteriormente, tanto Operator como la investigación a fondo aportaban fortalezas únicas: Operator podía hacer desplazamientos, clics y teclear en la web, mientras que la investigación a fondo se distinguía por analizar y sintetizar información. Sin embargo, ambos funcionaban mejor en situaciones diferentes: Operator no podía realmente ahondar en el análisis ni redactar informes muy detallados, y la investigación a fondo era incapaz de interactuar con los sitios web para mejorar sus resultados o de acceder a contenidos que necesitaran autenticación de usuario. Es más, pudimos comprobar que muchas de las consultas que los usuarios le hacían a Operator eran más adecuadas para la investigación a fondo, lo que nos llevó a reunir lo mejor de ambas.

La integración de estas fortalezas complementarias en ChatGPT, así como la incorporación de herramientas adicionales, nos permitieron desarrollar capacidades totalmente nuevas dentro de un mismo modelo. Actualmente, puede interactuar con sitios web de forma activa, hacer clic en ellos, filtrarlos y conseguir resultados más precisos y eficaces. Por otro lado, tú mismo puedes pasar de forma natural de una simple conversación a solicitar acciones directamente dentro del mismo chat.

El agente que trabaja para ti, junto a ti

El agente ChatGPT está dotado de un conjunto de herramientas, un navegador visual capaz de interactuar con la web por medio de una interfaz gráfica de usuario, un navegador de texto para consultas web más sencillas basadas en razonamientos, un terminal y un acceso directo a la API. Además, el agente puede recurrir a los conectores ChatGPT⁠(se abre en una nueva ventana), con lo que conectar aplicaciones como Gmail y Github para que ChatGPT recabe información pertinente para tus mensajes y la utilice en sus respuestas. También puede tomar el control del navegador para iniciar sesión en cualquier sitio web y así profundizar y ampliar tanto su investigación como la ejecución de sus tareas. El acceso tan variado y la interacción con la información de la web le permiten a ChatGPT elegir el camino óptimo para realizar sus tareas de la forma más eficaz. Así, puede consultar tu calendario a través de una API para recabar información, emitir un razonamiento eficaz a partir de una gran cantidad de texto por medio del navegador basado en texto y, al mismo tiempo, interactuar visualmente con sitios web diseñados principalmente para seres humanos.

El modelo tiene la capacidad de optar por abrir una página mediante el navegador de texto o el navegador visual, descargar un archivo de Internet, manipularlo ejecutando un comando en el terminal y, por último, ver el resultado en el navegador visual. Todo esto es posible gracias a su computadora virtual, con la que es posible mantener el contexto necesario para ejecutar la tarea De este modo, el modelo está en condiciones de adaptar su enfoque para emprender las tareas con rapidez, precisión y eficacia.

El agente ChatGPT se diseñó para actuar en flujos de trabajo iterativos y colaborativos, de forma mucho más interactiva y flexible que los modelos anteriores. Una de sus ventajas es que puedes interrumpir a ChatGPT en cualquier punto del proceso, ya sea para clarificar tus instrucciones, orientarlo hacia los resultados deseados o hasta cambiarle la tarea por completo. Lo que hará es retomar la tarea donde la había dejado, con la información que le agregaste, pero sin perder el progreso anterior. Incluso, ChatGPT puede llegar a pedirte detalles cuando sea necesario para asegurarse de que la tarea se ajuste a tus objetivos. Si una tarea llegara a tomar más tiempo del previsto o pareciera estancada, puedes ponerla en pausa, pedirle a ChatGPT un resumen del progreso o detenerla por completo y recibir resultados parciales. Si en tu teléfono cuentas con la aplicación ChatGPT, al terminar tu tarea te enviará una notificación.

Mayor utilidad en el mundo real

Al unificarse, estas capacidades de acción autónoma mejoran ostensiblemente la utilidad de ChatGPT tanto en situaciones del día a día como en contextos profesionales. En el trabajo, por ejemplo, ahora puedes automatizar las tareas repetitivas, como convertir capturas de pantalla o cuadros de mando en presentaciones elaboradas con elementos vectoriales editables, reorganizar reuniones, planificar y reservar viajes y actualizar hojas de cálculo con nuevos datos financieros sin alterar el formato. Mientras tanto, en tu vida personal, puedes usarla para hacer planes y reservar itinerarios de viaje sin complicaciones, para organizar y reservar cenas familiares o para buscar un médico especialista y programar una cita con él.

El modelo presenta un rendimiento de vanguardia (SOTA) en pruebas en las que se miden las capacidades de navegación por Internet y de realización de tareas en el mundo real.

En la prueba Humanity’s Last Exam⁠(se abre en una nueva ventana)*, un estudio que pone a prueba la inteligencia artificial en una amplia gama de temas con preguntas de nivel experto, el modelo que impulsa CHATGPT alcanza un nuevo pass@1 SOTA de 41,6. El agente puede ejecutar la misma tarea de distintas maneras, puesto que elige sus propias herramientas y su planificación es dinámica. Cuando ampliamos la magnitud de la tarea con una simple estrategia de despliegue en paralelo, ejecutando hasta ocho intentos a la vez y eligiendo el de mayor confianza autodeclarada, la puntuación HLE del agente aumentó a 44,4.

FrontierMath** es la prueba de referencia en matemáticas más difícil que se conoce, en la que se plantean problemas novedosos e inéditos que con frecuencia los matemáticos expertos tardan horas o incluso días en resolver. El agente ChatGPT alcanza en ella una precisión del 27,4%, aventajando por un amplio margen a los dos modelos anteriores, con el uso de herramientas como el acceso al terminal para ejecutar código.

Al mismo tiempo, evaluamos el modelo a partir de pruebas de referencia basadas en tareas complejas del mundo real. Una prueba de referencia interna diseñada para evaluar el rendimiento del modelo en tareas de trabajo de conocimiento complejas y económicamente valiosas, arroja para el agente ChatGPT resultados comparables o mejores que los de los humanos en aproximadamente la mitad de los casos y en toda una gama de tiempos de finalización de tareas, superando asimismo de forma significativa a o3 y o4-mini. Un grupo de expertos coteja las salidas de los modelos tomando como referencia líneas de base humanas de alta calidad establecidas por los mejores profesionales de cada campo. Las tareas están a cargo de expertos de diversas profesiones e industrias y constituyen un reflejo del trabajo profesional real, como, por ejemplo, la preparación de un análisis competitivo de proveedores de atención de urgencias a la carta, la elaboración de calendarios de amortización detallados y la identificación de pozos de agua viables para la instalación de una nueva planta de hidrógeno ecológico.

En DSBench⁠(se abre en una nueva ventana), prueba diseñada para evaluar agentes a partir de tareas realistas de ciencia de datos que abarcan el análisis y el modelado de datos, el agente ChatGPT aventaja el rendimiento humano por un margen significativo.

En la prueba SpreadsheetBench, que evalúa los modelos por su capacidad para editar hojas de cálculo tomadas de escenarios reales, el agente ChatGPT supera con creces a los modelos existentes. Cuando al agente ChatGPT se le da la posibilidad de editar hojas de cálculo directamente, su puntuación es aún mejor, pues alcanza el 45,5 %, frente al 20,0 % de Copilot en Excel.

Metodología: Los autores de SpreadsheetBench evaluaron las hojas de cálculo con Microsoft Excel en entorno Windows. Nosotros usamos LibreOffice en un entorno OSX, lo que puede dar lugar a pequeñas diferencias de calificación. Por ejemplo, los autores encontraron un rechazo categórico general del 15,02 % para GPT‑4o y nosotros obtuvimos un 13,38 %. Usamos la prueba de referencia completa de 912 preguntas.

En una prueba de referencia interna destinada a medir la capacidad de un modelo para realizar tareas de modelado de analista de banca de inversión de primer a tercer año, como preparar un modelo financiero de tres estados para una empresa de la lista Fortune 500 con el formato y las citas adecuados, o desarrollar un modelo de compra de activos apalancados para una adquisición privada, el modelo en el que se basa el agente ChatGPT presenta un rendimiento significativamente superior al de la investigación a fondo y o3. Cada tarea recibe una nota en función de cientos de criterios de corrección y uso de fórmulas.

También evaluamos al agente ChatGPT por medio de BrowseComp⁠, una prueba de referencia que publicamos a principios de año y que mide la capacidad de los agentes de navegación para hallar en Internet información que puede resultar difícil de encontrar. El modelo estableció un nuevo SOTA con 68,9, superando a la investigación a fondo en 17,4 puntos porcentuales.

WebArena⁠(se abre en una nueva ventana), por último, es una prueba de referencia que evalúa el rendimiento de los agentes de navegación web a la hora de completar tareas web del mundo . En ella, el modelo mejora a CUA, que funciona con o3 (el modelo que utiliza Operator).

Cómo se usa

Las nuevas capacidades autónomas del agente ChatGPT se pueden activar directamente a través del menú desplegable de herramientas del redactor. Solo tienes que seleccionar “modo Agent” en cualquier momento de la conversación. Basta con que describas la tarea que quieres realizar, como hacer una investigación a fondo, crear una presentación de diapositivas o justificar gastos. A medida que va ejecutando la tarea, una narración en pantalla te permite saber exactamente qué está haciendo ChatGPT. Esto te permite interrumpir el proceso y tomar el control del navegador cada vez que lo necesites, para asegurarte de que las tareas siempre sean coherentes con tus objetivos.

El agente ChatGPT puede acceder a tus conectores para integrarse con tus flujos de trabajo y acceder a información de interés y procesable. Una vez autenticados, estos conectores le permiten a ChatGPT ver información y hacer cosas como elaborar un resumen de tu bandeja de entrada del día o encontrar las franjas horarias en las que estás libre para una reunión. Sin embargo, para actuar en estos sitios, te pedirá que inicies sesión en ellos cuando tome el control del navegador.

Tú, además, puedes configurar las tareas completadas para que se repitan periódicamente de forma automática, como, por ejemplo, generar un informe semanal de métricas todos los lunes por la mañana.

Capacidades nuevas, riesgos nuevos

Esta es la primera versión en la que los usuarios pueden pedirle a ChatGPT que ejecute acciones en la web. Es verdad que esto implica la posibilidad de correr riesgos nuevos, pues el agente ChatGPT puede trabajar directamente con tus datos, ya sea información a la que hayas accedido mediante conectores o sitios web en los que hayas iniciado sesión a través del modo de control. Esto nos lleva a reforzar los ya sólidos controles de la vista previa de investigación de Operator y a añadir salvaguardas para hacer frente a desafíos como la manipulación de información sensible por Internet en tiempo real, el mayor alcance de los usuarios y el acceso (limitado) a la red de terminales. Sin embargo, por más que estas medidas de mitigación reduzcan significativamente el riesgo, las herramientas ampliadas del agente ChatGPT y su mayor alcance entre los usuarios hacen que su perfil de riesgo general resulte más alto.

Por lo tanto, la protección del agente ChatGPT contra la manipulación malintencionada a través de la inyección de mensajes, lo que suele suponer un riesgo para los sistemas autónomos en general, recibió particular atención y fue objeto de amplias medidas de mitigación. Las inyecciones de mensajes son intentos de terceros de manipular el comportamiento del agente ChatGPT mediante instrucciones maliciosas que el agente puede encontrar en la web mientras ejecuta una tarea. Por ejemplo, con un mensaje malintencionado oculto en los elementos invisibles o los metadatos de una página web, se podría engañar al agente para que realice acciones no deseadas, como compartir datos privados de un conector con el atacante o emprender una acción dañina en un sitio en el que el usuario haya iniciado sesión. Como el agente ChatGPT puede emprender acciones directas, si los ataques tuvieran éxito podrían alcanzar mayor repercusión y plantear mayores riesgos.

Para prevenirlo, entrenamos y probamos al agente para que identifique y resista las inyecciones inmediatas. Además, recurrimos al monitoreo constante para detectar y responder rápidamente a los ataques de inyecciones de mensajes. El hecho de que antes de realizar acciones que puedan tener consecuencias se solicite la confirmación explícita del usuario de forma obligatoria reduce aún más el riesgo de sufrir daños a causa de estos ataques y los usuarios tienen la posibilidad de intervenir en las tareas según sea necesario, haciéndose cargo de ellas o poniéndolas en pausa. En el momento de decidir qué información se le va a proporcionar al agente, los usuarios deben tener en cuenta estas ventajas e inconvenientes y tomar medidas para minimizar su exposición a estos riesgos, como, por ejemplo, desactivar los conectores cuando no sean necesarios para una determinada tarea.

Por otra parte, también adoptamos medidas para mitigar los errores del modelo, ya que ahora puede realizar tareas que repercuten en el mundo real:

Confirmación explícita del usuario: Entrenamos a ChatGPT para que te pida permiso de forma explícita antes de realizar cualquier acción que pueda tener consecuencias en el mundo real, como hacer una compra.
Supervisión activa (“Modo de observación”): Ciertas tareas clave, como el envío de correos electrónicos, requerirán tu supervisión activa.
Mitigación proactiva de riesgos: ChatGPT está entrenado para rechazar expresamente las tareas que impliquen un alto riesgo, como las transacciones bancarias.

Además, incorporamos controles adicionales que limitan el acceso del modelo a los datos:

Controles de privacidad: Con tan solo hacer clic en la configuración de ChatGPT, puedes eliminar todos los datos de navegación y cerrar de forma inmediata todas las sesiones activas del sitio web. Las cookies permanecen activas según las políticas de cada sitio web, lo que permite que las visitas repetidas sean más eficientes.
Modo de control del navegador seguro: Cuando interactúas con la web usando el navegador de ChatGPT (“modo de control”), tus entradas siguen siendo privadas. ChatGPT no va a recopilar ni almacenar ningún dato que introduzcas durante estas sesiones, como las contraseñas, porque el modelo no los necesita y porque es más seguro que nunca los vea.

Nuestra protección más avanzada para mitigar riesgos biológicos

Para ser coherentes con nuestro Marco de preparación⁠, decidimos considerar al agente ChatGPT como una herramienta con capacidades biológicas y químicas de alto nivel, activando así las medidas de seguridad correspondientes. Como aún no tenemos pruebas definitivas de que el modelo pueda ayudar a un novato a causar un daño biológico grave, nuestro umbral de alta capacidad, preferimos actuar con cautela y adoptar desde ya las precauciones necesarias. Como resultado, este modelo incorpora el dispositivo de seguridad para riegos biológicos más completo hasta la fecha, que abarca: análisis exhaustivo de amenazas, entrenamiento para rechazar aplicaciones duales, clasificadores y monitores de razonamiento en tiempo real, así como mecanismos de control efectivos.

Más allá de nuestro trabajo en la seguridad del agente ChatGPT, entendemos que la bioseguridad es más sólida cuando las salvaguardas no se limitan a un laboratorio aislado, por lo que preferimos extender nuestra colaboración a todo el ecosistema con miras a fortalecer nuestras defensas. Expertos externos en bioseguridad, institutos de seguridad e investigadores académicos colaboran con nosotros desde el inicio de nuestra actividad para dar forma tanto a nuestro modelo de amenazas como a nuestras evaluaciones y políticas. Los datos de evaluación se sometieron a la validación de revisores expertos en biología, y los miembros del equipo rojo, especializados en la materia, pusieron a prueba las medidas de seguridad en situaciones totalmente realistas. En los primeros días de este mes, organizamos un taller sobre biodefensa con expertos de gobiernos, universidades, laboratorios nacionales y ONG con el objetivo de intensificar la colaboración mutua y avanzar en la investigación sobre biodefensa basada en IA. Y para adelantarnos a los riesgos emergentes, seguiremos estableciendo distintas colaboraciones a nivel mundial.

Obtén más información sobre nuestro sólido enfoque de la seguridad para el modelo unificado de agente en la tarjeta del sistema⁠. Además, estamos lanzando un programa de recompensas por la detección de errores⁠ que nos permitirá detectar y combatir los riesgos del mundo real.

Disponibilidad

A partir de hoy, el agente ChatGPT comienza su despliegue para los usuarios Pro, Plus y Team. En el caso de los usuarios Pro, el acceso estará disponible a última hora del día, mientras que en el de los usuarios Plus y Team se producirá en pocos días más. En las próximas semanas el acceso se extenderá a los usuarios Enterprise y Education. Los usuarios Pro cuentan con 400 mensajes al mes, mientras que otros usuarios de pago disponen solamente de 40 mensajes al mes, con opciones de uso adicional basadas en créditos flexibles.

Aún estamos trabajando para facilitarles el acceso a los usuarios del Espacio Económico Europeo y Suiza.

El sitio de vista previa de la investigación de Operator seguirá funcionando unas semanas más, luego de las cuales se cerrará. El agente ChatGPT ya dispone de la capacidad de investigación a fondo. Si, de todos modos, prefieres la funcionalidad original de investigación a fondo, que puede tomar más tiempo para ejecutarse, pero, a la vez, brinda de forma predeterminada respuestas más detalladas y en profundidad, puedes acceder a ella seleccionando “investigación a fondo” en el menú desplegable del redactor de mensajes.

Limitaciones y perspectivas

El agente ChatGPT aún se encuentra en sus primeras etapas. Es decir, es capaz de asumir una serie de tareas complejas, pero todavía puede cometer errores.

Su capacidad para generar presentaciones de diapositivas, por ejemplo, nos parece muy prometedora, pero por el momento se encuentra en fase beta. Por ahora, sus salidas pueden parecer poco sofisticadas en términos de formato y refinamiento, sobre todo cuando se parte de un documento ya existente. Lo que hicimos fue focalizar las capacidades iniciales del modelo en la generación de artefactos que organicen la información en un flujo y un formato adecuados para las presentaciones, con elementos como texto, gráficos e imágenes compuestos por vectores que se puedan editar de forma nativa y sencilla después de exportarlos, optimizando su estructura y flexibilidad. Actualmente, estamos trabajando para reducir las discrepancias ocasionales que existen entre las diapositivas del visor y el archivo PowerPoint que se exporta. Además, si bien ya puedes subir una hoja de cálculo existente para que ChatGPT la edite o la utilice como plantilla, esta función aún no está disponible para las presentaciones de diapositivas. En estos momentos, nos estamos dedicando a entrenar a la próxima versión de la creación de presentaciones de diapositivas de ChatGPT para que produzca resultados más refinados y sofisticados, con mayores capacidades y un formato mejorado.

De forma general, con el tiempo esperamos seguir introduciendo mejoras, tanto en la eficacia, como en la profundidad y la versatilidad del agente ChatGPT. Esto incluirá interacciones más fluidas, ya que seguimos adecuando el nivel de supervisión obligatoria del usuario para hacerlo más útil y, al mismo tiempo, seguro de usar.

Apéndice

SpreadsheetBench
Modelo	Entorno de evaluación	Rechazo suave (%): Nivel celular	Rechazo suave (%): Nivel de hoja	Rechazo suave (%): General
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot en Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Agente ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Agente ChatGPT con .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Humano		75,56	65,00	71,33

Retransmisión en directo

Autor

OpenAI

Notas al pie

* Cuando se activa la navegación, el modelo puede a veces encontrar respuestas exactas en Internet, por ejemplo, si lee artículos de un blog con ejemplos de problemas de una base de datos. Para mitigar el riesgo de que el modelo haga trampas durante la navegación, recurrimos a dos estrategias:

1. Bloqueamos los dominios en los que observamos que el modelo hacía trampa.

2. Para analizar todos los tokens de salida de la herramienta y detectar comportamientos sospechosos, utilizamos un modelo adicional como supervisor. Un comportamiento sospechoso es “una página, archivo o fragmento cuyo propósito principal es proporcionar la respuesta exacta a una pregunta específica; por ejemplo, una clave de calificación oficial, una lista de “soluciones” filtrada o un debate en el con la cita textual de la respuesta completa”. En cambio, definimos comportamiento benigno como: “cualquier fuente fidedigna que un humano diligente pueda consultar (documentación, manuales, trabajos académicos, artículos de renombre, entre otros) aunque casualmente contenga la respuesta correcta”. Todo caso en el que el supervisor considere que la implementación es sospechosa se cuenta como incorrecto. La mayor parte de las muestras que presentaron fallos en esta comprobación eran problemas cuya solución exacta estaba disponible en múltiples fuentes de Internet que no estaban relacionadas con HLE.

**OpenAI tiene acceso exclusivo a 237 de las 290 preguntas privadas del conjunto de datos de nivel 1-3. Esta evaluación no incluye las preguntas del nivel 4 de FrontierMath. Los resultados se evaluaron como la media de 16 intentos de respuesta a cada pregunta. OpenAI obtiene los resultados de los agentes de ChatGPT, que se someten a la calificación de Epoch AI, con acceso mediante navegador y terminal y un límite de 128.000 tokens por respuesta. Epoch AI se encarga de evaluar y calificar a OpenAI o4-mini y o3, sin utilizar navegador ni terminal, utilizando secuencias de comandos python mediante llamadas a funciones y con un límite de 100.000 tokens por respuesta.

*** Oracle@64 hace referencia a la mejor puntuación obtenida en 64 intentos seleccionados en función del resultado real (es decir, elegimos el intento con la puntuación más alta para cada tarea basándonos en el rendimiento calificado real). Por cada una de las tareas, indicamos la media de las mejores puntuaciones. Esta métrica resalta el potencial del límite máximo del modelo y la variabilidad en el rendimiento de la tarea, mostrando lo capaz que puede ser el modelo cuando tiene éxito e indicando que hay margen para mejorar la coherencia con un mayor entrenamiento. A diferencia de las típicas métricas “mejor de N”, que se basan en la confianza del modelo, oracle@64 recurre a resultados reales para su selección y los aplica a tareas calificadas en una escala continua de 0 a 1 en lugar de la escala binaria de aprobado/reprobado.