17 de julio de 2025

Presentamos el agente ChatGPT: un puente entre la investigación y la acción

ChatGPT ahora piensa y decide, seleccionando por sí mismo herramientas autónomas de su repertorio para realizar tareas por ti con su propio ordenador.

Pruébalo en ChatGPT

Cargando…

ChatGPT ahora puede trabajar por ti usando su propio ordenador, gestionando tareas complejas de principio a fin.

Pídele a ChatGPT que gestione solicitudes como por ejemplo «consulta mi calendario y prepárame un resumen para las próximas reuniones con clientes según las últimas noticias», «planifica un desayuno de estilo japonés para cuatro personas y compra los ingredientes necesarios» o «analiza a tres competidores y crea una presentación». Navegará por páginas web de forma inteligente, filtrará resultados, te pedirá iniciar sesión de forma segura si es necesario, ejecutará código, realizará análisis y generará entregables pulidos y editables, como presentaciones y hojas de cálculo, que resuman las conclusiones.

Esta nueva capacidad se basa en un sistema autónomo integrado y coherente. Aúna tres de los puntos fuertes de las versiones anteriores: la habilidad de Operator⁠ para interactuar con páginas web, la capacidad de investigación en profundidad⁠ para resumir información y la inteligencia y la naturalidad de expresión de ChatGPT.

ChatGPT lleva a cabo estas tareas empleando su propio ordenador virtual, cambiando rápidamente entre las capacidades de razonamiento y las de ejecución, lo que le permite gestionar flujos de trabajo complejos de principio a fin, siguiendo tus indicaciones.

Lo más importante: siempre tienes el control. ChatGPT solicita permiso antes de realizar acciones importantes, y puedes interrumpir, tomar el control del navegador o detener tareas en cualquier punto.

A partir de hoy, los usuarios de Pro, Plus y Team pueden activar las nuevas capacidades del agente de ChatGPT directamente desde el menú de herramientas del editor, seleccionando el «modo agente» en cualquier momento de la conversación.

Si bien el agente ChatGPT ya es capaz de asumir tareas complejas eficazmente, el lanzamiento de hoy marca el inicio de lo que está por venir. Iremos añadiendo mejoras significativas de manera progresiva, para que sea cada vez más potente y útil para más personas.

Una evolución natural de Operator y la investigación profunda.

Hasta ahora, Operator y la investigación en profundidad aportaban capacidades distintas: Operator podía desplazarse, hacer clic y escribir en la web, mientras que la investigación en profundidad destacaba en el análisis y la síntesis de información. Pero funcionaban mejor en situaciones distintas: Operator no podía profundizar en el análisis ni redactar informes detallados, y la investigación en profundidad no podía interactuar con sitios web para afinar resultados o acceder a contenido que requería autenticación de usuario. De hecho, observamos que muchas de las consultas que los usuarios intentaban con Operator encajaban mejor con la investigación en profundidad, así que hemos combinado lo mejor de ambas.

Al integrar estas capacidades complementarias en ChatGPT e incorporar nuevas herramientas, hemos desbloqueado funciones completamente nuevas dentro de un único modelo. Ahora puede interactuar activamente con sitios web; haciendo clic, aplicando filtros y obteniendo resultados más precisos y eficaces. También puedes pasar de forma natural de una simple conversación a solicitar acciones directamente dentro del mismo chat.

Un agente que trabaja por ti, contigo

Hemos equipado al agente de ChatGPT con una extensa colección de herramientas: un navegador visual que interactúa con la web mediante una interfaz gráfica de usuario, un navegador basado en texto para consultas web sencillas basadas en razonamiento, un terminal y acceso directo a API. El agente también puede utilizar los conectores de ChatGPT⁠(se abre en una ventana nueva), que permiten conectar aplicaciones como Gmail o GitHub, para encontrar información relevante según tus indicaciones e integrarla en sus respuestas. También puedes tomar el control del navegador e iniciar sesión en cualquier página web, con lo que podrá profundizar y ampliar tanto en la investigación como en la ejecución de tareas. Dotar a ChatGPT de estas diferentes vías para acceder e interactuar con información web le permite elegir la ruta óptima para ejecutar tareas con la mayor eficiencia posible. Puede, por ejemplo, acceder a tu calendario mediante una API, procesar eficientemente grandes cantidades de texto con el navegador basado en texto y, al mismo tiempo, interactuar de forma visual con páginas diseñadas para personas.

Todo esto lo hace utilizando su propio ordenador virtual, que conserva el contexto necesario para cada tarea, incluso cuando se usan varias herramientas. El modelo puede, por ejemplo, abrir una página con el navegador de texto o el visual, descargar un archivo de la web, manipularlo ejecutando un comando en el terminal y ver el resultado de nuevo en el navegador visual. El modelo adapta su forma de actuar para llevar a cabo las tareas con rapidez, precisión y eficiencia.

El agente de ChatGPT está diseñado para flujos de trabajo colaborativos e iterativos: mucho más interactivos y flexibles que los de modelos anteriores. Mientras ChatGPT trabaja, puedes interrumpir en cualquier momento para aclarar instrucciones, redirigir la tarea o cambiarla por completo. Retomará la tarea donde la dejó, ahora con la nueva información, pero sin perder el progreso anterior. Del mismo modo, el propio ChatGPT puede solicitar activamente más detalles cuando es necesario, para asegurarse de que la tarea siga alineada con tus objetivos. Si una tarea lleva más tiempo del previsto o se queda atascada, puedes pausarla, pedir un resumen del progreso o detenerla por completo y recibir resultados parciales. Si tienes la aplicación de ChatGPT en el móvil, recibirás una notificación cuando termine la tarea.

Ampliando la utilidad en el mundo real

Estas capacidades unificadas convierten al agente de ChatGPT en una herramienta mucho más útil tanto en contextos cotidianos como profesionales. En el trabajo puedes automatizar tareas repetitivas como convertir capturas de pantalla o paneles de control en presentaciones con elementos vectoriales editables, reorganizar reuniones, planificar eventos fuera de la oficina o actualizar hojas de cálculo con nuevos datos financieros manteniendo el formato original. En tu vida personal puedes usarlo para planificar y reservar viajes fácilmente, organizar cenas completas o encontrar especialistas y programar citas.

Las capacidades avanzadas del modelo se reflejan en el rendimiento de referencia (SOTA) en evaluaciones que miden la navegación web y la ejecución de tareas en entornos reales.

En Humanity’s Last Exam⁠(se abre en una ventana nueva)* (El último examen de la humanidad), una evaluación que mide el rendimiento de la IA en una amplia variedad de materias con preguntas de nivel experto, el modelo que impulsa al agente de ChatGPT ha logrado una nueva puntuación de pass@1 SOTA de 41,6. Dado que el agente genera planes dinámicos y selecciona sus herramientas de forma autónoma, es capaz de resolver una misma tarea de una forma distinta en cada intento. Al escalar mediante una estrategia simple de ejecución paralela (lanzando hasta ocho intentos simultáneos y seleccionando el que mostraba mayor confianza según su propia estimación), la puntuación del agente en el HLE alcanzó un 44,4.

FrontierMath** es la prueba comparativa matemática más exigente hasta la fecha. Incluye problemas originales no publicados previamente que, con frecuencia, suponen un reto incluso para expertos, llegando a requerir horas o días de trabajo para resolverlos. Con el uso de herramientas, como el acceso a un terminal para ejecutar código, el agente de ChatGPT alcanza una precisión del 27,4 %, superando con creces a los modelos anteriores.

También hemos puesto a prueba el modelo con pruebas diseñadas a partir de tareas complejas del mundo real. En una prueba comparativa interna diseñada para evaluar el rendimiento del modelo en tareas complejas de alto valor económico que implican conocimientos valiosos en el ámbito laboral, el agente de ChatGPT ofrece resultados comparables o superiores a los de los humanos en aproximadamente la mitad de los casos, con distintos tiempos de resolución, y supera claramente a los modelos o3 y o4-mini. Las respuestas del modelo las revisan expertos y se comparan con referencias humanas de alta calidad, elaboradas por los mejores profesionales de cada disciplina. Estas tareas, proporcionadas por expertos de distintas profesiones y sectores, reflejan trabajos reales del entorno profesional, como elaborar un análisis competitivo de proveedores de atención urgente a demanda, crear calendarios de amortización detallados o identificar pozos de agua viables para una nueva planta de hidrógeno verde.

En DSBench⁠(se abre en una ventana nueva), un conjunto de pruebas diseñado para evaluar agentes en tareas realistas de ciencia de datos que abarcan análisis y modelado, el agente de ChatGPT supera ampliamente el rendimiento humano con un margen significativo.

En SpreadsheetBench, una prueba que evalúa la capacidad de los modelos para editar hojas de cálculo extraídas de situaciones reales, el agente de ChatGPT obtiene resultados muy superiores a los de modelos anteriores. Cuando se le permite editar directamente hojas de cálculo, el agente de ChatGPT obtiene resultados aún mejores, con un 45,5 %, en comparación con el 20 % de Copilot en Excel.

Metodología: Los autores de SpreadsheetBench utilizaron un entorno Windows con Microsoft Excel para evaluar hojas de cálculo. Nosotros usamos un entorno OSX y LibreOffice, lo que puede causar ligeras diferencias en la evaluación. Por ejemplo, los autores detectaron una restricción global estricta del 15,02 % en GPT‑4o, mientras que nosotros obtuvimos un 13,38 %. Hemos empleado la prueba comparativa de 912 preguntas al completo.

En una prueba interna que mide la capacidad del modelo para realizar tareas propias de un analista de banca de inversión de primer a tercer año, como elaborar un modelo financiero de tres estados para una empresa del Fortune 500 con formato y citas correctas, o construir un modelo de compra apalancada para una salida a bolsa privada, el modelo que impulsa al agente de ChatGPT supera ampliamente tanto a investigación en profundidad como a o3. Cada tarea se puntúa con base en cientos de criterios relacionados con la exactitud y el uso adecuado de fórmulas.

También evaluamos al agente de ChatGPT en BrowseComp⁠, una prueba que publicamos este año para medir la capacidad de los agentes para localizar información difícil de encontrar en la web. El modelo establece un nuevo récord con una puntuación de 68,9 %, superando por 17,4 puntos porcentuales a investigación en profundidad.

Por último, en WebArena⁠(se abre en una ventana nueva), una prueba diseñada para evaluar el rendimiento de agentes de navegación web en tareas reales, el modelo mejora respecto al CUA con tecnología o3 (el modelo que impulsaba a Operator).

Cómo funciona

Puedes activar las nuevas capacidades del agente de ChatGPT directamente desde el menú de herramientas del editor, seleccionando el «modo agente» en cualquier momento de la conversación. Solo tienes que describir la tarea que quieres realizar, ya sea realizar una investigación en profundidad, crear una presentación o enviar gastos. Mientras realiza la tarea, una narración en pantalla muestra exactamente qué está haciendo ChatGPT. Puedes interrumpir y tomar el control del navegador cuando lo necesites, asegurando que las tareas sigan alineadas con tus objetivos.

El agente de ChatGPT puede acceder a tus conectores, lo que le permite integrarse con tus flujos de trabajo y acceder a información relevante y procesable. Una vez autenticados, estos conectores permiten a ChatGPT ver información y, por ejemplo, resumir tu bandeja de entrada del día o encontrar huecos libres para reuniones en función de tus franjas horarias disponibles. Sin embargo, para actuar con estas páginas, se te pedirá que tomes el control del navegador e inicies sesión.

Además, puedes programar que las tareas completadas se repitan automáticamente, por ejemplo, generando un informe semanal de métricas cada lunes por la mañana.

Nuevas capacidades, nuevos riesgos

Esta versión marca la primera vez que los usuarios pueden pedir a ChatGPT que realice acciones en la web. Esto implica nuevos riesgos, sobre todo porque el agente de ChatGPT puede usar directamente tus datos, tanto los que obtiene mediante los conectores como los de los sitios web en los que has iniciado sesión a través del modo de control. Partiendo de los rigurosos controles ya existentes en la previsualización de investigación de Operator, hemos añadido nuevas medidas de seguridad para proteger mejor frente a riesgos como el tratamiento de datos sensibles en la web, el aumento del número de usuarios y el acceso (limitado) a la red desde el terminal. Si bien estas mitigaciones disminuyen considerablemente los riesgos, la expansión de las herramientas del agente de ChatGPT y su disponibilidad para un público más amplio incrementan el perfil de riesgo general.

Hemos hecho especial hincapié en proteger al agente de ChatGPT frente a manipulaciones maliciosas mediante inyección de indicaciones, (o «prompt injection», en inglés) un riesgo común en los sistemas con capacidades autónomas, y por ello hemos implementado medidas de mitigación más amplias. Estas inyecciones de indicaciones son intentos de terceros de manipular el comportamiento del agente de ChatGPT mediante instrucciones maliciosas que puede encontrar en la web mientras lleva a cabo una tarea. Por ejemplo, una indicación maliciosa oculta en una página web (en los elementos invisibles o metadatos) podría engañar al agente y hacer que efectúe acciones no deseadas, como compartir con un atacante datos privados obtenidos a través de un conector, o llevar a cabo una acción perjudicial en una página en la que el usuario haya iniciado sesión. Como el agente de ChatGPT puede actuar de forma autónoma, los ataques que logran comprometerlo pueden tener graves consecuencias y aumentar el nivel de riesgo.

Hemos entrenado y probado al agente para que identifique y resista inyecciones de indicaciones, y también hemos implementado sistemas de monitorización que permiten detectar y responder rápidamente a este tipo de ataques. Además, el hecho de exigir una confirmación explícita del usuario antes de ejecutar acciones importantes reduce aún más el riesgo de que se produzcan daños, y los usuarios pueden intervenir en las tareas según lo necesiten, haciéndose con el control o pausándolas. Los usuarios deben sopesar estos riesgos cuando decidan qué información proporcionar al agente y tomar medidas para minimizar su exposición, como por ejemplo desactivar los conectores cuando no sean necesarios para una tarea.

También hemos implantado mitigaciones centradas en los errores del modelo, especialmente ahora que puede llevar a cabo tareas con impacto en el mundo real:

Confirmación explícita del usuario: se ha entrenado a ChatGPT para pedir tu permiso de forma explícita antes de llevar a cabo acciones que puedan acarrear consecuencias en el mundo real, como hacer una compra.
Supervisión activa («Modo observación»): ciertas tareas fundamentales, como enviar correos electrónicos, requieren de la supervisión activa del usuario.
Mitigación proactiva de riesgos: se ha entrenado a ChatGPT para negarse de forma activa a efectuar tareas con un alto nivel de riesgo, como realizar transferencias bancarias.

Por último, hemos incorporado controles adicionales para limitar los datos a los que el modelo puede acceder.

Controles de privacidad: Con un solo clic en los ajustes de ChatGPT, puedes borrar todos los datos de navegación y cerrar sesión en todas las webs activas. De lo contrario, las cookies permanecen activas conforme a las políticas de cada página web, lo que puede optimizar el rendimiento en visitas posteriores.
Modo seguro de control del navegador: cuando interactúas directamente con la web mediante el navegador de ChatGPT («modo de control»), tu información permanece privada. ChatGPT no recopila ni almacena ningún dato que introduzcas durante estas sesiones, como por ejemplo contraseñas, porque el modelo no los necesita y es más seguro que no tenga acceso a ellas.

El sistema de seguridad más sólido hasta ahora frente a riesgos biológicos

Ante la mejora de las capacidades del modelo, hemos optado por tratar al agente de ChatGPT como una herramienta con altas capacidades en los ámbitos de biología y química, conforme a nuestro marco de preparación⁠, activando así las medidas de seguridad asociadas. Aunque no tenemos pruebas concluyentes de que este modelo pueda ayudar de forma significativa a una persona sin conocimientos a causar daño biológico grave (lo que se consideraría «Alta capacidad» según nuestro umbral), hemos optado por ser cautelosos e implementar ya las medidas de seguridad necesarias. Así pues, este modelo cuenta con nuestras medidas de seguridad más completas hasta la fecha, con protecciones optimizadas para riesgos en el campo de la biología: modelado de amenazas exhaustivo, entrenamiento para rechazar usos duales, clasificadores y sistemas de razonamiento activos de forma permanente, y protocolos de control bien definidos.

Además de nuestro trabajo para proteger al agente de ChatGPT, entendemos que la bioseguridad funciona mejor cuando las medidas de protección no dependen únicamente de lo que pasa en un solo laboratorio, por lo que colaboramos con todo el ecosistema para reforzar las defensas. Desde el primer día, hemos trabajado con profesionales expertos en bioseguridad, institutos de seguridad e investigadores académicos para definir nuestro modelo de amenazas, nuestras evaluaciones y nuestras políticas. Revisores con formación en biología validaron los datos de evaluación, y especialistas en equipo rojo y en la materia pusieron a prueba nuestras medidas de seguridad en escenarios realistas. A principios de este mes organizamos un taller sobre biodefensa con expertos del ámbito gubernamental, académico, laboratorios nacionales y ONG, con el objetivo de acelerar la colaboración y avanzar en la investigación en biodefensa impulsada por IA. Nuestro compromiso es seguir colaborando internacionalmente para adelantarnos a los riesgos que puedan surgir.

Lee más sobre nuestro sólido enfoque de seguridad para el modelo autónomo unificado en la tarjeta del sistema⁠. También hemos lanzado un programa de recompensas por la detección de errores⁠ para conseguir encontrar y corregir riesgos reales.

Disponibilidad

El agente de ChatGPT empieza a estar disponible hoy para los usuarios Pro, Plus y Team. Además, los usuarios Pro tendrán acceso antes de que acabe el día, mientras que los de Plus y Team podrán acceder en los próximos días. Los usuarios de Enterprise y Education tendrán acceso en las próximas semanas. Los usuarios Pro tienen 400 mensajes al mes; el resto de usuarios de pago dispone de 40 mensajes mensuales, con opciones de uso adicionales mediante créditos.

Seguimos trabajando para habilitar el acceso en el Espacio Económico Europeo y Suiza.

La página de previsualización de investigación de Operator seguirá funcionando durante algunas semanas, tras las cuales se retirará. Investigación en profundidad sigue siendo una función integrada del agente de ChatGPT. Si prefieres usar la función original de investigación en profundidad (más lenta pero con respuestas más detalladas de forma predeterminada), puedes hacerlo seleccionando «investigación en profundidad» en el menú desplegable del redactor de mensajes.

Limitaciones y futuro

El agente de ChatGPT sigue estando en una fase inicial: puede encargarse de tareas complejas, pero todavía puede cometer errores.

Aunque vemos un gran potencial en su capacidad para generar presentaciones, esta función se encuentra actualmente en fase beta. Por el momento, los resultados pueden parecer algo básicos en cuanto a formato y acabado, especialmente si se parte de cero, sin un documento previo. Las primeras funciones del modelo están centradas en generar presentaciones que organicen la información de forma estructurada y flexible, con elementos como texto, gráficos o imágenes y formas fácilmente editables de forma nativa después de la exportación. Actualmente, aún se dan algunas discrepancias entre las diapositivas que se ven en el visor y el archivo exportado en PowerPoint, un aspecto que estamos tratando de corregir. Actualmente puedes subir una hoja de cálculo para que ChatGPT la edite o use como plantilla, pero esta función aún no está disponible para presentaciones. Ya estamos entrenando la próxima iteración de la creación de presentaciones con ChatGPT, con resultados más pulidos, sofisticados, mejor formato y más opciones.

En general, esperamos que el agente de ChatGPT siga mejorando con el tiempo en eficiencia, profundidad y versatilidad, con interacciones cada vez más fluidas a medida que ajustamos el nivel de supervisión necesario por parte del usuario para hacerlo más útil sin comprometer la seguridad.

Anexo

SpreadsheetBench
Modelo	Entorno de evaluación	Restricción leve (%): Nivel de celda	Restricción leve (%): Nivel de hoja	Restricción leve (%): Global
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot en Excel	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
Agente de ChatGPT	OSX, LibreOffice	38.27	30.48	35.27
Agente de ChatGPT con .xlsx	OSX, LibreOffice	50.56	37.51	45.54
Humano		75.56	65.00	71,33

Retransmisión del directo

Autor

OpenAI

Notas al pie

* Cuando se habilita la navegación, en ocasiones, el modelo puede encontrar respuestas exactas online. Por ejemplo, si lee las publicaciones de un blog con ejemplos de problemas de un conjunto de datos. Para que el modelo no haga trampa durante la navegación, utilizamos dos estrategias:

1. Bloqueamos los dominios en los que hemos observado que el modelo hacía trampas anteriormente.

2. Usamos un modelo adicional como supervisor para examinar todos los tókenes de salida de cada intento para identificar comportamientos sospechosos. En este caso, el comportamiento sospechoso se define como «una página, archivo o fragmento cuyo propósito principal sea proporcionar la respuesta exacta a esta pregunta específica. Por ejemplo, una clave de clasificación oficial, una lista de “soluciones” filtrada o una discusión que cite textualmente una respuesta completa». El comportamiento benigno, por su parte, se define como «cualquier recurso con autoridad que un humano diligente pueda consultar (documentación, manuales, trabajos académicos, artículos de renombre, etc.) aunque, por casualidad, contenga la respuesta correcta». Se consideran incorrectos todos los intentos en los que el supervisor consideró que la implementación era sospechosa. La mayoría de los ejemplos que no superaron esta revisión eran problemas cuya solución exacta estaba disponible en varias fuentes de internet no relacionadas con HLE.

**OpenAI tiene acceso en exclusiva a 237 de las 290 preguntas privadas del conjunto de datos de los niveles 1-3. Las preguntas del nivel 4 de FrontierMath no están incluidas en esta evaluación. Se hicieron 16 intentos por pregunta y se usó el promedio para evaluar los resultados. Los resultados del agente de ChatGPT fueron generados por OpenAI, calificados por Epoch AI, con acceso al navegador y al terminal, y con un límite de 128 000 tókenes por respuesta. Epoch AI también generó y corrigió las respuestas de los modelos o4-mini y o3 de OpenAI, aunque estos modelos no tenían acceso ni al navegador ni al terminal, y usaron scripts de Python a través de la llamada a funciones, con un límite de 100 000 tókenes por respuesta.

*** Oracle@64 hace referencia a la puntuación más alta lograda entre 64 ejecuciones, seleccionada a partir de la respuesta verdadera (es decir, seleccionando el intento con mejor puntuación según la clasificación del rendimiento real). Mostramos la media de las mejores puntuaciones por tarea, calculada sobre el total de tareas. Esta métrica indica el potencial máximo del modelo y la variabilidad en su rendimiento, revelando hasta dónde puede llegar cuando acierta y señalando el margen de mejora de la consistencia mediante un entrenamiento adicional. A diferencia de las métricas habituales de «mejor de N», que seleccionan según la confianza del modelo, Oracle@64 se basa en la respuesta verdadera («ground truth» en inglés) para elegir el mejor intento, que se aplica a las tareas evaluadas en una escala de 0 a 1 según el grado de acierto, en lugar de un criterio binario (o aprobado o suspenso).