23 de enero de 2025

Agente informático

Operator y el impulso de un agente informático, una interfaz universal para que la IA interactúe con el mundo digital.

Cargando...

Hoy presentamos una vista previa de investigación de Operator⁠(se abre en una nueva ventana), un agente que puede acceder a la web para realizar tareas en tu lugar. El impulso detrás de Operator proviene de un agente informático (CUA), un modelo que combina las capacidades de visión de GPT‑4o con el razonamiento avanzado a través del aprendizaje por refuerzo. El CUA está entrenado para interactuar con interfaces gráficas de usuario (GUI), es decir, con los botones, menús y campos de texto que se ven en una pantalla, del mismo modo que lo hacen los humanos. Esto le da la flexibilidad necesaria para realizar tareas digitales sin utilizar API específicas del sistema operativo o de la web.

El CUA se basa en años de investigación fundacional acerca de la confluencia de la comprensión y el razonamiento multimodales. Su avanzada percepción de la GUI combinada con la resolución estructurada de problemas le permite dividir las tareas en planes de varios pasos y autocorregirse de forma adaptativa cuando surge algún problema. Esta capacidad es un nuevo paso en el desarrollo de la IA, ya que permite que los modelos utilicen las mismas herramientas que los humanos y les abre las puertas a una amplia gama de nuevas aplicaciones.

Si bien el CUA es aún algo reciente y tiene limitaciones, es verdad que ha logrado establecer nuevos resultados de referencia, con un 38,1 % de aciertos en OSWorld para tareas de uso completo de la computadora, así como un 58,1 % en WebArena y un 87 % en WebVoyager para tareas basadas en la web. Estos resultados ponen de relieve la capacidad de CUA para navegar y operar en diversos entornos valiéndose de un único espacio de acción general.

Desarrollamos el CUA teniendo a la seguridad como máxima prioridad, con el afán de hacer frente a los retos que implica el acceso de un agente al mundo digital, tal y como se detalla en nuestra Tarjeta de sistema de Operator. Para comenzar, y fieles a nuestra estrategia de despliegue iterativo, estamos lanzando el CUA a través de una vista previa de investigación de Operator en operator.chatgpt.com⁠(se abre en una nueva ventana) para usuarios Pro⁠(se abre en una nueva ventana) Tier en los EE. UU. Gracias a los comentarios del mundo real, estamos en condiciones de perfeccionar las medidas de seguridad y mejorar de forma continua al tiempo que nos preparamos para un futuro en el que los agentes digitales se utilizarán cada vez más.

Cómo funciona

Un diagrama de flujo que muestra el proceso de un sistema CUA que interpreta entradas como texto o capturas de pantalla, genera acciones y aplica comandos a una máquina virtual.

El CUA procesa datos de píxeles en bruto para comprender lo que ocurre en la pantalla y emplea un mouse y un teclado virtuales para completar las acciones. Puede realizar tareas de varios pasos, hacer frente a errores y adaptarse a cambios inesperados. Esto le permite al CUA actuar en una amplia gama de entornos digitales, ejecutando tareas como rellenar formularios y navegar por sitios web sin recurrir a API especializadas.

A partir de las instrucciones de un usuario, el CUA funciona siguiendo un bucle iterativo que integra la percepción, el razonamiento y la acción:

Percepción: Las capturas de la computadora se añaden al contexto del modelo, lo que proporciona una instantánea visual del estado actual de la computadora.
Razonamiento: El CUA razona los pasos siguientes por medio de la cadena de pensamiento, teniendo en cuenta las capturas y las acciones actuales y pasadas. Este monólogo interno mejora el rendimiento de la tarea al permitir que el modelo evalúe sus observaciones, haga un seguimiento de los pasos intermedios y se adapte de forma dinámica.
Acción: Lleva a cabo las acciones, como hacer clic, desplazarse o escribir, hasta que decide que la tarea ya se completó o que se necesita la intervención del usuario. Si bien maneja la mayoría de los pasos de forma automática, el CUA solicita la confirmación del usuario para acciones delicadas, como ingresar los datos de inicio de sesión o responder a formularios CAPTCHA.

Evaluaciones

CUA establece un nuevo hito en las pruebas comparativas de uso de la computadora y del navegador al utilizar la misma interfaz universal de pantalla, mouse y teclado.

Tipo de referencia	Referencia	Uso de la computadora (interfaz universal)		Agentes de navegación web	Humano
		CUA OpenAI	SOTA anterior	SOTA anterior
Uso de la computadora	OSWorld	38.1%	22.0%	-	72.4%
Uso del navegador	WebArena	58.1%	36.2%	57.1%	78.2%
Uso del navegador	WebVoyager	87.0%	56.0%	87.0%	-

Los detalles de la evaluación se describen aquí

Uso del navegador

WebArena⁠(se abre en una nueva ventana) y WebVoyager⁠(se abre en una nueva ventana) están diseñados para evaluar el rendimiento de los agentes de navegación web al llevar a cabo tareas del mundo real por medio de navegadores. WebArena se basa en sitios web de código abierto autoalojados fuera de línea con el fin de imitar escenarios reales de comercio electrónico, administración de contenido de tiendas en línea (CMS), plataformas de foros sociales y mucho más. Por su parte, WebVoyager pone a prueba el rendimiento del modelo en sitios web como Amazon, GitHub y Google Maps.

En estas pruebas comparativas, el CUA define un nuevo estándar al utilizar la misma interfaz universal que percibe la pantalla del navegador como si fueran pixeles y realiza acciones a través del mouse y el teclado. En las tareas basadas en la web, el CUA alcanzó una tasa de éxito del 58,1 % en WebArena y del 87 % en WebVoyager. Si bien la tasa de éxito del CUA es alta en WebVoyager, donde la mayoría de las tareas son relativamente sencillas, aún necesita más mejoras para acercarse al rendimiento humano en pruebas más complejas como las de WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Uso de la computadora

OSWorld⁠(se abre en una nueva ventana) es una prueba comparativa que evalúa la capacidad de los modelos para controlar sistemas operativos completos como Ubuntu, Windows y macOS. En esta prueba comparativa, el CUA alcanza una tasa de éxito del 38,1 %. Además, observamos un escalado del tiempo de prueba, lo que significa que el CUA tiende a mejorar su rendimiento a medida que se le permite seguir un mayor número de pasos. En la siguiente figura se compara el rendimiento del CUA con la tecnología de vanguardia anterior y con variaciones en el número máximo de pasos permitidos. La tasa de rendimiento humano en esta prueba comparativa es del 72,4 %, por lo que aún queda mucho margen de mejora.

Texto alternativo: “Gráfico de líneas con el título “OSWorld” que muestra las tasas de éxito (%) frente a los pasos máximos permitidos en una escala logarítmica. La línea azul representa el CUA de OpenAI, mientras que los puntos naranjas representan Claude 3.5 Sonnet, el uso de la computadora, con anotaciones para las tasas de éxito.

Las siguientes visualizaciones muestran ejemplos en los que el CUA navega por una variedad de tareas estandarizadas de OSWorld.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

El CUA en Operator

En estos momentos, estamos haciendo que el CUA esté disponible a través de una vista previa de investigación de Operator, un agente que puede acceder a la web para realizar tareas en tu lugar. Actualmente, Operator está disponible para los usuarios Pro⁠(se abre en una nueva ventana) de EE. UU. en operator.chatgpt.com⁠(se abre en una nueva ventana). Esta vista previa de investigación es para nosotros la oportunidad de aprender de nuestros usuarios y del ecosistema en general, perfeccionando y mejorando Operator de forma iterativa. Al igual que con cualquier otra tecnología que se encuentra en su fase inicial, por el momento no esperamos que el CUA tenga un rendimiento fiable en todos los escenarios. Sin embargo, su utilidad ya quedó demostrada en una gran variedad de casos. Nosotros aspiramos a extender esa fiabilidad a un abanico más amplio de tareas. El lanzamiento del CUA en Operator nos permitirá recabar información valiosa de nuestros usuarios, con la que podremos perfeccionar sus funciones y ampliar sus aplicaciones.

En la tabla siguiente, presentamos el rendimiento del CUA en Operator en una serie de pruebas en las que el mensaje apuntaba a ilustrar sus puntos fuertes y débiles.

Categoría	Consulta	Éxito / intentos	Nota
Interacción con diversos componentes de la interfaz de usuario para realizar tareas	Turno 1: Busca en Britannica un mapa detallado de los hábitats de los osos Turno 2: ¡Genial! Ahora, consulta los enlaces de los osos negros, pardos y polares y haz una descripción general concisa de sus características físicas, más concretamente de sus diferencias. Ah, y guarda los enlaces para poder acceder a ellos rápidamente.	10 / 10	CUA puede interactuar con varios componentes de la interfaz de usuario para buscar, ordenar y filtrar resultados con el fin de encontrar la información que desean los usuarios. La fiabilidad varía según el sitio web y la interfaz de usuario.
	Quiero una de esas ofertas de Target. ¿Puedes comprobar si hay alguna oferta en refrescos prebióticos Poppi? Si hay alguna oferta, quiero de sabor sandía en la lata de 350 ml. Comprueba qué tipo de oferta hay y si es sin gluten.	9 / 10
	Estoy planeando mudarme a Seattle. Busca en Redfin una casa urbana con al menos 3 dormitorios, 2 baños y un diseño energéticamente eficiente (como paneles solares o certificación LEED). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tareas que se pueden realizar mediante interacciones sencillas y repetidas con la interfaz de usuario.	Crea un proyecto nuevo en Todoist titulado “Compras de fin de semana”. Agrega la siguiente lista de compras con los productos: Bananas (6 unidades) Aguacates (2 maduros) Espinaca baby (1 bolsa) Leche entera (4 litros) Queso cheddar (bloque de 225 g) Patatas de bolsa (saladas, bolsa familiar) Chocolate negro (70 % cacao, 2 barras)	10 / 10	CUA puede repetir de forma fiable una interacción sencilla de la interfaz de usuario varias veces para automatizar tareas sencillas de los usuarios, pero que consideran tediosas.
	Busca en Spotify las canciones más populares de Estados Unidos en 1990 y crea una lista de reproducción con al menos 10 canciones.	10 / 10
Tareas en las que CUA muestra una tasa alta de éxito solo si las consultas incluyen consejos detallados sobre cómo utilizar el sitio web.	Visita tagvenue.com y busca una sala de espectáculos con capacidad para 150 personas en Londres. La necesito el 22 de febrero de 2025 para todo el día, de 9:00 a. m. a 12:00 a. m. Solo asegúrate de que el precio sea menor de 90 libras cada hora. Comprueba la sección de filtros para seleccionar los filtros adecuados y asegúrate de que haya estacionamiento y que sea accesible para personas con sillas de ruedas.	8 / 10	Incluso para la misma tarea, la fiabilidad de CUA puede cambiar en función de cómo se solicite la tarea. En este caso, podemos mejorar la fiabilidad al especificar la fecha (p. ej., de 9:00 a. m. a 12:00 a. m. frente a todo el día a partir de las 9:00 a. m.) y con pistas sobre la interfaz de usuario que se debe utilizar para buscar resultados (p. ej., consulta la sección de filtros...).
	Visita tagvenue.com y busca una sala de espectáculos con capacidad para 150 personas en Londres. La necesito el 22 de febrero de 2025 para todo el día, a partir de las 9:00 a. m. Solo asegúrate de que el precio sea menor de 90 libras cada hora. También asegúrate de que haya estacionamiento y que sea accesible para personas con sillas de ruedas.	3 / 10
Dificultades para utilizar una interfaz de usuario y una edición de texto desconocidas	Usa html5editor e introduce el siguiente texto en la parte izquierda, luego edítalo siguiendo mis instrucciones y muéstrame una captura de pantalla de todo cuando esté listo. El texto es: ¡Hola, mundo! Este es mi primer texto. Necesito ver cómo quedaría programado con HTML. Algunas partes deberían estar en rojo. Algunas, en negrita. Algunas, en cursiva. Algunas, subrayadas. Hasta que termine mi lección, y pasemos al otro lado. ... ¡Hola, mundo! Debería tener la cabecera 2 aplicada La frase que la sigue debería ser un texto de párrafo normal. La frase que se menciona el color rojo debería ser texto normal en rojo La frase que menciona la negrita debería ser texto normal en negrita La frase que menciona la cursiva debería estar en cursiva La frase final debería estar alineada a la derecha en lugar de la izquierda habitual	4 / 10	Cuando CUA tiene que interactuar con interfaces de usuario con las que no ha interactuado mucho durante el entrenamiento, intenta averiguar cómo utilizarla de forma adecuada. A menudo, se requieren muchos ensayos, errores y acciones ineficaces. CUA no es preciso en la edición de texto. Suele cometer muchos errores en el proceso o proporciona resultados con errores.

Seguridad

Como el CUA es uno de nuestros primeros productos autónomos con capacidad para realizar acciones directamente en un navegador, implica enfrentarnos a nuevos riesgos y desafíos. Cuando preparábamos el despliegue de Operator, llevamos a cabo numerosas pruebas de seguridad y aplicamos medidas de mitigación en tres clases principales de riesgos para la seguridad: el uso indebido, los errores de modelo y los riesgos fronterizos. Estamos convencidos de que la seguridad debe abordarse por capas, por lo que adoptamos medidas de seguridad en todo el contexto del despliegue: el propio modelo de CUA, el sistema Operator y los procesos posteriores al despliegue. El objetivo es que las medidas de mitigación se apliquen de forma sucesiva y que cada capa reduzca progresivamente el perfil de riesgo.

La primera categoría de riesgo es el uso indebido. Además de la exigencia de que los usuarios cumplan nuestras Políticas de uso, nos inspiramos en el trabajo de seguridad realizado para GPT‑4o y diseñamos las siguientes medidas para reducir el riesgo de que Operator sufra daños a causa de un uso indebido:

Rechazos: El modelo del CUA está entrenado para rechazar muchas tareas perjudiciales, así como actividades ilegales o reguladas.
Lista de bloqueo: Operator no puede acceder a sitios web que bloqueamos preventivamente, como muchos de los dedicados al juego, al entretenimiento para adultos y a la venta de drogas o armas.
Moderación: Verificadores de seguridad automáticos diseñados para garantizar el cumplimiento de las políticas de uso revisan en tiempo real las interacciones de los usuarios y pueden tanto emitir advertencias como bloquear actividades prohibidas.
Detección sin conexión: Además, también desarrollamos canales de detección automática y revisión humana para identificar el uso prohibido en áreas prioritarias para nuestras políticas, como la seguridad infantil y las actividades engañosas, lo cual nos permite garantizar el cumplimiento de nuestras políticas de uso.

La segunda categoría de riesgo corresponde a los errores de modelo, en los que el modelo de CUA emprende accidentalmente una acción que el usuario no tenía intención de realizar y que, a su vez, puede causarle daños a él o a otras personas. Los errores hipotéticos pueden ser de muy diversa gravedad, y van desde un error de escritura en un correo electrónico hasta la compra errónea de un artículo o el borrado definitivo de un documento importante. Para minimizar los posibles daños, desarrollamos estas medidas de mitigación:

Confirmación del usuario: El modelo de CUA está entrenado para pedirle al usuario su confirmación antes de finalizar tareas con efectos secundarios externos, por ejemplo, antes de realizar un pedido o enviar un correo electrónico, entre otras, de forma que el usuario pueda volver a comprobar el trabajo que el modelo realizó antes de que se convierta en permanente.
Limitación en as tareas: Por el momento, el modelo de CUA se negará a ayudar en determinadas tareas de mayor riesgo, como transacciones bancarias, así como en tareas que impliquen una toma de decisiones delicada.
Modo de supervisión: En algunos sitios web particularmente delicados, como los de correo electrónico, Operator requiere la supervisión activa por parte del usuario, con el fin de garantizar que éste pueda detectar y corregir directamente cualquier eventual error que el modelo pueda cometer.

Los ataques de adversarios a sitios web forman una categoría especialmente importante de errores del modelo, ya que provocan que el modelo de CUA lleve a cabo acciones no deseadas, mediante inyecciones, infiltración de sistemas de seguridad e intentos de suplantación de identidad. Además de las medidas ya mencionadas contra los errores del modelo, desarrollamos varias capas de defensa adicionales para protegernos de estos riesgos:

Navegación prudente: El modelo de CUA está diseñado para identificar e ignorar las inyecciones puntuales en los sitios web, reconociendo todos los casos menos uno de una de las primeras sesiones internas de equipo rojo.
Monitoreo: En Operator, implementamos un modelo adicional para supervisar y pausar la ejecución si en la pantalla se detecta contenido sospechoso.
Proceso de detección: Estamos aplicando procesos de detección automática y de revisión humana para identificar patrones de acceso sospechosos que se puedan marcar y asignar rápidamente al monitoreo (en cuestión de horas).

Por último, evaluamos el modelo de CUA ante los riesgos fronterizos descritos en nuestro Marco de preparación⁠(se abre en una nueva ventana), entre los que se incluyen escenarios de replicación autónoma y herramientas de biorriesgo. Estas evaluaciones no mostraron ningún riesgo adicional respecto a GPT‑4o.

Si te interesa conocer más en detalle las evaluaciones y las medidas de protección, puedes revisar la Tarjeta de sistema de Operator,un documento vivo con información transparente sobre nuestro enfoque de la seguridad y las mejoras en curso.

Al ser nuevas muchas de las capacidades de Operator, lo mismo ocurre con los riesgos y los métodos de mitigación que aplicamos. Si bien nuestras medidas de mitigación son vanguardistas, diversas y complementarias, es de esperar que tanto los riesgos como nuestro planteamiento evolucionen a medida que adquirimos más conocimientos. Esperamos aprovechar el periodo de vista previa de la investigación para recabar los comentarios de los usuarios, perfeccionar nuestras medidas de protección y mejorar la seguridad de los agentes.

Conclusión

El CUA se basa en años de avances en investigación sobre multimodalidad, razonamiento y seguridad. Gracias a la serie o-model, logramos avances significativos en razonamiento profundo, desplegamos capacidades de visión mediante GPT‑4o y aplicamos nuevas técnicas para mejorar la robustez mediante el aprendizaje por refuerzo y la jerarquía de instrucciones. Nuestro próximo reto consiste en ampliar el espacio de acción de los agentes. La interfaz universal es lo suficientemente flexible como para responder a este reto, ya que permite que un agente navegue por cualquier herramienta de software diseñada para humanos. El CUA va más allá de las API especializadas para agentes y es capaz de adaptarse a cualquier entorno informático disponible, lo que le permite abordar la "larga fila" de casos de uso digital que siguen estando fuera del alcance de la mayoría de los modelos de IA.

Por otra parte, también estamos trabajando para que el CUA esté disponible en la API⁠(se abre en una nueva ventana), de modo que los desarrolladores puedan recurrir a él para crear sus propios agentes que utilicen computadoras. A medida que seguimos perfeccionando el CUA, estamos impacientes por conocer los diferentes casos de uso que la comunidad encontrará en él. Tenemos la intención de incorporar los comentarios del mundo real que obtengamos de esta vista previa para perfeccionar continuamente las capacidades y las medidas de seguridad del CUA y así avanzar de forma segura en nuestra misión de hacer llegar los beneficios de la IA a todo el mundo.

Autores

OpenAI

Referencias

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(se abre en una nueva ventana)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(se abre en una nueva ventana)

Kura WebVoyager benchmark⁠(se abre en una nueva ventana)

Google project mariner⁠(se abre en una nueva ventana)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(se abre en una nueva ventana)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(se abre en una nueva ventana)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(se abre en una nueva ventana)

Citas

Cita a OpenAI utilizando este BibTeX: http://cdn.openai.com/cua/cua2025.bib⁠(se abre en una nueva ventana)