23 de enero de 2025

Agente informático

Dando vida a Operator con un agente informático: una interfaz universal para que la IA interactúe con el mundo digital

Cargando…

Presentamos una previsualización de investigación de Operator⁠(se abre en una ventana nueva), un agente capaz de acceder a Internet para llevar a cabo tareas por el usuario. La tecnología que impulsa a Operator es un agente informático (CUA, por sus siglas en inglés), un modelo que combina las capacidades visuales de GPT‑4o con habilidades de razonamiento avanzado mediante el aprendizaje por refuerzo. El CUA está entrenado para interactuar con interfaces gráficas de usuario (GUI, por sus siglas en inglés), como botones, menús y campos de texto visibles en pantalla, tal y como lo hacen los humanos. Esto le da flexibilidad para llevar a cabo tareas digitales sin depender de API específicas de un sistema operativo o una web.

El CUA surge tras años de investigación en un campo que aúna la comprensión multimodal y el razonamiento. Gracias a la capacidad para entender interfaces gráficas de usuario y resolver problemas de forma estructurada, puede dividir tareas en varios pasos, corregirse, y adaptarse si surge algún problema. Esto representa un nuevo avance en el desarrollo de la IA, ya que permite a los modelos usar las mismas herramientas que emplean los usuarios de forma cotidiana, lo que abre la puerta a una gran variedad de aplicaciones nuevas.

Si bien es cierto que el CUA se encuentra aún en una etapa inicial y presenta limitaciones, ha logrado establecer nuevos récords en pruebas comparativas. Por ejemplo, logró un índice de éxito del 38,1 % en OSWorld para tareas de uso del ordenador al completo, y un 58,1 % en WebArena y un 87 % en WebVoyager para tareas basadas en la web. Estos resultados destacan la capacidad del CUA para navegar y funcionar en distintos entornos usando un único espacio de acción general.

Hemos diseñado el CUA con la seguridad como prioridad, teniendo en cuenta los retos que implica darle acceso al mundo digital a un agente, algo que explicamos con más detalle en la tarjeta del sistema de Operator. Como parte de nuestra estrategia de despliegue iterativo, lanzamos el CUA en una previsualización de investigación de Operator, disponible en operator.chatgpt.com⁠(se abre en una ventana nueva) inicialmente para usuarios del nivel Pro⁠(se abre en una ventana nueva) en Estados Unidos. Así, podemos aprender de la experiencia de uso real, ajustar las medidas de seguridad y seguir mejorando mientras nos preparamos para un futuro en el que los agentes digitales serán cada vez más comunes.

¿Cómo funciona?

Un diagrama que muestra el proceso del sistema del CUA interpretando una entrada de texto o capturas de pantalla, generando acciones y aplicando comandos a una máquina virtual.

El CUA interpreta directamente los datos de los píxeles que aparecen en pantalla para comprender qué sucede, y emplea un ratón y un teclado virtuales para efectuar tareas. Puede completar tareas de varios pasos, resolver errores y adaptarse si algo inesperado cambia en el entorno. Gracias a esto, es capaz de desenvolverse en una amplia variedad de entornos digitales, efectuando tareas como completar formularios o navegar por páginas web sin necesidad de API especializadas.

A partir de una instrucción del usuario, el CUA actúa mediante un bucle iterativo que integra percepción, razonamiento y acción:

Percepción: se incorporan capturas de pantalla al contexto del modelo, proporcionando información visual del estado actual del ordenador.
Razonamiento: el CUA determina los pasos siguientes basándose en cadenas de pensamiento, la información visual que recibe en ese momento y las acciones previas. Este «monólogo» interno mejora el rendimiento, ya que le permite evaluar las observaciones, seguir pasos intermedios y adaptarse si es necesario.
Acción: ejecuta las acciones necesarias (clics, desplazamientos o redacción de texto) hasta que decide que ha completado la tarea o se necesite la intervención del usuario. Aunque puede gestionar la mayoría de los pasos de forma automática, el CUA solicita la confirmación del usuario en acciones más delicadas, como la introducción de credenciales de inicio de sesión o la resolución de CAPTCHA.

Evaluaciones

El CUA alcanza un nivel sin precedentes en pruebas comparativas de tareas con el ordenador y de navegación web, utilizando la misma interfaz universal de pantalla, ratón y teclado.

Tipo de prueba comparativa	Prueba comparativa	Uso del ordenador (interfaz universal)		Agentes de navegación web	Humano
		CUA de OpenAI	SOTA anterior	SOTA anterior
Uso del ordenador	OSWorld	38,1 %	22,0 %	-	72,4 %
Uso del navegador	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Uso del navegador	WebVoyager	87,0 %	56,0 %	87,0 %	-

Los detalles de la evaluación se describen aquí

Uso del navegador

WebArena⁠(se abre en una ventana nueva) y WebVoyager⁠(se abre en una ventana nueva) se han diseñado para evaluar el rendimiento de los agentes de navegación web al efectuar tareas reales en navegadores. WebArena utiliza sitios web de código abierto autoalojados, en modo sin conexión, para simular escenarios reales de comercio electrónico, gestión de contenido en tiendas en línea (CMS) y plataformas sociales, entre otros. Por su parte, WebVoyager prueba el rendimiento del modelo en sitios web en línea reales, como Amazon, GitHub y Google Maps.

En ambas pruebas comparativas, el CUA establece un nuevo referente empleando la misma interfaz universal que interpreta la pantalla del navegador como datos de píxeles y actúa con un ratón y un teclado virtuales. El modelo logró un índice de éxito del 58,1 % en WebArena y del 87 % en WebVoyager para tareas basadas en la web. Aunque presenta un rendimiento fantástico en WebVoyager, donde la mayoría de tareas son más bien sencillas, todavía necesita mejorar para alcanzar el nivel humano en problemas más complejos como los que plantea WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Uso de ordenador

OSWorld⁠(se abre en una ventana nueva) es una prueba comparativa diseñada para evaluar la capacidad de los modelos para trabajar con sistemas operativos completos, como Ubuntu, Windows y macOS. En esta prueba, el CUA logra un índice de éxito del 38,1 %. Se ha observado un fenómeno de escalamiento en el tiempo de ejecución, lo que significa que el rendimiento del CUA mejora cuando se le permite ejecutar un mayor número de pasos. El gráfico que se muestra a continuación compara el rendimiento del CUA con modelos punteros anteriores, según distintas cantidades de pasos permitidos. El rendimiento humano en esta prueba es del 72,4 %, por lo que todavía hay un margen importante de mejora.

Texto alternativo: Gráfico de líneas titulado «OSWorld», que muestra los índices de éxito (en porcentajes) frente a la cantidad máxima de pasos permitidos en una escala logarítmica. Una línea azul representa el CUA de OpenAI, mientras que los puntos rosas representan a Claude 3.5 Sonnet - Uso de ordenador, con anotaciones de los índices de éxito.

Las siguientes visualizaciones muestran ejemplos del CUA navegando por una serie de tareas estandarizadas de OSWorld.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA en Operator

El CUA está disponible a través de una previsualización de investigación en Operator, un agente capaz de acceder a Internet para llevar a cabo tareas por el usuario. Los usuarios del plan Pro⁠(se abre en una ventana nueva) en Estados Unidos ya pueden acceder a Operator entrando en operator.chatgpt.com⁠(se abre en una ventana nueva). Esta previsualización de investigación es una oportunidad para aprender de nuestros usuarios y de todo el ecosistema de IA a fin de ir perfeccionando y optimizando Operator con el paso del tiempo. Como sucede con toda tecnología en sus etapas iniciales, ahora mismo no esperamos que el CUA funcione correctamente en todos los casos. No obstante, ya ha demostrado su utilidad en varios casos prácticos, y aspiramos a ampliar su capacidad a un espectro más amplio de tareas. Al lanzar el CUA dentro de Operator, esperamos obtener información valiosa de nuestros usuarios que nos ayude a perfeccionar las capacidades y ampliar las aplicaciones.

La tabla a continuación muestra el rendimiento del CUA en Operator en un conjunto de pruebas realizadas a partir de indicaciones concretas, con el objetivo de ilustrar las fortalezas y limitaciones conocidas.

Categoría	Prompt	Éxito / intentos	Nota
Interacción con varios componentes de la IU para completar tareas	Turno 1: Busca en Britannica una vista de mapa detallada del hábitat de los osos Turno 2: ¡Excelente! Ahora comprueba los enlaces sobre osos polares, pardos y negros, y haz un resumen general y conciso sobre sus características físicas, sobre todo, sobre sus diferencias. Ah, y guárdame los enlaces para que pueda encontrarlos rápidamente.	10 / 10	CUA puede interactuar con varios componentes de la IU para buscar, ordenar y filtrar resultados, y así encontrar la información que quieren los usuarios. La fiabilidad varía según la página web y la IU.
	Quiero aprovechar una oferta de Target. ¿Puedes comprobar si hay alguna oferta para los refrescos prebióticos de la marca Poppi? Si la hay, quiero el de sandía, en una lata de 12 fl oz. Comprueba el tipo de oferta y si es un producto sin gluten.	9 / 10
	Tengo pensado mudarme a Seattle. Búscame en Redfin una casa con al menos 3 dormitorios, 2 baños y un diseño energéticamente eficiente (p. ej., con paneles solares o certificación LEED). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tareas que pueden completarse a través de interacciones simples con la IU repetidas	Crea un nuevo proyecto en Todoist que se titule «Lista de la compra para el fin de semana». Añade los siguientes productos a la lista: Plátanos (6 unidades) Aguacates (2 maduros) Espinacas baby (1 bolsa) Leche entera (4 litros) Queso cheddar (trozo de 225 g) Patatas fritas (al punto de sal, tamaño familiar) Chocolate negro (70 % cacao, 2 tabletas)	10 / 10	CUA puede repetir de forma fiable interacciones simples con la IU múltiples veces para automatizar tareas simples pero tediosas de los usuarios.
	Busca en Spotify las canciones más populares de los Estados Unidos en los años 90 y crea una lista de reproducción con al menos 10 canciones.	10 / 10
Tareas en las que CUA muestra un gran porcentaje de éxito solo si los prompts incluyen pistas detalladas sobre cómo usar la web.	Ve a tagvenue.com y busca un auditorio para acomodar a 150 personas en Londres. Lo necesito para el 22 de febrero de 2025, todo el día, desde las 09:00 hasta las 00:00, y asegúrate de que cueste menos de 90 £ por hora. Ah, comprueba también la sección de filtros para seleccionar los adecuados y asegúrate de que tenga aparcamiento y que todas las instalaciones sean accesibles con silla de ruedas.	8 / 10	Incluso para la misma tarea, la fiabilidad de CUA puede cambiar según cómo usemos los prompts. En este caso, podemos mejorar la fiabilidad aportando detalles sobre la hora (p. ej. de 09:00 a 00:00 o todo el día desde las 09:00) y aportando pistas sobre qué IU debe usar para encontrar los resultados (p. ej., comprueba la sección de filtros, etc.)
	Ve a tagvenue.com y busca un auditorio para acomodar a 150 personas en Londres. Lo necesito para el 22 de febrero de 2025, todo el día, desde las 09:00, y asegúrate de que cueste menos de 90 £ por hora. Ah, asegúrate de que tenga aparcamiento y que todas las instalaciones sean accesibles con silla de ruedas.	3 / 10
Dificultades al usar una IU y edición de texto desconocidas	Usa html5editor e introduce el siguiente texto en el lado izquierdo. Después, edítalo siguiendo mis instrucciones y haz una captura de pantalla de todo cuando acabes. El texto es: ¡Hola, mundo! Este es mi primer texto. Necesito ver cómo quedará cuando lo programe con HTML. Algunas partes deberían ser rojas. Otras, en negrita. Otras, en cursiva. Otras, subrayadas. Hasta que complete mi lección y después pasemos al otro lado. ... ¡Hola, mundo! Debería tener el encabezado 2 aplicado La oración a continuación debería ser en cuerpo de texto normal. La oración que menciona rojo debería ir en texto normal y en rojo La oración que menciona negrita debería ir en texto normal y en negrita Oración que menciona cursiva debería ir en cursiva La última oración debería estar alineada hacia la derecha en lugar de a la izquierda, que es la que se usa normalmente	4 / 10	Cuando CUA tiene que interactuar con IU con las que no ha interactuado demasiado durante el entrenamiento, tiene dificultades a la hora de usar adecuadamente la IU proporcionada. Suele tener como resultado múltiples ensayos y errores, y acciones ineficientes. Las habilidades de edición de texto de CUA no son precisas. Suele cometer muchos errores en el proceso o generar respuestas con errores.

Seguridad

Como el CUA es uno de nuestros primeros productos con capacidades autónomas que puede llevar a cabo acciones directas en un navegador, el uso conlleva nuevos riesgos y cuestiones que hay que tener en cuenta. Durante la fase de preparación para el despliegue de Operator, llevamos a cabo rigurosas pruebas de seguridad e implementamos medidas de mitigación que abordan tres categorías clave de riesgos de seguridad: uso indebido, errores del modelo y riesgos del futuro. Creemos que es fundamental adoptar un enfoque por capas en materia de seguridad, por lo que incorporamos medidas preventivas en todo el contexto de implementación: el propio modelo de CUA, el sistema de Operator y los procesos posteriores al despliegue. La idea es que cada capa sume las medidas preventivas y reduzca el perfil de riesgo poco a poco.

La primera categoría de riesgo es el uso indebido. Además de exigir a los usuarios el cumplimiento de nuestras Políticas de uso, hemos desarrollado una serie de mecanismos preventivos para mitigar los riesgos de daños derivados del uso indebido de Operator, aprovechando el trabajo de seguridad efectuado con GPT‑4o:

Rechazos: el modelo de CUA está formado para rechazar muchas tareas perjudiciales y actividades ilegales o reguladas.
Lista de bloqueo: Operator no puede acceder a sitios web que se hayan bloqueado de forma preventiva, como muchas páginas de casinos, entretenimiento para adultos o venta de armas o estupefacientes.
Moderación: las interacciones de los usuarios se supervisan en tiempo real mediante sistemas automatizados de seguridad diseñados para garantizar el cumplimiento de las Políticas de uso y que pueden emitir advertencias o bloquear actividades prohibidas.
Detección sin conexión: también se han desarrollado sistemas de detección automáticos y procesos de revisión humana para identificar usos indebidos en áreas críticas de nuestras políticas, como la seguridad infantil o las actividades fraudulentas, facilitando la aplicación de nuestras Políticas de uso.

La segunda categoría de riesgo son los errores del modelo, es decir, cuando el modelo del CUA lleva a cabo una acción por accidente que el usuario no tenía intención de efectuar, lo que puede causar perjuicios al propio usuario o a otras personas. Estos hipotéticos errores pueden ir desde algo menor, como un error de ortografía en un correo, hasta asuntos más graves como comprar un producto equivocado o borrar un documento importante para siempre. Para reducir estos riesgos, se han implementado las siguientes estrategias de mitigación:

Autorización del usuario: el modelo de CUA está formado para pedir la confirmación del usuario antes de finalizar tareas que puedan tener efectos colaterales externos, como completar una compra o enviar un correo electrónico, de modo que el usuario pueda revisar el trabajo del modelo antes de completar la acción.
Limitaciones en las tareas: por ahora, el modelo de CUA se negará a ayudar con tareas de mayor riesgo, como transacciones bancarias o actividades que impliquen tomar decisiones sensibles.
Modo de observación: en sitios especialmente confidenciales, como servicios de correo electrónico, Operator requiere la supervisión activa del usuario, lo que permite detectar y corregir directamente cualquier posible error del modelo.

Una categoría especialmente importante de errores del modelo son los ataques adversos a sitios web, que inducen al modelo de CUA a efectuar acciones no deseadas mediante técnicas como inyecciones de indicaciones, jailbreaks y phishing. Además de las medidas de mitigación ya mencionadas, hemos desarrollado más capas de defensa adicionales para enfrentar estos casos:

Navegación cauta: el modelo de CUA está diseñado para identificar e ignorar inyecciones de indicaciones en sitios web, y fue capaz de reconocer todos los casos excepto uno en una prueba interna temprana de equipo rojo.
Supervisión: en Operator, hemos implantado un modelo adicional que supervisa y pone en pausa la ejecución si se detecta contenido sospechoso en la pantalla.
Detección ininterrumpida: aplicamos tanto sistemas de detección automatizados como revisiones humanas para identificar patrones de acceso sospechosos que puedan señalarse y añadirse al sistema de supervisión en cuestión de horas.

Por último, evaluamos el modelo de CUA frente a los riesgos del futuro descritos en nuestro Marco de preparación⁠(se abre en una ventana nueva), entre los que se incluyen situaciones como la replicación autónoma y el uso indebido en biotecnología. Estas pruebas no mostraron un riesgo adicional al de GPT‑4o.

Invitamos a todas las personas interesadas en saber más sobre nuestras evaluaciones y mecanismos de protección a revisar la tarjeta del sistema de Operator, un documento en constante actualización que ofrece una visión detallada y transparente de nuestro enfoque sobre seguridad y las mejoras en curso.

Dado que muchas de las capacidades de Operator son nuevas, también lo son los riesgos y las estrategias de mitigación que hemos implantado. Aunque hemos diseñado medidas innovadoras y complementarias para reducir esos riesgos, sabemos que tanto los peligros como nuestro planteamiento irán cambiando a medida que aprendemos. Esperamos que este periodo de previsualización de investigación sirva como una oportunidad para recopilar comentarios de los usuarios, perfeccionar nuestras medidas de seguridad y hacer que el uso de agentes sea cada vez más seguro.

Conclusión

El CUA surge tras años de avances en la investigación sobre multimodalidad, razonamiento y seguridad. Hemos logrado progresos de gran importancia en razonamiento profundo con la serie de modelos o, en capacidades de visión con GPT‑4o, y en nuevas técnicas para mejorar la fiabilidad mediante el aprendizaje por refuerzo y las jerarquías de instrucciones. Nuestro próximo objetivo es ampliar el espacio de acción de los agentes, permitiendo que puedan operar en cualquier herramienta de software universal diseñada para usuarios humanos gracias a una interfaz universal. Al dejar de depender de API específicas para agentes, el CUA puede adaptarse a cualquier entorno digital disponible, abordando así todo un abanico casos de uso que siguen siendo inaccesibles para la mayoría de los modelos de IA actuales.

Además, estamos desarrollando una versión de CUA para la API⁠(se abre en una ventana nueva), que permitirá a los desarrolladores crear sus propios agentes informáticos. A medida que sigamos mejorando el CUA, esperamos ver otros casos de uso distintos descubiertos por la comunidad. Gracias a los comentarios reales que obtengamos durante esta previsualización, esperamos seguir perfeccionando las capacidades del CUA y las mitigaciones de seguridad avanzando en nuestra misión de llevar los beneficios de la IA a todas las personas.

Autores

OpenAI

Referencias

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(se abre en una ventana nueva) (Presentación del uso del ordenador, el nuevo Claude 3.5 Sonnet y Claude 3.5 Haiku)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(se abre en una ventana nueva) (Anexo de la tarjeta del modelo: Claude 3.5 Haiku y Claude 3.5 Sonnet mejorado)

Kura WebVoyager benchmark⁠(se abre en una ventana nueva) (Prueba comparativa con Kura WebVoyager)

Google Project Mariner⁠(se abre en una ventana nueva)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(se abre en una ventana nueva) (OSWorld: evaluación de agentes multimodales en tareas abiertas dentro de entornos informáticos reales)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(se abre en una ventana nueva) (WebVoyager: Desarrollo de un agente web integral con modelos multimodales de gran escala)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(se abre en una ventana nueva) (WebArena: Un entorno web realista para construir agentes autónomos)

Citas

Si vas a citar este documento, nombra a OpenAI y utiliza el siguiente enlace BibTeX: http://cdn.openai.com/cua/cua2025.bib⁠(se abre en una ventana nueva)