23 de enero de 2025

Presentamos Operator

Un anticipo de la investigación de un agente que puede usar su propio navegador para llevar a cabo tareas por ti. Disponible para usuarios Pro en los Estados Unidos

Ir a Operator

Introducing Operator > Hero > Media Item

Cargando…

Actualización del 17 de julio de 2025: Operator se ha integrado por completo en ChatGPT a modo de agente. Para acceder a estas funciones mejoradas, solo tienes que seleccionar el «modo Agente» en el menú desplegable del redactor de mensajes y escribir tu consulta directamente en ChatGPT. A raíz de esto, la web de Operator (operator.chatgpt.com) dejará de estar disponible en las próximas semanas.

Presentamos Operator⁠(se abre en una ventana nueva), un agente capaz de entrar en internet para llevar a cabo tareas por ti. Operator usa su propio navegador, que le permite buscar en un sitio web y escribir, clicar y navegar por él. Al ser un anticipo de investigación, el agente presenta ciertas limitaciones e irá evolucionando conforme recabemos feedback de los usuarios. Operator es uno de nuestros primeros agentes, que son sistemas de inteligencia artificial con capacidad para desempeñar tareas de forma autónoma en nombre de un usuario. Solo tienes que encomendarle una tarea y la llevará a cabo por ti.

Por ejemplo, puedes pedirle que realice multitud de tareas repetitivas en el navegador, como rellenar formularios, hacer pedidos e incluso crear memes. Poder usar las mismas interfaces y herramientas que usamos los humanos a diario amplía la utilidad de la IA. Eso nos permite ganar tiempo en las tareas cotidianas, a la vez que abre nuevas y emocionantes posibilidades para las empresas.

Para garantizar una implementación segura e iterativa, hemos empezado a pequeña escala. A partir de hoy, los usuarios estadounidenses del plan Pro⁠(se abre en una ventana nueva) ya pueden acceder a Operator entrando en operator.chatgpt.com⁠(se abre en una ventana nueva). Este anticipo de investigación nos permitirá aprender de nuestros usuarios y de todo el ecosistema de IA a fin de ir perfeccionando y optimizando el agente con el paso del tiempo. De cara al futuro, la intención es ofrecer Operator a los usuarios de los planes Plus, Team y Enterprise, así como integrar estas capacidades en ChatGPT.

Cómo funciona Operator

Operator funciona con un nuevo modelo denominado agente informático (CUA). Combinando las capacidades de visión de GPT‑4o con el razonamiento avanzado mediante aprendizaje por refuerzo, hemos entrenado el CUA para que interactúe con las interfaces gráficas de usuario (GUI), es decir, los botones, menús y campos de texto que los usuarios ven en pantalla.

Operator puede «ver» (a través de capturas de pantalla) e «interactuar» (con las mismas acciones que haríamos con un teclado y un ratón) con un navegador. Esto le permite llevar a cabo tareas en la web sin necesidad de integraciones API a medida.

Si se topa con alguna dificultad o comete algún error, Operator recurre a sus capacidades de razonamiento para corregirse de forma autónoma. Cuando se traba y necesita ayuda, cede el control de nuevo al usuario, lo cual favorece el trabajo colaborativo.

El agente CUA se encuentra en las primeras fases de desarrollo y, por tanto, presenta limitaciones. No obstante, ya ha obtenido mejores resultados que otros sistemas en WebArena y WebVoyager, dos pruebas comparativas de referencia para el uso de navegadores. Echa un vistazo a las evaluaciones y a los estudios que hay detrás de Operator en la entrada de nuestro blog.

Cómo funciona

Describe la tarea que quieres hacer y Operator se encarga del resto. Los usuarios pueden recuperar el control del navegador remoto en cualquier momento, y Operator está entrenado para pedir al usuario de forma proactiva que le ayude con tareas como iniciar sesión, introducir el número de tarjeta o resolver CAPTCHA.

Asimismo, los usuarios pueden adaptar los procesos en Operator añadiendo instrucciones personalizadas, ya sea para todos los sitios web o para algunos en concreto; por ejemplo, definiendo las preferencias en relación con las aerolíneas en Booking.com. Con Operator, los usuarios pueden guardar los prompts en la página de inicio para tenerlos a mano, lo cual es muy útil en el caso de tareas repetitivas, como llenar el carrito con los alimentos que faltan en Instacart. Igual que los usuarios abren varias pestañas en el navegador, Operator puede ejecutar varias tareas a la vez. Solo hay que crear una conversación para cada una de ellas; por ejemplo, pedir una taza personalizada en Etsy y reservar una parcela de camping en Hipcamp a la vez.

Ecosistema y usuarios

Gracias a Operator⁠(se abre en una ventana nueva), la IA pasa de ser una herramienta pasiva a un participante activo del ecosistema digital. Este cambio de paradigma agiliza las tareas para los usuarios y aporta las ventajas de los agentes a las empresas que quieren ofrecer a sus clientes experiencias innovadoras y mejorar sus índices de conversión. Colaboramos con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber para asegurarnos de que Operator responde a las necesidades reales de los usuarios sin dejar de cumplir las normas. Además de estas alianzas, vemos mucho potencial para mejorar la accesibilidad y eficiencia de determinados procedimientos, sobre todo en aplicaciones del sector público. Para estudiar estos casos de uso más a fondo, trabajamos con organizaciones como la ciudad de Stockton⁠(se abre en una ventana nueva), en California, para agilizar el proceso de inscripción en servicios y programas municipales.

«A medida que aprendamos más sobre Operator durante este anticipo de investigación, estaremos más preparados para identificar formas en las que la IA puede facilitar la participación ciudadana para nuestros residentes».

Jamil Niazi, director de Tecnología de la Información en la ciudad de Stockton

Lanzando Operator inicialmente para un público limitado nuestro objetivo es aprender rápidamente y optimizar sus capacidades según feedback de casos reales, lo que nos asegura hallar el equilibrio entre innovación, confianza y seguridad. Este enfoque colaborativo nos ayuda a asegurar que Operator ofrece un valor significativo para usuarios, creadores, empresas y organizaciones del sector público por igual.

«Operator de OpenAI es un avance tecnológico que facilita de forma extraordinaria procesos como hacer la compra online».

Daniel Danker, director de Producto en Instacart

Seguridad y privacidad

Nuestra principal prioridad es que usar Operator sea seguro, por lo que hemos incorporado tres capas de seguridad para prevenir el uso abusivo y asegurarnos de que el control siempre recaiga en los usuarios.

En primer lugar, entrenamos Operator de forma que el usuario siempre tenga el control y, en caso de duda, el agente le pida ayuda.

Modo de cesión del control: Operator pide al usuario que retome el control de la tarea para introducir información sensible en el navegador, como unas credenciales de acceso o los datos de la tarjeta de crédito. En el modo de cesión del control, Operator no recaba ni hace capturas de la información que el usuario introduce.
Autorización del usuario: antes de terminar cualquier acción relevante, como hacer un pedido o enviar un correo electrónico, Operator tiene que pedir la autorización del usuario.
Tareas restringidas: Operator está entrenado para rechazar determinadas tareas sensibles, como hacer una transacción bancaria o tomar una decisión crucial, por ejemplo, con respecto a una vacante.
Modo observador: en entornos que contienen información confidencial, como una web de servicios financieros o una plataforma de correo electrónico, Operator solicita la supervisión de sus acciones, lo que permite a los usuarios detectar posibles errores.

De igual modo, gestionar la privacidad de los datos en Operator es un proceso sencillo.

Exclusiones al entrenamiento: para que los datos de Operator no se utilicen con el fin de entrenar nuestros modelos, basta con desactivar la opción «Mejorar el modelo para todo el mundo» en los ajustes de ChatGPT.
Transparencia en la gestión de datos: con un simple clic en la sección «Privacidad» de los ajustes de Operator, los usuarios pueden eliminar los datos de navegación y salir de todas las webs. Las conversaciones mantenidas con Operator también pueden eliminarse en un clic.

Por último, hemos reforzado las defensas contra los sitios web malintencionados, es decir, los que podrían intentar confundir a Operator con prompts ocultos, código malicioso o intentos de phishing:

Navegación cauta: Operator está diseñado para detectar e ignorar las inyecciones de prompts.
Supervisión: un «modelo de supervisión» específico está atento a los comportamientos sospechosos y puede interrumpir la tarea si detecta que algo no va según lo esperado.
Detección ininterrumpida: los procesos de revisión humana y automatizada identifican constantemente nuevas amenazas para poner al día las medidas de protección lo más rápido posible.

Sabemos que habrá quien pruebe a usar esta tecnología con fines ilícitos. Por eso hemos diseñado Operator para que rechace las solicitudes peligrosas y bloquee el contenido no autorizado. En caso de detectar infracciones reiteradas, nuestros sistemas de moderación pueden generar advertencias e incluso cancelar el acceso de los usuarios. Además, hemos incorporado nuevos procesos de supervisión para detectar y abordar los usos indebidos. Por último, hemos elaborado unas instrucciones sobre cómo interactuar con Operator dentro de los límites de nuestras políticas de uso.

Por muchas medidas de seguridad que implantemos en Operator, no hay ningún sistema infalible, y debemos tener en cuenta que se trata de un anticipo de investigación. No obstante, en OpenAI nos comprometemos a ir mejorando el agente a partir de las observaciones que nos trasladen los usuarios y de un riguroso sistema de pruebas. Para más información sobre los métodos que empleamos, entra en el apartado «Seguridad» de la entrada del blog.

Limitaciones

Operator se encuentra en una fase de investigación temprana y, aunque es capaz de llevar a cabo multitud de tareas, sigue aprendiendo, evolucionando y puede cometer errores. Por ejemplo, en estos momentos le sigue costando interactuar con interfaces complejas, como crear presentaciones de diapositivas o gestionar calendarios. Cuanto antes nos trasladen feedback nuestros usuarios, antes podremos empezar a mejorar su precisión, fiabilidad y seguridad para hacer de Operator un agente mejor para todo el mundo.

¿Cuáles son las perspectivas de futuro?

CUA en la API: nuestra intención es exponer el modelo que hay detrás de Operator, CUA, en la API muy pronto para que los desarrolladores puedan usarlo para crear sus propios agentes informáticos.

Capacidades mejoradas: seguiremos mejorando la capacidad de Operator para gestionar procesos más largos y complejos.

Amplio acceso: de cara al futuro, ofreceremos Operator⁠(se abre en una ventana nueva) a los usuarios de Plus, Team y Enterprise, e integraremos sus capacidades directamente en ChatGPT. Esto será cuando estemos seguros de su seguridad y usabilidad a gran escala y consigamos que ejecute tareas asíncronas en tiempo real sin interrupciones.

Autores

OpenAI

Colaboradores fundamentales en la investigación

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano y Sarah Yoo

Contribuidores principales

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar y Yilong Qin

Contribuidores de XFN

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah y Winston Howes

Líderes

Aaron Schlesinger (infraestructura), Casey Chu (seguridad y preparación del modelo), David Medina (infraestructura de investigación), Hyeonwoo Noh (investigación general), Reiichiro Nakano (investigación general) y Yash Kumar

Contribuidores

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang y Zhiqing Sun

Liderazgo

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman y Wojciech Zaremba