23 de enero de 2025

Presentamos Operator

Un anticipo de la investigación de un agente que puede utilizar su propio navegador para realizar tareas en su lugar. Disponible para usuarios Pro en EE. UU.

Ir a Operator

Introducing Operator > Hero > Media Item

Cargando...

Actualización del 17 de julio de 2025: Operator ya está totalmente integrado en ChatGPT como agente de ChatGPT. Para acceder a estas capacidades actualizadas, solo necesitas seleccionar “modo Agente” en el menú desplegable del editor e introducir tu consulta directamente en ChatGPT. Por este motivo, el sitio independiente Operator (operator.chatgpt.com) dejará de operar en las próximas semanas.

Presentamos Operator⁠(se abre en una nueva ventana), un agente que puede acceder a la web para realizar tareas en tu lugar. Con su propio navegador, puede ver una página web e interactuar con ella, ya sea escribiendo, haciendo clic o desplazándose. Por el momento es un anticipo de investigación, lo que significa que tiene limitaciones y evolucionará gracias a la retroalimentación de los usuarios. Operator es uno de nuestros primeros agentes que, mediante la IA, son capaces de trabajar por ti de forma independiente: le asignas una tarea y la ejecutará.

Le puedes pedir a Operator que se encargue de una gran variedad de tareas de investigación repetitivas, como completar formularios, hacer compras e incluso crear memes. La habilidad de usar las mismas interfaces y herramientas con las que interactúan los humanos a diario amplía la utilidad de la IA, y ayuda a la gente a ahorrar tiempo en tareas cotidianas al mismo tiempo que genera nuevas oportunidades de interacción para las empresas.

Para garantizar una implementación segura e iterativa, empezaremos poco a poco. Desde hoy, Operator está disponible para los usuarios Pro⁠(se abre en una nueva ventana) en EE. UU. en operator.chatgpt.com⁠(se abre en una nueva ventana). Este anticipo de investigación nos permitirá aprender de nuestros usuarios y de un ecosistema más grande para optimizarlo y refinarlo con el paso del tiempo. Nuestro plan es extenderlo a los usuarios Plus, Team y Enterprise, y, en el futuro, integrar estas capacidades en ChatGPT.

Cómo funciona Operator

Operator es impulsado por un nuevo modelo llamado Agente informático (CUA). Al combinar las funcionalidades de visión de GPT‑4o con un razonamiento avanzado mediante el aprendizaje por refuerzo, entrenamos al CUA para interactuar con las interfaces gráficas de usuario (GUI); es decir, los botones, los menús y los campos de texto que los usuarios ven en pantalla.

Operator puede “ver” (a través de capturas de pantalla) e “interactuar” (con todas las acciones que haríamos con un teclado y un mouse) con un navegador. De esta forma puede realizar tareas en la web sin necesidad de integraciones de API personalizadas.

Si se encuentra con un reto o si comete un error, Operator aprovechará sus capacidades de razonamiento para corregirse. Cuando se atasca y necesita ayuda, le regresa el control al usuario, y así asegura una experiencia fluida y colaborativa.

Aunque el CUA aún está en una fase inicial y tiene limitaciones, ya obtuvo mejores resultados que otros sistemas en WebArena y WebVoyager, dos pruebas de referencia para el uso de navegadores. Puedes leer más sobre las evaluaciones y la investigación detrás de Operator en nuestro blog de investigación.

Cómo se usa

Para empezar, solo debes describir la tarea que te gustaría realizar y Operator se encargará del resto. Los usuarios pueden elegir tomar el control del navegador remoto en cualquier momento. Operator está entrenado para pedirle ayuda de forma proactiva al usuario con tareas como iniciar sesión, introducir la información de su tarjeta o resolver CAPTCHA.

El usuario puede personalizar procesos en Operator con solo escribir instrucciones específicas, ya sea para todas las páginas web o para algunas en especial, como sería el caso de definir las preferencias de aerolíneas en Booking.com. Operator permite a los usuarios guardar consultas para acceder más rápido a la página de inicio, algo muy útil para tareas repetitivas como comprar la comida de la semana en Instacart. Igual que los usuarios abren múltiples pestañas en el navegador, Operator puede ejecutar varias tareas a la vez. Solo es necesario crear una nueva conversación para cada una, como pedir una taza personalizada de Etsy o reservar un espacio para acampar en Hipcamp.

Ecosistema y usuarios

Con Operator⁠(se abre en una nueva ventana), la IA pasa de ser una herramienta pasiva a ser un participante activo en el ecosistema digital. Este cambio agiliza las tareas para los usuarios y aporta las ventajas de los agentes a las empresas que quieren ofrecer experiencias innovadoras y mejorar sus índices de conversión. Colaboramos con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, entre otras, para asegurar que Operator responda a necesidades reales respetando las normas establecidas. Aparte de estas colaboraciones, vemos mucho potencial para mejorar la accesibilidad y la eficiencia de ciertos flujos de trabajo, sobre todo en aplicaciones del sector público. Para estudiar más a fondo estos casos de uso, trabajamos con organizaciones como la ciudad de Stockton⁠(se abre en una nueva ventana), en California, para agilizar el proceso de inscripción a servicios y programas municipales.

“A medida que aprendamos más sobre Operator durante su anticipo de investigación, estaremos mejor preparados para identificar las formas en que la IA puede hacer que la participación ciudadana sea aún más fácil para nuestros residentes”.

Jamil Niazi, director de Tecnología de la Información de la ciudad de Stockton

Al lanzar Operator en un principio a un público limitado, pretendemos aprender rápidamente y perfeccionar sus capacidades basándonos en los comentarios del mundo real, lo que garantiza el equilibrio de la innovación con la confianza y la seguridad. Este enfoque colaborativo contribuye a garantizar que Operator aporte un valor significativo tanto a los usuarios como a los creadores, las empresas y las organizaciones del sector público.

“Operator de OpenAI es un avance tecnológico que facilita de forma increíble procesos como encargar compras”.

Daniel Danker, director de Producto de Instacart

Seguridad y privacidad

Nuestra prioridad es garantizar que Operator es seguro de usar y, para ello, hemos implementado tres capas de seguridad para prevenir un mal uso y asegurar que el usuario siempre tenga el control.

En primer lugar, entrenamos a Operator de forma que el usuario siempre esté en control, y para que pida ayuda en momentos críticos.

Modo de cesión del control: Operator le pide al usuario que tome control cuando se debe ingresar información confidencial en el navegador, como datos de inicio de sesión o de una tarjeta de crédito. En el modo de cesión de control, Operator no puede recopilar la información ingresada por el usuario o hacer capturas de pantalla.
Confirmaciones del usuario: antes de finalizar cualquier acción significativa, como hacer un pedido o enviar un correo electrónico, Operator debe pedir la autorización del usuario.
Limitaciones en las tareas: Operator fue entrenado para rechazar ciertas tareas de carácter sensible, como hacer transacciones bancarias o tomar decisiones de alto riesgo, por ejemplo, con respecto a una solicitud de empleo.
Modo de supervisión: en sitios web con información particularmente sensible, como plataformas bancarias o de correo electrónico, Operator solicita que supervisen sus acciones, lo que permite a los usuarios detectar posibles errores.

Asimismo, hemos facilitado la gestión de la privacidad de datos en Operator.

Exclusión voluntaria del entrenamiento: es posible desactivar la función de “Mejorar el modelo para todo el mundo” en ChatGPT para que los datos de Operator no puedan usarse para entrenar nuestros modelos.
Transparencia en la gestión de datos: los usuarios pueden borrar sus datos de navegación y cerrar sesión en todos los sitios web al hacer clic en la sección de “Privacidad” en la configuración de Operator. Del mismo modo se pueden eliminar las conversaciones anteriores en Operator.

Por último, creamos defensas contra sitios web malintencionados que podrían intentar confundir a Operator con código oculto, código malicioso o intentos de phishing:

Navegación cautelosa: diseñamos a Operator para detectar e ignorar inyecciones de código.
Monitoreo: un “modelo de monitoreo” específico está al pendiente de comportamientos sospechosos y puede pausar las tareas si detecta algo extraño.
Proceso de detección: los procesos de revisión automatizados y humanos identifican de forma continua nuevas amenazas y rápidamente actualiza las defensas.

Sabemos que hay personas que intentarán usar esta tecnología con fines ilícitos. Por eso hemos diseñado Operator para que rechace solicitudes peligrosas y bloquee contenido no autorizado. Nuestros sistemas de moderación pueden generar advertencias e incluso revocar el acceso de los usuarios que cometan infracciones reiteradamente. También integramos procesos de revisión adicionales para detectar y abordar los usos indebidos. Aquí podrás encontrar instrucciones sobre cómo interactuar con Operator de acuerdo con nuestras Políticas de uso.

Aunque implementamos todas estas defensas en Operator, debemos estar al tanto que ningún sistema es perfecto y que se trata de un anticipo de investigación. En OpenAI estamos comprometidos a mejorar constantemente mediante los comentarios de los usuarios y rigurosas pruebas. Para saber más sobre nuestra metodología, visita la sección de “seguridad” del blog de investigación de Operator.

Limitaciones

Operator está en una fase de investigación temprana y, aunque es capaz de llevar a cabo varias tareas, sigue aprendiendo, evolucionando y puede cometer errores. Por ejemplo, le sigue costando interactuar con interfaces complejas como crear presentaciones o gestionar calendarios. Los comentarios de los usuarios juegan un rol muy importante en mejorar su precisión, fiabilidad y seguridad para hacer de Operator un mejor agente para todos.

¿Qué podemos esperar?

CUA en la API: el plan es exponer muy pronto a CUA, el modelo que impulsa a Operator, en la API para que los desarrolladores puedan usarlo para crear sus propios agentes informáticos.

Capacidades mejoradas: continuaremos mejorando la habilidad de Operator para manejar flujos de trabajo más largo y complejos.

Acceso más amplio: en un futuro, ofreceremos Operator⁠(se abre en una nueva ventana) a los usuarios de Plus, Team y Enterprise, e integraremos sus capacidades directamente en ChatGPT. Esto sucederá cuando estemos seguros de su seguridad y capacidad de uso a gran escala, y consigamos que ejecute tareas asíncronas en tiempo real y sin interrupciones.

Autores

OpenAI

Colaboradores fundamentales de investigación

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Colaboradores clave

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Colaboradores de XFN

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Dirección

Aaron Schlesinger (infraestructura), Casey Chu (seguridad y preparación del modelo), David Medina (infraestructura de investigación), Hyeonwoo Noh (infraestructura general), Reiichiro Nakano (infraestructura general), Yash Kumar

Colaboradores

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Liderazgo

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba