23 de gener del 2025

Introducing Operator

A research preview of an agent that can use its own browser to perform tasks for you. Available to Pro users in the U.S.

Ves a Operator

Introducing Operator > Hero > Media Item

S'està carregant…

Actualització del 17 de juliol de 2025: Operator ara està totalment integrat a ChatGPT com a ChatGPT agent. Per accedir a aquestes capacitats actualitzades, només cal seleccionar «mode agent» al menú desplegable del compositor i introduir la consulta directament a ChatGPT. Com a resultat, el lloc independent d'Operator (operator.chatgpt.com) es deixarà d'oferir en les properes setmanes.

Avui llancem Operator⁠(s'obre en una finestra nova), un agent que pot anar al web per fer tasques per tu. Amb el seu propi navegador, pot mirar una pàgina web i interactuar-hi escrivint, fent clic i desplaçant-se. Actualment és una previsualització de recerca, cosa que significa que té limitacions i evolucionarà segons els comentaris dels usuaris. Operator és un dels nostres primers agents, que són IA capaces de fer feina per tu de manera independent: li dones una tasca i l'executarà.

Es pot demanar a Operator que gestioni una gran varietat de tasques repetitives del navegador, com ara omplir formularis, demanar queviures i fins i tot crear memes. La capacitat d'utilitzar les mateixes interfícies i eines amb què els humans interactuen diàriament amplia la utilitat de la IA, ajudant la gent a estalviar temps en tasques quotidianes i alhora obrint noves oportunitats d'interacció per a les empreses.

Per garantir un desplegament segur i iteratiu, comencem a petita escala. A partir d'avui, Operator està disponible per als usuaris Pro⁠(s'obre en una finestra nova) als EUA a operator.chatgpt.com⁠(s'obre en una finestra nova). Aquesta previsualització de recerca ens permet aprendre dels nostres usuaris i de l'ecosistema més ampli, afinant i millorant sobre la marxa. El nostre pla és ampliar-lo als usuaris Plus, Team i Enterprise i integrar aquestes capacitats a ChatGPT en el futur.

Com funciona Operator

Operator funciona amb un nou model anomenat Computer-Using Agent (CUA). En combinar les capacitats de visió de GPT‑4o amb un raonament avançat mitjançant aprenentatge per reforç, CUA està entrenat per interactuar amb interfícies gràfiques d'usuari (GUI): els botons, menús i camps de text que la gent veu en una pantalla.

Operator pot «veure» (mitjançant captures de pantalla) i «interactuar» (utilitzant totes les accions que permeten un ratolí i un teclat) amb un navegador, cosa que li permet actuar al web sense requerir integracions d'API personalitzades.

Si troba dificultats o comet errors, Operator pot aprofitar les seves capacitats de raonament per autocorregir-se. Quan es queda encallat i necessita ajuda, simplement retorna el control a l'usuari, garantint una experiència fluida i col·laborativa.

Tot i que CUA encara és en una fase inicial i té limitacions, estableix nous resultats de referència d'última generació a WebArena i WebVoyager, dos punts de referència clau per a l'ús del navegador. Llegeix més sobre les avaluacions i la recerca que hi ha darrere d'Operator al nostre article del blog de recerca.

Com s'utilitza

Per començar, simplement descriu la tasca que vols que es faci i Operator pot encarregar-se de la resta. Els usuaris poden optar per prendre el control del navegador remot en qualsevol moment, i Operator està entrenat per demanar de manera proactiva a l'usuari que prengui el control per a tasques que requereixen inici de sessió, dades de pagament o quan cal resoldre CAPTCHAs.

Els usuaris poden personalitzar els seus fluxos de treball a Operator afegint instruccions personalitzades, ja sigui per a tots els llocs o per a alguns de concrets, com establir preferències per a aerolínies a Booking.com. Operator permet als usuaris desar indicacions per accedir-hi ràpidament des de la pàgina d'inici, ideal per a tasques repetides com reposar queviures a Instacart. De manera semblant a utilitzar diverses pestanyes en un navegador, els usuaris poden fer que Operator executi diverses tasques simultàniament creant converses noves, com demanar una tassa d'esmalt personalitzada a Etsy mentre reserven una zona d'acampada a Hipcamp.

Ecosistema i usuaris

Operator⁠(s'obre en una finestra nova) transforma la IA d'una eina passiva en un participant actiu dins l'ecosistema digital. Agilitzarà tasques per als usuaris i aportarà els beneficis dels agents a empreses que volen experiències de client innovadores i desitgen taxes de conversió més altes. Estem col·laborant amb empreses com DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber i d'altres per garantir que Operator respongui a necessitats del món real respectant alhora les normes establertes. A més d'aquestes col·laboracions, veiem molt potencial per millorar l'accessibilitat i l'eficiència de determinats fluxos de treball, especialment en aplicacions del sector públic. Per explorar més a fons aquests casos d'ús, treballem amb organitzacions com la City of Stockton⁠(s'obre en una finestra nova) per facilitar la inscripció a serveis i programes municipals.

«A mesura que aprenguem més sobre Operator durant la seva previsualització de recerca, estarem més ben preparats per identificar maneres en què la IA pot fer que la participació cívica sigui encara més fàcil per als nostres residents.»

Jamil Niazi, director de Tecnologia de la Informació de la City of Stockton

En llançar Operator inicialment a una audiència limitada, volem aprendre ràpidament i perfeccionar-ne les capacitats a partir de comentaris del món real, assegurant que equilibrem la innovació amb la confiança i la seguretat. Aquest enfocament col·laboratiu ajuda a garantir que Operator aporti un valor significatiu tant a usuaris com a creadors, empreses i organitzacions del sector públic.

«L'Operator d'OpenAI és un avenç tecnològic que fa que processos com demanar queviures siguin increïblement fàcils.»

Daniel Danker, director de Producte d'Instacart

Seguretat i privadesa

Garantir que Operator sigui segur d'utilitzar és una prioritat màxima, amb tres capes de salvaguardes per evitar abusos i assegurar que els usuaris mantinguin fermament el control.

En primer lloc, Operator està entrenat per garantir que la persona que l'utilitza sempre mantingui el control i demana informació en punts crítics.

Mode de presa de control: Operator demana a l'usuari que prengui el control quan introdueix informació sensible al navegador, com ara credencials d'inici de sessió o informació de pagament. Quan està en mode de presa de control, Operator no recopila ni fa captures de pantalla de la informació introduïda per l'usuari.
Confirmacions de l'usuari: Abans de finalitzar qualsevol acció important, com ara enviar una comanda o un correu electrònic, Operator ha de demanar aprovació.
Limitacions de tasques: Operator està entrenat per rebutjar determinades tasques sensibles, com ara transaccions bancàries o aquelles que requereixen decisions d'alt risc, com prendre una decisió sobre una sol·licitud de feina.
Mode de vigilància: En llocs especialment sensibles, com ara el correu electrònic o els serveis financers, Operator requereix una supervisió estreta de les seves accions, cosa que permet als usuaris detectar directament qualsevol possible error.

A continuació, hem facilitat la gestió de la privadesa de les dades a Operator.

Exclusió de l'entrenament: Desactivar «Millora el model per a tothom» a la configuració de ChatGPT significa que les dades d'Operator tampoc no s'utilitzaran per entrenar els nostres models.
Gestió transparent de dades: Els usuaris poden suprimir totes les dades de navegació i tancar la sessió de tots els llocs amb un sol clic a la secció Privadesa de la configuració d'Operator. Les converses anteriors a Operator també es poden suprimir amb un sol clic.

Finalment, hem creat defenses contra llocs web adversaris que poden intentar enganyar Operator mitjançant indicacions ocultes, codi maliciós o intents de phishing:

Navegació prudent: Operator està dissenyat per detectar i ignorar les injeccions d'indicacions.
Monitoratge: Un «model monitor» dedicat vigila comportaments sospitosos i pot pausar la tasca si alguna cosa sembla fora de lloc.
Pipeline de detecció: Els processos automatitzats i de revisió humana identifiquen contínuament noves amenaces i actualitzen ràpidament les salvaguardes.

Sabem que els mals actors poden intentar fer un mal ús d'aquesta tecnologia. Per això hem dissenyat Operator perquè rebutgi les sol·licituds perjudicials i bloquegi el contingut no permès. Els nostres sistemes de moderació poden emetre advertiments o fins i tot revocar l'accés en cas d'infraccions repetides, i hem integrat processos de revisió addicionals per detectar i abordar els usos indeguts. També proporcionem orientació sobre com interactuar amb Operator d'acord amb les nostres Polítiques d'ús.

Tot i que Operator està dissenyat amb aquestes salvaguardes, cap sistema és infal·lible i això continua sent una previsualització de recerca; ens comprometem a millorar contínuament a través de comentaris del món real i proves rigoroses. Per obtenir més informació sobre el nostre enfocament, visita la secció de seguretat del blog de recerca d'Operator.

Limitacions

Operator es troba actualment en una previsualització de recerca inicial i, tot i que ja és capaç de gestionar una àmplia gamma de tasques, encara està aprenent, evolucionant i pot cometre errors. Per exemple, actualment troba dificultats amb interfícies complexes, com ara crear presentacions de diapositives o gestionar calendaris. Els comentaris dels primers usuaris tindran un paper vital per millorar-ne la precisió, la fiabilitat i la seguretat, i ens ajudaran a fer que Operator sigui millor per a tothom.

Què ve després

CUA a l'API: Tenim previst exposar aviat a l'API el model que impulsa Operator, CUA, perquè els desenvolupadors el puguin fer servir per crear els seus propis agents informàtics.

Capacitats millorades: Continuarem millorant la capacitat d'Operator per gestionar fluxos de treball més llargs i complexos.

Accés més ampli: Tenim previst ampliar Operator⁠(s'obre en una finestra nova) als usuaris Plus, Team i Enterprise, i integrar directament les seves capacitats a ChatGPT en el futur quan estiguem segurs de la seva seguretat i usabilitat a escala, desbloquejant una execució de tasques en temps real i asíncrona sense interrupcions.

Autors

OpenAI

Col·laboradors de la recerca fundacional

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Nucli

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Col·laboradors XFN

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Responsables

Aaron Schlesinger (Infraestructura), Casey Chu (Seguretat i preparació del model), David Medina (Infraestructura de recerca), Hyeonwoo Noh (Recerca general), Reiichiro Nakano (Recerca general), Yash Kumar

Col·laboradors

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Lideratge

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba