23 januari 2025

Maak kennis met Operator

Een onderzoeksvoorbeeld van een agent die zijn eigen browser kan gebruiken om taken voor je uit te voeren. Beschikbaar voor Pro-gebruikers in de VS.

Ga naar Operator

De afbeelding toont een gebruikersverzoek om de best beoordeelde eendaagse tour door Rome op TripAdvisor te vinden en te boeken. Het bevat een samenvatting van het zoekproces en een TripAdvisor-webpagina met een 'Best Seller' tour: 'Rome: Colosseum, Romeins Forum en Palatijnse heuvel'.

Bezig met laden...

Vandaag introduceren we Operator⁠(opent in een nieuw venster), een agent die voor jou taken op internet kan uitvoeren. Met zijn eigen browser kan hij een webpagina bekijken en ermee communiceren door te typen, klikken en scrollen. Het is momenteel een onderzoeksvoorbeeld. Dit betekent dat het beperkingen heeft en zal evolueren op basis van feedback door gebruikers. Operator is een van onze eerste agents. Dat zijn AI's die zelfstandig werk voor je kunnen doen. Je geeft ze een taak en ze voeren die uit.

Operator kan gevraagd worden om een groot aantal repetitieve browsertaken uit te voeren, zoals formulieren invullen, boodschappen bestellen en zelfs memes maken. De mogelijkheid om dezelfde interfaces en tools te gebruiken als waar mensen dagelijks mee werken, verbreedt het nut van AI en helpt mensen tijd te besparen bij alledaagse taken, terwijl er nieuwe mogelijkheden voor ondernemingen ontstaan.

Om een veilige en geleidelijke implementatie te garanderen, beginnen we klein. Vanaf vandaag is Operator beschikbaar voor Pro⁠(opent in een nieuw venster)-gebruikers in the VS op operator.chatgpt.com⁠(opent in een nieuw venster). Dit onderzoeksvoorbeeld stelt ons in staat om te leren van onze gebruikers en het bredere ecosysteem en om gaandeweg te verfijnen en te verbeteren. Ons plan is om uit te breiden naar Plus-, Team- en Enterprise-gebruikers en deze mogelijkheden in de toekomst te integreren in ChatGPT.

Hoe Operator werkt

Operator wordt aangedreven door een nieuw model genaamd Computer-Using Agent (CUA). Door de combinatie van GPT‑4o's vision-capaciteiten met geavanceerd redeneren door versterkend leren, wordt CUA getraind om te interageren met grafische gebruikersinterfaces (GUI's) - de knoppen, menu's en tekstvelden die mensen op een scherm zien.

Operator kan 'zien' (via schermafbeeldingen) en 'interageren' (met alle acties die een muis en toetsenbord mogelijk maken) met een browser, waardoor het kan handelen op internet zonder dat daarvoor aangepaste API-integraties nodig zijn.

Als het uitdagingen tegenkomt of fouten maakt, kan Operator zijn redeneervermogen gebruiken om zichzelf te corrigeren. Als hij vastloopt en hulp nodig heeft, geeft hij de controle gewoon weer terug aan de gebruiker, wat zorgt voor een soepele en coöperatieve ervaring.

Hoewel CUA zich nog in een vroeg stadium bevindt en beperkingen heeft, zet het nieuwe toonaangevende benchmarkresultaten neer in WebArena en WebVoyager, twee belangrijke benchmarks voor browsergebruik. Lees meer over evaluaties en het onderzoek achter Operator in onze onderzoeksblogpost.

Hoe te gebruiken

Om te beginnen beschrijf je gewoon de taak die je wilt laten uitvoeren en Operator doet de rest. Gebruikers kunnen er op elk moment voor kiezen om de controle over de browser op afstand over te nemen en Operator is getraind om de gebruiker proactief te vragen om de controle over te nemen bij taken waarbij inloggen, betalingsgegevens of het oplossen van CAPTCHA's vereist zijn.

Gebruikers kunnen hun workflows in Operator personaliseren door aangepaste instructies toe te voegen, voor alle sites of voor specifieke sites, zoals het instellen van voorkeuren voor luchtvaartmaatschappijen op Booking.com. Met Operator kunnen gebruikers aanwijzingen opslaan voor snelle toegang op de startpagina, ideaal voor herhaalde taken zoals het bijvullen van boodschappen op Instacart. Net zoals bij het gebruik van meerdere tabbladen in een browser, kunnen gebruikers Operator meerdere taken tegelijk laten uitvoeren door nieuwe conversaties aan te maken, zoals het bestellen van een gepersonaliseerde geëmailleerde mok op Etsy terwijl ze een camping boeken op Hipcamp.

Ecosysteem en gebruikers

Operator⁠(opent in een nieuw venster) wijzigt AI van een passief hulpmiddel in een actieve deelnemer aan het digitale ecosysteem. Het zal taken voor gebruikers stroomlijnen en de voordelen van agents bieden aan ondernemingen die innovatieve klantervaringen en een hogere conversie willen. We werken samen met ondernemingen als DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber en andere om ervoor te zorgen dat Operator zich richt op echte behoeften met respect voor gevestigde normen. Naast deze samenwerkingen zien we veel potentieel om de toegankelijkheid en efficiëntie van bepaalde workflows te verbeteren, met name in toepassingen voor de publieke sector. Om deze gebruikssituaties verder te onderzoeken, werken we samen met organisaties zoals de City of Stockton⁠(opent in een nieuw venster) om het eenvoudiger te maken om in te schrijven voor diensten en programma's van de stad.

"Naarmate we meer leren over Operator tijdens het onderzoeksvoorbeeld, zullen we beter in staat zijn om manieren te vinden waarop AI burgerbetrokkenheid nog eenvoudiger kan maken voor onze inwoners."

Jamil Niazi, directeur informatietechnologie bij de gemeente Stockton

Door Operator in eerste instantie uit te brengen voor een beperkt publiek, willen we snel leren en de mogelijkheden verfijnen op basis van feedback uit de praktijk, zodat we innovatie in balans brengen met vertrouwen en veiligheid. Deze gezamenlijke aanpak helpt ervoor te zorgen dat Operator zinvolle waarde levert aan gebruikers, makers, ondernemingen en overheidsorganisaties.

"OpenAI's Operator is een technologische doorbraak die processen zoals boodschappen bestellen ongelooflijk eenvoudig maakt".

Daniel Danker, Chief Product Officer bij Instacart

Veiligheid en privacy

Ervoor te zorgen dat Operator veilig in gebruik is, vormt een topprioriteit, met drie lagen van beveiliging om misbruik te voorkomen en ervoor te zorgen dat gebruikers de touwtjes stevig in handen hebben.

Ten eerste wordt Operator getraind om ervoor te zorgen dat de persoon die het gebruikt altijd de controle heeft en op kritieke punten om invoert vraagt.

Overnamemodus: Operator vraagt de gebruiker om het over te nemen bij het invoeren van gevoelige informatie in de browser, zoals inloggegevens of betalingsinformatie. In de overnamemodus verzamelt of maakt Operator geen schermopnames van informatie die door de gebruiker is ingevoerd.
Bevestigingen van gebruikers: Voordat een belangrijke actie wordt afgerond, zoals het indienen van een order of het versturen van een e-mail, moet Operator om goedkeuring vragen.
Taakbeperkingen: De operator wordt getraind om bepaalde gevoelige taken te weigeren, zoals banktransacties of taken waarbij veel op het spel staat, zoals het nemen van een beslissing over een sollicitatie.
Kijkmodus: Op bijzonder gevoelige sites, zoals voor e-mail of financiële diensten, vereist Operator nauwlettend toezicht op handelingen, zodat gebruikers eventuele fouten direct kunnen opmerken.

Vervolgens hebben we het eenvoudig gemaakt om gegevensprivacy in Operator te beheren.

Training opt-out: Als je 'Verbeter het model voor iedereen' uitschakelt in de instellingen van ChatGPT, worden gegevens in Operator tevens niet gebruikt om onze modellen te trainen.
Transparant gegevensbeheer: Gebruikers kunnen alle browsergegevens wissen en zich afmelden bij alle sites met één klik onder het Privacy-gedeelte van Operator-instellingen. Eerdere gesprekken in Operator kunnen ook met één klik worden verwijderd.

Tot slot hebben we verdedigingen gebouwd tegen vijandige websites die Operator kunnen proberen te misleiden via verborgen aanwijzingen, kwaadaardige code of phishing-pogingen:

Voorzichtige navigatie: Operator is ontworpen om promptinjecties te detecteren en te negeren.
Bewaking: Een speciaal 'bewakingsmodel' let op verdacht gedrag en kan de taak pauzeren als er iets mis lijkt te zijn.
Detectiepijplijn: Geautomatiseerde en menselijke controleprocessen identificeren voortdurend nieuwe bedreigingen en werken beveiligingen snel bij.

We weten dat kwaadwillenden deze technologie mogelijk zullen proberen te misbruiken. Daarom hebben we Operator ontworpen om schadelijke verzoeken te weigeren en niet-toegestane inhoud te blokkeren. Onze moderatiesystemen kunnen waarschuwingen geven of zelfs de toegang intrekken bij herhaalde overtredingen en we hebben extra controleprocessen geïntegreerd om misbruik op te sporen en aan te pakken. We bieden ook richtlijnen over hoe om te gaan met Operator in overeenstemming met ons Gebruiksbeleid.

Hoewel Operator met deze beveiligingen is ontworpen, is geen enkel systeem foutloos en dit is nog steeds een voorbeeld van onderzoek; we streven naar voortdurende verbetering door middel van feedback uit de praktijk en rigoureuze tests. Ga voor meer informatie over onze aanpak naar het veiligheidsgedeelte van de Operator-onderzoeksblog.

Beperkingen

Operator bevindt zich momenteel in een vroeg onderzoeksstadium en hoewel het al in staat is om een breed scala aan taken uit te voeren, is het nog steeds aan het leren en evolueren en kan het fouten maken. Op dit moment ondervindt het bijvoorbeeld uitdagingen met complexe interfaces zoals het maken van diavoorstellingen of het beheren van kalenders. Vroege feedback van gebruikers zal een cruciale rol spelen bij het verbeteren van de nauwkeurigheid, betrouwbaarheid en veiligheid en ons helpen Operator beter te maken voor iedereen.

Wat nu

CUA in de API: We zijn van plan om het model dat Operator aandrijft, CUA , binnenkort te publiceren in de API, zodat ontwikkelaars het kunnen gebruiken om hun eigen computer-using agents te bouwen.

Verbeterde mogelijkheden: We blijven het vermogen van Operator om langere en complexere workflows te verwerken verbeteren.

Bredere toegang: We zijn van plan om Operator⁠(opent in een nieuw venster) in de toekomst uit te breiden naar Plus-, Team- en Enterprise-gebruikers en de mogelijkheden ervan rechtstreeks in ChatGPT te integreren zodra we vertrouwen hebben in de veiligheid en bruikbaarheid ervan op schaal, zodat we naadloze en asynchrone taakuitvoering in realtime kunnen ontsluiten.

Auteurs

OpenAI

Bijdragers fundamenteel onderzoek

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Kernteam

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Bijdragers uit verschillende teams

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Leads

Aaron Schlesinger (infrastructuur), Casey Chu (veiligheid en modelgereedheid), David Medina (onderzoeksinfrastructuur), Hyeonwoo Noh (algemeen onderzoek), Reiichiro Nakano (algemeen onderzoek), Yash Kumar

Bijdragers

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Leidinggevenden

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba