Gå direkt till huvudinnehåll
OpenAI

23 januari 2025

Produkt

Introducerar Operator

En förhandsgranskning för forskningsändamål av en agent som kan utföra uppgifter åt dig i sin egen webbläsare. Tillgänglig för Pro-användare inom USA.

Bilden visar en användarförfrågan om att hitta och boka en dagstur i Rom på TripAdvisor med den högsta rankningen. Den inkluderar en sammanfattning av sökningsprocessen och en webbsida för TripAdvisor som visar en “bästsäljande” utflykt: ”Rom: Colosseum, Forum Romanum och Palantinen.”
Laddar …

Uppdatering 17 juli 2025: Operator är nu helt integrerad i ChatGPT som ChatGPT agent. Om du vill använda dessa uppdaterade funktioner ska du välja agentläge i rullgardinsmenyn i kompositören och skriva in frågan direkt i ChatGPT. Detta medför att den fristående Operator-webbplatsen (operator.chatgpt.com) fasas ut under de kommande veckorna.


Idag lanserar vi Operator(öppnas i ett nytt fönster), en agent som kan ta sig ut på webben och utföra uppgifter åt dig. Med sin egen webbläsare kan den titta på en webbsida och interagera med den genom att skriva, klicka och skrolla. Den är för närvarande i förhandsgranskning i forskningssyfte, vilket innebär att den har begränsningar och kommer att utvecklas baserat på användares feedback. Operator är en av våra första agenter, AI-modeller som kan utföra arbeten åt dig utan hjälp. Du behöver bara ge den en uppgift så utför den det.

Operator kan uppmanas att hantera många olika repetitiva webbläsaruppgifter, som t.ex. att fylla i formulär, beställa matvaror och även skapa memes. Förmågan att använda samma gränssnitt och verktyg som människor använder varje dag utvidgar AI:s användbarhet genom att hjälpa folk att spara tid på vardagssysslor. Det öppnar även upp nya engagemangsmöjligheter för företag.

Vi börjar i liten skala för att försäkra oss om en säker och iterativ lansering. Från och med idag är Operator tillgänglig för Pro(öppnas i ett nytt fönster)-användare inom USA på operator.chatgpt.com(öppnas i ett nytt fönster). Den här förhandsgranskningen i forskningssyfte gör att vi kan lära oss från våra användare och det större ekosystemet genom att finjustera och förbättra allt eftersom. Vår plan är att expandera till Plus-, Team- och Enterprise-användare och integrera dessa funktioner i ChatGPT.

Hur Operator fungerar

Operator drivs av en ny modell som kallas för datoranvändande agent (CUA). Genom att kombinera GPT‑4o:s synfunktioner med avancerat resonemang genom förstärkningsinlärning har CUA tränats till att interagera med grafiska användargränssnitt (GUI:er), dvs. knappar, menyer och textfält som man sker på skärmen.

Operator kan ”se” (genom skärmdumpar) och ”interagera” (genom att använda åtgärder som en mus och ett tangentbord tillåter) med en webbläsare så att den kan utföra åtgärder på webben utan att den behöver anpassade API-integrationer.

Om den stöter på utmaningar eller begår misstag kan Operator använda sina resonemangsfunktioner för att självkorrigera. När den fastnar och behöver hjälp ger den bara tillbaka kontrollen till användaren, vilket försäkrar en smidig samarbetsupplevelse.

Fastän CUA ännu befinner sig i ett tidigt stadie och har begränsningar, uppnår den nya toppmoderna jämförelseresultat i WebArena och WebVoyager, två viktiga riktmärken för webbläsaranvändning. Läs mer om utvärderingarna och forskningen bakom Operator i vårt blogginlägg om forskning.

Så här använder man

För att komma igång beskriver du bara uppgiften du vill få utförd så tar Operator hand om resten. Användare kan välja att ta kontroll över den fjärrstyrda webbläsaren när som helst och Operator har tränats till att proaktivt be användare att ta över vid uppgifter som kräver inloggning, betalningsuppgifter och CAPTCHA-uppgifter.

Användare kan anpassa sina arbetsflöden i Operator genom att lägga till anpassade instruktioner, antingen för alla eller vissa webbplatser, såsom att ställa in preferenser för flygbolag på Booking.com. Operator låter användare spara prompter för snabbåtkomst på hemsidan, vilket är perfekt för återkommande uppgifter såsom att fylla på med matvaror på Instacart. Ungefär som när man har flera flikar öppna på en webbläsare kan användare uppmana Operator att utföra flera olika uppgifter samtidigt genom att skapa nya samtal, som t.ex. att beställa en personlig mugg i emalj på Etsy medan den bokar en campingplats på Hipcamp.

Ekosystem och användare

Operator(öppnas i ett nytt fönster) förvandlar AI från ett passivt verktyg till en aktiv deltagare i det digitala ekosystemet. Den kommer att effektivisera uppgifter för användare och leverera agenternas fördelar till företag som vill ha innovativa kundupplevelser och är ute efter högre konverteringsfrekvenser. Vi samarbetar med företag som DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber och andra för att se till att Operator besvarar behoven i riktiga världen medan den respekterar etablerade normer. Utöver dessa samarbeten ser vi mycket potential i att förbättra tillgängligheten och effektiviteten i vissa arbetsflöden, särskilt inom applikationer inom den offentliga sektorn. För att utforska dessa fall ytterligare samarbetar vi med organisationer som t.ex. staden Stockton(öppnas i ett nytt fönster) för att förenkla hur man registrerar sig för stadens tjänster och program.

”Allt eftersom vi lär oss mer om Operator under förhandsgranskning i forskningssyfte kommer vi att vara bättre rustade till att identifiera på vilka sätt AI kan förenkla medborgarengagemanget för våra invånare.”
Jamil Niazi, Director of Information Technology at City of Stockton

Genom att till en början lansera Operator till en begränsad publik siktar vi på att lära oss snabbt och finjustera funktionerna baserat på feedback från riktiga världen, vilket försäkrar att vi balanserar innovation med tillit och säkerhet. Detta samarbetsmässiga tillvägagångssätt försäkrar att Operator levererar betydelsefullt värde till både användare, skapare, företag och organisationer inom den offentliga sektorn.

”OpenAI:s Operator är ett tekniskt genombrott som gör processer såsom att beställa matvaror otroligt enkla.”
Daniel Danker, Chief Product Officer at Instacart

Säkerhet och integritet

En av våra högsta prioriteter är att se till att Operator är säker att använda, med tre skyddslager för att förhindra missbruk och försäkra att användare har fullständig kontroll. 

Först och främst har Operator tränats till att försäkra att personen som använder den alltid behåller kontrollen och att be om synpunkter vid kritiska punkter.

  • Övertagningsläge: Operator ber användaren att ta över när känslig information ska matas in i webbläsaren, som t.ex. inloggnings- eller betalningsuppgifter. När Operator befinner sig i övertagningsläge samlar den inte in eller tar skärmdumpar av informationen som anges av användaren. 
  • Användarbekräftelser: Operator ska alltid be om tillstånd innan den slutför någon viktigare åtgärd, som t.ex. skickar in en beställning eller skickar ett mejl.
  • Uppgiftsbegränsningar: Operator har tränats till att avvisa vissa känsliga uppgifter, som t.ex. banköverföringar eller sådana som kräver viktigt beslutsfattande, såsom att fatta ett beslut på en jobbansökan.
  • Övervakningsläge: På särskilt känsliga webbplatser, som t.ex. e-post- och finansiella tjänster, krävs det att användaren övervakar Operators åtgärder så att hen kan upptäcka eventuella misstag direkt.

Sedan har vi gjort det enkelt att hantera datasäkerheten i Operator. 

  • Bortval av träning: Om du inaktiverar ”Förbättra modellen för alla” i ChatGPT‑inställningarna kommer inte data i Operator att användas till att träna våra modeller. 
  • Transparent datahantering: Användare kan ta bort all bläddringsdata och logga ut ur webbplatser med ett klick under integritetsavsnittet i Operator-inställningarna. Tidigare samtal i Operator kan också tas bort med ett klick.

Slutligen så har vi skapat försvar mot fientliga webbplatser som kan försöka vilseleda Operator genom dolda prompter, skadlig kod eller försök till nätfiske:

  • Försiktig navigering: Operator är utformad till att upptäcka och ignorera införda prompter.
  • Övervakning: En dedikerad ”övervakningsmodell” söker efter misstänkta beteenden och kan pausa uppgiften om något verkar fel.
  • Detekteringskedja: Automatiserade och mänskliga granskningsprocesser identifierar kontinuerligt nya hot och uppdaterar snabbt skyddsåtgärderna.

Vi vet att farliga aktörer kan försöka missbruka den här tekniken. Det är därför vi har utformat Operator till att vägra uppfylla skadliga förfrågningar och blockera förbjudet innehåll. Våra modereringssystem kan utfärda varningar och även stänga av åtkomst vid upprepade överträdelser. Vi har även integrerat ytterligare granskningsprocesser för att upptäcka och åtgärda missbruk. Vi ger också vägledning om hur man interagerar med Operator i enlighet med våra användningspolicyer.

Fastän Operator har utformats med dessa skyddsåtgärder är inget system felfritt och det här är fortfarande en förhandsgranskning i forskningssyfte. Vi har åtagit oss att kontinuerligt förbättra systemet genom feedback från den riktiga världen och rigorös testning, Besök säkerhetsavsnittet i Operators forskningsblogg för mer information om vårt tillvägagångssätt.

Begränsningar

Operator befinner sig för närvarande i en tidig förhandsgranskning i forskningssyfte, och fastän den redan kan hantera många olika uppgifter, lär den sig och utvecklas fortfarande och kan begå misstag. Den stöter t.ex. på utmaningar med komplexa gränssnitt såsom att skapa bildspel och hantera kalendrar. Feedback från tidiga användare kommer att spela en viktig roll i hur vi förbättrar dess noggrannhet och säkerhet så att vi kan göra Operator bättre för alla.

Vad händer härnäst?

CUA i API:et: Vi planerar att avslöja modellen som driver Operator, CUA, i API:et snart så att utvecklare kan använda den till att skapa deras egna datoranvändande agenter. 

Förbättrade funktioner: Vi kommer att fortsätta förbättra Operators förmåga att hantera längre och mer komplexa arbetsflöden.

Bredare åtkomst: Vi planerar att expandera Operator(öppnas i ett nytt fönster) till Plus-, Team- och Enterprise-användare och integrera dess funktioner direkt i ChatGPT i framtiden, när vi har försäkrat oss om dess säkerhet och användbarhet i skala, för att möjliggöra sömlöst utförande av uppgifter i realtid och asynkront.

Författare

OpenAI

Medarbetare vid grundläggande forskning

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Centrala medarbetare

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

XFN-medarbetare

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Ansvariga

Aaron Schlesinger (Infrastruktur), Casey Chu (Säkerhet och modellfärdighet), David Medina (Forskningsrelaterad infrastruktur), Hyeonwoo Noh (Övergripande forskning), Reiichiro Nakano (Övergripande forskning), Yash Kumar

Medarbetare

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Ledarskap

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba