23 januari 2025

Datoranvändande agent

Operator drivs av Datoranvändande agent, ett universellt gränssnitt med vilket AI kan interagera med den digitala världen.

Gå till Operator

Laddar …

Idag lanserade vi en förhandsgranskning av Operator⁠(öppnas i ett nytt fönster), en agent som kan ta sig ut på webben och utföra uppgifter åt dig. Operator drivs av Datoranvändande agent (CUA), en modell som kombinerar GPT‑4o:s visionskapaciteter med avancerat resonemang via förstärkningsinlärning. Datoranvändande agent har tränats i att interagera med grafiska användargränssnitt (GUI) – knapparna, menyerna och textfälten som visas på en skärm – precis som människor gör. Det ger den flexibiliteten att utföra digitala uppgifter utan API:er, som är specifika för ett visst operativsystem eller webbläsare.

Datoranvändande agent bygger på åratal av grundläggande forskning i skärningspunkten mellan multimodal förståelse och resonemang. Genom en kombination av avancerad GUI-förnimmelse och strukturerad problemlösning kan den dela upp uppgifter i flerstegsplaner och självkorrigera när problem uppstår. Den här förmågan är nästa steg i AI-utvecklingen och innebär att modeller kan använda samma verktyg som människor förlitar sig på till vardags, något som möjliggör en hel rad nya användningsområden.

Datoranvändande agent är fortfarande i ett tidigt skede och har vissa begränsningar, men har uppnått nya, oöverträffade riktmärken med 38,1 % framgångsfrekvens på OSWorld med datorbaserade uppgifter, samt 58,1 % på WebArena och 87 % på WebVoyager för webbaserade uppgifter. Dessa resultat påvisar CUA:s förmåga att navigera och arbeta med flera olika miljöer via ett enda allmänt åtgärdsutrymme.

Vi har utvecklat en CUA med säkerhet som högsta prioritet för att ta itu med de utmaningar det innebär att ha en agent med åtkomst till den digitala världen, något som beskrivs i vårt systemkort för Operator. I linje med vår iterativa distributionsstrategi lanserar vi till att börja med CUA via en förhandsgranskning av Operator på operator.chatgpt.com⁠(öppnas i ett nytt fönster) för Pro⁠(öppnas i ett nytt fönster)-användare i USA. Genom att samla in feedback från den verkliga världen kan vi förfina säkerhetsåtgärderna och införa kontinuerliga förbättringar medan vi förbereder oss på en framtid där digitala agenter blir allt vanligare.

Så här fungerar det

Ett flödesschema som visar hur ett CUA-system tolkar indata som text eller skärmdumpar, genererar åtgärder och tillämpar kommandon på en virtuell maskin.

CUA bearbetar råa pixeldata för att tolka vad som händer på skärmen och använder en virtuell muspekare och ett virtuellt tangentbord för att slutföra åtgärder. Den kan navigera uppgifter i flera steg, hantera fel och anpassa sig till oväntade förändringar. Därigenom kan CUA arbeta i en rad olika digitala miljöer och utföra uppgifter som att fylla i formulär och navigera på webbplatser utan specialiserade API:er.

Med användarinstruktioner arbetar CUA genom en iterativ loop som omfattar förnimmelse, resonemang och handling:

Förnimmelse: Skärmdumpar från datorn läggs till i modellens kontext, vilket ger en visuell ögonblicksbild av datorns aktuella status.
Resonemang: CUA resonerar sig igenom kommande steg med hjälp av tankekedjor, som tar i beaktande nuvarande och tidigare skärmdumpar och åtgärder. Denna inre monolog förbättrar uppgifternas resultat eftersom den gör det möjligt för modellen att utvärdera sina observationer, spåra mellanliggande steg och anpassa sig på ett dynamiskt sätt.
Handling: Den utför åtgärden – klickar, bläddrar eller skriver – tills den beslutar att uppgiften är slutförd eller att användarindata krävs. CUA hanterar de flesta stegen automatiskt, men ber användaren att bekräfta känsliga åtgärder, som att ange inloggningsuppgifter eller besvara CAPTCHA-formulär.

Utvärderingar

CUA uppnår oöverträffade riktmärken både vad gäller dator- och webbläsaranvändning genom att den använder samma universella gränssnitt bestående av skärm, muspekare och tangentbord.

Typ av riktmärke	Riktmärke	Datoranvändning (universellt gränssnitt)		Webbsurfningsagenter	Mänsklig
		OpenAI CUA	Föregående SOTA	Föregående SOTA
Datoranvändning	OSWorld	38,1 %	22,0 %	-	72,4 %
Webbläsaranvändning	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Webbläsaranvändning	WebVoyager	87,0 %	56,0 %	87,0 %	-

Utvärderingsuppgifterna beskrivs här

Webbläsaranvändning

WebArena⁠(öppnas i ett nytt fönster) och WebVoyager⁠(öppnas i ett nytt fönster) har utvecklats i syfte att utvärdera webbläsaragenters resultat när det gäller att slutföra uppgifter i verkliga världen via en webbläsare. WebArena använder egna webbplatser offline med öppen källkod för att simulera verkliga användningsfall inom e-handel, innehållshantering för onlinebutiker (CMS), plattformar för sociala forum med mera. WebVoyager testar modellens resultat på aktiva webbplatser online, såsom Amazon, GitHub och Google Maps.

Inom dessa riktmärken har CUA etablerat en ny standard genom att den använder samma universella gränssnitt, som förnimmer webbläsarskärmen som pixlar och vidtar åtgärder via muspekare och tangentbord. För webbaserade uppgifter uppnådde CUA 58,1 % framgångsfrekvens på WebArena och 87 % framgångsfrekvens på WebVoyager. CUA uppnår hög framgångsfrekvens på WebVoyager, där uppgifterna överlag är ganska enkla, men behöver förbättras ytterligare innan den kan mäta sig med mänskliga resultat inom mer komplexa riktmärken, som WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Datoranvändning

OSWorld⁠(öppnas i ett nytt fönster) är ett riktmärke som utvärderar modellens förmåga att kontrollera fullständiga operativsystem, såsom Ubuntu, Windows och macOS. I det här riktmärket uppnår CUA 38,1 % framgångsfrekvens. Vi granskade hur testtiden påverkade resultatet, det vill säga hur CUA:s resultat förbättras om fler steg tillåts. Diagrammet nedan jämför CUA:s resultat med tidigare toppresultat, i förhållande till hur många steg som tillåts. Mänskliga resultat för det här riktmärket ligger på 72,4 %, så CUA behöver fortfarande förbättras avsevärt.

Alt text: ”Linjediagram med titeln OSWorld, som visar framgångsfrekvens (%) i förhållande till högsta tillåtna antal steg på en logaritmisk skala. Den blå linjen representerar OpenAI:s CUA och de orangefärgade punkterna representerar Claude 3.5 Sonnet – datoranvändning, med anteckningar över framgångsfrekvens.

Följande visualisering visar exempel på hur CUA hanterar olika standardiserade OSWorld-uppgifter.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA i Operator

Vi lanserar CUA genom en förhandsgranskning av Operator, en agent som kan ta sig ut på webben och utföra uppgifter åt dig. Operator tillgänglig för Pro⁠(öppnas i ett nytt fönster)-användare i USA på operator.chatgpt.com⁠(öppnas i ett nytt fönster). Den här förhandsgranskningen i forskningssyfte ger oss en möjlighet att lära oss från våra användare och det större ekosystemet genom att finjustera och förbättra Operator allt eftersom. Som är fallet med all tidig teknik har vi ännu inga förväntningar på att CUA ska producera pålitliga resultat i alla scenarier. Den har dock redan visat sig vara användbar för olika användningsfall, och vårt mål är att göra den mer pålitlig för fler olika uppgifter. Genom att lansera CUA i Operator hoppas vi kunna samla in värdefulla insikter från våra användare, som kan vägleda oss under finjusteringen av dess förmågor och utökningen av dess användningsområden.

I tabellen nedan visar vi CUA:s resultat i Operator efter ett antal olika tester, där en prompt har använts för att demonstrera dess kända styrkor och svagheter.

Kategori	Prompt	Framgång / försök	Anteckning
Interaktioner med olika komponenter i användargränssnittet för att slutföra uppgifter	Omgång 1: Search Britannica for a detailed map view of bear habitats Turn 2: Mycket bra! Gå till länkarna till svartbjörnar, brunbjörnar och isbjörnar och ge en kortfattad allmän översikt över deras fysiska egenskaper, särskilt skillnaderna mellan dem. Och spara länkarna åt mig, så att jag kommer åt dem snabbt.	10 / 10	CUA kan interagera med olika komponenter i användargränssnittet för att söka, sortera och filtrera resultat för att hitta den information som användarna behöver. Tillförlitligheten varierar mellan olika webbplatser och användargränssnitt.
	Jag vill ha ett erbjudande från stormarknaden. Kan du kolla om de har något erbjudande på läsk med prebiotika? Om de har det vill jag ha dem med vattenmelonsmak i 33 cl-burkar. Ge mig ett passande erbjudande och kolla så att den är glutenfri.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). Min budget ligger på 600 000–800 000 $, och lägenheten bör helst vara 140 kvm stor.	3 / 10
Uppgifter som kan utföras genom upprepade enkla interaktioner med användargränssnittet	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA kan på ett tillförlitligt sätt upprepa enkla interaktioner med användargränssnitt flera gånger för att automatisera enkla men tråkiga uppgifter.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Uppgifter där CUA bara visar en hög framgångsfrekvens om prompterna innehåller detaljerade ledtrådar om hur webbplatsen ska användas.	Gå till tagvenue.com och leta efter en konsertlokal som rymmer 150 personer i London. Jag behöver lokalen den 22 februari 2025 under hela dagen från 9.00 till 00.00. Se bara till att den kostar under 90 £ per timme. Just ja, kan du även kolla efter lämpliga filter och se till att det finns en parkering och att lokalen är rullstolsanpassad.	8 / 10	Även för samma uppgift kan CUA:s tillförlitlighet förändras beroende på hur prompten till uppgiften formuleras. I det här fallet kan vi förbättra tillförlitligheten genom att ange specifika datum (t.ex. kl. 09.00–00.00 jämfört med hela dagen från kl. 09.00) och genom att ge tips om vilket användargränssnitt som ska användas för att hitta resultat (t.ex. kontrollera filteravsnittet …)
	Gå till tagvenue.com och leta efter en konsertlokal som rymmer 150 personer i London. Jag behöver lokalen den 22 februari 2025 under hela dagen från 9.00. Se bara till att den kostar under 90 £ per timme. Just ja, se till att det finns en parkering och att lokalen är rullstolsanpassad.	3 / 10
Har problem med att använda obekanta användargränssnitt och textredigering	Använd html5editor och skriv in följande text på vänster sida, redigera den sedan enligt mina instruktioner och ge mig en skärmdump av det hela när du är klar. Texten lyder: Hej världen! Det här är min första text. Jag måste se hur det skulle se ut om det programmeras med HTML. Vissa delar ska vara röda. Vissa fetstil. Vissa kursiva. Vissa understrukna. Tills lektionen är slut och vi går över till andra sidan … Hej världen! bör skrivas med rubrik 2 Meningen under den bör vara en vanlig stycketext. Meningen som nämner rött ska vara normal text och röd Meningen som nämner fetstil ska vara normal text med fetstil Meningen som nämner kursiv ska vara kursiverad Den sista meningen ska vara högerställd istället för vänsterställd	4 / 10	När CUA måste interagera med användargränssnitt som den inte har interagerat så mycket med under upplärningen har den svårt att lista ut hur användargränssnittet bäst bör användas. Det leder ofta till många felaktiga resultat och ineffektiva åtgärder. CUA redigerar inte text på ett särskilt exakt sätt. Den begår ofta många misstag under processens gång eller genererar felaktig utdata.

Säkerhet

Eftersom CUA är en av våra första agentprodukter med förmågan att vidta åtgärder direkt i en webbläsare, innebär den även nya risker och problem. Under förberedelserna inför lanseringen av Operator genomförde vi omfattande säkerhetstestning och implementerade begränsningar inom tre huvudgrupper av säkerhetsrisker: missbruk, modellmisstag och risker relaterade till spjutspetsteknik. Vi anser att säkerhetsrisker måste hanteras med en metod i flera lager, och har därför etablerat skyddsmekanismer i hela distributionskontexten: själva CUA-modellen, Operator-systemet och processer efter distribution. Målet är att införa begräsningar på begränsningar, så att varje lager minskar risken ytterligare.

Den första riskkategorin är missbruk. Utöver kravet att alla användare följer våra användningspolicyer har vi även infört följande begränsningar i syfte att minska risken för att Operator ska orsaka skada på grund av missbruk. Detta arbete grundar sig på säkerhetsåtgärderna kring GPT‑4o:

Vägran: CUA-modellen har tränats att vägra utföra många slags skadliga uppgifter och olagliga eller begränsade aktiviteter.
Blockeringslista: Operator har inte åtkomst till webbplatser som vi har blockerat på förhand, till exempel många spelsidor, vuxenunderhållning och drog- eller vapenhandlare.
Moderering: Användarinteraktioner granskas i realtid av automatiserade kontrollanter vars uppgift det är att säkerställa att användningspolicyerna följs, och som kan utfärda varningar om, eller blockera, förbjudna aktiviteter.
Upptäckt offline: Vi har även automatiserade upptäcktsmekanismer och flöden för mänsklig granskning där förbjudna användningsfall inom prioriterade områden kan identifieras, till exempel hot mot barns säkerhet och bedrägliga aktiviteter. Detta hjälper oss att verkställa våra användningspolicyer.

Den andra riskkategorin är modellmisstag, där CUA-modellen av misstag vidtar åtgärder som användaren inte haft för avsikt att vidta, vilket i sin tur skadar användaren eller andra. Hypotetiska misstag kan vara av olika allvarlighetsgrad, allt från ett stavfel i ett e-postmeddelande till köp av fel produkt eller permanent borttagning av ett viktigt dokument. För att minimera den potentiella skada detta kan medföra har vi tagit fram följande begränsningar:

Användarbekräftelser: CUA-modellen har tränats att be om bekräftelse från användaren innan den slutför uppgifter med externa bieffekter, till exempel om en beställning eller ett e-postmeddelande eller liknande skickas. Användaren kan då granska modellens arbete innan någon permanent åtgärd vidtas.
Begränsningar av uppgifter: I nuläget vägrar CUA-modellen att hjälpa till med mer riskabla uppgifter, som banköverföringar och uppgifter som kräver att känsliga beslut fattas.
Övervakningsläge: På särskilt känsliga webbplatser, till exempel i e-postprogram, måste Operator aktivt övervakas av användaren, så att användaren snabbt kan identifiera och ta itu med potentiella misstag som modellen begått.

En särskilt viktig kategori av modellmisstag är fientliga angrepp på webbplatser, som gör att CUA-modellen vidtar oförutsedda åtgärder som svar på försök att ange prompter, behörighetsintrång och nätfiske. Utöver ovanstående begränsningar av modellmisstag har vi även tagit fram ytterligare skyddslager i relation till dessa risker:

Försiktig navigering: CUA-modellen identifierar och ignorerar försök att ange prompter på webbplatser, något den lyckades med i alla fall utom ett under tidig red-teams-session
Övervakning: I Operator har vi implementerat ytterligare en modell som övervakar och pausar åtgärder om den hittar misstänkt innehåll på skärmen.
Detekteringskedja: Vi använder både automatiserad upptäckt och mänskliga granskningsflöden för att identifiera misstänkta åtkomstmönster som kan markeras med en varningsflagga och snabbt sättas under övervakning (inom några timmar).

Slutligen har vi utvärderat CUA-modellen i förhållande till risker relaterade till spjutspetsteknik, vilket beskrivs i vårt beredskapsramverk⁠(öppnas i ett nytt fönster). Detta omfattar bland annat scenarier med automatisk replikering och verktyg för att hantera risker med biologiska ämnen. Dessa utvärderingar påvisade inte någon förhöjd risk jämfört med GPT‑4o.

Om du vill granska utvärderingarna och skydden närmare kan du läsa systemkortet för Operator, ett aktivt dokument som ger insyn i vårt säkerhetsarbete och våra pågående förbättringar.

Många av förmågorna i Operator är nya, och nya är även de risker och begränsningar som vi handskas med. Vårt mål är att skapa toppmoderna, diversifierade och kompletterande begränsningar, men vi räknar också med att både riskerna och våra metoder kommer att förändras med tiden. Vi hoppas att perioden med en förhandsgranskningsversion ska ge oss en möjlighet att samla in feedback från användare, förfina våra skyddsåtgärder och göra agenten säkrare.

Slutsats

CUA bygger på åratal av forskningsframsteg inom områdena multimodalitet, resonemang och säkerhet. Vi har gjort stora framsteg inom djup research med o-modellerna, inom synförmåga med GPT‑4o och funnit nya tekniker för att skapa stabilare modeller med hjälp av förstärkningsinlärning och instruktionshierarkier. Nästa utmaning handlar om att utöka agenternas handlingsutrymme. Det är ett problem som det flexibla, universella gränssnittet syftar till att lösa, så att agenten kan använda alla mjukvaruverktyg som skapats för människor. Genom att gå bortom specialiserade API:er för agenter har CUA möjlighet att anpassa sig till alla slags datormiljöer – något som möjliggör många fler digitala användningsfall än de flesta AI-modeller kan hantera.

Vi arbetar dessutom med att göra CUA tillgängligt i API:et⁠(öppnas i ett nytt fönster), så att utvecklare kan använda den för att bygga egna datoranvändande agenter. Vi fortsätter att förbättra CUA och ser fram emot de olika användningsfall som vår community kommer att hitta. Vår plan är att använda insamlad feedback från verkliga användare av den här tidiga förhandsgranskningen för att kontinuerligt förfina CUA:s förmågor och säkerhetsmekanismer, så att vi på ett säkert sätt kan fortsätta med vårt uppdrag att ge alla tillgång till fördelarna med AI.

Författare

OpenAI

Referenser

Introducerar datoranvändning, en ny Claude 3.5 Sonnet, och Claude 3.5 Haiku⁠(öppnas i ett nytt fönster)

Modellkortstillägg: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(öppnas i ett nytt fönster)

Kura WebVoyager-riktmärke⁠(öppnas i ett nytt fönster)

Googles Project Mariner⁠(öppnas i ett nytt fönster)

OSWorld: Riktmärkes flermodala agenter for öppna uppgifter i verkliga datormiljöer⁠(öppnas i ett nytt fönster)

WebVoyager: Bygger en End-to-End-webbagent med stora flermodala modeller⁠(öppnas i ett nytt fönster)

WebArena: En realistisk webbmiljö för byggande av autonoma agenter⁠(öppnas i ett nytt fönster)

Citeringar

Citera OpenAI och ange följande BibTeX i hänvisningen: http://cdn.openai.com/cua/cua2025.bib⁠(öppnas i ett nytt fönster)