23. januar 2025

Databrukende agent

Operator drives av databrukende agent, et universelt grensesnitt som lar AI samhandle med den digitale verdenen.

Laster inn …

I dag lanserer vi en utprøvingsversjon av Operator⁠(åpnes i et nytt vindu), en agent som kan gå på nettet for å utføre oppgaver for deg. Operator drives av databrukende agent (CUA (DBA)), en modell som kombinerer synsfunksjonaliteten til GPT‑4o med avansert resonnement via forsterkende læring. CUA (DBA) er opplært til å samhandle med grafiske brukergrensesnitt (GUI-er) – knappene, menyene og tekstfeltene folk ser på en skjerm – akkurat som mennesker. Dette gir fleksibiliteten til å utføre digitale oppgaver uten å bruke API-er spesifikke for operativsystem eller nettet.

CUA (DBA) bygger på mange års grunnleggende forskning ved skjæringspunktet til multimodal forståelse og resonnement. Ved å kombinere avansert GUI-persepsjon med strukturert problemløsning kan den dele oppgaver inn i planer på flere trinn og selvkorrigere når utfordringer oppstår. Denne funksjonaliteten utgjør det neste trinnet innen AI-utvikling, noe som lar modeller bruke de samme verktøyene som mennesker bruker hver dag, og åpner døren til en rekke nye bruksområder.

Selv om CUA (DBA) fremdeles er tidlig og har begrensninger, oppnår den resultater på nye toppmoderne referansemålinger, og har 38,1 % suksessrate på OSWorld for oppgaver med full datamaskinbruk, og 58,1 % på WebArena og 87 % på WebVoyager for nettbaserte oppgaver. Disse resultatene fremhever evnen CUA (DBA) har til å navigere og operere mellom forskjellige miljøer med et enkelt generelt handlingsområde.

Vi har utviklet CUA (DBA) med sikkerhet som høyeste prioritet for å håndtere utfordringene fra en agent som har tilgang til den digitale verdenen, som forklart i Operator-systemkortet. I tråd med strategien vår for iterativ utrulling lanserer vi CUA (DBA) gjennom en utprøvingsversjon av Operator på operator.chatgpt.com⁠(åpnes i et nytt vindu) for brukere på Pro⁠(åpnes i et nytt vindu)-nivå i USA som en start. Ved å samle inn tilbakemelding fra den virkelige verdenen kan vi fininnstille sikkerhetstiltak og kontinuerlig forbedre oss når vi forbereder oss for en fremtid med økende bruk av digitale agenter.

Slik fungerer det

Et flytdiagram som viser prosessen til et CUA (DBA)-system som tolker inndata som tekst eller skjermbilder, genererer handlinger og bruker kommandoer i en virtuell maskin.

CUA (DBA) behandler rå pikseldata for å forstå hva som skjer på skjermen, og bruker en virtuell mus og et virtuelt tastatur for å fullføre handlinger. Den kan navigere oppgaver med flere trinn, håndtere feil og tilpasse seg etter uventede endringer. Dette lar CUA (DBA) handle i et bredt spekter av digitale miljøer, utføre oppgaver som å fylle ut skjemaer og navigere på nettsteder uten behov for spesialiserte API-er.

Basert på veiledning fra en bruker opererer CUA (DBA) gjennom en iterativ sløyfe som integrerer persepsjon, resonnement og handling:

Persepsjon: Skjermbilder fra datamaskinen legges til i modellkonteksten, noe som gir et visuelt øyeblikksbilde av den nåværende tilstanden til datamaskinen.
Resonnement: CUA (DBA) resonnerer seg gjennom de neste trinnene ved bruk av tankerekke, og tar hensyn til gjeldende og tidligere skjermbilder og handlinger. Denne indre monologen forbedrer oppgaveytelse ved å la modellen evaluere observasjonene sine, spore mellomtrinn og tilpasse seg dynamisk.
Handling: Den utfører handlingene – klikke, rulle eller skrive – til den fastslår at oppgaven er fullført eller brukerinndata kreves. Selv om den håndterer de fleste trinnene automatisk, ber CUA (DBA) om brukerbekreftelse for sensitive handlinger som innskriving av påloggingsinformasjon eller svar på CAPTCHA-skjemaer.

Evalueringer

CUA (DBA) etablerer et nytt toppnivå innen referansemålinger for både datamaskin- og nettleserbruk ved å bruke samme universelle grensesnitt til skjerm, mus og tastatur.

Type referansemåling	Referansemåling	Datamaskinbruk (universelt grensesnitt)		Nettleseragenter	Menneskelig
		OpenAI CUA	Forrige SOTA	Forrige SOTA
Datamaskinbruk	OSWorld	38,1 %	22,0 %	-	72,4 %
Nettleserbruk	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Nettleserbruk	WebVoyager	87,0 %	56,0 %	87,0 %	-

Evalueringsdetaljer beskrives her

Nettleserbruk

WebArena⁠(åpnes i et nytt vindu) og WebVoyager⁠(åpnes i et nytt vindu) er utformet til å evaluere ytelsen til nettleseragenter for å fullføre oppgaver i den virkelige verdenen med nettlesere. WebArena bruker selvvertede nettsteder med åpen kildekode utenfor internett for å imitere scenarioer i den virkelige verdenen innen e-handel, innholdsadministrering i nettbutikker (CMS), plattformer for sosiale forum med mer. WebVoyager tester modellens ytelse på aktive nettsteder som Amazon, GitHub og Google Maps.

I disse referansemålingene setter CUA (DBA) en ny standard med det samme universelle grensesnittet som fornemmer nettleserskjermen som piksler og utfører handlinger med mus og tastatur. CUA (DBA) oppnådde 58,1 % suksessrate på WebArena og 87 % suksessrate på WebVoyager for nettbaserte oppgaver. Selv om CUA (DBA) oppnår en høy suksessrate på WebVoyager, der flesteparten av oppgavene er relativt enkle, trenger CUA (DBA) fremdeles flere forbedringer for å lukke gapet til menneskelig ytelse på mer komplekse referansemålinger som WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Datamaskinbruk

OSWorld⁠(åpnes i et nytt vindu) er en referansemåling som evaluerer modellens evne til å kontrollere hele operativsystemer som Ubuntu, Windows og macOS. I denne referansemålingen oppnår CUA (DBA) 38,1 % suksessrate. Vi observerte skalering av testtid, noe som betyr at ytelsen til CUA (DBA) forbedres når flere trinn er tillatt. Figuren nedenfor sammenligner ytelsen til CUA (DBA) med tidligere toppmoderne modeller med varierende antall maksimalt tillatte trinn. Menneskelig ytelse i denne referansemålingen er 72,4 %, så det er fremdeles betydelig rom for forbedring.

Alt-tekst: Linjediagram med tittelen «OSWorld» viser suksessrater (%) kontra maks antall tillatte trinn i en logaritmisk skala. Blå linje representerer OpenAI CUA (DBA), og oransje punkter representerer Claude 3.5 Sonnet – datamaskinbruk, med kommentarer for suksessrater.

De følgende visualiseringene viser eksempler på CUA (DBA) som navigerer i en rekke standardiserte OSWorld-oppgaver.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA (DBA) i Operator

Vi gjør CUA (DBA) tilgjengelig i en utprøvingsversjon av Operator, en agent som kan gå på nettet for å utføre oppgaver for deg. Operator er tilgjengelig for Pro⁠(åpnes i et nytt vindu)-brukere i USA på operator.chatgpt.com⁠(åpnes i et nytt vindu). Denne utprøvingsversjonen er en mulighet til å lære av brukerne våre og det bredere økosystemet, for å forbedre og videreutvikle Operator iterativt. Som med all teknologi tidlig i utviklingen, forventer vi ikke at CUA (DBA) presterer pålitelig i alle scenarioer ennå. Men den har allerede vist seg å være nyttig i en rekke bruksområder, og vi har mål om å forbedre den påliteligheten til et større spekter av oppgaver. Ved å lansere CUA (DBA) i Operator har vi håp om å innhente nyttig innsikt fra brukerne våre, som kan veilede oss i finjustering av funksjonalitetene og utvide bruksområdene.

I tabellen nedenfor presenterer vi ytelsen til CUA (DBA) i Operator på noen få prøver gitt en melding for å illustrere de kjente styrkene og svakhetene.

Kategori	Melding	Suksess / forsøk	Merk
Samhandling med forskjellige UI-komponenter for å utføre oppgaver	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA kan samhandle med forskjellige UI-komponenter for å søke, sortere og filtrere resultater for å finne informasjonen brukerne vil ha. Påliteligheten varierer for forskjellige nettsteder og UI.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Oppgaver som kan utføres via gjentatte enkle UI-samhandlinger	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA kan gjenta enkle UI-samhandlinger pålitelig gjentatte ganger for å automatisere enkle, men kjedelige oppgaver for brukere.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Oppgaver der CUA viser en høy suksessrate bare hvis meldinger inkluderer detaljerte hint om hvordan nettstedet brukes.	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Selv for den samme oppgaven kan påliteligheten til CUA variere avhengig av hvordan vi formulerer meldingen. I dette tilfellet kan vi forbedre påliteligheten ved å gi spesifikasjoner for dato (f.eks. 9:00 til 12:00 i stedet for hele dagen fra 9:00) og ved å gi hint om hvilket UI som skal brukes for å finne resultater (f.eks. sjekk filterdelen…)
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
Sliter med å bruke ukjent UI og tekstredigering	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	Når CUA må samhandle med UI som den ikke har samhandlet stort med under opplæring, sliter den med å finne ut hvordan det oppgitte UI-et skal brukes riktig. Det resulterer ofte i mye prøving og feiling og ineffektive handlinger. CUA er ikke nøyaktig til tekstredigering. Den gjør ofte mange feil i prosessen eller gir utdata med feil.

Sikkerhet

Siden CUA (DBA) er et av de første agentiske produktene våre med evnen til å utføre handlinger direkte i en nettleser, medfører den nye risikoer og utfordringer vi må takle. Som vi forberedte for utrullingen av Operator, utførte vi omfattende sikkerhetstesting og implementerte tiltak i tre store klasser med sikkerhetsrisikoer: feilaktig bruk, modellfeil og ukjente risikolandskap. Vi mener at det er viktig å ha en lagvis tilnærmelse til sikkerhet, så vi implementerte tiltak over hele utrullingskonteksten: selve CUA (DBA)-modellen, Operator-systemet og prosessene etter utrulling. Målet er å ha tiltak som stables, der hvert lag i økende grad reduserer risikoprofilen.

Den første risikokategorien er feilaktig bruk. I tillegg til å kreve at brukerne våre overholder våre retningslinjer for bruk, har vi utformet de følgende tiltakene for å redusere Operators risiko for skade på grunn av uriktig bruk, basert på vårt sikkerhetsarbeid for GPT‑4o:

Nektelser: CUA (DBA)-modellen er opplært til å nekte mange skadelige oppgaver og ulovlige eller regulerte aktiviteter.
Blokkeringsliste: Operator har ikke tilgang til nettsteder vi har blokkert på forhånd, for eksempel mange gamblingnettsteder, underholdning for voksne og forhandlere av legemidler eller våpen.
Moderering: Brukersamhandlinger blir gjennomgått i sanntid av automatiserte sikkerhetskontrollere, som er utformet for å sikre overholdelse av retningslinjene for bruk og har evnen til å utstede advarsler eller blokkere for forbudt aktivitet.
Registrering uten nett: Vi har også utviklet automatisert registrering og prosesser for menneskelig gjennomgang for å identifisere forbudt bruk i prioriterte områder av retningslinjene, inkludert barnesikkerhet og villedende aktiviteter, noe som lar oss håndheve retningslinjene for bruk.

Den andre risikokategorien er modellfeil, der CUA (DBA)-modellen utilsiktet gjør en handling brukeren ikke hadde til hensikt, som deretter forårsaker skade for brukerne eller andre. Hypotetiske feil kan ha forskjellig alvorlighetsgrad, fra en skrivefeil i en e-post, til å kjøpe feil vare eller å slette et viktig dokument permanent. For å minimere potensiell skade har vi utviklet de følgende tiltakene:

Brukerbekreftelser: CUA (DBA)-modellen er opplært til å be om brukerbekreftelse før fullførelse av oppgaver med eksterne bivirkninger, for eksempel før innsending av en bestilling, sending av en e-post osv., slik at brukeren kan dobbelsjekke arbeidet til modellen før det blir permanent.
Begrensninger av oppgaver: Inntil videre kommer CUA (DBA)-modellen til å nekte å hjelpe med visse oppgaver med høyere risiko, for eksempel banktransaksjoner og oppgaver som krever sensitive beslutninger.
Observasjonsmodus: På spesielt sensitive nettsteder, for eksempel e-post, krever Operator aktivt brukertilsyn, noe som sikrer at brukere kan fange opp og håndtere eventuelle potensielle feil modellen kan gjøre.

En spesielt viktig kategori av modellfeil er fiendtlige angrep på nettsteder som fører til at CUA (DBA)-modellen utfører utilsiktede handlinger, via innsetting av meldinger, jailbreaking og forsøk på nettfisking. I tillegg til de førnevnte tiltakene mot modellfeil har vi utviklet flere ekstra lag med forsvar for å beskytte mot disse risikoene:

Varsom navigering: CUA (DBA)-modellen er utformet til å identifisere og ignorere innsetting av meldinger på nettsteder, og gjenkjente alle bortsett fra ett tilfelle fra en tidlig intern red team-økt.
Overvåking: I Operator har vi implementert en ytterligere modell for å overvåke og sette utførelse på pause hvis den oppdager mistenkelig innhold på skjermen.
Registreringsprosess: Vi benytter både automatisert registrering og prosesser for menneskelig gjennomgang, for å identifisere mistenkelige tilgangsmønstre som kan flagges og raskt legges til i overvåkningen (i løpet av noen få timer).

Til slutt evaluerte vi CUA (DBA)-modellen mot ukjente risikolandskap som forklares i beredskapsrammeverket⁠(åpnes i et nytt vindu), inkludert scenarioer som involverer autonom replisering og verktøy med biologisk risiko. Disse vurderingene viste ingen inkrementell risiko i tillegg til GPT‑4o.

For de som er interessert i å utforske evalueringene og beskyttelsesmekanismene i mer detalj, oppmuntrer vi til å gjennomgå Operator-systemkortet, et levende dokument som gir åpenhet om sikkerhetstilnærmelsen vår og løpende forbedringer.

Siden mange av Operator-funksjonalitetene er nye, gjelder det samme for risikoene og tiltakstilnærmelsene vi har implementert. Selv om vi har hatt mål om toppmoderne, allsidige og utfyllende tiltak, forventer vi at disse risikoene og tilnærmelsen vår blir utviklet når vi lærer mer. Vi ser frem til å bruke perioden med utprøvingsversjonen til å samle inn brukertilbakemeldinger, finjustere beskyttelsene og forbedre agentisk sikkerhet.

Konklusjon

CUA (DBA) er basert på flere års forskningsfremskritt innen multimodalitet, resonnement og sikkerhet. Vi har hatt betydelig fremdrift innen dypt resonnement via o-modellserien, synsfunksjonalitet via GPT‑4o og nye teknikker for å forbedre robusthet via forsterkende læring og instruksjonshierarki. Det neste utfordringsområdet vi planlegger å utforske, er utvidelse av handlingsområdet for agenter. Fleksibiliteten vi får fra et universelt grensesnitt, takler denne utfordringen og muliggjør en agent som kan navigere hvilke som helst programvareverktøy som er designet for mennesker. Ved å gå utover spesialiserte agentvennlige API-er kan CUA (DBA) tilpasse seg etter hvilket som helst datamaskinmiljø som er tilgjengelig, og virkelig håndtere den «lange halen» til digitale bruksområder som fremdeles er utilgjengelig for de fleste AI-modeller.

Vi jobber også med å gjøre CUA (DBA) tilgjengelig i API-et⁠(åpnes i et nytt vindu), slik at utviklere kan bruke den til å bygge sine egne databrukende agenter. Når vi fortsetter å iterere på CUA (DBA), ser vi frem til å se de forskjellige bruksområdene fellesskapet kommer til å oppdage. Vi planlegger å bruke innsamlede tilbakemeldinger fra den virkelige verdenen fra denne tidlige forhåndsvisningen, til å kontinuerlig fininnstille funksjonaliteten og sikkerhetstiltakene til CUA (DBA) for å trygt utvikle målet vårt om å distribuere fordelene med AI til alle.

Forfattere

OpenAI

Referanser

Vi introduserer datamaskinbruk, en ny Claude 3.5 Sonnet og Claude 3.5 Haiku⁠(åpnes i et nytt vindu)

Tillegg til modellkort: Claude 3.5 Haiku og oppgradert Claude 3.5 Sonnet⁠(åpnes i et nytt vindu)

Kura WebVoyager-referansemåling⁠(åpnes i et nytt vindu)

Google Project Mariner⁠(åpnes i et nytt vindu)

OSWorld: Referansemåling av multimodale agenter for åpne oppgaver i ekte datamaskinmiljøer⁠(åpnes i et nytt vindu)

WebVoyager: Bygge en ende-til-ende-nettagent med store multimodale modeller⁠(åpnes i et nytt vindu)

WebArena: Et realistisk nettmiljø for bygging av autonome agenter⁠(åpnes i et nytt vindu)

Sitater

Siter OpenAI og bruk følgende BibTeX for sitering: http://cdn.openai.com/cua/cua2025.bib⁠(åpnes i et nytt vindu)