Vai al contenuto principale
OpenAI

23 gennaio 2025

Versione

Operatore che utilizza il computer

Operator e operatore che utilizza il computer: un'interfaccia universale che consente all'IA di interagire con il mondo digitale.

Caricamento in corso...

Oggi abbiamo presentato un'anteprima sperimentale di Operator(si apre in una nuova finestra), un agente in grado di navigare sul web per svolgere attività al tuo posto. Il cuore di Operator è operatore che utilizza il computer (OUC), un modello che unisce le capacità visive di GPT‑4o a un ragionamento avanzato tramite l'apprendimento per rinforzo. OUC è addestrato per interagire con le interfacce grafiche utente (GUI), ovvero pulsanti, menu e campi di testo che le persone vedono sullo schermo, proprio come farebbe un essere umano. Ciò gli permette di eseguire attività digitali senza bisogno di API specifiche per sistemi operativi o web. 

OUC nasce da anni di ricerca di base all'intersezione tra comprensione multimodale e ragionamento. Combinando una percezione avanzata delle GUI con capacità strutturate di risoluzione dei problemi, è in grado di suddividere le attività in piani a più passaggi e di auto-correggersi in modo adattivo in caso di difficoltà. Questa capacità rappresenta un passo avanti nello sviluppo dell'IA in quanto permette ai modelli di usare gli stessi strumenti impiegati quotidianamente dagli esseri umani e apre la strada a una vasta gamma di nuove applicazioni.

Sebbene OUC sia ancora in fase iniziale e presenti delle limitazioni, stabilisce nuovi record di riferimento, con un tasso di successo del 38,1% in OSWorld per attività complete di uso del computer, e del 58,1% in WebArena e dell'87% in WebVoyager per attività basate sul web. Questi risultati evidenziano la capacità di OUC di navigare e operare in vari ambienti utilizzando un unico spazio d'azione generale. 

Abbiamo sviluppato OUC ponendo la sicurezza come priorità assoluta per affrontare le sfide legate all'accesso al mondo digitale da parte di un agente, come descritto nella nostra Scheda di sistema di Operator. In linea con la nostra strategia di implementazione iterativa, stiamo rilasciando OUC tramite un'anteprima sperimentale di Operator disponibile all'indirizzo operator.chatgpt.com(si apre in una nuova finestra) inizialmente per gli utenti Pro(si apre in una nuova finestra) negli Stati Uniti. Raccogliendo feedback reali, potremo perfezionare le misure di sicurezza e apportare continui miglioramenti in vista di un utilizzo sempre più diffuso degli agenti digitali.

Come funziona

Diagramma di flusso che mostra il processo di un sistema OUC che interpreta l'input come testo o screenshot, genera azioni e applica comandi a una macchina virtuale.

OUC elabora dati pixel grezzi per comprendere cosa accade sullo schermo e utilizza un mouse e una tastiera virtuali per eseguire azioni. È in grado di gestire attività in più passaggi, correggere errori e adattarsi a cambiamenti imprevisti. Questo permette a OUC di operare in una vasta gamma di ambienti digitali e svolgere attività come compilare moduli e navigare su siti web senza necessità di API specializzate.

Una volta ricevute le istruzioni dell'utente, OUC opera con un ciclo iterativo che combina percezione, ragionamento e azione:

  • Percezione: gli screenshot del computer vengono aggiunti al contesto del modello e forniscono un'istantanea visiva dello stato attuale del computer. 
  • Ragionamento: OUC ragiona sui passaggi successivi attraverso una catena di pensiero che tiene in considerazione screenshot e azioni passate e presenti. Questo monologo interiore migliora le prestazioni permettendo al modello di valutare le sue stesse osservazioni, tenere traccia dei passaggi intermedi e adattarsi dinamicamente.
  • Azione: esegue le operazioni, come fare clic, scorrere o digitare, fino a decidere che l'attività è completata o che è necessario l'input dell'utente. Sebbene gestisca automaticamente la maggior parte dei passaggi, OUC richiede conferma per azioni sensibili, come l'inserimento di credenziali o la risposta a moduli CAPTCHA.

Valutazioni

OUC stabilisce un nuovo standard di eccellenza sia in benchmark per l'uso del computer sia in quelli per la navigazione su web utilizzando la stessa interfaccia universale composta da schermo, mouse e tastiera.

Tipo di benchmarkBenchmarkUso del computer (interfaccia universale)Agenti per la navigazione su webUmano
OUC OpenAISOTA precedenteSOTA precedente
Uso del computerOSWorld38,1%22,0%-72,4%
Utilizzo del browserWebArena58,1%36,2%57,1%78,2%
WebVoyager87,0%56,0%87,0%-
I dettagli della valutazione sono descritti qui

Utilizzo del browser

WebArena(si apre in una nuova finestra) e WebVoyager(si apre in una nuova finestra) sono progettati per valutare le prestazioni degli agenti per la navigazione web nel completare attività reali tramite browser. WebArena utilizza siti open source self hosted in modalità offline per simulare scenari reali come e-commerce, gestione dei contenuti (CMS) per negozi online, piattaforme di forum social e altro ancora. WebVoyager testa le prestazioni del modello su siti web online e live come Amazon, GitHub e Google Maps.

In questi benchmark, OUC stabilisce un nuovo standard utilizzando la stessa interfaccia universale che percepisce lo schermo del browser come pixel e agisce tramite mouse e tastiera. OUC ha raggiunto un tasso di successo del 58,1% in WebArena e dell'87% in WebVoyager per attività basate sul web. Sebbene OUC ottenga un elevato tasso di successo in WebVoyager, dove la maggior parte delle attività è relativamente semplice, necessita ancora di miglioramenti per colmare il divario con le prestazioni umane in benchmark più complessi come WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Uso del computer

OSWorld(si apre in una nuova finestra)⁠ è un benchmark che valuta la capacità dei modelli di controllare sistemi operativi completi come Ubuntu, Windows e macOS. In questo benchmark, OUC raggiunge un tasso di successo del 38,1%. Abbiamo osservato un miglioramento delle prestazioni di OUC in fase di esecuzione quando viene consentito un numero maggiore di passaggi. La figura sottostante confronta le prestazioni di OUC con quelle dei precedenti modelli all'avanguardia, con un numero massimo di passaggi consentiti diverso. Le prestazioni umane in questo benchmark sono pari al 72,4%, pertanto c'è ancora molto margine di miglioramento.

Testo alternativo: Grafico a linee intitolato "OSWorld" che mostra i tassi di successo (%) in funzione del numero massimo di passaggi consentiti su scala logaritmica. La linea blu rappresenta OpenAI OUC, mentre i punti viola rappresentano Claude 3.5 Sonnet per l'uso del computer, con annotazioni relative ai tassi di successo.

Le visualizzazioni seguenti mostrano esempi di navigazione di OUC in varie attività standardizzate di OSWorld.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

OUC in Operator

Stiamo rendendo OUC disponibile tramite un'anteprima sperimentale di Operator, un agente in grado di navigare sul web per svolgere attività al tuo posto. Operator è accessibile agli utenti Pro(si apre in una nuova finestra) negli Stati Uniti all'indirizzo operator.chatgpt.com(si apre in una nuova finestra). Questa versione di anteprima rappresenta un'opportunità per apprendere dagli utenti e dal più ampio ecosistema e perfezionare così Operator iterativamente. Come per qualsiasi tecnologia in fase iniziale, non ci aspettiamo che OUC funzioni in modo affidabile in tutti gli scenari fin da subito. Tuttavia, ha già dimostrato la sua utilità in diversi casi e puntiamo a estendere questa affidabilità a un numero più ampio di attività. Rilasciando OUC tramite Operator, speriamo di raccogliere informazioni preziose dagli utenti, che ci aiuteranno a migliorarne le capacità e ad ampliarne le applicazioni.

Nella tabella seguente presentiamo le prestazioni di OUC in Operator in una serie di prove basate su prompt per illustrare i suoi punti di forza e di debolezza conosciuti.

CategoriaPromptSuccessi / tentativiNota
Interazione con vari componenti dell'interfaccia utente per eseguire attivitàTurno 1: Search Britannica for a detailed map view of bear habitats
Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.
10 / 10
OUC può interagire con vari componenti dell'interfaccia utente per cercare, ordinare e filtrare i risultati e trovare le informazioni desiderate dagli utenti. L'affidabilità varia a seconda dei siti web e delle interfacce utente.
I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.9 / 10
I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.3 / 10
Attività che possono essere eseguite attraverso ripetute interazioni semplici dell'interfaccia utenteCreate a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products:
Bananas (6 pieces)
Avocados (2 ripe)
Baby Spinach (1 bag)
Whole Milk (1 gallon)
Cheddar Cheese (8 oz block)
Potato Chips (Salted, family size)
Dark Chocolate (70% cocoa, 2 bars)
10 / 10
OUC può ripetere in modo affidabile semplici interazioni dell'interfaccia utente più volte per automatizzare compiti semplici ma noiosi da parte degli utenti.
Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.10 / 10
Attività per le quali OUC mostra un'alta percentuale di successo solo se i prompt includono suggerimenti dettagliati su come utilizzare il sito web.Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour.
Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.
8 / 10
Anche per la stessa attività, l'affidabilità di OUC potrebbe cambiare a seconda di come essa viene richiesta. In questo caso, possiamo migliorare l'affidabilità fornendo informazioni specifiche sulla data (ad esempio, dalle 9 alle 12 rispetto all'intera giornata a partire dalle 9) e fornendo suggerimenti su quale interfaccia utente deve essere utilizzata per trovare i risultati (ad esempio, controllare la sezione dei filtri ...).
Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 90 am, just make sure it is under £90 per hour.
Oh and make sure there is parking and the entire thing is wheelchair accessible.
3 / 10
Difficoltà nell'utilizzo di un'interfaccia utente e di un editor di testo non familiariUse html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. Il testo è:

Hello world!

This is my first text. I need to see how it would look like when programmed with HTML.

Some parts should be red.

Some bold.

Some italic.

Some underlined.

Until my lesson is complete, and we shift to the other side.
...

Hello world! should have header 2 applied
The sentence below it should be a regular paragraph text.
The sentence mentioning red should be normal text and red
The sentence mentionnihg bold should be normal text bolded
Sentence mentioning italic should be italicized
The final sentence should be aligned to the right instead of the usual left
4 / 10
Quando OUC deve interagire con interfacce utente di cui non ha fatto molta esperienza durante la formazione, fatica a capire come utilizzare l'interfaccia utente fornita in modo appropriato. Spesso si verificano molti tentativi ed errori e azioni inefficienti.

OUC non è preciso nella modifica del testo. Spesso commette errori nel processo o fornisce risultati con errori.

Sicurezza

Poiché OUC è uno dei nostri primi prodotti agentici in grado di agire direttamente all'interno di un browser, comporta nuovi rischi e sfide da affrontare. In vista del lancio di Operator, abbiamo condotto ampi test di sicurezza e implementato misure di mitigazione per tre principali categorie di rischi: uso improprio, errori del modello e rischi di frontiera. Riteniamo fondamentale adottare un approccio stratificato alla sicurezza, pertanto abbiamo introdotto contromisure nell'intero contesto di implementazione: nel modello OUC stesso, nel sistema Operator e nei processi post-implementazione. L'obiettivo è creare un sistema di mitigazioni sovrapposte in cui ciascun livello riduce progressivamente il profilo di rischio.

La prima categoria di rischio è l'uso improprio. Oltre a richiedere agli utenti il rispetto delle nostre Politiche di utilizzo, abbiamo progettato le seguenti mitigazioni per ridurre il rischio di danni da parte di Operator dovuti a usi impropri, basandoci sul nostro lavoro di sicurezza con GPT‑4o:

  • Rifiuti: il modello OUC è addestrato a rifiutare numerosi compiti dannosi e attività illegali o regolamentate.
  • Blocklist: Operator non può accedere a siti web che abbiamo bloccato preventivamente, come numerosi siti di gioco d'azzardo, intrattenimento per adulti e rivenditori di droghe o armi.
  • Moderazione: le interazioni con gli utenti vengono monitorate in tempo reale da sistemi di sicurezza automatizzati progettati per garantire il rispetto delle Politiche di utilizzo di utilizzo e in grado di emettere avvisi o blocchi per attività vietate. 
  • Rilevamento offline: abbiamo inoltre sviluppato processi di rilevamento automatizzato e revisione umana per identificare usi proibiti in aree di priorità delle politiche, inclusa la sicurezza dei minori e le attività ingannevoli, al fine di far rispettare le nostre Politiche di utilizzo.

La seconda categoria di rischio riguarda gli errori del modello, ovvero quando OUC compie involontariamente un'azione non desiderata dall'utente che può causare danni all'utente stesso o ad altri. Gli errori ipotetici possono variare per gravità, da un semplice errore di battitura in un'e-mail all'acquisto di un prodotto sbagliato, fino all'eliminazione definitiva di un documento importante. Per ridurre al minimo i danni potenziali, abbiamo sviluppato le seguenti mitigazioni:

  • Conferme da parte dell'utente: OUC è addestrato a richiedere una conferma da parte dell'utente prima di finalizzare attività con effetti collaterali esterni, come l'invio di un ordine o di un'e-mail, in modo da permettere all'utente di verificare il lavoro del modello prima che diventi definitivo.
  • Limitazioni delle attività: per il momento OUC rifiuta di assistere in attività ad alto rischio, come transazioni bancarie o attività che richiedono decisioni sensibili.
  • Modalità supervisione: su siti particolarmente delicati, come quelli di posta elettronica, Operator richiede una supervisione attiva da parte dell'utente, il che garantisce che eventuali errori del modello possano essere individuati e corretti direttamente dall'utente.

Una categoria di errori del modello particolarmente importante riguarda gli attacchi avversari sui siti web che inducono OUC a compiere azioni non previste, tramite iniezioni di prompt, jailbreak e tentativi di phishing. Oltre alle mitigazioni già descritte per gli errori del modello, abbiamo sviluppato ulteriori livelli di difesa contro questi rischi:

  • Navigazione prudente: OUC è progettato per identificare e ignorare le iniezioni di prompt sui siti web e durante una prima sessione interna di red teaming ha riconosciuto tutti i casi tranne uno.
  • Monitoraggio: abbiamo implementato un modello aggiuntivo in Operator che monitora e interrompe l'esecuzione se rileva contenuti sospetti sullo schermo.
  • Processo di rilevamento: applichiamo processi di rilevamento automatico e revisione umana per individuare pattern di accesso sospetti, che possono essere segnalati e rapidamente inseriti nel sistema di monitoraggio (in poche ore).

Infine, abbiamo valutato il modello OUC rispetto ai rischi di frontiera descritti nel nostro Framework di preparazione(si apre in una nuova finestra), inclusi scenari che coinvolgono la replicazione autonoma e strumenti legati al rischio biologico. Queste valutazioni non hanno evidenziato rischi aggiuntivi rispetto a GPT‑4o.

Se desideri approfondire le valutazioni e le misure di sicurezza, ti invitiamo a consultare la Scheda di sistema di Operator, un documento dinamico che offre trasparenza sul nostro approccio alla sicurezza e sui miglioramenti in corso.

Poiché molte delle funzionalità di Operator sono nuove, lo sono anche i rischi e le strategie di mitigazione implementate.  Pur avendo puntato a soluzioni all'avanguardia, diversificate e complementari, prevediamo che rischi e strategie evolveranno con l'esperienza. Consideriamo il periodo di anteprima sperimentale una preziosa opportunità per raccogliere feedback dagli utenti, perfezionare le misure di sicurezza e migliorare la sicurezza agentica.

Conclusioni

OUC si basa su anni di progressi nella ricerca su multimodalità, ragionamento e sicurezza. Abbiamo ottenuto risultati importanti nel ragionamento approfondito grazie alla serie di modelli o, le capacità visive con GPT‑4o e nuove tecniche per migliorare la robustezza tramite apprendimento per rinforzo e gerarchia delle istruzioni. La prossima sfida che intendiamo affrontare è l'espansione dello spazio di azione degli agenti. La flessibilità offerta da un'interfaccia universale risponde a questa esigenza, permettendo a un agente di utilizzare qualsiasi strumento software pensato per gli esseri umani. Andando oltre le API specializzate per agenti, OUC si adatta a qualsiasi ambiente informatico disponibile, affrontando anche i casi d'uso digitali ancora irraggiungibili per la maggior parte dei modelli di IA.

Stiamo inoltre lavorando per rendere OUC disponibile tramite l'API(si apre in una nuova finestra) in modo che gli sviluppatori possano creare i propri operatori che utilizzano il computer. Mentre continuiamo a migliorare OUC, non vediamo l'ora di scoprire i diversi casi d'uso che la community individuerà. Intendiamo utilizzare il feedback reale raccolto da questa anteprima iniziale per perfezionare continuamente le funzionalità di OUC e le mitigazioni e rendere accessibili a tutti i benefici dell'IA in piena sicurezza.