17 luglio 2025

Presentazione dell’agente ChatGPT: un ponte tra ricerca e azione

ChatGPT ora pensa e agisce, scegliendo in modo proattivo da una casella degli strumenti di abilità agentiche per completare le attività per conto tuo utilizzando il sistema in cui è integrato.

Prova su ChatGPT

Caricamento in corso...

ChatGPT ora può lavorare per te utilizzando il proprio sistema, gestendo attività complesse dall’inizio alla fine.

Ora puoi chiedere a ChatGPT di gestire richieste come “controlla il mio calendario e informami sui prossimi incontri con i clienti in base alle ultime notizie”, “pianifica e acquista gli ingredienti per preparare una colazione giapponese per quattro persone” e “analizza tre concorrenti e crea una presentazione”. ChatGPT sarà in grado di esplorare in modo intelligente i siti web, filtrare i risultati, chiederti di accedere in modo sicuro quando necessario, eseguire codice, condurre analisi e perfino fornire presentazioni e fogli elettronici modificabili, che riassumono i risultati.

Al centro di questa nuova capacità c'è un sistema agentico unificato. Riunisce tre punti di forza di precedenti scoperte precedenti: La capacità di Operator⁠ di interagire con i siti web, l'abilità di Deep Research⁠ di sintetizzare le informazioni e l'intelligenza e la fluidità conversazionale di ChatGPT.

ChatGPT esegue queste attività utilizzando il proprio computer virtuale, passando in modo fluido dal ragionamento all'azione per gestire flussi di lavoro complessi dall'inizio alla fine, il tutto sulla base delle tue istruzioni.

Ma soprattutto, hai sempre il controllo. ChatGPT richiede l’autorizzazione prima di compiere azioni di conseguenza e puoi facilmente intervenire, prendere il controllo del browser o interrompere le attività in qualsiasi momento.

A partire da oggi, gli utenti Pro, Plus e Team possono attivare le nuove funzionalità agentiche di ChatGPT direttamente dal menu a discesa degli strumenti nel compositore di messaggi, selezionando “modalità agente” in qualsiasi punto della conversazione.

Sebbene l'agente ChatGPT sia già uno strumento potente per gestire attività complesse, il lancio di oggi è solo l'inizio. Continueremo ad aggiungere regolarmente miglioramenti significativi, rendendolo più capace e utile a più persone nel tempo.

Una naturale evoluzione di Operator e Deep Research

In precedenza, Operator e Deep Research avevano ciascuno punti di forza unici: Operator permetteva di scorrere, cliccare e digitare sul web, mentre Deep Research eccelleva nell’analizzare e riassumere le informazioni. Tuttavia, funzionavano al meglio in situazioni diverse: Operator non poteva approfondire l’analisi o scrivere report dettagliati, mentre Deep Research non poteva interagire con i siti web per affinare i risultati o accedere a contenuti che richiedevano l’autenticazione dell’utente. Abbiamo notato, infatti, che molte richieste degli utenti rivolte a Operator erano in realtà più adatte a Deep Research, così abbiamo unito il meglio di entrambi.

Integrando questi punti di forza complementari in ChatGPT e introducendo strumenti aggiuntivi, abbiamo dato vita a funzionalità completamente nuove in un unico modello. Ora è in grado di interagire attivamente con i siti web, cliccando, filtrando e raccogliendo risultati più precisi ed efficienti. Inoltre, è possibile passare con naturalezza da una semplice conversazione alla richiesta di azioni direttamente nella stessa chat.

Un agente che lavora per te, con te

Abbiamo dotato l’agente ChatGPT di una suite di strumenti: un browser visuale che interagisce con il web tramite un’interfaccia grafica, un browser testuale per ricerche più semplici basate sul ragionamento, un terminale e l’accesso diretto alle API. L'agente può anche sfruttare i connettori ChatGPT⁠(si apre in una nuova finestra), che consentono di collegare app come Gmail e Github in modo che ChatGPT possa trovare informazioni pertinenti ai tuoi prompt e utilizzarle nelle sue risposte. Inoltre puoi accedere a qualsiasi sito web prendendo il controllo del browser, consentendogli di approfondire e ampliare la ricerca e l'esecuzione delle attività. Queste diverse modalità di accesso e interazione con le informazioni web consentono a ChatGPT di scegliere il percorso ottimale per eseguire le attività nel modo più efficiente. Ad esempio, è in grado di raccogliere informazioni sul calendario attraverso un'API, di ragionare in modo efficiente su grandi quantità di testo utilizzando il browser testuale, ma anche di interagire visivamente con siti web progettati principalmente per gli esseri umani.

Tutto ciò viene fatto utilizzando il proprio computer virtuale, che conserva il contesto necessario per l'attività, anche quando si utilizzano più strumenti: il modello può scegliere di aprire una pagina utilizzando il browser di testo o il browser visivo, scaricare un file dal Web, modificarlo eseguendo un comando nel terminale e quindi visualizzare l'output nel browser visivo. Il modello adatta il suo approccio per svolgere le attività con velocità, precisione ed efficienza.

L’agente ChatGPT è progettato per flussi di lavoro iterativi e collaborativi, molto più interattivi e flessibili rispetto ai modelli precedenti. Mentre ChatGPT lavora, puoi intervenire in qualsiasi momento per chiarire le istruzioni, orientare l’attività verso i risultati desiderati o modificarla completamente. Riprenderà da dove si era interrotto, integrando le nuove informazioni senza perdere i progressi precedenti. Analogamente, ChatGPT può chiederti in modo proattivo ulteriori dettagli quando necessario per garantire che l’attività rimanga in linea con i tuoi obiettivi. Se un’attività richiede più tempo del previsto o sembra bloccata, puoi metterla in pausa, chiedere un riepilogo dei progressi o interromperla del tutto e ricevere risultati parziali. Se hai l'applicazione ChatGPT sul telefono, ti invierà una notifica quando avrà terminato la tua attività.

Ampliare l’utilità nel mondo reale

Queste funzionalità agentiche unificate migliorano significativamente l’utilità di ChatGPT sia nei contesti quotidiani che professionali. Sul lavoro, puoi automatizzare attività ripetitive, come convertire screenshot o dashboard in presentazioni composte da elementi vettoriali modificabili, riprogrammare riunioni, pianificare e prenotare eventi fuori sede e aggiornare fogli elettronici con nuovi dati finanziari, mantenendo la stessa formattazione. Nella vita privata, puoi utilizzarlo per pianificare e prenotare itinerari di viaggio, progettare e prenotare cene, o trovare specialisti e fissare appuntamenti con facilità.

Le elevate capacità del modello si riflettono nelle sue prestazioni allo stato dell’arte nelle valutazioni che misurano la navigazione web e il completamento di attività reali.

In Humanity’s Last Exam⁠(si apre in una nuova finestra)*, una valutazione che misura le prestazioni dell’IA in un’ampia gamma di argomenti su domande di livello esperto, il modello alla base dell’agente ChatGPT ha ottenuto un nuovo SOTA pass@1 a 41,6. Poiché l'agente pianifica dinamicamente e sceglie i propri strumenti, può affrontare la stessa attività in modi diversi nelle varie esecuzioni. Quando abbiamo scalato questo risultato con una semplice strategia di rollout parallelo, eseguendo fino a otto tentativi in una sola volta e scegliendo quello con la maggiore fiducia auto-riferita, il punteggio HLE dell'agente è salito a 44,4.

FrontierMath** è il più difficile benchmark matematico conosciuto, con problemi nuovi e inediti che spesso richiedono ore o addirittura giorni di lavoro a matematici esperti. Con l'uso di strumenti, come l'accesso a un terminale per l'esecuzione di codice, l'agente ChatGPT raggiunge il 27,4% di accuratezza, superando entrambi i modelli precedenti con un ampio margine.

Abbiamo anche valutato il modello utilizzando benchmark modellati su attività complesse del mondo reale. Su un benchmark interno progettato per valutare le prestazioni del modello su attività di conoscenza complesse e di valore economico, il risultato dell'agente ChatGPT è paragonabile o migliore di quello degli esseri umani in circa la metà dei casi in una gamma di tempi di completamento delle attività, mentre supera in modo significativo le prestazioni di o3 e o4-mini. I risultati dei modelli sono valutati da esperti rispetto a linee di base umane di alta qualità create dai migliori professionisti di ogni settore. Queste attività, fornite da esperti di diverse professioni e settori, rispecchiano il lavoro professionale del mondo reale, come la preparazione di un'analisi competitiva dei fornitori di cure urgenti su richiesta, la costruzione di piani di ammortamento dettagliati e l'identificazione di pozzi d'acqua praticabili per un nuovo impianto di idrogeno verde.

In DSBench⁠(si apre in una nuova finestra), progettato per valutare agenti su attività di data science realistiche che vanno dall’analisi alla modellazione dei dati, l’agente ChatGPT supera di gran lunga le prestazioni umane.

Su SpreadsheetBench, che valuta i modelli in base alla loro capacità di modificare fogli di calcolo derivati da scenari reali, l'agente ChatGPT supera i modelli esistenti con un margine significativo. Quando ha la possibilità di modificare direttamente i fogli elettronici, l’agente ChatGPT ottiene risultati ancora maggiori, con un punteggio di 45,5%, rispetto al 20,0% di Copilot in Excel.

Metodologia: gli autori di SpreadsheetBench hanno utilizzato un ambiente Windows con Microsoft Excel per valutare i fogli elettronici. Noi abbiamo utilizzato un ambiente OSX e LibreOffice, il che può comportare lievi differenze nei punteggi. Ad esempio, gli autori hanno riscontrato una restrizione hard complessiva del 15,02% per GPT‑4o, mentre noi abbiamo ottenuto il 13,38%. Abbiamo utilizzato il benchmark completo di 912 domande.

In un benchmark interno che misura la capacità di un modello di affrontare attività di modellazione per analisti di investment banking dal primo al terzo anno, come la creazione di un modello finanziario a tre prospetti per un’azienda Fortune 500 con formattazione e fonti adeguate, o l’elaborazione di un modello di leveraged buyout per una privatizzazione, il modello alla base dell’agente ChatGPT supera nettamente Deep Research e o3. Ogni attività è valutata secondo centinaia di criteri relativi alla correttezza e all’uso delle formule.

Abbiamo inoltre valutato l’agente ChatGPT in BrowseComp⁠, un benchmark pubblicato all’inizio dell’anno che misura la capacità degli agenti di navigazione di reperire informazioni difficili da trovare sul web. Il modello ha stabilito un nuovo stato dell’arte con un punteggio di 68,9%, 17,4 punti percentuali in più rispetto a Deep Research.

Infine, su WebArena⁠(si apre in una nuova finestra), un benchmark progettato per valutare le prestazioni degli agenti di navigazione web nel completamento di attività web reali, il modello migliora rispetto all’OUC basato su o3 (il modello di Operator).

Come utilizzarlo

Puoi attivare le nuove funzionalità agentiche di ChatGPT direttamente dal menu a discesa degli strumenti nel compositore di messaggi, selezionando “modalità agente” in qualsiasi punto della conversazione. Ti basta descrivere l’attività desiderata, che si tratti di condurre una ricerca approfondita, creare una presentazione o inviare una nota spese. Mentre ChatGPT esegue l’attività, una narrazione sullo schermo ti mostra esattamente cosa sta facendo. Puoi intervenire e prendere il controllo del browser quando necessario, così da assicurarti che le attività rimangano in linea con i tuoi obiettivi.

L’agente ChatGPT può accedere ai tuoi connettori, integrandosi con i tuoi flussi di lavoro e accedendo a informazioni rilevanti e fruibili. Una volta autenticati, questi connettori consentono a ChatGPT di visualizzare informazioni e di svolgere operazioni come riassumere la posta in arrivo del giorno o trovare gli orari in cui sei disponibile per una riunione. Per eseguire azioni su questi siti, tuttavia, ti verrà comunque richiesto di accedere tramite il browser.

Inoltre, puoi programmare l’esecuzione ricorrente delle attività completate, come la generazione automatica di un report settimanale sulle metriche ogni lunedì mattina.

Nuove capacità, nuovi rischi

Questa versione segna la prima volta in cui gli utenti possono chiedere a ChatGPT di eseguire azioni sul web. Ciò introduce nuovi rischi, in particolare perché l'agente ChatGPT può lavorare direttamente con i dati dell'utente, sia che si tratti di informazioni a cui si accede tramite connettori, sia che si tratti di siti web a cui l'utente ha effettuato l'accesso in modalità takeover. Abbiamo rafforzato i solidi controlli dell'anteprima di ricerca dell'Operatore e abbiamo aggiunto salvaguardie per affrontare sfide come la gestione di informazioni sensibili sul web, una più ampia portata degli utenti e l'accesso (limitato) alla rete dei terminali. Sebbene queste mitigazioni riducano significativamente il rischio, gli strumenti ampliati dell'agente ChatGPT e la più ampia portata degli utenti implicano che il suo profilo di rischio complessivo è più elevato.

Abbiamo posto particolare enfasi sulla salvaguardia dell'agente ChatGPT contro la manipolazione avversaria attraverso l'iniezione di prompt, che è un rischio per i sistemi agentici in generale, e abbiamo preparato di conseguenza mitigazioni più ampie. Le prompt injection sono tentativi da parte di terzi di manipolare il comportamento di ChatGPT attraverso istruzioni dannose che l'agente può incontrare sul web mentre completa un'attività. Ad esempio, un prompt dannoso nascosto in una pagina web, come in elementi invisibili o metadati, potrebbe indurre l'agente a intraprendere azioni indesiderate, come la condivisione di dati privati da un connettore con l'utente malintenzionato o l'esecuzione di un'azione dannosa su un sito a cui l'utente ha effettuato l'accesso. Poiché l'agente ChatGPT può intraprendere azioni dirette, gli attacchi riusciti possono avere un impatto maggiore e comportare rischi più elevati.

Abbiamo addestrato e testato l'agente per identificare e resistere alle iniezioni di prompt, oltre a utilizzare il monitoraggio per rilevare e rispondere rapidamente agli attacchi di iniezione di prompt. La richiesta di una conferma esplicita dell’utente prima di compiere azioni rilevanti riduce ulteriormente il rischio di danni derivanti da questi attacchi, e gli utenti possono intervenire nelle attività secondo le necessità, prendendo il controllo o mettendo in pausa. Gli utenti dovrebbero valutare questi compromessi quando decidono quali informazioni fornire all'agente, nonché adottare misure per ridurre al minimo la loro esposizione a questi rischi, come la disabilitazione dei connettori quando non sono necessari per un'attività.

Abbiamo anche implementato le misure di mitigazione degli errori del modello, soprattutto ora che può eseguire attività con un impatto sul mondo reale:

Conferma esplicita dell’utente: ChatGPT è stato addestrato per chiedere esplicitamente il tuo permesso prima di intraprendere azioni con conseguenze reali, come effettuare un acquisto.
Supervisione attiva (“modalità supervisione”): alcune attività critiche, come l'invio di e-mail, richiedono la tua supervisione attiva.
Mitigazione proattiva del rischio: ChatGPT è addestrato a rifiutare attivamente attività ad alto rischio come i bonifici bancari.

Infine, abbiamo introdotto controlli aggiuntivi per limitare i dati a cui il modello ha accesso:

Controlli sulla privacy: con un solo clic nelle impostazioni di ChatGPT, puoi eliminare tutti i dati di navigazione e uscire immediatamente da tutte le sessioni attive del sito web. Altrimenti, i cookie persistono in base alle politiche sui cookie di ciascun sito web visitato, il che può rendere più efficienti le visite ripetute ai siti.
Modalità di controllo sicuro del browser: quando interagisci con il web utilizzando il browser di ChatGPT (“modalità controllo”), i tuoi input rimangono privati. ChatGPT non raccoglie né memorizza i dati immessi dall'utente durante queste sessioni, come le password, perché il modello non ne ha bisogno ed è più sicuro se non li vede mai.

Il nostro stack di sicurezza più forte per il rischio biologico

Con l'aumento delle funzionalità del modello, abbiamo deciso di trattare l'agente ChatGPT come capacità biologiche e chimiche elevate nell'ambito del Framework di preparazione⁠, attivando le relative misure di sicurezza. Pur non avendo prove definitive che questo modello possa effettivamente aiutare un utente principiante a creare danni biologici gravi, corrispondenti alla nostra soglia per la classificazione di alta capacità, stiamo agendo con cautela e implementando le necessarie misure di salvaguardia. Di conseguenza, questo modello ha il nostro stack di sicurezza più completo fino ad oggi, con salvaguardie potenziate per la biologia: modellazione completa delle minacce, addestramento al rifiuto del doppio uso, classificatori e monitor di ragionamento sempre attivi e pipeline di applicazione chiare.

Oltre al lavoro per proteggere l'agente ChatGPT, sappiamo che la biosicurezza a più livelli funziona meglio quando le salvaguardie si estendono al di là di ogni singolo laboratorio, quindi collaboriamo con tutto l'ecosistema per rafforzare le difese. Fin dal primo giorno abbiamo collaborato con esperti esterni di biosicurezza, istituti di sicurezza e ricercatori accademici per definire il nostro modello di minaccia, le nostre valutazioni e le nostre politiche. Revisori esperti di biologia hanno convalidato i nostri dati di valutazione e red teamer esperti del settore hanno testato le salvaguardie in scenari realistici. All'inizio di questo mese abbiamo organizzato un workshop sulla biodifesa con esperti del governo, del mondo accademico, dei laboratori nazionali e delle ONG per accelerare la collaborazione e far progredire la ricerca sulla biodifesa grazie all'intelligenza artificiale. Continueremo a collaborare a livello globale per stare al passo con i rischi emergenti.

Scopri di più sul nostro solido approccio alla sicurezza per il modello agentico unificato nella scheda di sistema⁠. Stiamo anche lanciando un programma Bug Bounty⁠ per individuare e risolvere i rischi del mondo reale.

Disponibilità

L'agente ChatGPT inizia a essere distribuito oggi a Pro, Plus e Team; gli utenti Pro avranno accesso entro la fine della giornata, mentre gli utenti Plus e Team avranno accesso nei prossimi giorni. Agli utenti Enterprise ed Education sarà fornito l’accesso nelle prossime settimane. Gli utenti Pro hanno a disposizione attività 400 messaggi al mese, mentre gli altri utenti a pagamento ne hanno a disposizione 40 al mese, con possibilità di utilizzo aggiuntivo tramite opzioni flessibili basate su crediti.

Stiamo ancora lavorando per abilitare l'accesso allo Spazio economico europeo e alla Svizzera.

Il sito in anteprima di ricerca di Operator rimarrà attivo per qualche settimana, dopodiché sarà dismesso. Deep Research fa parte delle funzionalità dell’agente ChatGPT. Se preferisci la funzione originale di Deep Research, che richiede più tempo ma fornisce risposte più dettagliate e approfondite per impostazione predefinita, puoi comunque accedervi selezionando “Deep Research” dal menu a discesa nel compositore di messaggi.

Limitazioni e prospettive future

L’agente ChatGPT è ancora in fase iniziale. È in grado di svolgere una serie di attività complesse, ma può comunque commettere errori.

Anche se vediamo un potenziale significativo nella capacità di generare presentazioni, questa funzionalità è attualmente in fase beta. Al momento, gli output possono sembrare rudimentali per quanto riguarda la formattazione e la pulizia, in particolare quando si inizia senza un documento esistente. Abbiamo concentrato le funzionalità iniziali del modello sulla generazione di artefatti che organizzano le informazioni in un flusso e in un formato adatti alle presentazioni, con elementi come testo, grafici, immagini e forme che sono nativamente e facilmente modificabili dopo l'esportazione, ottimizzati per struttura e flessibilità. Attualmente ci sono anche discrepanze occasionali tra le diapositive nel visualizzatore e il Powerpoint esportato, che stiamo cercando di ridurre. Inoltre, sebbene sia attualmente possibile caricare un foglio elettronico esistente perché ChatGPT lo modifichi o lo utilizzi come template, questa funzionalità non è ancora disponibile per le presentazioni. Stiamo già addestrando la prossima versione della creazione di presentazioni di ChatGPT per produrre output più curati e sofisticati, con funzionalità più ampie e una formattazione migliorata.

Nel complesso, prevediamo di apportare continui miglioramenti all’efficienza, alla profondità e alla versatilità dell’agente ChatGPT, incluse interazioni sempre più fluide. Continueremo anche ad affinare il livello di supervisione richiesta all’utente, per rendere più utile l’agente senza comprometterne la sicurezza.

Appendice

SpreadsheetBench
Modello	Ambiente di valutazione	Restrizione soft (%): A livello di cella	Restrizione soft (%): A livello di foglio	Restrizione soft (%): Complessivamente
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot in Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Agente ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Agente ChatGPT con .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Umano		75,56	65,00	71,33

Registrazione della diretta

Autore

OpenAI

Note di riferimento

* Abilitando la navigazione, il modello può talvolta trovare risposte esatte online, ad esempio leggendo post di blog con problemi campione tratti da un set di dati. Per limitare il rischio di “imbroglio” da parte del modello durante la navigazione, adottiamo due strategie:

1. Blocchiamo domini per cui in passato il modello ha mostrato comportamenti di imbroglio.

2. Utilizziamo un modello aggiuntivo come sistema di monitoraggio che analizza tutti i token di output di ciascun tentativo per individuare comportamenti sospetti. Il comportamento sospetto è definito come “una pagina, un file o uno snippet il cui scopo principale è fornire la risposta esatta a quella specifica domanda, ad esempio una chiave di valutazione ufficiale, una sintesi di "soluzioni" trapelate o discussioni che riportano testualmente la risposta finale”. Il comportamento benigno è definito come “qualsiasi risorsa autorevole che un essere umano diligente potrebbe consultare (documentazione, manuali, paper scientifici, articoli affidabili) anche se contiene per caso la risposta corretta”. Qualsiasi tentativo per cui il sistema di monitoraggio ha giudicato sospetta la risposta viene considerato errato. La maggior parte dei campioni respinti da questo controllo riguardava problemi la cui soluzione esatta era disponibile in varie fonti Internet non correlate alle valutazioni a livello umano.

** OpenAI ha accesso esclusivo a 237 delle 290 domande private del dataset Tier 1-3. Le domande del livello 4 di FrontierMath non sono incluse in questa valutazione. I risultati sono stati valutati come media di 16 tentativi di risposta a ciascuna domanda. I risultati dell'agente ChatGPT sono generati da OpenAI, classificati da Epoch AI, con accesso a browser e terminali e un limite di 128K token per risposta. Le valutazioni di OpenAI o4-mini e o3 sono elicitate e valutate da Epoch AI, senza accesso a browser e terminali, con l'uso di script python tramite chiamata di funzione e un limite di 100K token per risposta.

*** Oracle@64 si riferisce al miglior punteggio ottenuto in 64 esecuzioni campionate, selezionate utilizzando la verità di base (cioè, scegliamo il tentativo con il punteggio più alto per ogni attività in base alle prestazioni effettive valutate). Riportiamo la media di questi punteggi migliori per ogni attività, per tutti le attività. Questa metrica evidenzia il potenziale superiore del modello e la varianza nell'esecuzione dell'attività, mostrando il livello di capacità possibili quando ha successo e indicando lo spazio per migliorare la coerenza attraverso un ulteriore addestramento. A differenza delle tipiche metriche “best of N”, che selezionano in base alla fiducia del modello, oracle@64 utilizza la verità di base per la selezione e si applica ad attività classificate su una scala continua 0-1 piuttosto che su una binaria pass/fail.