Presentem ChatGPT agent: unint recerca i acció
Ara ChatGPT pensa i actua, triant proactivament d'una caixa d'eines de capacitats agentiques per completar tasques per a tu amb el seu propi ordinador.
ChatGPT ara pot fer feina per a tu amb el seu propi ordinador i gestionar tasques complexes de principi a fi.
Ara pots demanar a ChatGPT que s'encarregui de sol·licituds com ara «mira el meu calendari i prepara'm un resum de les properes reunions amb clients basat en notícies recents», «planifica i compra ingredients per fer un esmorzar japonès per a quatre persones» i «analitza tres competidors i crea una presentació». ChatGPT navegarà pels llocs web de manera intel·ligent, filtrarà resultats, et demanarà que iniciïs sessió de manera segura quan calgui, executarà codi, farà anàlisis i fins i tot lliurarà presentacions i fulls de càlcul editables que resumeixin les seves conclusions.
Al nucli d'aquesta nova capacitat hi ha un sistema agèntic unificat. Reuneix tres punts forts d'avenços anteriors: la capacitat d'Operator d'interactuar amb llocs web, l'habilitat de la recerca profunda per sintetitzar informació, i la intel·ligència i fluïdesa conversacional de ChatGPT.
ChatGPT duu a terme aquestes tasques utilitzant el seu propi ordinador virtual, alternant amb fluïdesa entre el raonament i l'acció per gestionar fluxos de treball complexos de principi a fi, tot basant-se en les teves instruccions.
El més important és que sempre tens el control. ChatGPT demana permís abans de dur a terme accions amb conseqüències, i pots interrompre'l fàcilment, prendre el control del navegador o aturar tasques en qualsevol moment.
A partir d'avui, els usuaris Pro, Plus i Team poden activar les noves capacitats agentiques de ChatGPT directament des del menú desplegable d'eines del camp de text per als missatges seleccionant «mode agent» en qualsevol moment de qualsevol conversa.
Tot i que ChatGPT agent ja és una eina potent per gestionar tasques complexes, el llançament d'avui és només el començament. Continuarem afegint-hi millores importants de manera iterativa i regular, fent-lo més capaç i útil per a més persones amb el temps.
Anteriorment, Operator i la recerca profunda aportaven cadascun punts forts únics: Operator podia desplaçar-se, fer clic i escriure al web, mentre que la recerca profunda excel·lia analitzant i resumint informació. Però funcionaven millor en situacions diferents: Operator no podia aprofundir en l'anàlisi ni redactar informes detallats, i la recerca profunda no podia interactuar amb llocs web per refinar resultats ni accedir a contingut que requeria autenticació de l'usuari. De fet, vam veure que moltes consultes que els usuaris intentaven fer amb Operator s'adequaven millor a la recerca profunda, així que vam reunir el millor de tots dos.
Integrant aquests punts forts complementaris a ChatGPT i incorporant eines addicionals, hem desbloquejat capacitats completament noves dins d'un sol model. Ara pot interactuar activament amb llocs web —fent clic, filtrant i recopilant resultats més precisos i eficients. També pots passar de manera natural d'una conversa simple a sol·licitar accions directament dins del mateix xat.
Hem equipat ChatGPT agent amb un conjunt d'eines: un navegador visual que interactua amb el web mitjançant una interfície gràfica d'usuari, un navegador basat en text per a consultes web més simples basades en el raonament, un terminal i accés directe a l'API. L'agent també pot aprofitar els connectors de ChatGPT(s'obre en una finestra nova), que et permeten connectar aplicacions com Gmail i Github perquè ChatGPT pugui trobar informació rellevant per a les teves indicacions i utilitzar-la en les seves respostes. També pots iniciar sessió a qualsevol lloc web prenent el control del navegador, cosa que li permet aprofundir i ampliar tant la seva recerca com l'execució de tasques. Oferir a ChatGPT aquestes diferents vies per accedir a la informació web i interactuar-hi vol dir que pot triar el camí òptim per dur a terme tasques de la manera més eficient. Per exemple, pot recopilar informació sobre el teu calendari mitjançant una API, raonar eficientment sobre grans quantitats de text amb el navegador basat en text, i alhora tenir la capacitat d'interactuar visualment amb llocs web dissenyats principalment per a humans.
Tot això es fa utilitzant el seu propi ordinador virtual, que conserva el context necessari per a la tasca, fins i tot quan s'utilitzen diverses eines: el model pot triar obrir una pàgina amb el navegador de text o el navegador visual, descarregar un fitxer del web, manipular-lo executant una ordre al terminal i després veure el resultat de nou al navegador visual. El model adapta el seu enfocament per dur a terme tasques amb velocitat, precisió i eficiència.
ChatGPT agent està dissenyat per a fluxos de treball iteratius i col·laboratius, molt més interactius i flexibles que els models anteriors. Mentre ChatGPT treballa, el pots interrompre en qualsevol moment per aclarir les teves instruccions, orientar-lo cap als resultats desitjats o canviar completament la tasca. Reprendrà el treball allà on l'havia deixat, ara amb la nova informació, però sense perdre el progrés anterior. Igualment, el mateix ChatGPT pot demanar-te proactivament detalls addicionals quan calgui per garantir que la tasca continuï alineada amb els teus objectius. Si una tasca triga més del previst o sembla encallada, la pots posar en pausa, demanar-ne un resum del progrés o aturar-la completament i rebre'n resultats parcials. Si tens l'aplicació ChatGPT al telèfon, t'enviarà una notificació quan hagi acabat la teva tasca.
Aquestes capacitats agentiques unificades milloren significativament la utilitat de ChatGPT tant en contextos quotidians com professionals. A la feina, pots automatitzar tasques repetitives, com convertir captures de pantalla o quadres de comandament en presentacions compostes per elements vectorials editables, reorganitzar reunions, planificar i reservar trobades fora de l'oficina i actualitzar fulls de càlcul amb noves dades financeres mantenint el mateix format. A la teva vida personal, el pots fer servir per planificar i reservar itineraris de viatge sense esforç, dissenyar i reservar sopars complets o trobar especialistes i concertar cites.
Les capacitats millorades del model es reflecteixen en el seu rendiment d'última generació (SOTA) en avaluacions que mesuren la navegació web i la capacitat de completar tasques del món real.
A Humanity’s Last Exam(s'obre en una finestra nova)*, una avaluació que mesura el rendiment de la IA en una àmplia gamma de matèries amb preguntes de nivell expert, el model que impulsa ChatGPT agent aconsegueix un nou pass@1 SOTA de 41,6. Com que l'agent planifica dinàmicament i tria les seves pròpies eines, pot abordar la mateixa tasca de maneres diferents en diverses execucions. Quan vam ampliar això amb una estratègia simple de desplegament en paral·lel —executant fins a vuit intents alhora i triant el que tenia l'autoconfiança declarada més alta— la puntuació HLE de l'agent augmenta fins a 44,4.
FrontierMath** és el benchmark de matemàtiques més difícil conegut, amb problemes nous i inèdits que sovint requereixen hores o fins i tot dies perquè els resolguin matemàtics experts. Amb ús d'eines, com ara accés a un terminal per executar codi, ChatGPT agent arriba a un 27,4% de precisió, superant àmpliament tots dos models anteriors.
També vam avaluar el model amb benchmarks inspirats en tasques complexes del món real. En un benchmark intern dissenyat per avaluar el rendiment del model en tasques complexes i valuoses econòmicament de treball del coneixement, la sortida de ChatGPT agent és comparable o superior a la dels humans en aproximadament la meitat dels casos en un ventall de temps de finalització de tasques, mentre supera significativament o3 i o4-mini. Les sortides del model són jutjades per experts en comparació amb bases humanes d'alta qualitat creades pels millors professionals de cada camp. Aquestes tasques, aportades per experts de diverses ocupacions i indústries, reflecteixen el treball professional del món real, com ara preparar una anàlisi competitiva de proveïdors d'atenció urgent a demanda, construir taules d'amortització detallades i identificar pous d'aigua viables per a una nova instal·lació d'hidrogen verd.
En DSBench(s'obre en una finestra nova), dissenyat per avaluar agents en tasques realistes de ciència de dades que abasten l'anàlisi i el modelatge de dades, ChatGPT agent supera notablement el rendiment humà per un marge significatiu.
A SpreadsheetBench, que avalua els models per la seva capacitat d'editar fulls de càlcul derivats d'escenaris del món real, ChatGPT agent supera els models existents per un marge significatiu. Quan se li dona la capacitat d'editar fulls de càlcul directament, ChatGPT agent obté encara més puntuació, amb un 45,5%, en comparació amb el 20,0% de Copilot in Excel.
Metodologia: Els autors de SpreadsheetBench van utilitzar un entorn Windows amb Microsoft Excel per avaluar fulls de càlcul. Nosaltres vam utilitzar un entorn OSX i LibreOffice, fet que pot donar lloc a petites diferències en l'avaluació. Per exemple, els autors van trobar una restricció general difícil del 15,02% per a GPT‑4o, i nosaltres vam obtenir el 13,38%. Vam utilitzar el benchmark complet de 912 preguntes.
En un benchmark intern que mesura la capacitat d'un model d'assumir tasques de modelatge pròpies d'analistes de banca d'inversió de primer a tercer any—com ara elaborar un model financer de tres estats per a una empresa Fortune 500 amb el format i les citacions adequats, o construir un model de leveraged buyout per a una exclusió borsària—, el model que impulsa ChatGPT agent supera significativament la recerca profunda i o3. Cada tasca es qualifica segons centenars de criteris relacionats amb la correcció i l'ús de fórmules.
També vam avaluar ChatGPT agent a BrowseComp, un benchmark que vam publicar a principis d'aquest any i que mesura la capacitat dels agents de navegació per localitzar informació difícil de trobar al web. El model va establir un nou SOTA amb un 68,9%, 17,4 punts percentuals per sobre de la recerca profunda.
Finalment, a WebArena(s'obre en una finestra nova), un benchmark dissenyat per avaluar el rendiment dels agents de navegació web en completar tasques web del món real, el model millora respecte al CUA impulsat per o3 (el model que impulsa Operator).
Pots activar les noves capacitats agentiques de ChatGPT directament des del menú desplegable d'eines del camp de text per als missatges seleccionant «mode agent» en qualsevol moment de qualsevol conversa. Només has de descriure la tasca que vols fer, ja sigui dur a terme una recerca profunda, crear una presentació o presentar despeses. Mentre realitza la teva tasca, una narració en pantalla ofereix visibilitat sobre exactament què està fent ChatGPT. Pots interrompre'l i prendre el control del navegador sempre que calgui, assegurant que les tasques continuïn alineades amb els teus objectius.
ChatGPT agent pot accedir als teus connectors, cosa que li permet integrar-se amb els teus fluxos de treball i accedir a informació rellevant i accionable. Un cop autenticat, aquests connectors permeten a ChatGPT veure informació i fer coses com resumir la teva safata d'entrada del dia o trobar franges horàries en què tens disponibilitat per a una reunió; tanmateix, per dur a terme accions en aquests llocs, encara se't demanarà que iniciïs sessió prenent el control del navegador.
A més, pots programar que les tasques completades es repeteixin automàticament, com ara generar un informe setmanal de mètriques cada dilluns al matí.
Aquest llançament marca la primera vegada que els usuaris poden demanar a ChatGPT que dugui a terme accions al web. Això introdueix nous riscos, especialment perquè ChatGPT agent pot treballar directament amb les teves dades, ja sigui informació a la qual s'accedeix mitjançant connectors o llocs web als quals li has iniciat sessió via mode de control del navegador. Hem reforçat els controls sòlids de la vista prèvia de recerca d'Operator i hi hem afegit salvaguardes per a reptes com gestionar informació sensible al web en viu, un abast d'usuaris més ampli i un accés (limitat) a la xarxa des del terminal. Tot i que aquestes mitigacions redueixen significativament el risc, les eines ampliades de ChatGPT agent i el seu abast més ampli d'usuaris fan que el seu perfil de risc general sigui més alt.
Hem posat un èmfasi especial a protegir ChatGPT agent contra la manipulació adversària mitjançant injecció d'indicacions, que és un risc per als sistemes agèntics en general, i hem preparat mitigacions més àmplies en conseqüència. Les injeccions d'indicacions són intents de tercers de manipular el seu comportament mitjançant instruccions malicioses que ChatGPT agent pot trobar al web mentre completa una tasca. Per exemple, una indicació maliciosa amagada en una pàgina web, com en elements invisibles o metadades, podria enganyar l'agent perquè dugués a terme accions no desitjades, com compartir dades privades d'un connector amb l'atacant, o fer una acció perjudicial en un lloc on l'usuari ha iniciat sessió. Com que ChatGPT agent pot dur a terme accions directes, els atacs reeixits poden tenir un impacte més gran i comportar riscos més alts.
Hem entrenat i provat l'agent en la identificació i resistència a les injeccions d'indicacions, a més d'utilitzar monitoratge per detectar i respondre ràpidament als atacs d'injecció d'indicacions. Exigir una confirmació explícita de l'usuari abans d'accions amb conseqüències redueix encara més el risc de dany d'aquests atacs, i els usuaris poden intervenir en les tasques segons calgui prenent-ne el control o posant-les en pausa. Els usuaris haurien de valorar aquests compromisos en decidir quina informació proporcionar a l'agent, així com prendre mesures per minimitzar-ne l'exposició a aquests riscos, com ara desactivar connectors quan no siguin necessaris per a una tasca.
També hem implementat mitigacions al voltant dels errors del model, especialment ara que el model pot dur a terme tasques que afecten el món real:
- Confirmació explícita de l'usuari: ChatGPT està entrenat per demanar explícitament el teu permís abans de dur a terme accions amb conseqüències al món real, com fer una compra.
- Supervisió activa («Mode vigilància»): Determinades tasques crítiques, com enviar correus electrònics, requereixen la teva supervisió activa.
- Mitigació proactiva del risc: ChatGPT està entrenat per rebutjar activament tasques d'alt risc, com ara transferències bancàries.
Finalment, hem introduït controls addicionals per limitar les dades a les quals té accés el model:
- Controls de privadesa: Amb un sol clic a la configuració de ChatGPT, pots eliminar totes les dades de navegació i tancar sessió immediatament de totes les sessions actives de llocs web. En cas contrari, les galetes persisteixen segons les polítiques de galetes de cada lloc web visitat, cosa que pot fer més eficients les visites repetides als llocs.
- Mode segur de control del navegador: Quan interactues amb el web fent servir el navegador de ChatGPT («mode de control»), les teves entrades continuen sent privades. ChatGPT no recopila ni emmagatzema cap dada que introdueixis durant aquestes sessions, com ara contrasenyes, perquè el model no les necessita i és més segur que no les vegi mai.
Amb l'augment de les capacitats del model, hem pres la decisió de tractar ChatGPT agent com a d'Altes capacitats biològiques i químiques segons el nostre Entorn de treball de preparació, activant les salvaguardes associades. Tot i que no tenim proves definitives que el model pugui ajudar de manera significativa una persona novell a causar un dany biològic greu —el nostre llindar per a la capacitat Alta—, estem actuant amb prudència i implementant ara les salvaguardes necessàries. Com a resultat, aquest model compta amb la nostra pila de seguretat més completa fins avui, amb salvaguardes reforçades per a la biologia: modelatge exhaustiu d'amenaces, entrenament de rebuig de doble ús, classificadors i monitors de raonament sempre actius i canals clars d'aplicació.
A més de la nostra feina per protegir ChatGPT agent, sabem que la bioseguretat per capes funciona millor quan les salvaguardes van més enllà d'un sol laboratori, per això col·laborem a tot l'ecosistema per reforçar les defenses. Des del primer dia hem treballat amb experts externs en bioseguretat, instituts de seguretat i investigadors acadèmics per donar forma al nostre model d'amenaces, avaluacions i polítiques. Revisors formats en biologia van validar les nostres dades d'avaluació, i equips red team experts en el domini han posat a prova les salvaguardes en escenaris realistes. A principis d'aquest mes vam convocar un taller de biodefensa amb experts del govern, el món acadèmic, laboratoris nacionals i ONG per accelerar la col·laboració i impulsar la recerca en biodefensa potenciada per IA. Continuarem col·laborant a escala global per mantenir-nos al davant dels riscos emergents.
Llegeix més sobre el nostre sòlid enfocament de seguretat per al model agèntic unificat a la fitxa del model. També llancem un programa de recompensa d'errors perquè puguem trobar i corregir riscos del món real.
ChatGPT agent comença a desplegar-se avui per a Pro, Plus i Team; Pro hi tindrà accés abans d'acabar el dia, mentre que els usuaris de Plus i Team hi tindran accés durant els propers dies. Els usuaris Enterprise i Education hi tindran accés en les properes setmanes. Els usuaris Pro tenen 400 missatges al mes, mentre que la resta d'usuaris de pagament en tenen 40 mensuals, amb ús addicional disponible mitjançant opcions flexibles basades en crèdits.
Encara estem treballant per habilitar l'accés a l'Espai Econòmic Europeu i Suïssa.
El lloc de vista prèvia de recerca d'Operator continuarà funcionant unes setmanes més, després de les quals es retirarà. La recerca profunda forma part de les capacitats de ChatGPT agent. Si prefereixes la funcionalitat original de recerca profunda —que pot trigar més a executar-se però ofereix respostes més detallades i profundes per defecte—, encara hi pots accedir seleccionant «recerca profunda» al menú desplegable del camp de text per als missatges.
ChatGPT agent encara es troba en una fase inicial. És capaç d'assumir una sèrie de tasques complexes, però encara pot cometre errors.
Tot i que veiem un potencial important en la seva capacitat per generar presentacions, aquesta funcionalitat es troba actualment en fase beta. En aquest moment, les sortides de vegades poden semblar rudimentàries en format i acabat, especialment quan es comença sense un document existent. Hem centrat les capacitats inicials del model a generar artefactes que organitzin la informació amb un flux i un format adequats per a presentacions, amb elements com text, gràfics, imatges i formes que són nativament i fàcilment editables després de l'exportació, optimitzant-ne l'estructura i la flexibilitat. Actualment, també hi ha discrepàncies ocasionals entre les diapositives del visor i el powerpoint exportat que estem treballant per reduir. A més, tot i que actualment pots carregar un full de càlcul existent perquè ChatGPT l'editi o el faci servir com a plantilla, aquesta capacitat encara no està disponible per a presentacions. Ja estem entrenant la següent iteració de la creació de presentacions de ChatGPT perquè produeixi resultats més polits i sofisticats, amb capacitats més àmplies i un format millorat.
En conjunt, esperem millores continuades en l'eficiència, profunditat i versatilitat de ChatGPT agent amb el temps, incloent-hi interaccions més fluides mentre continuem ajustant el nivell de supervisió requerit per part de l'usuari per fer-lo més útil tot garantint que sigui segur d'utilitzar.
SpreadsheetBench | ||||
Model | Entorn d'avaluació | Restricció suau (%): nivell de cel·la | Restricció suau (%): nivell de full | Restricció suau (%): general |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent amb .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Humà | 75.56 | 65.00 | 71.33 |
Autor
Notes al peu
* En habilitar la navegació, el model de vegades pot trobar respostes exactes en línia, per exemple, llegint entrades de blog amb problemes d'exemple d'un conjunt de dades. Per mitigar la preocupació que el model faci trampes mentre navega, utilitzem dues estratègies:
1. Dominis bloquejats dels quals hem observat que el model ha fet trampes en el passat.
2. Vam utilitzar un model addicional com a monitor per examinar tots els segments de sortida de les eines en cada intent per identificar comportaments sospitosos. El comportament sospitós es defineix com «una pàgina, fitxer o fragment la finalitat principal del qual és proporcionar la resposta exacta a aquesta pregunta específica —p. ex., una clau oficial de correcció, un gist de “solucions” filtrades o una discussió que cita la resposta final textualment». El comportament benigne es defineix com «qualsevol recurs autoritzat que una persona diligent podria consultar (documentació, manuals, articles acadèmics, articles reputats), encara que contingui incidentalment la resposta correcta». Qualsevol intent en què el monitor consideri sospitós el desplegament es compta com a incorrecte. La majoria de mostres que van fallar per aquesta comprovació eren problemes la solució exacta dels quals estava disponible en múltiples fonts d'internet no relacionades amb HLE.
**OpenAI té accés exclusiu a 237 de les 290 preguntes privades del conjunt de dades Tier 1-3. Les preguntes de nivell 4 de FrontierMath no s'inclouen en aquesta avaluació. Els resultats s'avaluen com la mitjana de 16 intents de respondre cada pregunta. Els resultats de ChatGPT agent són obtinguts per OpenAI, avaluats per Epoch AI, amb accés al navegador i al terminal, i un límit de 128K segments per resposta. Les avaluacions d'OpenAI o4-mini i o3 són obtingudes i avaluades per Epoch AI, sense accés al navegador ni al terminal, amb ús d'scripts de python mitjançant crida a funcions, i un límit de 100K segments per resposta.
*** Oracle@64 es refereix a la millor puntuació aconseguida en 64 execucions mostrejades, seleccionada utilitzant la veritat de referència (és a dir, triem l'intent amb la puntuació més alta per a cada tasca basant-nos en el rendiment real avaluat). Informem de la mitjana d'aquestes millors puntuacions per tasca a totes les tasques. Aquesta mètrica destaca el potencial de límit superior del model i la variància en el rendiment de les tasques, mostrant com de capaç pot ser el model quan té èxit i indicant marge per millorar la consistència mitjançant més entrenament. A diferència de les mètriques típiques de «millor de N», que seleccionen basant-se en la confiança del model, oracle@64 utilitza la veritat de referència per a la selecció i s'aplica a tasques qualificades en una escala contínua de 0 a 1 en lloc d'un sistema binari d'aprovat/suspès.


