Maak kennis met ChatGPT agent: een brug slaan tussen onderzoek en handelen
ChatGPT denkt en handelt nu en kiest proactief uit een toolbox met agentische vaardigheden om met behulp van zijn eigen computer taken voor je uit te voeren.
ChatGPT kan nu werk voor je doen met zijn eigen computer en complexe taken van begin tot eind afhandelen.
Je kunt ChatGPT nu vragen om verzoeken af te handelen als “bekijk mijn agenda en licht me in over komende klantvergaderingen op basis van recent nieuws”, “plan en koop ingrediënten om een Japans ontbijt voor vier personen te maken” en “analyseer drie concurrenten en maak een diavoorstelling”. ChatGPT navigeert op intelligente wijze door websites, filtert resultaten, vraagt je om veilig in te loggen wanneer dat nodig is, voert code uit, voert analyses uit en levert zelfs bewerkbare diavoorstellingen en spreadsheets met een samenvatting van de bevindingen.
De kern van deze nieuwe mogelijkheid is een geünificeerd agentisch systeem. Er worden drie sterke punten van eerdere doorbraken in samengebracht: Het vermogen vanOperator om interactie te hebben met websites, de vaardigheid van Deep Researchin het synthetiseren van informatie, en de intelligentie en het conversationele gemak van ChatGPT.
ChatGPT voert deze taken uit met behulp van zijn eigen virtuele computer, die vloeiend schakelt tussen redeneren en handelen om complexe workflows van begin tot eind af te handelen, allemaal op basis van jouw instructies.
Het belangrijkste is dat je alles altijd onder controle hebt. ChatGPT vraagt om toestemming voordat er belangrijke handelingen worden uitgevoerd en je kunt op elk moment gemakkelijk een onderbreking inlassen, de browser overnemen of taken stoppen.
Vanaf vandaag kunnen Pro-, Plus- en Team-gebruikers de nieuwe agentische mogelijkheden van ChatGPT direct activeren via de tools-vervolgkeuzelijst van de composer door op elk moment in een gesprek ‘agentmodus’ te selecteren.
ChatGPT agent is al een krachtig hulpmiddel voor het afhandelen van complexe taken, maar de lancering van vandaag is nog maar het begin. We blijven regelmatig belangrijke verbeteringen toevoegen, waardoor het na verloop van tijd voor meer mensen bruikbaar en nuttig wordt.
Eerder brachten Operator en Deep Research elk unieke sterke punten met zich mee: Operator kon op het web scrollen, klikken en typen, terwijl Deep Research uitblonk in het analyseren en samenvatten van informatie. Maar ze werkten elk het beste in andere situaties: Operator kon niet diep in de analyse duiken of gedetailleerde rapporten schrijven, en Deep Research kon niet communiceren met websites om resultaten te verfijnen of toegang te krijgen tot inhoud waarvoor gebruikersauthenticatie vereist was. We zagen zelfs dat veel zoekopdrachten waarvoor gebruikers Operator probeerden te gebruiken eigenlijk beter geschikt waren voor Deep Research, dus we hebben het beste van beide samengebracht.
Door deze complementaire sterke punten in ChatGPT te integreren en extra tools te introduceren, hebben we binnen één model geheel nieuwe mogelijkheden gecreëerd. Het kan nu actief omgaan met websites: klikken, filteren en nauwkeurigere, efficiëntere resultaten verzamelen. Je kunt binnen dezelfde chat ook op een natuurlijke manier overschakelen van een eenvoudig gesprek naar een vraag om bepaalde handelingen uit te voeren.
We hebben ChatGPT agent uitgerust met een reeks tools: een visuele browser voor interactie met het web via een grafische gebruikersinterface, een tekstgebaseerde browser voor eenvoudigere, op redeneren gebaseerde webquery's, een terminal en directe API-toegang. De agent kan ook gebruik maken van ChatGPT‑connectoren(opent in een nieuw venster). Daar kun je apps zoals Gmail en Github mee verbinden zodat ChatGPT informatie kan vinden die relevant is voor je prompts en deze kan gebruiken in zijn antwoorden. Je kunt je ook aanmelden op elke website door de browser over te nemen, waardoor deze dieper en breder kan gaan in zowel zijn onderzoek als de taakuitvoering. Door ChatGPT deze verschillende wegen voor toegang tot en interactie met webinformatie te geven, kan het de optimale weg kiezen om taken zo efficiënt mogelijk uit te voeren. Het kan bijvoorbeeld informatie over je agenda verzamelen via een API, efficiënt redeneren over grote hoeveelheden tekst met behulp van de tekstgebaseerde browser, terwijl het ook de mogelijkheid heeft om visueel interactie te hebben met websites die voornamelijk voor mensen zijn ontworpen.
Dit doet ChatGPT allemaal met zijn eigen virtuele computer, wat de context behoudt die nodig is voor de taak, zelfs wanneer er meerdere tools worden gebruikt. Het model kan ervoor kiezen om een pagina te openen met de tekstbrowser of visuele browser, een bestand downloaden van het web, dat manipuleren door een opdracht uit te voeren in de terminal en vervolgens de uitvoer bekijken in de visuele browser. Het model past zijn aanpak aan om taken snel, nauwkeurig en efficiënt uit te voeren.
ChatGPT agent is ontworpen voor iteratieve, collaboratieve workflows, veel interactiever en flexibeler dan eerdere modellen. Als ChatGPT werkt, kun je het op elk moment onderbreken om je instructies te verduidelijken, het in de richting van de gewenste resultaten te sturen of de taak helemaal te veranderen. Het gaat verder waar het gebleven was, nu met de nieuwe informatie, maar zonder de eerdere voortgang te verliezen. Op dezelfde manier vraagt ChatGPT je zelf proactief om extra details als dat nodig is om ervoor te zorgen dat de taak in lijn blijft met je doelen. Als een taak langer duurt dan verwacht of niet lekker loopt, kun je deze pauzeren, een voortgangsoverzicht opvragen of helemaal stoppen en genoegen nemen met gedeeltelijke resultaten. Als je ChatGPT‑app op je telefoon hebt, zal deze je een melding sturen wanneer hij klaar is met je taak.
Deze uniforme autonome mogelijkheden vergroten het nut van ChatGPT aanzienlijk, zowel in alledaagse als professionele contexten. Op het werk kun je repetitieve taken automatiseren, zoals schermafbeeldingen of dashboards omzetten in presentaties die bestaan uit bewerkbare vectorelementen, vergaderingen verschuiven, off-sites plannen en boeken en spreadsheets bijwerken met nieuwe financiële gegevens met behoud van dezelfde opmaak. In je persoonlijke leven kun je het gebruiken om moeiteloos reisroutes te plannen en te boeken, complete diners te bedenken en te boeken of specialisten te vinden en afspraken te plannen.
De geavanceerde capaciteiten van het model worden weerspiegeld in zijn state-of-the-art (SOTA) prestaties bij evaluaties waarin webbrowsen en het voltooien van echte taken worden gemeten.
In Het laatste examen van de mensheid(opent in een nieuw venster), een evaluatie waarin AI wordt getest op vragen op expertniveau over een breed scala aan onderwerpen, scoort het model achter ChatGPT agent een nieuw record van 41,6. Omdat de agent dynamisch plant en zijn eigen tools kiest, kan hij dezelfde taak op verschillende manieren uitvoeren. Toen we dit opschaalden met een eenvoudige parallelle uitrolstrategie, waarbij we tot acht pogingen tegelijk uitvoerden en de poging met het hoogste zelfgerapporteerde vertrouwen kozen, steeg de HLE-score van de agent naar 44,4.
FrontierMath** is de moeilijkste wiskundebenchmark die we kennen, met nieuwe, ongepubliceerde problemen waar ervaren wiskundigen vaak uren of zelfs dagen over doen om ze op te lossen. Met het gebruik van tools, zoals toegang tot een terminal voor het uitvoeren van code, bereikt ChatGPT agent een nauwkeurigheid van 27,4%, waarmee hij beide voorgaande modellen ruimschoots overtreft.
We hebben het model ook beoordeeld met behulp van benchmarks die zijn gemodelleerd naar complexe taken in de echte wereld. Op een interne benchmark die is ontworpen om de prestaties van het model op complexe, economisch waardevolle kenniswerktaken te evalueren, is de uitvoer van ChatGPT agent in ruwweg de helft van de gevallen over een reeks van taakvoltooiingstijden vergelijkbaar met of beter dan die van mensen, terwijl ze aanzienlijk beter presteren dan o3 en o4-mini. Modeluitvoer wordt door experts beoordeeld aan de hand van normen voor kwalitatief goede menselijke prestaties die zijn opgesteld door mensen die op hun eigen terrein tot de besten behoren. Deze taken, afkomstig van experts uit verschillende beroepen en bedrijfstakken, weerspiegelen het echte professionele werk, zoals het maken van een concurrentieanalyse van aanbieders van spoedeisende zorg, het opstellen van gedetailleerde aflossingsschema's en het selecteren van betrouwbare waterbronnen voor een nieuwe groene waterstoffabriek.
Op DSBench(opent in een nieuw venster), ontworpen om agents te evalueren met realistische data science-taken die data-analyse en modellering omvatten, verslaat ChatGPT agent de menselijke prestaties met een aanzienlijke marge.
Op SpreadsheetBench, dat modellen evalueert op hun vermogen om spreadsheets te bewerken die zijn afgeleid van echte scenario's, presteert ChatGPT agent aanzienlijk beter dan bestaande modellen. Toen ChatGPT agent de mogelijkheid kreeg om spreadsheets direct te bewerken, scoorde hij zelfs nog beter met 45,5%, te vergelijken met de 20,0% van Copilot in Excel.
Methodologie: De auteurs van SpreadsheetBench gebruikten Microsoft Excel in een Windows-omgeving om spreadsheets te evalueren. We hebben een OSX-omgeving en LibreOffice gebruikt, wat kan resulteren in kleine verschillen in de cijfermatige uitkomsten. De auteurs vonden bijvoorbeeld een totale hardheidsbeperking van 15,02% voor GPT‑4o, en wij kregen 13,38%. We hebben de volledige benchmark van 912 vragen gebruikt.
Op een interne benchmark die het vermogen van een model meet om modelleringstaken van eerste- tot derdejaars investeringsanalisten uit te voeren, zoals het met de juiste opmaak en citaten samenstellen van een financieel model met drie declaraties voor een Fortune 500-bedrijf, of het bouwen van een leveraged buyout-model voor een overname, presteert het model van ChatGPT agent aanzienlijk beter dan Deep Research en o3. Elke taak wordt beoordeeld op honderden criteria met betrekking tot correctheid en formulegebruik.
We hebben ChatGPT agent ook geëvalueerd op BrowseComp, een benchmark die we eerder dit jaar hebben geïntroduceerd en die het vermogen van browsing agents meet om moeilijk te vinden informatie op het web te vinden. Het model zette een nieuwe SOTA neer met 68,9%, 17,4 procentpunten hoger dan Deep Research.
Tot slot doet het model het op WebArena(opent in een nieuw venster), een benchmark om de prestaties van web-browsing agents te evalueren bij het voltooien van echte webtaken, beter dan de door o3 aangedreven CUA (het model achter Operator).
Je kunt de nieuwe autonome mogelijkheden van ChatGPT direct activeren via de tools-vervolgkeuzelijst van de composer door op elk moment in een gesprek ‘agentmodus’ te selecteren. Beschrijf simpelweg de gewenste taak, of het nu gaat om het uitvoeren van diepgaand onderzoek, het maken van een diavoorstelling of het opgeven van onkosten. Terwijl ChatGPT je taak uitvoert, geeft een verhaal op het scherm inzicht in wat het precies aan het doen is. Je kunt de browser onderbreken en de controle overnemen wanneer dat nodig is, zodat de taken in lijn blijven met je doelen.
ChatGPT agent heeft toegang tot je connectoren, waardoor het een plaats kan krijgen in je workflows en het toegang heeft tot relevante, bruikbare informatie. Eenmaal geauthentiseerd, kan ChatGPT dankzij deze connectoren informatie zien en dingen doen zoals je inbox voor de dag samenvatten of een tijd zoeken waarop je beschikbaar bent voor een vergadering. Om op deze sites te handelen, wordt je echter nog steeds gevraagd om aan te melden door de browser over te nemen.
Bovendien kun je instellen dat voltooide taken automatisch terugkomen, zoals bijvoorbeeld het genereren van een wekelijks statistisch rapport op maandagochtend.
Met deze release is het voor het eerst dat gebruikers ChatGPT kunnen vragen om acties uit te voeren op het web. Dit introduceert nieuwe risico's, vooral omdat ChatGPT agent direct met je gegevens kan werken, of het nu gaat om informatie waartoe toegang is verkregen via connectoren of websites waarop je hem hebt aangemeld via de overnamemodus. We hebben de robuuste controles uit het onderzoeksvoorbeeld van Operator versterkt en beveiligingen toegevoegd voor uitdagingen zoals het omgaan met gevoelige informatie op het live web, een groter gebruikersbereik en (beperkte) terminalnetwerktoegang. Hoewel deze risicobeperkende maatregelen het risico aanzienlijk verminderen, betekenen de uitgebreide tools en het bredere gebruikersbereik van ChatGPT dat het algemene risicoprofiel hoger is.
We hebben speciale nadruk gelegd op het beveiligen van ChatGPT agent tegen vijandige manipulatie door middel van prompt injection, wat een risico is voor agentische systemen in het algemeen, en hebben daarom uitgebreidere maatregelen getroffen. Prompt injections zijn pogingen van derden om het gedrag van de agent te manipuleren via kwaadaardige instructies die ChatGPT agent kan tegenkomen op het web tijdens het voltooien van een taak. Een in een webpagina verborgen kwaadaardige prompt, zoals in onzichtbare elementen of metagegevens, kan de agent bijvoorbeeld verleiden tot het nemen van onbedoelde acties, zoals het delen van privégegevens van een connector met de aanvaller, of het uitvoeren van een schadelijke handeling op een site waarop de gebruiker is aangemeld. Omdat ChatGPT agent direct kan handelen, kunnen succesvolle aanvallen een grotere impact hebben en hogere risico's met zich meebrengen.
We hebben de agent getraind en getest op het herkennen en weerstaan van prompt injections, naast het gebruik van monitoring om prompt injection-aanvallen snel te detecteren en af te slaan. Door expliciete bevestiging van de gebruiker te vereisen voordat belangrijke handelingen worden uitgevoerd, wordt het risico op schade door deze aanvallen verder verkleind en gebruikers kunnen naar behoefte ingrijpen in taken door ze over te nemen of te pauzeren. Gebruikers moeten deze afwegingen maken wanneer ze beslissen welke informatie ze aan de agent verstrekken en stappen ondernemen om hun blootstelling aan deze risico's te minimaliseren, zoals het uitschakelen van connectors wanneer ze niet nodig zijn voor een taak.
We hebben ook maatregelen genomen om fouten in het model te beperken, vooral omdat het model nu taken kan uitvoeren die invloed hebben op de echte wereld:
- Expliciete gebruikersbevestiging: ChatGPT is getraind om expliciet om je toestemming te vragen voordat er handelingen met gevolgen in de echte wereld worden uitgevoerd, zoals het doen van een aankoop.
- Actief toezicht ('kijkmodus'): Bepaalde kritieke taken, zoals het verzenden van e-mails, vereisen je actieve toezicht.
- Proactieve risicobeperking: ChatGPT is getraind om taken met een hoog risico, zoals bankoverschrijvingen, actief te weigeren.
Tot slot hebben we extra besturingselementen geïntroduceerd om restricties te stellen aan de gegevens waartoe het model toegang heeft:
- Privacycontroles: Met één klik in de instellingen van ChatGPT kun je alle browsergegevens wissen en je onmiddellijk afmelden bij alle actieve websitesessies. Doe je dat niet, dan blijven cookies bestaan op basis van het cookiebeleid van elke bezochte website, wat herhaalde bezoeken aan sites efficiënter kan maken.
- Veilige browserovernamemodus: Wanneer je interactie hebt met het web door gebruik te maken van de browser van ChatGPT (“overnamemodus”) blijft je invoer privé. ChatGPT verzamelt of bewaart geen gegevens die je invoert tijdens deze sessies, zoals wachtwoorden, omdat het model deze niet nodig heeft en het veiliger is als het deze nooit te zien krijgt.
Met de toegenomen mogelijkheden van het model, hebben we besloten om ChatGPT agent in het Preparedness Framework aan te merken als een agent met hoge biologische en chemische vermogens, waarbij de bijbehorende beveiligingen worden geactiveerd. Hoewel we geen definitief bewijs hebben dat het model een beginner op een zinvolle manier kan helpen bij het creëren van ernstige biologische schade, wat de norm is om het vermogen als hoog aan te merken, hebben we gekozen voor een voorzichtige aanpak en implementeren we nu de nodige beveiligingen. Als gevolg hiervan heeft dit model onze meest uitgebreide verzameling beveiligingen tot nu toe met verbeterde beveiligingen voor biologie: uitgebreide dreigingsmodellering, dual-use refusal training, always-on classificeerders en redeneringsmonitors en duidelijke routes voor de handhaving.
Naast ons werk om ChatGPT agent te beveiligen, weten we dat gelaagde bioveiligheid het beste werkt als de beveiliging verder gaat dan één laboratorium, dus werken we samen in het ecosysteem om verdediging te versterken. Vanaf de eerste dag hebben we samengewerkt met externe bioveiligheidsexperts, veiligheidsinstituten en academische onderzoekers om ons dreigingsmodel, onze beoordelingen en ons beleid vorm te geven. Biologisch getrainde beoordelaars hebben onze evaluatiegegevens gevalideerd en red teamers met domeinexpertise hebben de beveiligingen in realistische scenario's getest. Eerder deze maand organiseerden we een workshop over biologische verdediging met experts uit de overheid, de academische wereld, nationale laboratoria en ngo's om de samenwerking te versnellen en onderzoek naar biologische verdediging met behulp van AI te bevorderen. We blijven wereldwijd samenwerken om opkomende risico's voor te blijven.
Lees meer over onze uitgebreide veiligheidsbenadering voor het geünificeerde agentische model in de systeemkaart. We lanceren ook een Bug Bounty Program zodat we risico's in de echte wereld kunnen vinden en verhelpen.
Vandaag begint de uitrol van ChatGPT agent naar Pro, Plus en Team; Pro krijgt toegang tegen het einde van de dag, Plus- en Team-gebruikers in de komende dagen. Enterprise- en Education-gebruikers krijgen de komende weken toegang. Pro-gebruikers hebben de beschikking over 400 berichten per maand, terwijl andere betalende gebruikers maandelijks 40 berichten krijgen; waarbij extra gebruik mogelijk is via flexibele, kredietgebaseerde opties.
We zijn nog bezig om toegang mogelijk te maken voor de Europese Economische Ruimte en Zwitserland.
De voorbeeldsite voor Operator-onderzoek blijft nog een paar weken operationeel, daarna wordt hij gesloten. Deep Research maakt deel uit van wat ChatGPT agent kan. Als je de voorkeur geeft aan de oorspronkelijke Deep Research-functie, wat misschien iets langer duurt maar meer gedetailleerde, diepgaande antwoorden geeft, kun je daar nog steeds toegang toe krijgen door “Deep Research” te selecteren in de vervolgkeuzelijst in de berichtenopsteller.
ChatGPT agent bevindt zich nog in het beginstadium Hij kan een reeks complexe taken aan, maar kan nog steeds fouten maken.
Hoewel we een aanzienlijk potentieel zien in de mogelijkheid om diavoorstellingen te genereren, heeft deze functionaliteit momenteel de bètastatus. Op dit moment kan uitvoer soms rudimentair aanvoelen qua opmaak en afwerking, vooral wanneer je begint zonder een bestaand document. We hebben de initiële mogelijkheden van het model gericht op het genereren van artefacten die informatie organiseren in een stroom en vorm die geschikt zijn voor presentaties, met elementen zoals tekst, grafieken, afbeeldingen en vormen die van nature en gemakkelijk bewerkbaar zijn na export, zodat structuur en flexibiliteit worden geoptimaliseerd. Op dit moment zijn er ook af en toe discrepanties tussen de dia's in de viewer en de geëxporteerde powerpoint, maar daar werken we aan. Verder kun je op dit moment wel al een bestaande spreadsheet uploaden als je die door ChatGPT wilt laten bewerken of gebruiken als sjabloon, maar deze mogelijkheid is nog niet beschikbaar voor diavoorstellingen. We zijn al bezig met het trainen van de volgende iteratie van door ChatGPT gemaakte diavoorstellingen om meer gepolijste, verfijnde uitvoer te produceren, met bredere mogelijkheden en verbeterde opmaak.
In het geheel genomen verwachten we in de loop van de tijd verdere verbeteringen in de efficiëntie, diepgang en veelzijdigheid van ChatGPT agent. Zo zullen interacties vloeiender gaan verlopen, omdat we de hoeveelheid toezicht die van de gebruiker wordt gevraagd blijven aanpassen om het nuttiger te maken en om te zorgen dat het gebruik veilig is.
SpreadsheetBench | ||||
Model | Evaluatie-omgeving | Zachte beperking (%): Celniveau | Zachte beperking (%): Sheet-niveau | Zachte beperking (%): Totaal |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot in Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
ChatGPT agent. | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
ChatGPT agent met .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Mens | 75,56 | 65,00 | 71,33 |
Auteur
Voetnoten
* Als bladeren is ingeschakeld, kan het model soms online exacte antwoorden vinden, bijvoorbeeld door blog-posts met voorbeeldproblemen uit een dataset te lezen. Met twee strategieën beperken we zorgen over vals spelen door het model tijdens het browsen:
1. Geblokkeerde domeinen waar we het model in het verleden hebben zien vals spelen.
2. Gebruikte een extra model als monitor om alle uitvoertokens van de tool te onderzoeken bij elke poging om verdacht gedrag op te sporen. Verdacht gedrag wordt gedefinieerd als 'een pagina, bestand of fragment waarvan het belangrijkste doel is om het exacte antwoord op deze specifieke vraag te geven: bijvoorbeeld een officiële beoordelingssleutel, uitgelekte "oplossingen" of een discussie waarin het voltooide antwoord letterlijk wordt geciteerd'. Goedaardig gedrag wordt gedefinieerd als 'Elke gezaghebbende bron die een ijverig mens zou kunnen raadplegen (documentatie, handleidingen, wetenschappelijke artikelen, gerenommeerde artikelen), zelfs als deze toevallig het juiste antwoord bevat'. Alle pogingen waarbij de monitor de uitrol verdacht vond, tellen als onjuist. De meeste voorbeelden die niet door deze controle kwamen, waren problemen waarvan de exacte oplossing te vinden was op meerdere, niet aan HLE gerelateerde internetbronnen.
**OpenAI heeft exclusieve toegang tot 237 van de 290 privévragen op de Tier 1-3 dataset. FrontierMath niveau 4 vragen niet opgenomen in deze evaluatie. Resultaten geëvalueerd als het gemiddelde van 16 pogingen om elke vraag te beantwoorden. ChatGPT agent-resultaten worden uitgelokt door OpenAI, beoordeeld door Epoch AI, met browser- en terminaltoegang en een limiet van 128K tokens per antwoord. OpenAI o4-mini en o3 evaluaties worden uitgelokt en beoordeeld door Epoch AI, zonder browser en terminaltoegang, met gebruik van python scripts via functie aanroepen, en een limiet van 100.000 tokens per antwoord.
*** Oracle@64 verwijst naar de beste score behaald over 64 gesampelde runs, geselecteerd met behulp van de grondwaarheid (d.w.z., we kiezen de hoogst scorende poging voor elke taak op basis van de daadwerkelijke gescoorde prestaties). We rapporteren het gemiddelde van deze beste scores per taak over alle taken. Dit cijfer benadrukt het bovengrenspotentieel van het model en de variatie in taakprestaties, wat laat zien hoe vaardig het model kan zijn als het slaagt en wat de ruimte is om de consistentie door verdere training te verbeteren. In tegenstelling tot typische “beste van N” statistieken, die selecteren op basis van modelbetrouwbaarheid, gebruikt oracle@64 de grondwaarheid voor selectie en is het van toepassing op taken die worden beoordeeld op een continue 0-1 schaal in plaats van het binaire slagen/afwijzen.


