17 juli 2025

Vi presenterar ChatGPT agent: en brygga mellan sökningar och konkreta åtgärder

ChatGPT kan nu tänka och agera, och väljer proaktivt från en verktygslåda med agentfärdigheter för att slutföra uppgifter åt dig med hjälp av sin egen dator.

Prova ChatGPT

Laddar …

ChatGPT kan nu utföra arbete åt dig med hjälp av sin egen dator och hantera komplicerade uppgifter från början till slut.

Du kan nu be ChatGPT att ta hand om frågor som ”titta i min kalender och informera mig om kommande kundmöten baserat på aktuella händelser” eller ”planera och köp ingredienser för att laga en japansk frukost för fyra personer” och ”analysera tre konkurrenter och skapa ett bildspel”. ChatGPT kommer på ett intelligent sätt att navigera bland webbplatser, filtrera resultat, be dig att logga in på ett säkert sätt när så krävs, köra kod, genomföra analyser och till och med leverera snygga, redigeringsbara bildspel och kalkylark där resultatet sammanfattas.

I grunden för denna nya funktionalitet finns ett kombinerat agentbaserat system. Det förenar tre styrkor hos tidigare banbrytande produkter: Operators⁠ kapacitet att interagera med webbplatser, djup researchs⁠ kapacitet att sammanställa information och ChatGPT:s intelligens och samtalsflöde.

ChatGPT utför de här uppgifterna med hjälp av sin egen virtuella dator och växlar i ett enda flöde mellan resonemang och konkreta åtgärder för att hantera komplexa arbetsflöden från början till slut – allt utifrån dina instruktioner.

Inte minst viktigt, du har alltid kontrollen. ChatGPT ber om tillstånd innan åtgärder som får konsekvenser vidtas och det är enkelt att gripa in, ta över webbläsaren eller när som helst avbryta uppgifter.

Från och med idag kan Pro-, Plus- och Team-användare aktivera ChatGPT:s nya agentbaserade funktioner direkt via rullgardinsmenyn med verktyg i kompositören genom att välja ”agentläge” när som helst under samtalet.

ChatGPT agent är redan ett kraftfullt verktyg för hantering av komplexa uppgifter, men dagens lansering är bara början. Vi kommer att fortsätta att iterativt och regelbundet lägga till betydande förbättringar och göra ChatGPT agent mer kraftfull och användbar för fler användare över tid.

En naturlig utveckling av Operator och djup research

Tidigare tillförde Operator och djup research unika styrkor var för sig: Operator kunde bläddra, klicka och skriva på webben, medan djup research var mycket bra på att analysera och sammanfatta information. Men de fungerade bäst i olika situationer: Operator kunde inte djupdyka i analyser eller skriva detaljerade rapporter och djup research kunde inte interagera med webbplatser och eller få tillgång till innehåll där det krävdes användarautentisering. Vi såg dessutom att många av de frågor som användarna ställde till Operator faktiskt var mer lämpade för djup research och därför kombinerade vi det bästa från de båda världarna.

Genom att integrera dessa kompletterande styrkor i ChatGPT och introducera fler verktyg har vi möjliggjort helt nya funktioner i en enda modell. ChatGPT kan nu aktivt interagera med webbplatser – klicka, filtrera och samla in mer exakta, effektiva resultat. Du kan också på ett naturligt sätt övergå från ett enkelt samtal till att begära att åtgärder vidtas direkt i samma chatt.

En agent arbetar för dig och med dig

Vi har utrustat ChatGPT agent med en verktygssvit: en visuell webbläsare som interagerar med webben via ett grafiskt användargränssnitt, en textbaserad webbläsare för enklare resonemangsbaserade webbfrågor, en terminal och direkt API-åtkomst. Agenten kan också utnyttja ChatGPT‑sammanlänkningar⁠(öppnas i ett nytt fönster), som gör det möjligt att ansluta appar som Gmail och Github så att ChatGPT kan hitta information som är relevant för dina prompter och använda dem i sina svar. Du kan också logga in på en webbplats genom att ta över webbläsaren och låta den göra både djupare och bredare utforskningar och utföra uppgifter. Att ge ChatGPT dessa olika möjligheter att få åtkomst till och interagera med webbinformation innebär att det mest optimala sättet att utföra uppgifter, på effektivast möjliga sätt, kan väljas. Den kan exempelvis samla in information om din kalender via ett API, på ett effektivt sätt resonera baserat på stora mängder text med hjälp av den textbaserade webbläsaren samtidigt som den också klarar att interagera visuellt med webbplatser som främst är utformade för människor.

Allt detta görs med hjälp av dess egen virtuella dator, som behåller den kontext som är nödvändig för uppgiften, också när flera verktyg används. Modellen kan välja att öppna en sida med hjälp av textwebbläsaren eller den visuella webbläsaren, ladda ned en fil från webben, ändra den genom att köra ett kommando i terminalen och därefter visa resultatet i den visuella webbläsaren. Modellen anpassar sitt tillvägagångssätt så att den utför uppgifter snabbt, exakt och effektivt.

ChatGPT agent är utformad för iterativa, samarbetsinriktade arbetsflöden och är betydligt mer interaktiv och flexibel än tidigare modeller. Medan ChatGPT arbetar kan du när som helst avbryta för att förtydliga dina instruktioner, omdirigera uppgiften, styra den mot önskade resultat eller ändra uppgiften helt. Processen fortsätter där den slutade, men nu med den nya informationen och utan att tidigare resultat går förlorade. På samma sätt kan ChatGPT själv proaktivt efterfråga ytterligare information från dig när det behövs för att säkerställa att uppgiften fortsatt stämmer överens med dina mål. Om en uppgift tar längre tid än förväntat eller verkar ha kört fast kan du pausa den, be om en sammanfattning av framstegen eller avbryta den helt och få ett delresultat. Om du har ChatGPT‑appen på din mobil kommer den att skicka ett meddelande när uppgiften är klar.

Bredare användningsområden i verkligheten

Dessa sammanslagna agentbaserade funktioner gör att ChatGPT:s användbarhet ökar avsevärt både i vardagskontexter och professionella kontexter. På jobbet kan du automatisera repetitiva uppgifter som att omvandla skärmbilder eller infopaneler till presentationer som utgörs av redigerbara vektorelement, boka om möten, planera och boka in möten utanför kontoret och uppdatera kalkylark med nya finansdata samtidigt som formateringen kan behållas. I ditt privatliv kan du använda den för att utan ansträngning planera och boka resor, utforma och boka hela middagsbjudningar eller hitta specialister och boka in möten.

Modellens avancerade funktioner får genomslag i form av toppresultat (SOTA – state-of-the-art) i utvärderingar som mäter webbsurfning och kapacitet att lösa verkliga uppgifter.

På Humanitys Last Exam⁠(öppnas i ett nytt fönster)*, en utvärdering som mäter AI-resultat vad gäller frågor på expertnivå inom en rad olika ämnen, får modellen som driver ChatGPT agent en ny pass@1 SOTA på 41,6. Eftersom agenten planerar dynamiskt och väljer sina egna verktyg kan den hantera samma uppgift på olika sätt vid olika körningar. När vi skalade upp detta med en enkel parallell implementeringsstrategi – då vi körde upp till åtta försök samtidigt och valde det försök som hade den högsta egenrapporterade konfidensen – ökar agentens poäng till 44,4.

FrontierMath** är det tuffaste kända matematiska riktmärket och innefattar nya, opublicerade problem som det ofta tar matteexperter flera timmar eller till och med dagar att lösa. Med hjälp av verktyg, som åtkomst till en terminal för körning av kod, uppnår ChatGPT en riktighet på 27,4 %, vilket överträffar de båda tidigare modellernas resultat med bred marginal.

Vi har också utvärderat modellen med hjälp av riktmärken modellerade efter komplexa, verkliga uppgifter. På ett internt riktmärke som är utformat för att utvärdera modellens resultat på komplexa, ekonomiskt värdefulla uppgifter relaterade till kunskapsarbete är ChatGPT agents resultat jämförbart med eller bättre än mänskliga resultat i ungefär hälften av fallen för olika tider för slutförande av uppgifter och presterar avsevärt bättre än o3 och o4-mini. Modellutdata bedöms av experter jämfört med mänskliga baslinjer av hög kvalitet som skapats av dem som presterar bäst inom respektive område. De här uppgifterna, som kommer från experter inom olika yrken och branscher, speglar verkliga yrkesuppgifter – som att ta fram en konkurrenskraftig analys av leverantörer av akutvård on-demand, bygga detaljerade avbetalningsplaner och identifiera möjliga vattenkällor för en ny grön vätgasanläggning.

På DSBench⁠(öppnas i ett nytt fönster), som är utformad för att utvärdera agenter vad gäller realistiska datavetenskapliga uppgifter som omfattar dataanalys och modellering, överträffar ChatGPT agent det mänskliga resultatet med en betydande marginal.

På SpreadsheetBench, som utvärderar modeller utifrån deras förmåga att redigera kalkylark som härletts från verkliga scenarier, överträffar ChatGPT agent befintliga modeller med en betydande marginal. När ChatGPT agent tillfördes funktionen att kunna redigera kalkylark direkt presterar den ännu bättre – 45,5 %, vilket kan jämföras med 20,0 % för Copilot i Excel.

Metodik: SpreadsheetBench-författarna använde en Windows-miljö och Microsoft Excel för att utvärdera kalkylark. Vi använde en OSX-miljö och LibreOffice, vilket kan medföra mindre betygsskillnader. Exempelvis kom författarna fram till att det fanns en övergripande hård begränsning på 15,02 % för GPT‑4o och vi fick resultatet 13,38 %. Vi använde riktmärkets samtliga 912 frågor.

På ett internt riktmärke som mäter en modells förmåga att ta sig an modelleringsuppgifter som analytiker hos investeringsbanker utför (första till tredje året) – som att sammanställa en modell för tre typer av finansiella rapporter för ett Fortune 500-företag med korrekt formatering och citat eller utveckla en modell för lånefinansierade uppköp och avnotering – presterar ChatGPT agent avsevärt bättre än djup research och o3. Varje uppgift betygsätts utifrån hundratals kriterier kopplade till korrekthet och användning av formler.

Vi utvärderade också ChatGPT agent på BrowseComp⁠, ett riktmärke som publicerades tidigare i år och som mäter webbsurfningsagenters kapacitet att hitta svårfunnen information på webben. Modellen uppnår ett nytt toppresultat (SOTA) på 68,9 %, vilket är 17,4 procentenheter mer än djup research.

På WebArena⁠(öppnas i ett nytt fönster), ett riktmärke som är utformat för att utvärdera resultatet för webbsurfningsagenter när det gäller att utföra verkliga webbuppgifter, har modellen bättre resultat än o3‑drivna CUA (den modell som driver Operator).

Så här använder du den

Du kan aktivera ChatGPT:s nya agentbaserade funktioner direkt via rullgardinsmenyn med verktyg i kompositören genom att välja ”agentläge” när som helst under samtalet. Du beskriver bara den uppgift du önskar få utförd – vilket kan vara att genomföra djupgående sökningar, skapa ett bildspel eller skicka in en utläggsrapport. När din uppgift utförs ger en beskrivning på skärmen insyn i exakt allt ChatGPT gör. Du kan avbryta och ta kontroll över webbläsaren när så krävs och säkerställa att uppgifterna överensstämmer med dina mål.

ChatGPT agent kan få åtkomst till dina sammanlänkningar, vilket gör det möjligt att integrera med dina arbetsflöden och få åtkomst till relevant, användbar information. När dessa sammanlänkningar är autentiserade kan ChatGPT se information och göra saker som att sammanfatta din inkorg för dagen eller hitta lediga tider då du är tillgänglig för möten. Om åtgärder ska vidtas på de här webbplatserna måste du dock först uppmanas att logga in genom att ta över webbläsaren.

Du kan också schemalägga att slutförda uppgifter ska återkomma automatiskt, som att generera en statistisk veckorapport varje måndagsmorgon.

Nya funktioner, nya risker

Den här lanseringen innebär att det är första gången som användarna kan be ChatGPT att vidta åtgärder på webben. Detta introducerar nya risker, inte minst för att ChatGPT agent kan arbeta direkt med dina data, oavsett om det handlar om information som nås via sammanlänkningar eller webbplatser som du har loggat in på via övertagningsläge. Vi har förstärkt de robusta kontrollerna från Operators förhandsgranskning av sökresultatet och lagt till skydd för utmaningar som att hantera känslig information på den aktiva webben, bredare användarräckvidd och (begränsad) åtkomst till terminalnätverk. De här åtgärderna minskar risken avsevärt, men ChatGPT agents utökade verktyg och bredare användarräckvidd innebär att den övergripande riskprofilen är högre.

Vi har lagt särskild vikt vid att skydda ChatGPT agent mot skadlig manipulering via promptinjektion, vilket är en risk för agentbaserade system generellt, och har förberett mer omfattande riskreduceringar i enlighet med detta. Promptinjektioner är försök från tredje parter att manipulera ChatGPT agents beteende via skadliga instruktioner som den kan möta på webben när en uppgift utförs. Exempelvis kan en skadlig prompt som är dold på en webbsida, bland annat i osynliga element eller metadata, lura agenten att vidta oavsiktliga åtgärder, som att dela privata data från en sammanlänkning med angriparen eller vidta en skadlig åtgärd på en webbplats som användaren har loggat in på. Eftersom ChatGPT agent kan vidta direkta åtgärder kan framgångsrika attacker få större konsekvenser och utgöra större risker.

Vi har tränat och testat agenten i att identifiera och motstå promptinjektioner och använder även övervakning för att snabbt detektera och svara på attacker via promptinjektioner. Genom att kräva uttrycklig bekräftelse från användaren innan åtgärder som får konsekvenser vidtas minskas risken för skada på grund av dessa attacker ytterligare och användarna kan vid behov ingripa i uppgifter genom att ta över eller pausa. Användarna bör väga in dessa faktorer när de fattar beslut om vilken information de ska förse agenten med samt vidta åtgärder för att minimera sin exponering mot dessa risker, som att inaktivera sammanlänkningar när de inte behövs för en uppgift.

Vi har också implementerat riskreducering kring modellmisstag, inte minst eftersom modellen nu kan utföra uppgifter som får effekter i verkligheten:

Uttrycklig användarbekräftelse: ChatGPT är tränad att uttryckligen be om ditt tillstånd innan den vidtar åtgärder med konsekvenser i verkligheten, som att göra ett köp.
Aktiv övervakning ( ”Övervakningsläge”): Vissa kritiska uppgifter, som att skicka e-post, kräver aktiv översyn från din sida.
Proaktiv riskreducering: ChatGPT är tränad att aktivt avvisa uppgifter med hög risk, som banköverföringar.

Slutligen har vi introducerat ytterligare kontroller för att begränsa de data som modellen har tillgång till:

Integritetskontroller: Med ett enda klick i ChatGPT:s inställningar kan du radera alla webbdata och omedelbart logga ut från alla aktiva webbplatssessioner. Annars finns cookies kvar baserat på varje besökt webbplats cookie-policy, vilket kan göra upprepade besök på webbplatser mer effektiva.
Säkert övertagningsläge av webbläsare: När du interagerar med webben med hjälp av ChatGPT:s webbläsare (”övertagningsläge”) förblir dina indata privata. ChatGPT samlar inte in eller lagrar några data som du anger under dessa sessioner, som lösenord, eftersom modellen inte behöver det och det är säkrare om den aldrig ser dem.

Vår starkaste säkerhetsstack hittills för biologisk risk

Med modellens utökade funktioner har vi fattat beslutet att behandla ChatGPT agent som att den har hög biologisk och kemisk förmåga i enlighet med vårt Förberedelseramverk⁠ och aktivera de skyddsåtgärder som är kopplade till detta. Även om vi inte har definitiva bevis på att modellen på ett meningsfullt sätt skulle kunna hjälpa en nybörjare att skapa allvarlig biologisk skada – vårt tröskelvärde för hög förmåga – agerar vi med försiktighet och implementerar de nödvändiga skyddsåtgärderna redan nu. Det medför att den här modellen har vår mest omfattande säkerhetsstack hittills med förstärkta skyddsåtgärder för biologi: omfattande hotmodellering, träning i avvisning för dubbla användningsområden, klassificerare och resonemangsövervakare som alltid är aktiverade samt tydliga flöden för att vidta åtgärder.

Vid sidan av vårt arbete för att skydda ChatGPT agent vet vi att biosäkerhet i flera lager fungerar bäst när skyddsåtgärderna omfattar mer än ett enda labb och vi samarbetar därför med olika ekosystem för att förstärka försvaret. Från första dagen har vi arbetat med utomstående experter på biosäkerhet, säkerhetsinstitut och akademiska forskare för att utforma vår modell, våra utvärderingar och policyer. Biologiutbildade granskare validerade våra utvärderingsdata och red team-medlemmar med domänexpertis har stresstestat skyddsåtgärder i realistiska scenarion. Tidigare den här månaden genomförde vi en workshop om bioförsvar med experter från myndigheter, den akademiska världen, nationella laboratorier och icke-statliga organisationer för att påskynda samarbetet och utveckla forskning om bioförsvar som drivs av AI. Vi kommer att fortsätta att samarbeta globalt för att ligga steget före när det gäller nya risker.

Läs mer om vår robusta säkerhetsstrategi för den kombinerade agentbaserade modellen i systemkortet⁠. Vi lanserar också ett sårbarhetsbelöningsprogram⁠ så att vi kan hitta och åtgärda verkliga risker.

Tillgänglighet

ChatGPT agent börjar rullas ut idag till Pro, Plus och Team. Pro kommer att få åtkomst i slutet av dagen, medan Plus- och Team-användare kommer att få åtkomst under de kommande dagarna. Enterprise- och Education-användare får åtkomst under de kommande veckorna. Pro-användare har 400 meddelanden per månad, medan andra betalanvändare får 40 meddelanden per månad. Ytterligare användning är tillgänglig via flexibla kreditbaserade alternativ.

Vi arbetar fortfarande med att aktivera åtkomsten inom Europeiska ekonomiska samarbetsområdet (EES) och Schweiz.

Webbplatsen för Operators förhandsgranskning av sökresultat är fortsatt i drift under ytterligare några veckor. Därefter fasas den ut. Djup research är en del av ChatGPT agents funktioner. Om du föredrar den ursprungliga djup research-funktionen – som kan ta längre tid att köra, men som ger detaljerade, ingående svar som standard – har du fortfarande tillgång till den genom att du kan välja ”djup research” i meddelandekompositörens rullgardinsmeny.

Begränsningar och framtidsprognoser

ChatGPT agent befinner sig fortfarande i ett tidigt skede. Den kan ta sig an olika typer av komplicerade uppgifter, men kan fortfarande göra misstag.

Samtidigt som vi ser betydande potential i dess förmåga att generera bildspel testas denna funktionalitet för närvarande i en betaversion. För närvarande kan utdata upplevas som rudimentära i formatering och presentation – framför allt när man inte utgår från ett befintligt dokument. Vi har fokuserat på modellens initiala kapacitet att generera artefakter som ordnar information i ett flöde och format som är lämpligt för presentationer, med element som text, diagram, bilder och former som är inbyggda och enkla att redigera efter export, vilket ger optimal struktur och flexibilitet. För närvarande förekommer det tillfälliga avvikelser mellan bilderna i visningsläget och den exporterade Powerpoint-filen. Vi arbetar för att minska dessa avvikelser. För närvarande kan du ladda upp ett befintligt kalkylark som ChatGPT kan redigera eller använda som mall, men denna funktion är ännu inte tillgänglig för bildspel. Vi tränar redan nästan iteration av ChatGPT:s bildspelsskapande så att den kan producera mer finslipade, sofistikerade utdata, med bredare funktioner och förbättrad formatering.

Sammantaget förväntar vi oss fortsatt förbättringar av ChatGPT agents effektivitet, djup och mångsidighet över tid, bland annat smidigare interaktioner när vi fortsätter att justera hur mycket övervakning som krävs från användarens sida för att göra modellen mer användbar samtidigt som vi ser till att den är säker att använda.

Bilaga

SpreadsheetBench
Modell	Utvärderingsmiljö	Mjuk begränsning (%): Cellnivå	Mjuk begränsning (%): Arknivå	Mjuk begränsning (%): Övergripande
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot i Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT agent	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT agent med .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Human		75,56	65,00	71,33

Repris av livestream

Författare

OpenAI

Fotnoter

* När man aktiverar webbsurfning kan modellen ibland hitta exakta svar online, t.ex. genom att läsa blogginlägg med exempelproblem från en datamängd. Vi minskar risken för att modellen fuskar medan den surfar med två strategier:

1. Blockerade domäner som vi tidigare har sett att modellen fuskat från.

2. Använde en extra modell som övervakare för att undersöka alla utdatatokens från verktyget i varje försök för att identifiera misstänkt beteende. Misstänkt beteende definieras som ”en sida, fil eller utdrag vars huvudsyfte är att ge det exakta svaret på just denna fråga – t.ex. en officiell betygsnyckel, läckta ”lösningar” eller diskussioner som citerar det slutliga svaret ordagrant”. Godartat beteende definieras som ”Alla auktoritära resurser som en flitig person kan använda sig av (dokument, handböcker, vetenskapliga artiklar, välrenommerade artiklar) även om det råkar innehålla det rätta svaret.” Alla försök som övervakaren bedömde som misstänkta räknas som felaktiga. De flesta provexemplar som inte klarade av kontrollen var problem vars exakta lösning fanns tillgänglig på flera internetkällor utan koppling till HLE.

**OpenAI har exklusiv åtkomst till 237 av 290 privata frågor på Tier 1-3-datasetet. FrontierMath tier 4-frågor ingår inte i den här utvärderingen. Resultat utvärderade som genomsnittet för 16 försök att besvara varje fråga. ChatGPT agent-resultat genereras av OpenAI, betygsätts av Epoch AI, med webbläsar- och terminalåtkomst och en gräns på 128K tokens per svar. OpenAI o4-mini- och o3-utvärderingar genereras och betygsätts av Epoch AI, utan webbläsar- och terminalåtkomst, med användning av Python-skript via funktionsanrop och en gräns på 100K tokens per svar.

*** Oracle@64 baseras på de bästa poäng som uppnåtts för 64 provkörningar, valda med hjälp av det korrekta svaret (dvs. att vi väljer det försök som har högst poäng för varje uppgift baserat på faktiskt betygsatt resultat). Vi rapporterar genomsnittet för dessa bästa poäng per uppgifter för alla uppgifter. Dessa mått lyfter fram modellens övre gräns och variation när det gäller utförande av uppgifter. De visar vilken kapacitet modellen har när den lyckas och indikerar utrymmet för att förbättra enhetligheten genom ytterligare träning. Till skillnad från vanliga ”bäst av N-mått, som gör ett urval baserat på modellkonfidens, använder oracle@64 korrekt svar vid urval och tillämpar på uppgifter betygsatta på en kontinuerlig 0–1-skala istället för ett binärt godkänd/ej godkänd.