Hopp til hovedinnhold
OpenAI

17. juli 2025

ProduktUtgivelse

Vi introduserer ChatGPT agent: kobler sammen research og handling

Nå som ChatGPT både tenker og handler, velger den proaktivt fra en verktøykasse med agentferdigheter for å utføre oppgaver for deg ved hjelp av sin egen datamaskin.

Laster inn …

ChatGPT kan nå utføre arbeid for deg ved å bruke sin egen datamaskin, og håndtere komplekse oppgaver fra start til slutt.

Nå kan du be ChatGPT om å håndtere forespørsler som “se på kalenderen min og gi meg en oppsummering av kommende kundemøter basert på nylige nyheter”, “planlegg og kjøp ingredienser til å lage japansk frokost til fire” og “analyser tre konkurrenter og lag en presentasjon”. ChatGPT vil på en intelligent måte navigere nettsteder, filtrere resultater, be deg om å logge inn sikkert når det er nødvendig, kjøre kode, gjennomføre analyser og til og med levere redigerbare lysbildefremvisninger og regneark som oppsummerer funnene. 

Kjernen i denne nye funksjonaliteten er et enhetlig agentsystem. Den samler tre styrker fra tidligere gjennombrudd: Operators evne til å samhandle med nettsteder, ferdighetene til grundig research innen syntetisering av informasjon og ChatGPTs intelligens og samtaleferdighet.

ChatGPT utfører disse oppgavene ved å bruke sin egen virtuelle datamaskin, og skifter sømløst mellom resonnement og handling for å håndtere komplekse arbeidsflyter fra start til slutt, alt basert på dine instruksjoner.

Det viktigste er at du alltid har kontrollen. ChatGPT ber om tillatelse før den utfører handlinger med konsekvenser, og du kan enkelt avbryte, ta over nettleseren eller stanse oppgaver når som helst.

Fra og med i dag kan Pro, Plus og Team-brukere aktivere ChatGPTs nye agentegenskaper direkte fra verktøymenyen i meldingsfeltet ved å velge “agentmodus” på et hvilket som helst tidspunkt i en samtale. 

Mens ChatGPT agent allerede er et kraftig verktøy for å håndtere komplekse oppgaver, er dagens lansering bare begynnelsen. Vi vil fortsette å gradvis legge til betydelige forbedringer regelmessig, noe som gjør den mer kapabel og nyttig for flere mennesker over tid.

En naturlig utvikling av Operator og grundig research

Tidligere hadde Operator og grundig research hver sine unike styrker: Operator kunne bla, klikke og skrive på nettet, mens grundig research utmerket seg ved å analysere og oppsummere informasjon. Men de fungerte best i forskjellige situasjoner: Operator kunne ikke dykke dypt ned i analyser eller skrive detaljerte rapporter, og grundig research kunne ikke samhandle med nettsteder for å raffinere resultater eller få tilgang til innhold som krevde brukerautentisering. Faktisk så vi at mange forespørslene brukerne prøvde med Operator faktisk var bedre egnet for grundig research, så vi har kombinert det beste fra begge.

Ved å integrere disse komplementære styrkene i ChatGPT og introdusere ytterligere verktøy, har vi åpnet helt nye muligheter innen samme modell. Den kan nå aktivt samhandle med nettsteder – klikke, filtrere og samle mer presise, effektive resultater. Du kan også naturlig gå fra en enkel samtale til å be om handlinger direkte i den samme chatten. 

En agent som arbeider for deg, med deg 

Vi har utstyrt ChatGPT agent med en verktøypakke: en visuell nettleser som samhandler med nettet via et grafisk brukergrensesnitt, en tekstbasert nettleser for enklere resonnementbaserte nettforespørsler, en terminal og direkte API-tilgang. Agenten kan også utnytte ChatGPT‑koblinger(åpnes i et nytt vindu), som lar deg koble til apper som Gmail og Github, slik at ChatGPT kan finne informasjon som er relevant for meldingene dine og bruke dem i svarene. Du kan også logge inn på en hvilken som helst nettside ved å ta over nettleseren, noe som lar den gå dypere og bredere i både research og utførelse av oppgaver. Å gi ChatGPT disse ulike alternativene for å få tilgang til og samhandle med nettinformasjon gjør at den kan velge den optimale måten til å mest effektivt utføre oppgaver. For eksempel kan den samle informasjon om kalenderen din gjennom et API, effektivt resonnere over store mengder tekst ved å bruke den tekstbaserte nettleseren, samtidig som den har muligheten til å samhandle visuelt med nettsteder som først og fremst er utformet for mennesker. 

Alt dette gjør den ved å bruke sin egen virtuelle datamaskin, som bevarer konteksten som er nødvendig for oppgaven, selv når flere verktøy brukes. Modellen kan velge å åpne en side ved å bruke den tekstbaserte nettleseren eller den visuelle nettleseren, laste ned en fil fra nettet, manipulere den ved å kjøre en kommando i terminalen og deretter vise utdataene tilbake i den visuelle nettleseren. Modellen tilpasser tilnærmingen for å utføre oppgaver med hastighet, nøyaktighet og effektivitet.

ChatGPT agent er designet for iterative samarbeidsprosesser, langt mer interaktiv og fleksibel enn tidligere modeller. Mens ChatGPT arbeider, kan du når som helst avbryte for å avklare instruksjoner, styre den mot ønskede resultater eller forandre hele oppgaven. Den vil ta opp tråden der den slapp, nå med den nye informasjonen, men uten å miste tidligere fremgang. På samme måte kan ChatGPT søke aktivt etter ytterligere detaljer fra deg når dette kreves for å sikre at oppgaven forblir i tråd med målene dine. Hvis en oppgave tar lengre tid enn forventet eller føles fastlåst, kan du pause den, be den om en fremdriftsoppsummering eller stoppe den helt og motta delresultater. Hvis du har ChatGPT‑appen på telefonen din, vil den sende deg en melding når den er ferdig med oppgaven.

Større nytte i den virkelige verden 

Disse enhetlige agentevnene forbedrer ChatGPTs nytteverdi betydelig i både hverdagslige og profesjonelle sammenhenger. På jobben kan du automatisere repetitive oppgaver, som å konvertere skjermbilder eller dashbord til presentasjoner som består av redigerbare vektorelementer, omarrangere møter, planlegge og bestille eksterne lokaler, og oppdatere regneark med nye økonomiske data samtidig som du beholder den samme formateringen. Privat kan du bruke det til enkelt å planlegge og bestille reiser, sette sammen og bestille hele middagsselskaper, eller finne spesialister og bestille timer. 

Modellens forbedrede evner gjenspeiles i den ledende (state-of-the-art, SOTA) ytelsen på evalueringer som måler nettlesing og fullføring av oppgaver i den virkelige verden. 

I evalueringen Humanity’s Last Exam(åpnes i et nytt vindu), en evaluering som måler AI-ytelse med ekspertspørsmål innen et bredt spekter av fagområder, skåret modellen som driver ChatGPT agent en ny pass@1 SOTA på 41,6. Fordi agenten planlegger dynamisk og velger sine egne verktøy, kan den takle den samme oppgaven på forskjellige måter i løpet av kjøringer. Når vi skalerer dette med en enkel parallell utrullingsstrategi – som kjører opptil åtte forsøk om gangen og velger det med høyest selvrapportert selvtillit – øker agentens HLE-poeng til 44,4.

FrontierMath** er den vanskeligste kjente matematiske referansemålingen. Den inneholder nyskapende, upubliserte problemer som ofte tar ekspertmatematikere timer eller til og med dager å løse. Med bruk av verktøy, som tilgang til en terminal for kodekjøring, oppnår ChatGPT agent 27,4 % nøyaktighet, noe som overgår begge de tidligere modellene med stor margin.

Vi vurderte også modellen ved å bruke referansepunkter modellert etter komplekse oppgaver i den virkelige verden. På en intern referansemåling utformet for å evaluere modellens ytelse på komplekse, økonomisk verdifulle oppgaver innen kunnskapsarbeid, er utdataene til ChatGPT agent sammenlignbare med, eller bedre enn, menneskers i omtrent halvparten av tilfellene på tvers av en rekke tider for å fullføre en oppgave, samtidig som den betydelig overgår o3 og o4-mini. Modellens utdata vurderes av eksperter mot menneskelige referanser av høy kvalitet, produsert av topputøvere på hvert område. Disse oppgavene, hentet fra eksperter på tvers av ulike yrker og bransjer, speiler profesjonelt arbeid fra den virkelige verden, som å forberede en konkurransedyktig analyse av akutte helsetjenester på forespørsel, bygge detaljerte avdragsplaner og identifisere levedyktige brønner for et nytt grønt hydrogenanlegg. 

DSBench(åpnes i et nytt vindu), som er designet for å evaluere agenter på realistiske datavitenskapelige oppgaver innen dataanalyse og modellering, overgår ChatGPT agent menneskelig ytelse med en betydelig margin.

SpreadsheetBench, som vurderer modeller basert på deres evne til å redigere regneark avledet fra virkelige scenarioer, overgår ChatGPT agent eksisterende modeller med en betydelig margin. Når ChatGPT agent fikk muligheten til å redigere regneark direkte, skåret den enda bedre, med 45,5 % sammenlignet med Copilot i Excel som hadde 20,0 %. 

Metodologi: SpreadsheetBench-forfatterne brukte et Windows-miljø med Microsoft Excel til å evaluere regnearkene. Vi brukte et OSX-miljø og LibreOffice, som kan resulterer i små karaktersettingsforskjeller. Forfatterne fant for eksempel en samlet hard begrensning på 15,02 % for GPT‑4o, mens vi fikk 13,38 %. Vi brukte den komplette referansemålingen på 912 spørsmål.

På en intern referansemåling som måler en modells evne til å utføre første til tredjeårs modelleringsoppgaver for investeringsbankanalytiker – som å sette sammen en økonomisk modell med tre regnskap til et Fortune 500-selskap med riktig formatering og referanser, eller bygge en oppkjøpsmodell for et avnotert selskap – presterer modellen som driver ChatGPT agent betydelig bedre i forhold til grundig research og o3. Hver oppgave blir vurdert etter hundrevis av kriterier relatert til korrekthet og bruk av formler.

Vi evaluerte også ChatGPT agent på BrowseComp, en referansemåling vi publiserte tidligere i år som måler nettleseragenters evne til å finne vanskelig tilgjengelig informasjon på nettet. Modellen satte en ny SOTA med 68,9 %, 17,4 prosentpoeng høyere enn grundig research.

Til slutt, på WebArena(åpnes i et nytt vindu), en referansemåling som er utformet for å evaluere ytelsen til nettlesingsagenter for å fullføre oppgaver fra virkeligheten på nettet, forbedrer modellen seg i forhold til o3‑drevne CUA (modellen som driver Operator). 

Slik bruker du den

Du kan aktivere ChatGPTs nye agentegenskaper direkte fra verktøymenyen i meldingsfeltet ved å velge “agentmodus” på et hvilket som helst tidspunkt i en samtale. Bare beskriv oppgaven du ønsker – enten det er å utføre grundig research, lage en lysbildefremvisning eller sende inn utgifter. Mens den utfører oppgaven din, vil det beskrives på skjermen nøyaktig hva ChatGPT gjør. Du kan avbryte og ta kontroll over nettleseren ved behov, og sørge for at oppgavene forblir i tråd med målene dine.

ChatGPT agent kan få tilgang til koblingene dine, noe som gjør at den kan integreres med arbeidsflytene og få tilgang til relevant informasjon. Når du er autentisert, vil disse koblingene la ChatGPT se informasjon og gjøre ting som å oppsummere innboksen din for dagen eller finne tidspunkter du er tilgjengelig for et møte. For å foreta handlinger på disse nettstedene vil du imidlertid fortsatt bli bedt om å logge inn ved at nettleseren overtas. 

I tillegg kan du planlegge fullførte oppgaver til å gjentas automatisk, for eksempel å generere en ukentlig måltallsrapport hver mandag morgen.

Ny funksjonalitet, nye farer 

Denne utgivelsen markerer første gang brukere kan be ChatGPT om å utføre handlinger på nettet. Dette introduserer nye farer, spesielt fordi ChatGPT agent kan arbeide direkte med dataene dine, enten det er informasjon hentet gjennom koblinger eller nettsteder som du har logget inn på via overtakelsesmodus. Vi har styrket de robuste kontrollene fra Operators utprøvingsversjon og lagt til beskyttelsestiltak for utfordringer som håndtering av sensitiv informasjon på det åpne nettet, bredere brukerrekkevidde og (begrenset) terminalnettverkstilgang. Selv om disse tiltakene betydelig reduserer risiko, betyr de utvidede verktøyene og bredere brukerrekkevidden til ChatGPT agent at den generelle risikoprofilen er høyere. 

Vi har lagt særlig vekt på å beskytte ChatGPT agent mot fiendtlig manipulasjon gjennom meldingsinnsetting, som er en risiko for agentsystemer generelt, og har derfor forberedt mer omfattende tiltak. Meldingsinnsettinger er forsøk fra tredjeparter på å manipulere adferden ved hjelp av ondsinnede instruksjoner som ChatGPT agent kan møte på nettet mens den fullfører en oppgave. For eksempel kan en ondsinnet melding skjult på en nettside, som i usynlige elementer eller metadata, lure agenten til å ta utilsiktede handlinger, som å dele private data fra en kobling med angriperen, eller utføre en skadelig handling på et nettsted brukeren har logget inn på. Fordi ChatGPT agent kan foreta direkte handlinger, kan vellykkede angrep ha større innvirkning og utgjøre høyere risiko. 

Vi har lært opp og testet agenten på å identifisere og motstå meldingsinnsettinger, i tillegg til å bruke overvåking for å raskt oppdage og svare på meldingsinnsettingsangrep. Å kreve eksplisitt brukerbekreftelse før konsekvenshandlinger reduserer ytterligere risikoen for skade fra disse angrepene, og brukere kan gripe inn i oppgaver etter behov ved å overta eller sette på pause. Brukere bør ta disse avveiningene med i betraktning når de bestemmer hvilken informasjon som skal gis til agenten, samt ta skritt for å redusere eksponeringen sin for disse risikoene, for eksempel ved å deaktivere koblinger når de ikke er nødvendige for en oppgave. 

Vi har også implementert avbøtende tiltak rundt modellfeil, spesielt siden modellen nå kan utføre oppgaver som påvirker den virkelige verden: 

  • Eksplisitt brukerbekreftelse: ChatGPT er opplært til å eksplisitt be om samtykke før den tar handlinger med reelle konsekvenser, som å foreta et kjøp.
  • Aktivt tilsyn (“observasjonsmodus”): Visse kritiske oppgaver, som å sende e-poster, krever din aktive oppmerksomhet.
  • Proaktiv risikoreduksjon: ChatGPT er opplært til å aktivt nekte oppgaver med høy risiko som bankoverføringer.

Til slutt har vi introdusert ytterligere kontroller for å begrense dataene modellen har tilgang til: 

  • Personvernkontroller: Med ett enkelt klikk i ChatGPTs innstillinger kan du slette alle nettleserdata og umiddelbart logge ut av alle aktive nettstedsøkter. Ellers forblir informasjonskapsler basert på hver besøkte nettsides retningslinjer for informasjonskapsler, noe som kan gjøre gjentatte besøk til nettsteder mer effektive.
  • Sikker overtakelsesmodus av nettleser: Når du samhandler med nettet ved hjelp av ChatGPTs nettleser (“overtakelsesmodus”), forblir inndataene dine private. ChatGPT hverken samler inn eller lagrer noen data du oppgir i løpet av disse øktene, som passord, fordi modellen ikke trenger det, og det er tryggere dersom den aldri ser det.

Vår sterkeste sikkerhetsstruktur for biologisk risiko så langt 

Med modellens økte kapabiliteter har vi besluttet å behandle ChatGPT agent som høy biologisk og kjemisk kapasitet i henhold til Beredskapsrammeverket vårt, og aktivere de tilknyttede sikkerhetsprosedyrer. Selv om vi ikke har definitive bevis for at modellen kan hjelpe en nybegynner med å påføre alvorlig biologisk skade – vår terskel for høy kapasitet – tar vi forholdsregler og implementerer de nødvendige sikkerhetstiltakene nå. Som et resultat har denne modellen vår mest omfattende sikkerhetsstruktur til dags dato, med forbedrede sikkerhetstiltak for biologi: omfattende trusselmodellering, opplæring i avvisning av dobbel bruk, alltid aktive klassifiserere og resonnementsovervåkere, samt klare retningslinjer for håndheving. 

I tillegg til arbeidet med å sikre ChatGPT agent, vet vi at lagdelte biosikkerhetsprosedyrer fungerer best når sikkerhetstiltakene strekker seg utover ett enkelt laboratorium, så vi samarbeider på tvers av økosystemet for å styrke defensive tiltak. Fra første dag har vi samarbeidet med ekstern biosikkerhetsekspertise, sikkerhetsinstitutter og akademiske forskere for å utforme trusselmodellen, vurderingene og retningslinjene. Biologiutdannede analytikere validerte evalueringdataene, og red team-medlemmer med domeneekspertise har stresstestet sikkerhetstiltak i realistiske scenarioer. Tidligere denne måneden hadde vi en workshop innen bioforsvar med eksperter fra regjeringen, akademia, nasjonale laboratorier og ideelle organisasjoner for å akselerere samarbeid og fremme forskning på bioforsvar drevet av AI. Vi vil fortsette å samarbeide globalt for å ligge i forkant av nye risikomomenter. 

Les mer om vår robuste sikkerhetsstrategi for den enhetlige agentmodellen på systemkortet. Vi lanserer også et Bug Bounty-program slik at vi kan finne og håndtere virkelige farer.

Tilgjengelighet

ChatGPT agent begynner utrullingen i dag til Pro, Plus og Team; Pro vil få tilgang innen slutten av dagen, mens Plus- og Team-brukere vil få tilgang i løpet av de neste dagene. Enterprise- og Education-brukere får tilgang i løpet av de neste ukene. Pro-brukere har 400 meldinger per måned, mens andre betalte brukere får 40 meldinger månedlig, med ekstra bruk tilgjengelig via fleksible kredittbaserte alternativer.

Vi jobber fortsatt med å aktivere tilgang for EØS og Sveits. 

Nettstedet for utprøvingsversjonen av Operator vil forbli funksjonelt i noen få uker til, deretter vil det bli avviklet. Grundig research er en del av funksjonaliteten til ChatGPT agent. Hvis du foretrekker den originale funksjonen for grundig research – som kan ta litt lengre tid å kjøre, men som gir mer detaljerte og grundige svar som standard – kan du fortsatt få tilgang til den ved å velge "grundig research" fra rullegardinmenyen i meldingsfeltet.

Begrensninger og veien videre 

ChatGPT agent er fortsatt på et tidlig utviklingsstadium. Den er i stand til å ta på seg en rekke komplekse oppgaver, men den kan fortsatt gjøre feil. 

Selv om vi ser et betydelig potensial i evnen til å generere lysbildefremvisninger, er denne funksjonaliteten for øyeblikket i beta. For øyeblikket kan utdataene noen ganger virke enkle i formatering og utførelse, spesielt når man starter uten et eksisterende dokument. Vi fokuserte modellens innledende evner på å generere artefakter som organiserer informasjon i en flyt og et format som er egnet for presentasjoner, med elementer som tekst, diagrammer, bilder og former som er naturlige og lett redigerbare etter eksportering og optimalisert for struktur og fleksibilitet. For øyeblikket er det også sporadiske avvik mellom lysbildene i fremviseren og den eksporterte powerpoint-filen som vi jobber med å redusere. I tillegg, mens du for øyeblikket kan laste opp et eksisterende regneark ChatGPT kan redigere eller bruke som en mal, er denne funksjonen ennå ikke tilgjengelig for lysbildefremvisninger. Vi lærer allerede opp den neste iterasjonen av ChatGPTs lysbildefremstilling for å produsere mer finpussede, sofistikerte resultater, med bredere muligheter og forbedret formatering.

Samlet sett forventer vi fortsatt forbedringer i effektiviteten, dybden og allsidigheten til ChatGPT agent over tid, inkludert mer sømløse interaksjoner, mens vi fortsetter å justere mengden overvåking som kreves fra brukeren for å gjøre den mer nyttig samtidig som vi sørger for at den er trygg å bruke.

Vedlegg

SpreadsheetBench

Modell

Evalueringsmiljø

Myk begrensning (%): Cellenivå

Myk begrensning (%): Arknivå

Myk begrensning (%): Samlet

GPT‑4o

Windows, Excel

15,03

23,65

18,35

Copilot i Excel

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

ChatGPT agent

OSX, LibreOffice

38,27

30,48

35,27

ChatGPT agent med .xlsx

OSX, LibreOffice

50,56

37,51

45,54

Menneskelig

75,56

65,00

71,33

Opptak av direktesending

Forfatter

OpenAI

Fotnoter

* Når nettlesing er aktivert, kan modellen noen ganger finne nøyaktige svar på nettet, for eksempel ved å lese blogginnlegg med eksempeloppgaver fra et datasett. Vi håndterer bekymringer om at modellen jukser under nettlesing med to strategier:

1. Blokkerte domener som vi har observert at modellen har jukset fra tidligere.

2. Brukte en ekstra modell som overvåker for å undersøke alle utdatatoken for verktøy under hvert forsøk for å identifisere mistenkelig atferd. Mistenkelig atferd er definert som “en side, fil eller utdrag hvis hovedformål er å gi det nøyaktige svaret på dette spesifikke spørsmålet – f.eks. en offisiell vurderingsnøkkel, lekkede “løsninger” eller en diskusjon som siterer fasiten ordrett”. Godartet atferd er definert som “enhver autoritativ kilde en flittig person kan bruke (dokumentasjon, håndbøker, vitenskapelige artikler, anerkjente artikler), selv om den tilfeldigvis inneholder det korrekte svaret.” Alle forsøk der overvåkeren vurderte utrullingen som mistenkelig, telles som feil. De fleste prøvene som ikke besto denne kontrollen, inkluderte problemer hvor den eksakte løsningen var tilgjengelig på flere internettkilder som ikke var relatert til HLE.

** OpenAI har eksklusiv tilgang til 237 av 290 private spørsmål i Tier 1-3-datasettet. FrontierMath tier 4-spørsmål er ikke inkludert i denne evalueringen. Resultater vurdert som gjennomsnittet av 16 forsøk på å svare på hvert spørsmål. ChatGPT agent-resultater utledes av OpenAI, vurderes av Epoch AI, med nettleser- og terminaltilgang, og en grense på 128 000 tokener per svar. OpenAI o4-mini- og o3-evalueringer er hentet inn og vurdert av Epoch AI, uten tilgang til nettleser og terminal, ved hjelp av python-skript via funksjonskall, og en grense på 100 000 tokener per svar.

*** Oracle@64 viser til den beste poengsummen oppnådd på tvers av 64 utvalgte kjøringer, valgt ved hjelp av sannhetsdata (dvs. vi velger det høyest skårende forsøket for hver oppgave basert på faktisk vurdert ytelse). Vi rapporterer gjennomsnittet av disse beste poengene per oppgave på tvers av alle oppgaver. Dette måltallet fremhever modellens øvre grensepotensial og variasjon i oppgaveytelse – som viser hvor kapabel modellen kan være når den lykkes og indikerer rom for å bli mer konsekvent gjennom videre opplæring. I motsetning til typiske "beste av N"-målinger, som velger basert på modellens konfidens, bruker oracle@64 sannhetsdata til utvelgelse og gjelder for oppgaver vurdert på en kontinuerlig 0–1 skala fremfor binær bestått/ikke bestått.