Vi præsenterer ChatGPT agent: Broen mellem forskning og handling
ChatGPT kan nu både tænke og handle og vælger selv mellem en række agentbaserede værktøjer for at udføre opgaver for dig ved hjælp af sin egen computer.
ChatGPT kan nu udføre arbejde for dig ved hjælp af sin egen computer og klare komplekse opgaver fra start til slut.
Du kan nu bede ChatGPT om at håndtere forespørgsler som “tjek min kalender, og giv mig en briefing om kommende kundemøder baseret på de seneste nyheder”, “planlæg og køb ingredienserne til at lave japansk morgenmad til fire” eller “analyser tre konkurrenter og lav en præsentation.” ChatGPT navigerer intelligent på hjemmesider, filtrerer resultater, beder dig om at logge sikkert ind, når det er nødvendigt, kører kode, foretager analyser og leverer endda redigerbare præsentationer og regneark, der opsummerer resultaterne.
Kernen i den nye ydeevne er et samlet handlende system. Det samler tre styrker fra tidligere AI-gennembrud: Operators evne til at interagere med hjemmesider, evnen fra grundig research til at syntetisere information og ChatGPT’s intelligens og flydende samtale.
ChatGPT udfører disse opgaver ved hjælp af sin egen virtuelle computer og skifter flydende mellem avanceret tænkning og handling for at håndtere komplekse arbejdsgange fra start til slut – alt sammen baseret på dine instruktioner.
Vigtigst af alt er, at du altid har styringen. ChatGPT beder om tilladelse, før den foretager vigtige handlinger, og du kan til enhver tid nemt afbryde, overtage browseren eller stoppe en opgave.
Fra og med i dag kan Pro-, Plus- og Team-brugere aktivere ChatGPT's nye agentfunktioner direkte i værktøjs-rullemenuen ved at vælge ‘agent-tilstand’ på et hvilket som helst tidspunkt i løbet af en samtale.
Selvom ChatGPT agent allerede er et stærkt værktøj til at håndtere komplekse opgaver, er dagens lancering kun begyndelsen. Vi vil fortsætte med løbende at tilføje væsentlige forbedringer, så den med tiden bliver mere kompetent og nyttig for flere mennesker.
Førhen havde Operator og grundig research hver deres unikke styrker: Operator kunne scrolle, klikke og skrive på nettet – mens grundig research var særligt stærk til at analysere og sammenfatte information. Men de fungerede bedst i forskellige situationer: Operator kunne ikke gå i dybden med analyser eller skrive detaljerede rapporter, og grundig research kunne ikke interagere med hjemmesider for at finjustere resultater eller få adgang til indhold, der kræver brugerbekræftelse. Faktisk så vi, at mange af de forespørgsler, brugerne forsøgte med Operator, i virkeligheden var bedre egnet til grundig research, så nu har vi samlet det bedste fra dem begge i ét system.
Ved at samle disse komplementære styrker og tilføje nye værktøjer i ChatGPT har vi åbnet op for helt nye muligheder i én samlet model. Den kan nu aktivt interagere med hjemmesider – klikke, filtrere og hente mere præcise og effektive resultater. Du kan også skifte naturligt fra en almindelig samtale til at bede om konkrete handlinger, alt sammen i samme chat.
Vi har udstyret ChatGPT agent med en række værktøjer: En visuel browser, der interagerer med nettet gennem en grafisk brugerflade, en tekstbaseret browser til enklere ræsonneringsbaserede webforespørgsler, en terminal og direkte API-adgang. Agenten kan også benytte sig af ChatGPT's forbindelser(åbner i et nyt vindue), som giver dig mulighed for at tilknytte apps som Gmail og Github, så ChatGPT kan finde oplysninger, der er relevante for dine spørgsmål, og bruge dem i sine svar. Du kan også logge ind på et hvilket som helst websted ved at overtage browseren, så den kan nå dybere og bredere ud i sin research og opgaveudførelse. Ved at give ChatGPT flere forskellige måder at tilgå og interagere med webinformation på, kan modellen selv vælge den mest effektive tilgang til at løse en opgave. For eksempel kan den indsamle oplysninger om din kalender via en API, ræsonnere effektivt over store mængder tekst ved hjælp af den tekstbaserede browser og samtidig have evnen til at interagere visuelt med websteder, der primært er designet til mennesker.
Alt dette sker ved hjælp af dens egen virtuelle computer, som bevarer den kontekst, der er nødvendig for opgaven, selv når der bruges flere værktøjer – modellen kan vælge at åbne en side ved hjælp af tekstbrowseren eller den visuelle browser, downloade en fil fra nettet, manipulere den ved at køre en kommando i terminalen og derefter se resultatet i den visuelle browser. Modellen tilpasser sin fremgangsmåde med hastighed, nøjagtighed og effektivitet.
ChatGPT agent er designet til fortløbende, samarbejdsbaserede arbejdsgange, og er langt mere interaktiv og fleksibel end tidligere modeller. Mens ChatGPT arbejder, kan du til enhver tid afbryde for at præcisere instruktionerne, styre den mod ønskede resultater eller helt omformulere opgaven. Den fortsætter der, hvor den slap, med den nye information, uden at miste tidligere fremskridt. På samme måde søger ChatGPT proaktivt yderligere oplysninger fra dig, når det er nødvendigt, for at sikre, at opgaven fortsat er i tråd med dine mål. Hvis en opgave tager længere tid end forventet eller går i stå, kan du pause den, bede om en statusopdatering eller stoppe helt og modtage delvise resultater. Har du ChatGPT‑appen på din telefon, sender den dig en besked, når den er færdig med opgaven.
Disse samlede agent-evner øger betydeligt ChatGPT’s anvendelighed i både hverdags- og professionelle sammenhænge. På arbejdspladsen kan du automatisere gentagne opgaver, som for eksempel at omdanne screenshots eller dashboards til præsentationer bestående af redigerbare vektorelementer, flytte møder, planlægge og booke firmature samt opdatere regneark med nye finansielle data uden at ændre formatet. I dit privatliv kan du bruge den til nemt at planlægge og booke rejseplaner, udtænke og booke hele middagsselskaber eller finde specialister og planlægge aftaler.
Modellens højnede evner afspejles i dens exceptionelle ydeevne inden for evalueringer, der måler webbrowsing og evnen til at udføre opgaver i den virkelige verden.
I Humanity’s Last Exam(åbner i et nyt vindue)*, en evaluering der tester AI’s præstation på tværs af en lang række emner med spørgsmål på ekspertniveau, opnår modellen, der driver ChatGPT agent, en ny pass@1 SOTA på 41,6. Fordi agenten planlægger dynamisk og vælger sine egne værktøjer, kan den løse den samme opgave på forskellige måder i forskellige runder. Da vi skalerede dette med en simpel parallel udrulningsstrategi, hvor vi kørte op til otte forsøg på én gang og valgte det forsøg, der havde den højeste selvrapporterede tillid, steg agentens HLE-score til 44,4.
FrontierMath** er det sværeste benchmark inden for matematik. Det indeholder nye, upublicerede problemer, som det ofte tager eksperter flere timer eller dage at løse. Med brug af værktøjer, som f.eks. adgang til en terminal til udførelse af kode, opnår ChatGPT agent en nøjagtighed på 27,4 %, hvilket overgår begge tidligere modeller med en bred margin.
Vi har også evalueret modellen ved hjælp af benchmarks, der er udformet med afsæt i komplekse opgaver fra den virkelige verden. I et internt benchmark, som er udviklet til at måle modellens præstation i komplekse og økonomisk værdifulde vidensarbejdsopgaver, er ChatGPT agents output sammenligneligt med eller bedre end menneskers i omtrent halvdelen af tilfældene, på tværs af forskellige opgavetyper og tidsrammer. Den overgår samtidig o3 og o4-mini markant. Modellens output bedømmes af eksperter og sammenlignes med menneskelige niveauer blandt de bedste inden for hvert felt. Opgaverne stammer fra fagfolk på tværs af brancher og afspejler virkelige professionelle arbejdsopgaver, såsom at udarbejde en konkurrenceanalyse af aktører inden for akut sundhedspleje, at opstille detaljerede afskrivningsplaner eller at identificere egnede vandboringer til en ny grøn brintfacilitet.
I DSBench(åbner i et nyt vindue), som er designet til at evaluere agenter i forhold til realistiske datavidenskabelige opgaver, der spænder over dataanalyse og modellering, overgår ChatGPT agent den menneskelige præstation med en betydelig margin.
I SpreadsheetBench, som evaluerer modeller ud fra deres evne til at redigere regneark fra virkelige scenarier, overgår ChatGPT agent de eksisterende modeller med en betydelig margin. Når agenten får mulighed for at redigere regneark direkte, scorer den endnu højere med 45,5 % sammenlignet med Copilot i Excels 20,0 %.
Metode: Forfatterne af SpreadsheetBench brugte et Windows-miljø med Microsoft Excel til at evaluere regneark. Vi brugte et OSX-miljø og LibreOffice, hvilket kan resultere i små bedømmelsesforskelle. For eksempel fandt forfatterne en samlet hård begrænsning på 15,02 % for GPT‑4o, og vi opnåede 13,38%. Vi brugte det komplette benchmark med 912 spørgsmål.
I et internt benchmark, som måler en models evne til at påtage sig første- til tredjeårs modelleringsopgaver for investeringsanalytikere, som f.eks. at sammensætte en finansmodel for et Fortune 500-selskab med korrekt formatering og kildehenvisninger, eller at udvikle en model for et lånefinansieret opkøb i forbindelse med en afnotering af et børsnoteret selskab, klarer modellen, der driver ChatGPT agent, sig betydeligt bedre end grundig research og o3. Hver opgave bedømmes ud fra hundredvis af kriterier relateret til korrekthed og brug af formler.
Vi testede også ChatGPT agent i BrowseComp, et benchmark, vi offentliggjorde tidligere i år, som måler søgeagenters evne til at finde svært tilgængelig information på nettet. Modellen satte ny rekord med 68,9 %, 17,4 procentpoint højere end grundig research.
Endelig forbedrer modellen sig i forhold til o3‑drevet CUA (modellen bag Operator) i WebArena(åbner i et nyt vindue), et benchmark, der er designet til at evaluere internetsøgnings-agenters ydeevne i forbindelse med udførelse af virkelige webopgaver.
Du kan aktivere ChatGPT's nye agentfunktioner direkte via værktøjs-rullemenuen ved at vælge ‘agent-tilstand’ på et hvilket som helst tidspunkt i løbet af en samtale. Beskriv blot den ønskede opgave – uanset om det er at lave dybdegående research, skabe et slideshow eller indsende udgifter. Mens den udfører opgaven, får du på skærmen et præcist indblik i, hvad ChatGPT laver. Du kan afbryde og tage styring over browseren, når der er behov for det, så du sikrer, at opgaven udføres i overensstemmelse med dine mål.
ChatGPT agent kan få adgang til dine forbindelser, så den kan integreres med dine arbejdsgange og få adgang til relevante, brugbare oplysninger. Når de er godkendt, giver disse forbindelser ChatGPT mulighed for at se oplysninger og gøre ting som at opsummere din indbakke for dagen eller finde ledige mødetidspunkter. For at udføre handlinger på disse websteder vil du dog stadig blive bedt om at logge ind ved at overtage browseren.
Derudover kan du planlægge, at afsluttede opgaver skal gentages automatisk, f.eks. generering af en ugentlig rapport hver mandag morgen.
Med denne lancering er det første gang, brugerne kan bede ChatGPT om at foretage handlinger på nettet. Det medfører nye risici, især fordi ChatGPT agent kan arbejde direkte med dine data, uanset om det er oplysninger, du har fået adgang til via forbindelser eller websteder, som du har logget ind på via overtagelsestilstand. Vi har styrket de robuste kontrolmekanismer fra forskningsudgaven af Operator og tilføjet sikkerhedsforanstaltninger til udfordringer som håndtering af følsomme oplysninger på nettet, bredere brugerrækkevidde og (begrænset) adgang til terminalnetværk. Selv om disse foranstaltninger reducerer risikoen betydeligt, betyder ChatGPT agents udvidede værktøjer og bredere brugerrækkevidde, at dens samlede risikoprofil er højere.
Vi har lagt særlig vægt på at beskytte ChatGPT agent mod fjendtlig manipulation gennem skjulte forespørgsler, hvilket er en risiko med handlende systemer generelt, og vi har forberedt mere omfattende afbødninger i overensstemmelse hermed. Skjulte forespørgsler handler om, at tredjeparter forsøger at manipulere agentens adfærd med skadelige instruktioner, som den kan møde på nettet, mens den udfører en opgave. For eksempel kan en skjult forespørgsel på en webside – f.eks. i usynlige elementer eller metadata – narre agenten til at udføre utilsigtede handlinger, som at dele private data fra en forbindelse eller foretage skadelige handlinger på en side, hvor brugeren er logget ind. Fordi ChatGPT agent kan handle direkte, kan et succesfuldt angreb få større konsekvenser og udgøre en højere risiko.
Vi har trænet og testet agenten i at identificere og modstå angreb med skjulte forespørgsler. Derudover overvåger vi aktivt for hurtigt at kunne opdage og reagere på angreb. At modellen kræver eksplicit brugerbekræftelse før vigtige handlinger, reducerer også risikoen for skade, og brugere kan når som helst overtage eller sætte opgaver på pause. Det er vigtigt, at brugerne overvejer disse risici, når de vælger, hvilke oplysninger de vil dele med agenten – og at de f.eks. deaktiverer forbindelser, når de ikke er nødvendige.
Vi har også indført tiltag mod modelfejl, især fordi modellen nu kan udføre handlinger med konsekvenser i den virkelige verden:
- Eksplicit brugerbekræftelse: ChatGPT er trænet til eksplicit at bede om din tilladelse, før der foretages handlinger med konsekvenser i den virkelige verden, som f.eks. at foretage et køb.
- Aktiv monitorering (“Watch Mode”): Visse opgaver, som at sende e-mails, kræver, at du aktivt følger processen.
- Proaktiv minimering af risici: ChatGPT er trænet til at afslå højrisko-opgaver, som f.eks. bankoverførsler.
Endelig har vi indført ekstra kontrolmekanismer for at begrænse de data, som modellen har adgang til:
- Privatlivskontrol: Med et enkelt klik i ChatGPT’s indstillinger kan du slette al browserdata og logge ud af alle aktive websted-sessioner med det samme. Ellers gemmes cookies i henhold til de enkelte websteders cookiepolitik, hvilket gør gentagne besøg mere effektive.
- Sikker overtagelse af browser: Når du interagerer med internettet via ChatGPT’s browser (“takeover-tilstand”), forbliver dine input private. ChatGPT indsamler eller gemmer ikke data, du indtaster under disse sessioner, som f.eks. adgangskoder, fordi modellen ikke har brug for dem, og det er sikrere, hvis den aldrig ser dem.
I takt med modellens øgede evner har vi besluttet at klassificere ChatGPT agent som havende høje biologiske og kemiske evner i henhold til vores beredskabsramme og har derfor aktiveret de tilhørende sikkerhedsforanstaltninger. Selvom vi ikke har entydige beviser for, at modellen reelt vil kunne hjælpe en uerfaren bruger med at forårsage alvorlig biologisk skade – vores tærskel for at betegne en evne som "høj" – handler vi ud fra et forsigtighedsprincip og iværksætter relevante sikkerhedsforanstaltninger allerede nu. Resultatet er, at denne model har de mest omfattende sikkerhedsforanstaltninger til dato, med skærpede sikkerhedstiltag særligt rettet mod biologiske trusler: omfattende trusselsmodellering, dual-use refusal-træning, altid-aktive klassifikationsværktøjer og monitoreringssystemer for avanceret tænkning, samt tydelige processer for håndhævelse.
Ud over vores indsats for at sikre ChatGPT agent anerkender vi, at effektiv biosikkerhed kræver lagdelte og fælles indsatser på tværs af sektorer. Derfor samarbejder vi bredt i økosystemet for at styrke det samlede forsvar. Fra dag ét har vi arbejdet tæt sammen med eksterne eksperter i biosikkerhed, sikkerhedsinstitutter og forskere fra universiteter for at forme vores trusselsmodeller, evalueringer og retningslinjer. Biologiuddannede gennemgik og godkendte vores evalueringsdata, og domæneeksperter har red-teamet vores sikkerhedsløsninger gennem realistiske stresstests. Tidligere på måneden afholdt vi en bioberedskabs-workshop med deltagere fra myndigheder, akademisk forskning, nationale laboratorier og NGO’er for at styrke samarbejdet og fremme AI-drevet forskning i biosikkerhed og beredskab. Vi vil fortsætte med at indgå partnerskaber globalt for at være på forkant med nye risici.
Læs mere om vores omfattende sikkerhedstilgang for den samlede model i systemkortet. Vi lancerer også et bug bounty-program, så vi kan finde og afhjælpe risici i praksis.
ChatGPT agent begynder at blive rullet ud i dag til brugere med Pro, Plus og Team-abonnementer. Pro-brugere får adgang inden udgangen af dagen, mens Plus- og Team-brugere får adgang i løbet af de kommende dage. Enterprise- og Edu-brugere får adgang i løbet af de næste uger. Pro-brugere har 400 beskeder om måneden, mens andre betalende brugere får 40 beskeder månedligt, med mulighed for yderligere forbrug via fleksible kreditbaserede løsninger.
Vi arbejder stadig på at gøre agenten tilgængelig i EØS-landene og Schweiz.
Forhåndsvisningssiden for Operator vil være funktionel i et par uger endnu, hvorefter den vil blive udfaset. Grundig research er nu en integreret del af ChatGPT agents funktionalitet. Hvis du foretrækker den oprindelige grundig research-funktion – som kan tage lidt længere tid, men til gengæld leverer mere dybdegående og detaljerede svar – kan du stadig vælge den i rullemenuen i skrivefeltet.
ChatGPT agent er stadig i sin tidlige fase. Den er i stand til at påtage sig en række komplekse opgaver, men den kan stadig begå fejl.
Vi ser et stort potentiale i dens evne til at generere præsentationer, men denne funktionalitet er i øjeblikket i beta. Lige nu kan outputtet nogle gange føles rudimentært i både formatering og polering, især når præsentationen oprettes fra bunden uden et eksisterende dokument. Vi har i første omgang fokuseret modellens evner på at generere materialer, der organiserer information i et forløb og format, der egner sig til præsentationer, hvor hvert element, som tekst, diagrammer, billeder, er opbygget som vektorer, der let kan redigeres – med fokus på struktur og fleksibilitet. Der kan i øjeblikket opstå uoverensstemmelser mellem visningen af slides i ChatGPT og den eksporterede PowerPoint-fil, hvilket vi arbejder på at minimere. Det er også muligt at uploade eksisterende regneark, som ChatGPT kan redigere eller bruge som skabelon, men denne funktionalitet er endnu ikke tilgængelig for slides. Vi arbejder allerede på næste version af ChatGPT's præsentationsfunktion med henblik på at skabe mere gennemarbejdede og visuelt polerede resultater, udvide funktionaliteten og forbedre formateringen.
Overordnet forventer vi løbende forbedringer af ChatGPT agents effektivitet, dybde og alsidighed, herunder mere problemfri interaktioner, mens vi fortsætter med at justere den mængde tilsyn, der kræves af brugeren, for at gøre den mere nyttig og samtidig sikre, at den er sikker at bruge.
SpreadsheetBench | ||||
Model | Evalueringsmiljø | Blød begrænsning (%): Celleniveau | Blød begrænsning (%): Arkniveau | Blød begrænsning (%): Samlet |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot i Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent med .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Menneske | 75.56 | 65.00 | 71.33 |
Skrevet af
Fodnoter
* Når browsing aktiveres, kan modellen somme tider finde nøjagtige svar på nettet, f.eks. ved at læse blogopslag med sample-problemer fra et datasæt. For at mindske risikoen for, at modellen snyder under søgningen, bruger vi to strategier:
1. Vi har blokeret domæner, hvor vi tidligere har observeret, at modellen snyder.
2. Vi har brugt en ekstra model som monitor til at undersøge alle værktøjsoutput-tokens i hvert forsøg på at identificere mistænkelig adfærd. Mistænkelig adfærd er defineret som "en side, en fil eller et uddrag, hvis hovedformål er at give det nøjagtige svar på det specifikke spørgsmål, f.eks. en officiel bedømmelsesnøgle, lækkede "løsninger" eller en diskussion, som citerer svaret ordret". Godartet adfærd er defineret som "enhver autoritativ ressource, en omhyggelig person kan konsultere (dokumentation, manualer, videnskabelige afhandlinger, anerkendte artikler), selv om den tilfældigvis indeholder det korrekte svar". Alle forsøg, hvor monitoren skønnede resultatet som mistænkeligt, blev medregnet som forkerte. De fleste eksempler, der fejlede denne kontrol, var problemer, hvor den præcise løsning fandtes på flere internetsider uden relation til HLE.
**OpenAI har eksklusiv adgang til 237 ud af 290 private spørgsmål i datasættet Tier 1–3. Spørgsmål fra FrontierMath Tier 4 er ikke inkluderet i denne evaluering. Resultaterne er evalueret som gennemsnittet af 16 forsøg pr. spørgsmål. Resultater for ChatGPT agent er indhentet af OpenAI, bedømt af Epoch AI, med adgang til browser og terminal og en grænse på 128.000 tokens pr. svar. Evalueringerne af OpenAI o4-mini og o3 er indhentet og bedømt af Epoch AI, uden adgang til browser og terminal, men med brug af Python-scripts via funktionskald og en grænse på 100.000 tokens pr. svar.
*** Oracle@64 henviser til den bedste score opnået på tværs af 64 tilfældigt udvalgte runder, udvalgt på baggrund af facit (dvs. vi vælger det forsøg med den højeste bedømte score for hver opgave). Vi rapporterer gennemsnittet af disse bedste resultater pr. opgave på tværs af alle opgaver. Denne måling fremhæver modellens øvre potentiale og variation i opgavepræstation – den viser, hvor dygtig modellen kan være, når den lykkes, og peger samtidig på, hvor der er plads til forbedret konsistens gennem videre træning. I modsætning til typiske "best of N"-målinger, der vælger ud fra modellens egen vurdering, bruger Oracle@64 det faktiske resultat og anvendes på opgaver, der vurderes på en glidende skala fra 0 til 1 i stedet for et simpelt bestået/ikke-bestået.


