Vi præsenterer grundig research
En agent, der bruger avanceret tænkning til at sammenfatte store mængder online-information og fuldføre researchopgaver i flere trin for dig. Tilgængelig for Pro-brugere i dag, Plus og Team bliver de næste.
10. februar 2026 opdatering: Du kan nu forbinde dybdegående research til enhver MCP eller app og begrænse websøgninger til pålidelige hjemmesider, så du kan fokusere på autentificerede kilder, der følger branchestandarder. Du kan også nu spore fremskridt i realtid og afbryde undervejs for at forfine med opfølgende forespørgsler eller nye kilder. Vi har opdateret den visuelle oplevelse, så det er nemmere at starte, spore og gennemgå din research fra start til slut.
Opdatering 17. juli 2025: Dybdegående research kan nu gå endnu grundigere og bredere til værks med adgang til en visuel browser som en del af ChatGPT‑agenten. For at få adgang til disse opdaterede funktioner skal du bare vælge "agenttilstand" fra rullemenuen i skrivefeltet og indtaste din forespørgsel direkte. Den oprindelige funktionalitet for dybdegående research er stadig tilgængelig via indstillingen "dybdegående research" i værktøjsmenuen.
Opdatering den 24. april 2025: Vi øger markant, hvor ofte du kan bruge dybdegående research.Plus-, Team-, Enterprise- og Edu-brugere får nu 25 forespørgsler pr. måned, Pro-brugere får 250, og Free-brugere får 5. Dette er muligt gennem en ny letvægtsversion af dybdegående research drevet af en version af o4-mini, som er designet til at være mere omkostningseffektiv, uden du går på kompromis med den høje kvalitet Når du når din grænse for den fulde version, skifter dine forespørgsler automatisk til letvægtsversionen.
Opdatering 25. februar 2025: Alle Plus-brugere kan nu bruge dybdegående research.
Opdatering 5. februar 2025: Dybdegående research er nu tilgængelig for Pro-brugere i Storbritannien, Schweiz og Det Europæiske Økonomiske Samarbejdsområde.
I dag lancerer vi grundig research i ChatGPT, en ny agentfunktion, der udfører research i flere trin på internettet til komplekse opgaver. Den opnår på ti minutter, hvad der vil tage et menneske mange timer.
Grundig research er OpenAI's næste agent, der kan arbejde selvstændigt for dig – Du giver den en forespørgsel, og ChatGPT finder, analyserer og sammenfatter hundredvis af onlinekilder for at oprette en omfattende rapport på niveau med en researchsanalytiker. Drevet af en version af den kommende OpenAI o3‑model, der er optimeret til webbrowsing og dataanalyse, udnytter den avanceret tænkning til at søge, fortolke og analysere enorme mængder tekst, billeder og pdf'ere på internettet, og tilpasser sig løbende på baggrund af de oplysninger, den møder.
Evnen til at sammenfatte viden er en forudsætning for at skabe ny viden. Derfor markerer grundig research et betydeligt skridt mod vores bredere mål om at udvikle AGI, som vi længe har forestillet os værende i stand til at producere ny videnskabelig research.
Grundig research er skabt til mennesker, der udfører videnintensivt arbejde inden for økonomi, videnskab, politik og teknologi, og som har brug for grundig, præcis og pålidelig research. Det kan være lige så nyttigt for kræsne shoppere, der leder efter meget målrettede anbefalinger om køb, der typisk kræver omhyggelig research, som biler, apparater og møbler. Hver output er fuldt dokumenteret med klare referencer og et resumé af dens tænkning, hvilket gør det nemt at referere til og verificere oplysningerne. Det er især effektivt til at finde niche-, ikke-intuitiv oplysninger, som ville kræve, at man gennemsøgte mange websites. Grundig research frigør værdifuld tid ved at give dig mulighed for at aflaste og fremskynde kompleks, tidsintensiv internetresearch med kun én forespørgsel.
Grundig research opdager, ræsonnerer og konsoliderer uafhængigt af hinanden indsigter fra hele nettet. For at opnå dette blev den trænet i virkelige opgaver, der krævede brug af browser og Python-værktøj ved hjælp af de samme forstærkende læringsmetoder bag OpenAI o1, vores første ræsonneringsmodel. Mens o1 demonstrerer imponerende kapaciteter inden for kodning, matematik og andre tekniske områder, kræver mange udfordringer fra den virkelige verden omfattende kontekst og informationsindsamling fra forskellige onlinekilder. Grundig research bygger på disse mulige ræsonnementer og dækker det hul, så den kan påtage sig de typer problemer, folk står overfor i deres arbejds- og hverdagsliv.
I ChatGPT skal du vælge "grundig research" i beskedfeltet og indtaste din forespørgsel. Fortæl ChatGPT, hvad du har brug for – uanset om det er en konkurrenceanalyse af streamingplatforme eller en personlig rapport om den bedste pendlercykel. Du kan vedhæfte filer eller regneark for at tilføje kontekst til dit spørgsmål. Når den begynder at køre, vises en sidebjælke med et resumé af de trin, der er taget, og kilder, der blev brugt.
Grundig research kan tage alt fra 5 til 30 minutter at gennemføre. Den tager den tid, der er nødvendig for at gå i dybden. I mens kan du gå væk eller arbejde på andre opgaver – du får en besked, når researchen er afsluttet. Det endelige output kommer som en rapport i chatten – i løbet af de næste par uger tilføjer vi også indlejrede billeder, datavisualiseringer og andre analytiske outputs i disse rapporter for yderligere klarhed og kontekst.
Sammenlignet med grundig research er GPT‑4o ideel til multimodale samtaler i realtid. Ved komplekse, domænespecifikke anmodninger, hvor dybde og detaljer er afgørende, er grundig researchs evne til at gennemføre omfattende udforskning og citerer hver påstand forskellen mellem et hurtigt resumé og et veldokumenteret, verificeret svar, der kan bruges som et arbejdsprodukt.
GPT-4o
Grundig research
Grundig research reagerer på forespørgslen på en meget detaljeret måde og leverer landespecifikke data ved siden af hinanden, for både top 10 udviklede lande og top 10 udviklingslande til let reference og sammenligning. Den anvender disse oplysninger til at levere velinformerede og anvendelige anbefalinger til markedsadgang.
Grundig research er trænet ved hjælp af end-to-end forstærkende læring på svære browsing- og ræssoneringsopgaver på tværs af en række domæner. Gennem denne træning lærte den at planlægge og udføre et flertrinsforløb for at finde de data, den har brug for, og at gå tilbage og reagere på information i realtid, hvor det er nødvendigt. Modellen er også i stand til at gennemse bruger-uploadede filer, plotte og gentage på grafer ved hjælp af Python-værktøjet, integrere både genererede grafer og billeder fra websteder i dens svar og citere specifikke sætninger eller passager fra dens kilder. Med denne træning når den nye højder på en række offentlige evalueringer med fokus på problemer i den virkelige verden.
På Humanity’s Last Exam(åbner i et nyt vindue), en nyligt udgivet evaluering, der tester AI på tværs af en bred vifte af emner med spørgsmål på ekspertniveau, opnår modellen bag grundig research en ny rekord med 26,6 % nøjagtighed. Denne test består af over 3.000 multiple choice-spørgsmål og spørgsmål med korte svar inden for 100 emner fra sprogvidenskab til raketvidenskab, klassikere til økologi. Sammenlignet med OpenAI o1 var der størst fremgang inden for kemi, humaniora og samfundsvidenskab og matematik. Modellen, der driver grundig research, viste en menneskeagtig tilgang ved effektivt at søge specialiserede oplysninger, når det er nødvendigt.
| Model | Nøjagtighed (%) |
|---|---|
| GPT-4o | 3,3 |
| Grok-2 | 3,8 |
| Claude 3.5 Sonnet | 4,3 |
| Gemini-tænkning | 6,2 |
| OpenAI o1 | 9,1 |
| DeepSeek-R1* | 9,4 |
| OpenAI o3-mini (medium)* | 10,5 |
| OpenAI o3-mini (høj)* | 13,0 |
| OpenAI grundig research** | 26,6 |
På GAIA(åbner i et nyt vindue)1, et offentligt benchmark, der evaluerer AI på spørgsmål fra den virkelige verden, når modellen, der driver grundig research, nye højder (SOTA) og toppede den eksterne rangliste(åbner i et nyt vindue). Omfattende spørgsmål i tre sværhedsgrader, vellykket gennemførelse af disse opgaver kræver evner, herunder ræsonnement, multimodal udtryksevne, webbrowsing og færdigheder til brug af værktøjer.
| GAIA | ||||
|---|---|---|---|---|
| Niveau 1 | Niveau 2 | Niveau 3 | Gennemsnitlig | |
| Forrige SOTA(åbner i et nyt vindue) | 67,92 | 67,44 | 42,31 | 63,64 |
| Grundig research (pass@1) | 74,29 | 69,06 | 47,6 | 67,36 |
| Grundig research (cons@64) | 78,66 | 73,21 | 58,03 | 72,57 |
Eksempler på GAIA-opgaver
I en intern evaluering af opgaver på ekspertniveau på tværs af en række områder blev grundig research bedømt af domæneeksperter til at have automatiseret flere timers vanskelige, manuelle undersøgelser.
Beståelsesrate vs. Max Tool Calls
Eksempler på opgaver på ekspertniveau
Beståelsesrate for opgaver på ekspertniveau efter estimeret økonomisk værdi
Beståelsesrate for opgaver på ekspertniveau efter estimerede timer
Grundig research åbner op for betydelige nye muligheder, men det er stadig tidligt, og der er begrænsninger. Den kan undertiden hallucinere fakta i svar eller drage forkerte konklusioner, dog med en noget lavere hastighed end eksisterende ChatGPT‑modeller, ifølge interne evalueringer. Den kan have svært ved at skelne autoritativ information fra rygter og viser i øjeblikket svaghed i forhold til kalibrering af tillid og formår ofte ikke at formidle usikkerhed præcist. Ved lanceringen kan der være mindre formateringsfejl i rapporter og referencer, og det kan tage længere tid at starte opgaver. Vi forventer, at alle disse problemer hurtigt forbedres med mere brug og tid.
Grundig research og ChatGPT er i øjeblikket meget beregningstung. Jo længere tid det tager at undersøge en forespørgsel, jo mere inferensberegning er der brug for. Vi starter med en version, der er optimeret til Pro-brugere i dag med op til 100 forespørgsler om måneden. Plus- og Team-brugere er de næste, der får adgang efterfulgt at Enterprise. Vi arbejder stadig på at give adgang til brugere i Storbritannien, Schweiz og Det Europæiske Økonomiske Samarbejdsområde.
Alle betalte brugere får snart markant højere brugsgrænse, når vi lancerer en hurtigere, mere omkostningseffektiv version af grundig research drevet af en mindre model, der stadig giver resultater af høj kvalitet.
I de kommende uger og måneder arbejder vi på den tekniske infrastruktur og overvåger nøje den aktuelle udgave og udfører endnu flere streng tests. Dette stemmer overens med vores princip om iterativ implementering. Hvis alle sikkerhedskontroller fortsætter med at leve op til vores standarder, forventer vi at lancere grundig research til Plus-brugere om cirka en måned.
Grundig research er tilgængelig i dag på ChatGPT web og vil blive rullet ud til mobil- og desktop-apps inden for måneden. I øjeblikket har grundig research adgang til det åbne net og eventuelle uploadede filer. I fremtiden vil du være i stand til at oprette forbindelse til mere specialiserede datakilder, hvilket udvider adgangen til abonnementsbaserede eller interne ressource og gør output endnu mere robust og personlig.
Når vi ser længere frem, forudser vi, at agentiske oplevelser samles i ChatGPT til asynkron research og udførelse i den virkelige verden. Kombinationen af grundig research, der kan udføre asynkrone onlineundersøgelser, og Operator, der kan handle i den virkelige verden, vil gøre det muligt for ChatGPT at udføre stadig mere sofistikerede opgaver for dig.
3. februar 2025 – tilføjelse: Vi udførte strenge sikkerhedstests, beredskabsevalueringer og ledelsesgennemgange af den tidlige version af o3, som driver grundig research og identificerede den som Middel(åbner i et nyt vindue) risiko. Vi kørte også yderligere sikkerhedstests for bedre at forstå forøgede risici forbundet med grundig researchs evne til at browse på internettet, og vi har tilføjet nye afbødninger. Vi fortsætter med at teste og overvåge den aktuelle begrænsede udgivelse nøje. Vi deler vores sikkerhedsmæssige indsigt og sikkerhedsforanstaltninger for grundig research på et systemkort, når vi udvider adgangen til Plus-brugere.
Fodnoter
- 1
Vi fandt ud af, at de sandhedsbaserede svar for dette datasæt var blevet lækket online i stor stil, og vi har derfor blokeret adskillige websites eller webadresser som følge heraf for at sikre en retfærdig evaluering af modellen.
Skrevet af
Ansvarlige for research
Isa Fulford og Zhiqing Sun
Grundlæggende bidragsydere
Alex Tachard Passos, Alexandra Barr, Allison Tam, Charlotte Cole, Hyung Won Chung, Jason Wei, Jon Blackman, Scott Mayer McKinney og Valerie Qi
Centrale bidragydere
Forskning
Elaine Ya Le, Eric Mitchell, Eric Wallace, Hyung Won Chung, Ignasi Clavera, Leo Liu, Lorenz Kuhn, Louis Feuvrier, Max Schwarzer, Saachi Jain, Scottie Yan, Shunyu Yao, Vitchyr Pong
Implementering
Carpus Chang, Harry Zhao, Joseph Trasatti, Joshua Dickens, Matt Kaufer, Mike Trpcic, Minnia Feng, Neel Ajjarapu, Peter Vidani, Sean Fitzgerald
Bidragydere
Forskning
Ahmed El-Kishky, AJ Ostrow, Alexander Wei, Andrei Gheorghe, Andrew Kondrich, Andrey Mishchenko, Anuj Nair, Behrooz Ghorbani, Brydon Eastman, Chak Li, Foivos Tsimpourlas, Francis Song, Giambattista Parascandolo,Gildas Chabot, Hessam Bagherinezhad, Haitang Hu, Hongyu Ren, Henry Aspegren, Hunter Lightman, Ilya Kostrikov, Ilge Akkaya, James Lennon, Jean Harb, Jonathan Ward, Kai Chen, Katy Shi, Kevin Liu, Kevin Yu, Manuka Stratta, Marvin Zhang, Mengyuan Yan, Mostafa Rohaninejad, Noam Brown, Phoebe Thacker, Raz Goan, Reah Miyara, Spencer Papay, Taylor Gordon, Wenda Zhou, Wenlei Xie, Yash Patil, Yann Dubois, Youlong Cheng, Yushi Wang, Wyatt Thompson
+ alle bidragyderne bag o3.
Sikkerhedssystemer
Adam Kalai, Alex Beutel, Andrea Vallone, Andy Applebaum, David Robinson, Elizabeth Proehl, Evan Mays, Grace Zhao, Irina Kofman, Jason Phang, Joaquin Quinonero Candela, Joel Parish, Kevin Liu, Kristen Ying, Lama Ahmad, Leon Maksin, Leyton Ho, Meghan Shah, Michele Wang, Miles Wang, Phillip Guo, Olivia Watkins, Owen Campbell-Moore, Patrick Chao, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Tejal Patwardhan, Tina Sriskandarajah, Troy Peterson, Yaodong Yu, Yunyun Wang
Implementering
Adam Koppel, Adam Wells, Adele Li, Andy Applebaum, Andrey Malevich, Andrew Duberstein, Andrew Howell, Anton Tananaev, Ashley Tyra, Brandon Walkin, Bryan Ashley, Cary Bassin, Cary Hudson, Cory Decareaux, Cristina Scheau, Derek Chen, Dibya Bhattacharjee, Drea Lopez, Eric Antonow, Eric Burke, Filippo Raso, Fotis Chantzis, Freddie Sulit, Harris Cohen, Heather Whitney, Jay Dixit, Jeffrey Han, Jen Robinson, Jessica Shieh, Joel Parish, Kan Wu, Kevin Gladstone, Kshitij Wadhwa, Leo Vandriel, Leyton Ho, Liang Chen, Madeline Christian, Mamie Rheingold, Matt Jones, Michelle Fradin, Mike McClay, Mingxuan Wang, Nacho Soto, Niko Felix, Patrick Delaney, Paul McMillan, Philip Pronin, Rodrigo Riaza Perez, Samuel Miserendino, Scott Ethersmith, Steven Baldwin, Thomas Dimson, Tomo Hiratsuka, Yaming Lin, Yara Khakbaz, Yining Chen
Ledelse
Akshay Nathan, Greg Brockman, Hannah Wong, Jakub Pachocki, Jerry Tworek, Johannes Heidecke, Josh Tobin, Liam Fedus, Mark Chen, Mia Glaese, Nick Turley, Sam Altman og Wojciech Zaremba