Eine Einführung in Deep Research
Ein Agent, der mithilfe von Reasoning große Mengen an Online-Informationen synthetisiert und mehrstufige Rechercheaufgaben für dich ausführt. Schon heute für Pro-Benutzer verfügbar, bald auch für Plus und Team.
Update vom 10. Februar 2026: Du kannst Deep Research jetzt mit jedem MCP oder jeder App verbinden und Websuchen auf vertrauenswürdige Websites beschränken, damit du dich auf authentifizierte, branchenübliche Quellen konzentrieren kannst. Du kannst außerdem den Fortschritt in Echtzeit verfolgen und mit Folge-Prompts oder neuen Quellen unterbrechen und verfeinern. Wir haben die visuelle Darstellung aktualisiert, damit du deine Recherche einfacher starten, verfolgen und von Anfang bis Ende prüfen kannst.
Update vom 17. Juli 2025: Deep Research kann jetzt noch tiefer und breiter recherchieren – mit Zugriff auf einen visuellen Browser als Teil des ChatGPT‑Agenten. Um diese aktualisierten Funktionen zu nutzen, wähle einfach „Agent-Modus“ im Dropdown-Menü im Eingabefeld aus und gib deine Anfrage direkt ein. Die ursprüngliche Deep-Research-Funktion bleibt über die Option „Deep Research“ im Tools-Menü verfügbar.
Update vom 24. April 2025: Wir erhöhen die Nutzungsquoten Deep Research – 25 Anfragen pro Monat für Plus, Team, Enterprise und Edu, 250 für Pro und 5 für Free. Möglich wird das durch eine neue leichtere Version von Deep Research, unterstützt durch eine Version von o4-mini, die kosteneffizienter ist und zugleich hohe Qualität bietet. Sobald du dein Limit für die Vollversion erreichst, wechseln deine Anfragen automatisch zur leichteren Version.
Update vom 25. Februar 2025: Alle Plus-Nutzer:innen können Deep Research jetzt nutzen.
Update vom 5. Februar 2025: Deep Research ist jetzt für Pro-Nutzer:innen im Vereinigten Königreich, in der Schweiz und im Europäischen Wirtschaftsraum verfügbar.
Heute starten wir mit Deep Research in ChatGPT, einer neuen Agentenfunktion, die mehrstufige Recherchen im Internet für komplexe Aufgaben durchführt. In Minuten werden Ergebnisse erzielt, für die ein Mensch viele Stunden brauchen würde.
Deep Research ist der nächste Agent von OpenAI, der selbstständig für dich arbeiten kann. Auf deinen Prompt hin findet, analysiert und synthetisiert ChatGPT Hunderte von Online-Quellen, um einen umfassenden Bericht auf Forschungsanalyseniveau zu erstellen. Unterstützt von einer Version des anstehenden OpenAI o3‑Modells, das für die Onlinesuche und Datenanalyse optimiert ist, werden mithilfe von Reasoning riesige Mengen an Text, Bildern und PDFs im Internet durchsucht, interpretiert und analysiert und die gefundenen Informationen nach Bedarf angepasst.
Die Fähigkeit, Wissen zu synthetisieren ist eine Voraussetzung, um neues Wissen zu schaffen. Aus diesem Grund ist Deep Research ein wichtiger Schritt auf dem Weg zu unserem übergeordneten Ziel, eine AGI zu entwickeln, von der wir schon lange glauben, dass sie in der Lage ist, neuartige wissenschaftliche Erkenntnisse zu liefern.
Deep Research ist für Menschen konzipiert, die intensive Wissensarbeit in Bereichen wie Finanzen, Wissenschaft, Politik und Technik leisten und einen gründlichen, präzisen und verlässlichen Rechercheansatz benötigen. Auch anspruchsvolle Käufer, die nach hyperpersonalisierten Empfehlungen suchen, welche üblicherweise eine sorgfältige Recherche erfordern, wie für Autos, Haushaltsgeräte und Möbel, können stark davon profitieren. Jeder Output ist vollständig dokumentiert, mit klaren Quellenangaben und einer Zusammenfassung der Denkschritte, sodass die Angaben leicht zitiert und verifiziert werden können. Gerade für die Suche nach Nischeninformationen, die nicht intuitiv zu finden sind und für die das Durchsuchen zahlreicher Websites erforderlich wäre, kann Deep Research besonders wertvoll sein. Mit Deep Research gewinnst du wertvolle Zeit, da du komplexe, zeitintensive Web-Recherchen mit einer einzigen Abfrage auslagern und beschleunigen kannst.
Deep Research kann Erkenntnisse aus dem gesamten Internet unabhängig aufdecken, analysieren und konsolidieren. Um dies zu erreichen, wurde es anhand praxisbezogener Aufgaben trainiert, die die Verwendung von Browsern und Python-Tools erfordern. Dabei kamen dieselben Reinforcement Learning-Methoden zum Einsatz, die auch als Grundlage für OpenAI o1, unserem ersten schlussfolgernden Modell, dienen. Während o1 eindrucksvolle Fähigkeiten in den Bereichen Programmieren, Mathematik und anderen technischen Gebieten demonstriert, erfordern viele Herausforderungen aus der Praxis umfangreiche Kontext- und Informationsbeschaffung aus verschiedenen Online-Quellen. Deep Research baut auf diesen Reasoning-Fähigkeiten auf, um die Lücke zu schließen und die Probleme anzugehen, mit denen Menschen im Berufs- und Alltagsleben konfrontiert sind.
Wähle im Nachrichtenfeld von ChatGPT „Deep Research“ aus und gib deine Anfrage ein. Teile ChatGPT mit, was du brauchst – ob es sich um eine Wettbewerbsanalyse auf Streaming-Plattformen oder einen personalisierten Bericht zum besten Fahrrad für Pendler handelt. Du kannst Dateien oder Arbeitsblätter anhängen, um deine Frage mit mehr Kontext zu versehen. Sobald die Recherche läuft, erscheint eine Seitenleiste mit einer Übersicht über die durchgeführten Schritte und verwendeten Quellen.
Deep Research benötigt etwa 5 bis 30 Minuten für eine tiefgehende Recherche im Internet. In der Zwischenzeit kannst du dich zurücklehnen oder an etwas anderem arbeiten – sobald die Recherche abgeschlossen ist, wirst du benachrichtigt. Der endgültige Output erfolgt als Bericht im Chat. In den nächsten Wochen werden wir außerdem eingebettete Bilder, Datenvisualisierungen und andere analytische Outputs zu diesen Berichten hinzufügen, um zusätzliche Klarheit und Kontext zur Verfügung zu stellen.
Im Vergleich zu Deep Research ist GPT‑4o ideal für multimodale Gespräche in Echtzeit. Bei vielschichtigen, Domain-spezifischen Anfragen, bei denen Tiefe und Detail entscheidend sind, macht die Fähigkeit von Deep Research, umfassende Untersuchungen anzustellen und jede Behauptung zu belegen, den Unterschied zwischen einem schnellen Überblick und einer gut dokumentierten, überprüften Antwort aus, die als Arbeitsprodukt verwendet werden kann.
GPT-4o
Deep Research
Deep Research geht äußerst detailliert auf den Prompt ein und stellt länderspezifische Daten sowohl für die Top 10 Industrieländer als auch für die Top 10 Entwicklungsländer nebeneinander bereit, um eine einfache Bezugnahme und einen problemlosen Vergleich zu ermöglichen. Es nutzt diese Informationen, um detaillierte, fundierte und brauchbare Empfehlungen für den Markteintritt zu liefern.
Deep Research wurde mithilfe von umfassendem Reinforcement Learning an anspruchsvollen Such- und Reasoning-Aufgaben in einer Reihe von Domains trainiert. Anhand dieses Training lernte es, eine mehrstufige Verlaufskurve zu planen und auszuführen, um die benötigten Daten zu finden, gegebenenfalls zurückzuverfolgen und auf Echtzeitinformationen zu reagieren. Das Modell kann zudem von Benutzern hochgeladene Dateien durchsuchen, mithilfe des Python-Tools Diagramme zeichnen und iterieren, generierte Diagramme und Bilder von Websites in seine Antworten einbetten und bestimmte Sätze oder Textstellen aus seinen Quellen zitieren. Infolge dieses Trainings erreicht es bei zahlreichen öffentlichen Bewertungen mit Schwerpunkt auf praxisbezogenen Problemen neue Höchstwerte.
Auf Humanity’s Last Exam(wird in einem neuen Fenster geöffnet), einer kürzlich veröffentlichten Bewertung, die KI anhand von Fragen auf Experten-Level zu einem breiten Themenspektrum testet, erreicht das Modell, auf das sich Deep Research stützt, mit 26,6 % Genauigkeit einen neuen Höchstwert. Dieser Test besteht aus über 3.000 Multiple-Choice- und Kurzantwortfragen zu über 100 Themen von Linguistik über Raketentechnik und Klassik bis Ökologie. Im Vergleich zu OpenAI o1 konnten die größten Erfolge auf den Gebieten Chemie, Geistes- und Sozialwissenschaften sowie Mathematik verzeichnet werden. Das Modell, auf dem Deep Research basiert, demonstriert einen menschenähnlichen Ansatz, indem es bei Bedarf effektiv nach Fachinformationen sucht.
| Modell | Genauigkeit (%) |
|---|---|
| GPT-4o | 3,3 |
| Grok-2 | 3,8 |
| Claude 3.5 Sonett | 4,3 |
| Gemini Thinking | 6,2 |
| OpenAI o1 | 9,1 |
| DeepSeek-R1* | 9,4 |
| OpenAI o3-mini (mittel)* | 10,5 |
| OpenAI o3-mini (hoch)* | 13,0 |
| OpenAI Deep Research** | 26,6 |
Auf GAIA(wird in einem neuen Fenster geöffnet)1,, einer öffentlichen Benchmark, die KI anhand realer Fragen bewertet, erreicht das auf Deep Research basierte Modell einen neuen Stand der Technik (SOTA) und führt die externe Bestenliste(wird in einem neuen Fenster geöffnet) an. Die Aufgaben umfassen Fragen in drei Schwierigkeitsstufen. Für einen erfolgreichen Abschluss sind unter anderem Fähigkeiten wie Reasoning, multimodale Sprachkompetenz, Onlinesuche und der sichere Umgang mit Tools erforderlich.
| GAIA | ||||
|---|---|---|---|---|
| Level 1 | Level 2 | Level 3 | Durchschnitt. | |
| Vorherige SOTA(wird in einem neuen Fenster geöffnet) | 67,92 | 67,44 | 42,31 | 63,64 |
| Deep Research (pass@1) | 74,29 | 69,06 | 47,6 | 67,36 |
| Deep Research (cons@64) | 78,66 | 73,21 | 58,03 | 72,57 |
GAIA Beispielaufgaben
Bei einer internen Bewertung von Aufgaben auf Experten-Level in verschiedenen Bereichen kamen Fachexperten zu dem Schluss, dass Deep Research mehrere Stunden langwieriger, manueller Nachforschungen automatisieren konnte.
Erfolgsquote vs. maximale Tool-Aufrufe
Beispiele für Experten-Level
Erfolgsquote bei Aufgaben auf Expertenniveau nach geschätztem wirtschaftlichen Wert
Erfolgsquote bei Aufgaben auf Expertenniveau nach geschätzten Stunden
Deep Research erschließt bedeutende neue Funktionen, aber es steckt noch in den Kinderschuhen und stößt auf Anwendungsgrenzen. Es kann zuweilen Fakten in Antworten halluzinieren oder falsche Schlussfolgerungen ziehen. Dies geschieht allerdings internen Auswertungen zufolge deutlich seltener als bei bestehenden ChatGPT‑Modellen. Manchmal kann es zuverlässige Informationen nicht von Gerüchten unterscheiden. Zudem weist es derzeit Schwächen bei der Vertrauenskalibrierung auf, sodass Unsicherheiten häufig nicht präzise wiedergegeben werden können. Beim Start können kleinere Formatierungsfehler in Berichten und Quellenangaben auftreten und es kann länger dauern, bis die Aufgaben ausgeführt werden. Wir gehen davon aus, dass sich Probleme dieser Art im Laufe der Zeit und mit zunehmender Nutzung schnell verbessern werden.
Die eingehende Recherche in ChatGPT ist derzeit äußerst rechenintensiv. Je länger die Recherche zur Antwort auf eine Anfrage dauert, desto mehr Inferenzberechnungen sind notwendig. Wir führen heute eine für Pro-Nutzer optimierte Version mit bis zu 100 Anfragen pro Monat ein. Plus- und Team-Benutzer erhalten als nächstes Zugriff, gefolgt von Enterprise. Wir arbeiten noch am Zugriff für Benutzer im Vereinigten Königreich, in der Schweiz und im Europäischen Wirtschaftsraum.
Alle zahlenden Benutzer erhalten bald deutlich höhere Ratenlimits, wenn wir eine schnellere, kostengünstigere Version von Deep Research veröffentlichen, die auf einem kleineren Modell basiert, welches weiterhin qualitativ hochwertige Ergebnisse liefert.
In den kommenden Wochen und Monaten werden wir an der technischen Infrastruktur arbeiten, die aktuelle Version genau überwachen und noch strengere Tests durchführen. Dies deckt sich mit unserem Prinzip der iterativen Bereitstellung. Wenn alle Sicherheitsprüfungen weiterhin unseren Veröffentlichungsstandards entsprechen, gehen wir davon aus, dass wir Deep Research unseren Plus-Benutzern in etwa einem Monat zur Verfügung stellen können.
Deep Research ist heute auf der ChatGPT‑Website verfügbar und wird im Laufe des Monats für Mobil- und Desktop-Anwendungen bereitgestellt. Derzeit kann Deep Research auf das offene Web und alle hochgeladenen Dateien zugreifen. In Zukunft wird eine Verbindung zu spezialisierteren Datenquellen möglich sein. Dadurch wird der Zugriff auf abonnementbasierte oder interne Ressourcen erweitert, um den Output noch robuster und individueller zu gestalten.
Unsere Vision für die weitere Zukunft ist es, agentische Erlebnisse in ChatGPT für asynchrone, reale Forschung und Ausführung zusammenzuführen. Die Kombination aus Deep Research, die asynchrone Online-Recherchen durchführen kann, und Operator, der in der Praxis Maßnahmen ergreifen kann, ermöglicht es ChatGPT, immer anspruchsvollere Aufgaben für dich zu übernehmen.
Nachtrag vom 3. Februar 2025: Wir haben strenge Sicherheitstests, Bewertungen der Einsatzbereitschaft sowie Governance-Prüfungen an der frühen Version von o3 durchgeführt, die als Grundlage für Deep Research dient, und das Risiko als mittel(wird in einem neuen Fenster geöffnet) eingestuft. Weitere Sicherheitstests wurden zudem durchgeführt, um die zusätzlichen Risiken im Zusammenhang mit der Fähigkeit von Deep Research, das Internet zu durchsuchen, besser zu verstehen, und wir haben neue Maßnahmen zur Risikominderung hinzugefügt. Wir werden die aktuelle eingeschränkte Version weiterhin ausführlich testen und genau überwachen. Unsere Sicherheitserkenntnisse und Schutzmaßnahmen im Bezug auf Deep Research werden wir in einer Systemkarte teilen, wenn wir den Zugriff auf Plus-Benutzer ausweiten.
Fußnoten
- 1
Wir haben festgestellt, dass die Antworten auf die Ground-Truth-Fragen zu diesem Datensatz online in großem Umfang durchgesickert sind, und haben daher mehrere Websites bzw. URLs blockiert, um eine faire Bewertung des Modells sicherzustellen.
Autoren
Forschungsleitung
Isa Fulford und Zhiqing Sun
Beitragende der Stiftung
Alex Tachard Passos, Alexandra Barr, Allison Tam, Charlotte Cole, Hyung Won Chung, Jason Wei, Jon Blackman, Scott Mayer McKinney und Valerie Qi
Hauptbeitragende
Forschung
Elaine Ya Le, Eric Mitchell, Eric Wallace, Hyung Won Chung, Ignasi Clavera, Leo Liu, Lorenz Kuhn, Louis Feuvrier, Max Schwarzer, Saachi Jain, Scottie Yan, Shunyu Yao, Vitchyr Pong
Bereitstellung
Carpus Chang, Harry Zhao, Joseph Trasatti, Joshua Dickens, Matt Kaufer, Mike Trpcic, Minnia Feng, Neel Ajjarapu, Peter Vidani, Sean Fitzgerald
Beitragende
Forschung
Ahmed El-Kishky, AJ Ostrow, Alexander Wei, Andrei Gheorghe, Andrew Kondrich, Andrey Mishchenko, Anuj Nair, Behrooz Ghorbani, Brydon Eastman, Chak Li, Foivos Tsimpourlas, Francis Song, Giambattista Parascandolo,Gildas Chabot, Hessam Bagherinezhad, Haitang Hu, Hongyu Ren, Henry Aspegren, Hunter Lightman, Ilya Kostrikov, Ilge Akkaya, James Lennon, Jean Harb, Jonathan Ward, Kai Chen, Katy Shi, Kevin Liu, Kevin Yu, Manuka Stratta, Marvin Zhang, Mengyuan Yan, Mostafa Rohaninejad, Noam Brown, Phoebe Thacker, Raz Goan, Reah Miyara, Spencer Papay, Taylor Gordon, Wenda Zhou, Wenlei Xie, Yash Patil, Yann Dubois, Youlong Cheng, Yushi Wang, Wyatt Thompson
+ alle Mitwirkenden hinter o3.
Sicherheitssysteme
Adam Kalai, Alex Beutel, Andrea Vallone, Andy Applebaum, David Robinson, Elizabeth Proehl, Evan Mays, Grace Zhao, Irina Kofman, Jason Phang, Joaquin Quinonero Candela, Joel Parish, Kevin Liu, Kristen Ying, Lama Ahmad, Leon Maksin, Leyton Ho, Meghan Shah, Michele Wang, Miles Wang, Phillip Guo, Olivia Watkins, Owen Campbell-Moore, Patrick Chao, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Tejal Patwardhan, Tina Sriskandarajah, Troy Peterson, Yaodong Yu, Yunyun Wang
Bereitstellung
Adam Koppel, Adam Wells, Adele Li, Andy Applebaum, Andrey Malevich, Andrew Duberstein, Andrew Howell, Anton Tananaev, Ashley Tyra, Brandon Walkin, Bryan Ashley, Cary Bassin, Cary Hudson, Cory Decareaux, Cristina Scheau, Derek Chen, Dibya Bhattacharjee, Drea Lopez, Eric Antonow, Eric Burke, Filippo Raso, Fotis Chantzis, Freddie Sulit, Harris Cohen, Heather Whitney, Jay Dixit, Jeffrey Han, Jen Robinson, Jessica Shieh, Joel Parish, Kan Wu, Kevin Gladstone, Kshitij Wadhwa, Leo Vandriel, Leyton Ho, Liang Chen, Madeline Christian, Mamie Rheingold, Matt Jones, Michelle Fradin, Mike McClay, Mingxuan Wang, Nacho Soto, Niko Felix, Patrick Delaney, Paul McMillan, Philip Pronin, Rodrigo Riaza Perez, Samuel Miserendino, Scott Ethersmith, Steven Baldwin, Thomas Dimson, Tomo Hiratsuka, Yaming Lin, Yara Khakbaz, Yining Chen
Geschäftsleitung
Akshay Nathan, Greg Brockman, Hannah Wong, Jakub Pachocki, Jerry Tworek, Johannes Heidecke, Josh Tobin, Liam Fedus, Mark Chen, Mia Glaese, Nick Turley, Sam Altman und Wojciech Zaremba