隆重介绍深入研究功能
一款能通过推理整合海量在线信息,并为您完成多步骤研究任务的智能代理。今日起向 Pro 用户开放,随后将开放给 Plus 和 Team 用户。
2026 年 2 月 10 日更新:您现在可以将深度研究接入任何 MCP 或应用,并将网页搜索限定在受信任的网站上,从而聚焦于经过验证、符合行业标准的内容来源。您还可以实时查看研究进度,并在需要时随时中断,通过追加提示或新增信息源来进一步优化结果。我们还更新了整体界面体验,让您更轻松地发起、跟踪并回顾整个研究流程。
2025 年 7 月 17 日更新:借助集成在 ChatGPT 智能体中的可视化浏览器,深度研究现在可以进行更深入、更广泛的研究。要使用这些更新后的功能,只需在输入框的下拉菜单中选择“智能体模式”,然后直接输入您的问题。原有的深度研究功能依然保留,可通过工具菜单中的“深度研究”选项使用。
2025 年 4 月 24 日更新:我们大幅提高了您使用深度研究的配额 — Plus、Team、Enterprise 和 Edu 用户现在每月可发起 25 次查询,Pro 用户为 250 次,Free 用户为 5 次。这得益于全新的深度研究轻量版,由某个版本的 o4-mini 提供支持,在保持高质量的同时显著降低了成本。当完整版的查询配额用完后,您的查询会自动切换为由轻量版处理。
2025 年 2 月 25 日更新:所有 Plus 用户现在都可以使用深度研究。
2025 年 2 月 5 日更新:深度研究现已向位于英国、瑞士以及欧洲经济区的 Pro 用户开放。
今天,我们在 ChatGPT 中推出了深入研究功能,这是一项新的代理功能,可在互联网上针对复杂任务进行多步骤研究。它可以在数十分钟内完成人工需要数小时才能完成的任务。
深入研究是 OpenAI 下一代能够自主为您完成任务的智能代理——您只需提供一个提示,ChatGPT 就会查找、分析并整合数百个在线来源,生成具有研究分析师水平的全面报告。ChatGPT 由即将推出的 OpenAI o3 模型的一个版本提供支持,该版本针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的海量文本、图片和 PDF 文件,并根据需要对获取的信息作出反应。
整合知识的能力是创造新知识的先决条件。因此,深入研究标志着我们向开发 AGI 这一更广泛的目标迈出了重要一步,我们很早就设想 AGI 能够产生新的科学研究成果。
深入研究专为从事高强度知识工作的用户打造,适用于金融、科学、政策和工程等领域,满足对深入、精准且可靠研究的需求。对于精明的消费者来说,它同样实用,能够在购买通常需要仔细研究的商品(如汽车、电器和家具)时,提供高度个性化的建议。每项输出都完整记录,并附有清晰的引用来源及推理过程摘要,便于参考和验证信息。该功能在查找需要浏览大量网站的细分、非直观信息方面尤为有效。深入研究只需一次查询,即可代您快速完成复杂耗时的网络调研,从而节省宝贵时间。
深入研究可以独立发现、推理和整合来自整个网络的见解。为此,我们在需要使用浏览器和 Python 工具的实际任务中对其进行了训练,并使用了与我们首个推理模型 OpenAI o1 相同的强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出了卓越能力,但现实世界中的许多挑战都需要从不同的在线资源中收集广泛的背景信息。深入研究以这些推理能力为基础,弥补了这一差距,使其能够解决人们在工作和日常生活中面临的各类问题。
在 ChatGPT 中,在消息编辑器中选择“深入研究”,然后输入您的查询。告诉 ChatGPT 您的需求——无论是关于流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格,为您的问题添加背景信息。一旦开始运行,侧边栏就会显示所采取步骤和所用资料来源的摘要。
深入研究可能需要 5 到 30 分钟才能完成工作,该时长可确保对网络信息进行充分深入的挖掘。在此期间,您可以离开或处理其他任务,研究完成后您会收到通知。最终输出会以报告形式显示在聊天工具中。在接下来的几周内,我们还将在这些报告中添加嵌入式图片、数据可视化和其他分析输出,以提供更清晰的解读视角和背景信息。
与深入研究相比,GPT‑4o 是实时、多模态对话的理想选择。对于需要深度和细节的多方面专业领域查询,深入研究能够进行广泛探索,并对每项主张进行引证,这就是快速摘要与有据可查、经过验证并可作为工作成果使用的答案之间的区别。
GPT-4o
深入研究
深入研究以高度详细的方式回复提示,提供十大发达国家和十大发展中国家的并列国别数据,便于参考和比较。该功能利用这些信息提供详细的市场进入建议,这些建议有理有据,可用性强。
深入研究采用端到端强化学习方法,针对跨领域复杂浏览与推理任务进行训练。通过这种训练,它学会了规划和执行多步骤轨迹来查找所需的数据,并在必要时进行回溯和对实时信息做出反应。该模型还能浏览用户上传的文件,使用 Python 工具绘制和迭代图形,在回复中嵌入生成的图形和网站图片,并引用来源中的特定句子或段落。经此训练,该系统在多项面向现实问题的公开评估中达到全新性能峰值。
在最近发布的人类终极测试(在新窗口中打开) (Humanity's Last Exam) 评估中,深入研究模型的准确率达到 26.6%,创下新高。这项测试涵盖多学科专家级难题,包括 3,000 多道选择题和简答题,涉及 100 多个学科,从语言学到火箭科学,从古典文学到生态学。与 OpenAI o1 相比,该模型在化学、人文和社会科学以及数学学科的进步最大。为深入研究提供技术支持的模型能够按需高效获取专业化信息,展示了类似于人类的方法。
| 模型 | 准确率 (%) |
|---|---|
| GPT-4o | 3.3 |
| Grok-2 | 3.8 |
| Claude 3.5 Sonnet | 4.3 |
| Gemini Thinking | 6.2 |
| OpenAI o1 | 9.1 |
| DeepSeek-R1* | 9.4 |
| OpenAI o3-mini(均衡版)* | 10.5 |
| OpenAI o3-mini(高性能版)* | 13.0 |
| OpenAI 深入研究** | 26.6 |
在 GAIA(在新窗口中打开)1(针对真实世界问题评估人工智能的公共基准)上,为深入研究提供技术支持的模型达到了新的技术水平 (SOTA),在外部排行榜(在新窗口中打开)上名列前茅。这些任务包括三个难度级别的问题,成功完成这些任务需要具备推理、多模式流畅性、网络浏览和工具使用熟练程度等能力。
| GAIA | ||||
|---|---|---|---|---|
| 1 级 | 2 级 | 3 级 | 平均值 | |
| 上一个 SOTA(在新窗口中打开) | 67.92 | 67.44 | 42.31 | 63.64 |
| 深入研究 (pass@1) | 74.29 | 69.06 | 47.6 | 67.36 |
| 深入研究 (cons@64) | 78.66 | 73.21 | 58.03 | 72.57 |
GAIA 任务示例
在跨领域专家级任务的内部评估中,深入研究功能经领域专家评定,可自动化完成需数小时人工完成的复杂调研工作。
通过率与最高工具调用次数
专家级任务示例
专家级任务的通过率(按估计经济价值)
专家级任务的通过率(按估计时间)
深入研究解锁了多项重要的新能力,但目前仍处于早期阶段,存在局限性。根据内部评估,该功能有时会在回答中捏造事实或做出错误推断,但其发生率明显低于现有的 ChatGPT 模型。它在权威信息与谣言甄别方面可能存在不足,且在置信度校准方面表现欠佳,往往无法准确传达不确定性。在上线初期,报告和引用中可能会存在轻微的格式错误,任务启动也可能会花费更长时间。我们预计,随着使用次数的增加和时间的推移,这些问题将很快得到改善。
目前,ChatGPT 的深入研究非常耗费计算资源。研究查询所需的时间越长,所需的推理计算量就越大。今天,我们首先推出针对 Pro 版用户的优化版本,每月最多可查询 100 次。接下来,Plus 和 Team 用户将获得访问权限,然后是 Enterprise 用户。我们仍在努力为英国、瑞士和欧洲经济区的用户提供访问服务。
所有付费用户即将获得大幅提升的使用额度,我们将推出更快速、更具成本效益的深入研究版本,该版本采用精简模型驱动,同时保持高质量输出。
在接下来的几周和几个月里,我们将致力于技术基础设施的建设,密切监控当前版本,并进行更严格的测试。这符合我们的迭代部署原则。如果所有安全检查持续符合我们的发布标准,我们预计将在一个月左右向 Plus 用户开放深入研究功能。
深入研究现在可在 ChatGPT 网页上使用,并将在本月内推广到移动和桌面应用。目前,深入研究可以访问开放的网络和任何上传的文件。未来,您将能够连接更多专业的数据源,包括订阅制或内部资源,从而使其生成的内容更加强大和个性化。
展望未来,我们设想在 ChatGPT 中结合代理体验,进行异步、真实世界的研究和执行。通过将支持异步网络调查的深入研究与可执行现实操作的 Operator 功能相结合,ChatGPT 将能为您完成日益复杂的任务
2025 年 2 月 3 日增补:我们对为深入研究提供技术支持的 o3 早期版本进行了严格的安全测试、准备评估和治理审查,将其确定为中等(在新窗口中打开)风险。我们还进行了额外的安全测试,以更好地了解与深入研究的网络浏览能力相关的增量风险,并增加了新的缓解措施。我们将继续全面测试和密切监控当前的有限版本。我们将在向 Plus 用户扩大访问权限时,通过系统安全卡片分享我们对深入研究功能的安全见解及防护措施。
脚注
- 1
我们发现该数据集的真实答案在网上被广泛泄露,因此已屏蔽了多个相关网站或 URL,以确保对模型的公平评估。
作者
研究主管
Isa Fulford、Zhiqing Sun
主要贡献者
Alex Tachard Passos、Alexandra Barr、Allison Tam、Charlotte Cole、Hyung Won Chung、Jason Wei、Jon Blackman、Scott Mayer McKinney、Valerie Qi
核心贡献者
研究
Elaine Ya Le、Eric Mitchell、Eric Wallace、Hyung Won Chung、Ignasi Clavera、Leo Liu、Lorenz Kuhn、Louis Feuvrier、Max Schwarzer、Saachi Jain、Scottie Yan、Shunyu Yao、Vitchyr Pong
部署
Carpus Chang、Harry Zhao、Joseph Trasatti、Joshua Dickens、Matt Kaufer、Mike Trpcic、Minnia Feng、Neel Ajjarapu、Peter Vidani, Sean Fitzgerald
贡献者
研究
Ahmed El-Kishky、AJ Ostrow、Alexander Wei、Andrei Gheorghe、Andrew Kondrich、Andrey Mishchenko、Anuj Nair、Behrooz Ghorbani、Brydon Eastman、Chak Li、Foivos Tsimpourlas、Francis Song、Giambattista Parascandolo,Gildas Chabot、Hessam Bagherinezhad、Haitang Hu、Hongyu Ren、Henry Aspegren、Hunter Lightman、Ilya Kostrikov、Ilge Akkaya、James Lennon、Jean Harb、Jonathan Ward、Kai Chen、Katy Shi、Kevin Liu、Kevin Yu、Manuka Stratta、Marvin Zhang、Mengyuan Yan, Mostafa Rohaninejad、Noam Brown、Phoebe Thacker、Raz Goan、Reah Miyara、Spencer Papay、Taylor Gordon、Wenda Zhou、Wenlei Xie、Yash Patil、Yann Dubois、Youlong Cheng、Yushi Wang、Wyatt Thompson
以及 o3 的所有贡献者。
安全系统
Adam Kalai、Alex Beutel、Andrea Vallone、Andy Applebaum、David Robinson、Elizabeth Proehl、Evan Mays、Grace Zhao、Irina Kofman、Jason Phang、Joaquin Quinonero Candela、Joel Parish、Kevin Liu、Kristen Ying、Lama Ahmad、Leon Maksin、Leyton Ho、Meghan Shah、Michele Wang、Miles Wang、Phillip Guo、Olivia Watkins、Owen Campbell-Moore、Patrick Chao、Sam Toizer、Samuel Miserendino、Sandhini Agarwal、Tejal Patwardhan、Tina Sriskandarajah、Troy Peterson、Yaodong Yu、Yunyun Wang
部署
Adam Koppel、Adam Wells、Adele Li、Andy Applebaum、Andrey Malevich、Andrew Duberstein、Andrew Howell、Anton Tananaev、Ashley Tyra、Brandon Walkin、Bryan Ashley、Cary Bassin、Cary Hudson、Cory Decareaux、Cristina Scheau、Derek Chen、Dibya Bhattacharjee、Drea Lopez、Eric Antonow、Eric Burke、Filippo Raso、Fotis Chantzis、Freddie Sulit、Harris Cohen、Heather Whitney、Jay Dixit、Jeffrey Han、Jen Robinson、Jessica Shieh、Joel Parish、Kan Wu、Kevin Gladstone、Kshitij Wadhwa、Leo Vandriel、Leyton Ho、Liang Chen、Madeline Christian、Mamie Rheingold、Matt Jones、Michelle Fradin、Mike McClay、Mingxuan Wang、Nacho Soto、Niko Felix、Patrick Delaney、Paul McMillan、Philip Pronin、Rodrigo Riaza Perez、Samuel Miserendino、Scott Ethersmith、Steven Baldwin、Thomas Dimson、Tomo Hiratsuka、Yaming Lin、Yara Khakbaz、Yining Chen
领导团队
Akshay Nathan、Greg Brockman、Hannah Wong、Jakub Pachocki、Jerry Tworek、Johannes Heidecke、Josh Tobin、Liam Fedus、Mark Chen、Mia Glaese、Nick Turley、Sam Altman、Wojciech Zaremba