2026 оны 2-р сарын 10-ны шинэчлэлт: Одоо та гүн судалгааг дурын MCP эсвэл апптай холбож, вэб хайлтыг итгэмжлэгдсэн сайтуудаар хязгаарлаж болох тул баталгаажсан, салбарын стандарт эх сурвалжуудад төвлөрөх боломжтой. Мөн явцыг бодит цагт хянаж, дараагийн өгөгдөл эсвэл шинэ эх сурвалжаар сайжруулахын тулд тасалдуулж болно. Бид харагдах туршлагыг шинэчилсэн тул судалгаагаа эхлүүлэх, хянах, эцсээс нь эцэс хүртэл нягтлах нь илүү хялбар болсон.
2025 оны 7-р сарын 17-ны шинэчлэлт: Гүн судалгаа нь одоо ChatGPT агентын нэг хэсэг болох дүрслэлтэй браузерт хандах боломжтой болсноор илүү гүнзгий, өргөн хүрээтэй ажиллана. Эдгээр шинэ чадварыг ашиглахын тулд composer-ийн унждаг цэснээс “agent mode”-ыг сонгоод асуултаа шууд оруулна уу. Анхны гүн судалгааны функц нь tools цэсний “deep research” сонголтоор хэвээрээ байна.
2025 оны 4-р сарын 24-ний шинэчлэлт: Бид гүн судалгааг ашиглах давтамжийг мэдэгдэхүйц нэмэгдүүлж байна—одоо Plus, Team, Enterprise, Edu хэрэглэгчид сард 25 асуулга, Pro хэрэглэгчид 250, Free хэрэглэгчид 5 асуулга авах боломжтой. Энэ нь өндөр чанарыг хадгалсан атлаа зардлын хувьд илүү үр ашигтай байхаар бүтээгдсэн, o4-mini-ийн нэг хувилбараар ажилладаг гүн судалгааны шинэ хөнгөн хувилбарын ачаар боломжтой болсон. Та бүрэн хувилбарын хязгаарт хүрмэгц таны асуулгууд автоматаар хөнгөн хувилбар руу шилжинэ.
2025 оны 2-р сарын 25-ны шинэчлэлт: Одоо бүх Plus хэрэглэгч гүн судалгааг ашиглах боломжтой.
2025 оны 2-р сарын 5-ны шинэчлэлт: Гүн судалгаа одоо Нэгдсэн Вант Улс, Швейцар, Европын эдийн засгийн бүсийн Pro хэрэглэгчдэд нээлттэй боллоо.
Өнөөдөр бид ChatGPT дэх гүн судалгааг эхлүүлж байна. Энэ нь интернет дээр төвөгтэй даалгаварт олон алхамт судалгаа хийдэг шинэ agentic чадвар юм. Энэ нь хүний олон цаг хийх ажлыг хэдхэн арван минутад гүйцэтгэдэг.
Гүн судалгаа нь OpenAI-ийн дараагийн агент бөгөөд танд зориулж ажлыг бие даан хийж чадна—та өгөгдөл өгнө, харин ChatGPT судалгааны шинжээчийн түвшний иж бүрэн тайлан гаргахын тулд онлайн зуу зуун эх сурвалжийг олж, шинжилж, нэгтгэнэ. Вэб хайлт, өгөгдлийн шинжилгээнд оновчлогдсон, удахгүй гарах OpenAI o3 загварын нэг хувилбараар ажилладаг энэ нь сэтгэн бодох чадварыг ашиглан интернет дэх асар их хэмжээний текст, зураг, PDF-ийг хайж, тайлбарлаж, шинжилж, тааралдсан мэдээлэлдээ хариу болгон шаардлагатай үед чиглэлээ өөрчилдөг.
Мэдлэгийг нэгтгэн боловсруулах чадвар нь шинэ мэдлэг бүтээхийн урьдчилсан нөхцөл юм. Иймээс гүн судалгаа нь AGI хөгжүүлэх манай өргөн зорилгын зүг хийж буй чухал алхам бөгөөд бид үүнийг удаан хугацаанд шинэ шинжлэх ухааны судалгаа бүтээх чадвартай гэж төсөөлж ирсэн.
Гүн судалгаа нь санхүү, шинжлэх ухаан, бодлого, инженерчлэл зэрэг салбарт эрчимтэй мэдлэгийн ажил хийдэг, нарийн нягт, үнэн зөв, найдвартай судалгаа шаарддаг хүмүүст зориулагдсан. Энэ нь автомашин, ахуйн цахилгаан хэрэгсэл, тавилга зэрэг ихэвчлэн нямбай судалгаа шаарддаг худалдан авалтад хэт хувьчилсан зөвлөмж хайж буй ялган сонгодог худалдан авагчдад ч адилхан хэрэгтэй байж чадна. Гаралт бүр нь тодорхой эшлэл, өөрийн сэтгэн бодолтын хураангуйтайгаар бүрэн баримтжуулсан байдаг тул мэдээллийг иш татах, баталгаажуулахад хялбар. Энэ нь олон вэбсайт гүйлгэх шаардлагатай, ховор бөгөөд шууд ойлгомжтой биш мэдээллийг олоход онцгой үр дүнтэй. Гүн судалгаа нь ганц асуулгаар төвөгтэй, цаг их шаарддаг вэб судалгааг даатгаж, хурдасгах замаар үнэт цагийг чөлөөлдөг.
Гүн судалгаа нь вэб даяарх ойлголтуудыг бие даан олж, сэтгэн бодож, нэгтгэн дүгнэдэг. Үүнийг биелүүлэхийн тулд энэ нь браузер болон Python хэрэгсэл ашиглах шаардлагатай бодит даалгавруудаар сургагдсан бөгөөд OpenAI o1‑ийн цаад ижил бататгах сургалтын аргуудыг ашигласан, манай анхны сэтгэн бодох загвар юм. o1 нь кодчлол, математик болон бусад техникийн салбарт гайхалтай чадвар үзүүлдэг ч бодит ертөнцийн олон сорилт нь төрөл бүрийн онлайн эх сурвалжаас өргөн хүрээний контекст, мэдээлэл цуглуулахыг шаарддаг. Гүн судалгаа нь энэ зайг нөхөхийн тулд эдгээр сэтгэн бодох чадварууд дээр суурилж, ажил болон өдөр тутмын амьдралд хүмүүст тулгардаг асуудлуудыг шийдэх боломж олгодог.
ChatGPT‑д мессеж бичих хэсгээс ‘deep research’-ийг сонгоод асуултаа оруулна уу. Танд юу хэрэгтэй байгаагаа ChatGPT‑д хэлээрэй—стриминг платформуудын өрсөлдөөний шинжилгээ ч бай, эсвэл хамгийн сайн ажилдаа унах унадаг дугуйн тухай хувьчилсан тайлан ч бай. Асуултадаа контекст нэмэхийн тулд файл эсвэл хүснэгт хавсаргаж болно. Ажиллаж эхэлмэгц хийсэн алхамууд, ашигласан эх сурвалжуудын хураангуйтай хажуу самбар гарч ирнэ.
Гүн судалгаа нь вэб рүү гүн шумбахад шаардлагатай хугацааг авч, ажлаа дуусгахад 5-аас 30 минут хүртэл хугацаа зарцуулж болно. Энэ хооронд та завсарлаж эсвэл өөр ажлуудаа хийж болно—судалгаа дуусмагц танд мэдэгдэл ирнэ. Эцсийн гаралт нь чат дотор тайлан хэлбэрээр ирэх бөгөөд ойрын хэдэн долоо хоногт бид эдгээр тайланд нэмэлт ойлгомж, контекст өгөх зорилгоор шигтгэсэн зураг, өгөгдлийн дүрслэл болон бусад аналитик гаралтуудыг мөн нэмж эхэлнэ.
Гүн судалгаатай харьцуулахад GPT‑4o нь бодит цагийн, мультимодаль ярианд хамгийн тохиромжтой. Олон талт, салбарын онцлогтой асуултуудад гүнзгий байдал, дэлгэрэнгүй чухал үед, гүн судалгааны өргөн хайгуул хийж, нэхэмжлэл бүрийг эшлэх чадвар нь хурдан хураангуй ба ажилд ашиглаж болохуйц, сайн баримтжуулсан, баталгаажсан хариултын ялгааг гаргадаг.
GPT-4o
гүн судалгаа
Гүн судалгаа нь өгөгдөлд маш дэлгэрэнгүй хариулж, шилдэг 10 хөгжингүй болон шилдэг 10 хөгжиж буй улсын хувьд улсаар ангилсан мэдээллийг зэрэгцүүлэн өгснөөр лавлах, харьцуулахад хялбар болгодог. Энэ мэдээллийг ашиглан мэдээлэлтэй, хэрэгжүүлэх боломжтой зах зээлд нэвтрэх зөвлөмжүүдийг санал болгодог.
Гүн судалгаа нь янз бүрийн салбарын хэцүү browsing болон сэтгэн бодох даалгаврууд дээр end-to-end бататгах сургалтаар сургагдсан. Тэр сургалтын явцад шаардлагатай өгөгдлөө олохын тулд олон алхамт trajectory-г төлөвлөж, гүйцэтгэх, хэрэгтэй үед ухарч, бодит цагийн мэдээлэлд хариу үйлдэл үзүүлэхийг сурсан. Мөн загвар нь хэрэглэгчийн байршуулсан файлуудыг гүйлгэн үзэх, python хэрэгслээр график дүрслэх ба давтан сайжруулах, өөрийн хариултад үүсгэсэн график болон вэбсайтын зургуудыг шигтгэх, мөн эх сурвалжаасаа тодорхой өгүүлбэр эсвэл хэсгийг эшлэх чадвартай. Энэ сургалтын үр дүнд бодит ертөнцийн асуудалд төвлөрсөн олон нийтийн хэд хэдэн үнэлгээнд шинэ дээд үзүүлэлтэд хүрч байна.
Humanity’s Last Exam(шинэ цонхонд нээгдэнэ) дээр, өргөн хүрээний сэдвээр шинжээчийн түвшний асуултаар AI-г шалгадаг саяхан гарсан үнэлгээнд, гүн судалгааг ажиллуулдаг загвар 26.6%-ийн үнэн зөвөөр шинэ дээд үзүүлэлт тогтоосон. Энэ тест нь хэл шинжлэлээс пуужингийн шинжлэх ухаан, сонгодог судлалаас экологи хүртэл 100 гаруй сэдвийн 3,000-аас дээш сонгох болон богино хариулттай асуултаас бүрдэнэ. OpenAI o1‑тэй харьцуулахад хамгийн их ахиц нь хими, хүмүүнлэг ба нийгмийн шинжлэх ухаан, мөн математикт ажиглагдсан. Гүн судалгааг ажиллуулдаг загвар нь шаардлагатай үед тусгай мэдээллийг үр дүнтэй эрж хайснаараа хүнийхтэй төстэй хандлагыг харуулсан.
| Загвар | Нарийвчлал (%) |
|---|---|
| GPT-4o | 3.3 |
| Grok-2 | 3.8 |
| Claude 3.5 Sonnet | 4.3 |
| Gemini сэтгэлгээ | 6.2 |
| OpenAI o1 | 9.1 |
| DeepSeek-R1* | 9.4 |
| OpenAI o3-mini (дунд)* | 10.5 |
| OpenAI o3-mini (өндөр түвшин)* | 13.0 |
| OpenAI гүн судалгаа** | 26.6 |
GAIA(шинэ цонхонд нээгдэнэ)1 дээр, бодит ертөнцийн асуултаар AI-г үнэлдэг олон нийтийн benchmark-д, гүн судалгааг ажиллуулдаг загвар шинэ state of the art (SOTA)-д хүрч, гадаад leaderboard(шинэ цонхонд нээгдэнэ)-ийг тэргүүлж байна. Гурван түвшний хүндрэлийн асуултуудыг хамарсан эдгээр даалгаврыг амжилттай гүйцэтгэхэд сэтгэн бодох, мультимодаль чадамж, вэб хайлт, хэрэгсэл ашиглах ур чадвар зэрэг чадварууд шаардагдана.
| GAIA | ||||
|---|---|---|---|---|
| 1-р түвшин | Түвшин 2 | Түвшин 3 | Дунд. | |
| Өмнөх SOTA(шинэ цонхонд нээгдэнэ) | 67.92 | 67.44 | 42.31 | 63.64 |
| Гүн судалгаа (pass@1) | 74.29 | 69.06 | 47.6 | 67.36 |
| Гүн судалгаа (cons@64) | 78.66 | 73.21 | 58.03 | 72.57 |
GAIA даалгаврын жишээнүүд
Янз бүрийн салбарын шинжээчийн түвшний даалгавруудын дотоод үнэлгээнд, гүн судалгааг салбарын мэргэжилтнүүд олон цагийн хэцүү, гараар хийх мөрдлөгийн ажлыг автоматжуулсан гэж үнэлсэн.
Хэрэгслийн дуудлагын дээд тоотой харьцуулсан давах хувь
Шинжээчийн түвшний даалгаврын жишээнүүд
Тооцоолсон эдийн засгийн үнэ цэнээр шинжээчийн түвшний даалгаврын давах хувь
Тооцоолсон цагаар шинжээчийн түвшний даалгаврын давах хувь
Гүн судалгаа нь томоохон шинэ боломжуудыг нээж байгаа ч одоогоор эхний шатандаа явж байгаа бөгөөд хязгаарлалтуудтай хэвээр байна. Дотоод үнэлгээнээс харахад энэ нь заримдаа хариултад баримт зохиомлоор үүсгэх эсвэл буруу дүгнэлт хийх магадлалтай ч одоо байгаа ChatGPT загваруудаас мэдэгдэхүйц бага түвшинд байна. Энэ нь эрх бүхий мэдээллийг цуу ярианаас ялгахад хүндрэлтэй байж болох бөгөөд одоогоор итгэлцлийн түвшнээ зөв тохируулах тал дээр сул, тодорхойгүй байдлыг зөв илэрхийлж чадалгүй байх нь бий. Эхний хувилбар дээр тайлан, эшлэлд бага зэргийн формат алдаа гарч магадгүй бөгөөд ажлууд эхлэхэд илүү удаан байж болно. Эдгээр бүх асуудал хэрэглээ болон цаг хугацаа нэмэгдэхийн хэрээр хурдан сайжирна гэж бид үзэж байна.
ChatGPT дахь гүн судалгаа одоогоор тооцооллын хувьд маш их нөөц шаарддаг. Асуулгыг судлахад илүү удах тусам илүү их inference compute хэрэгтэй болдог. Бид өнөөдөр Pro хэрэглэгчдэд зориулан оновчлогдсон хувилбараар эхэлж байгаа бөгөөд сард 100 хүртэл асуулгатай. Plus болон Team хэрэглэгчид дараа нь хандалт авна, үүний дараа Enterprise дагана. Бид Нэгдсэн Вант Улс, Швейцар, Европын эдийн засгийн бүс дэх хэрэглэгчдэд хандалт хүргэхээр одоогоор ажиллаж байна.
Өндөр чанартай үр дүн хэвээр өгөх жижиг загвараар ажилладаг, илүү хурдан бөгөөд зардлын хувьд илүү үр ашигтай гүн судалгааны хувилбарыг гаргах үед бүх төлбөртэй хэрэглэгчид удахгүй хамаагүй өндөр rate limit авах болно.
Ирэх хэдэн долоо хоног, саруудад бид техникийн дэд бүтэц дээр ажиллаж, одоогийн хувилбарыг ойроос хянаж, бүр ч нарийн шалгалтууд хийх болно. Энэ нь бидний шат дараалсан нэвтрүүлэлтийн зарчимтай нийцэж байна. Хэрэв бүх аюулгүй байдлын шалгалт манай гаргалтын стандартыг үргэлжлүүлэн хангаж байвал бид ойролцоогоор нэг сарын дараа гүн судалгааг Plus хэрэглэгчдэд гаргана гэж найдаж байна.
Гүн судалгаа нь өнөөдөр ChatGPT вэб дээр ашиглах боломжтой бөгөөд энэ сард багтаан мобайл болон десктоп аппуудад нэвтрүүлнэ. Одоогоор гүн судалгаа нь нээлттэй вэб болон байршуулсан аливаа файлд хандаж чадна. Ирээдүйд та илүү тусгайлсан өгөгдлийн эх сурвалжуудтай холбогдох боломжтой болно—ингэснээр subscription-based эсвэл дотоод нөөцүүдэд хандах хүрээ нь тэлж, гаралт нь бүр ч илүү бат бөх, хувьчилсан болно.
Цаашдаа бид ChatGPT дотор agentic туршлагууд нэгдэж, асинхрон бодит судалгаа болон гүйцэтгэлийг бий болгоно гэж төсөөлж байна. Асинхрон онлайн мөрдлөг хийж чаддаг гүн судалгаа ба бодит ертөнцийн үйлдэл хийж чаддаг Operator-ийн хослол нь ChatGPT‑д танд зориулсан улам нарийн төвөгтэй даалгавруудыг гүйцэтгэх боломж олгоно.
2025 оны 2-р сарын 3-ны нэмэлт: Бид гүн судалгааг ажиллуулдаг o3‑ын эрт хувилбар дээр аюулгүй байдлын нарийн шалгалт, бэлэн байдлын үнэлгээ, засаглалын хяналт хийж, үүнийг дунд(шинэ цонхонд нээгдэнэ) эрсдэлтэй гэж тодорхойлсон. Мөн гүн судалгааны вэбээр аялах чадвартай холбоотой нэмэгдэж болох эрсдэлийг илүү сайн ойлгохын тулд нэмэлт аюулгүй байдлын туршилтууд хийж, шинэ бууруулах арга хэмжээнүүд нэмсэн. Бид одоогийн хязгаарлагдмал хувилбарыг цаашид ч нягт туршиж, ойроос хянах болно. Plus хэрэглэгчдэд хандалтыг өргөжүүлэх үед гүн судалгааны аюулгүй байдлын ойлголт, хамгаалалтуудаа системийн карт дээр хуваалцана.
Хөлийн тайлбар
- 1
Энэ өгөгдлийн багцын ground-truth хариултууд онлайнаар өргөн алдагдсаныг бид олж тогтоосон тул загварын шударга үнэлгээг хангахын 위해 хэд хэдэн вэбсайт эсвэл URL-ийг хаасан.
Зохиогчид
Судалгааны ахлагчид
Isa Fulford, Zhiqing Sun
Суурь хувь нэмэр оруулагчид
Alex Tachard Passos, Alexandra Barr, Allison Tam, Charlotte Cole, Hyung Won Chung, Jason Wei, Jon Blackman, Scott Mayer McKinney, Valerie Qi
Үндсэн хувь нэмэр оруулагчид
Судалгаа
Elaine Ya Le, Eric Mitchell, Eric Wallace, Hyung Won Chung, Ignasi Clavera, Leo Liu, Lorenz Kuhn, Louis Feuvrier, Max Schwarzer, Saachi Jain, Scottie Yan, Shunyu Yao, Vitchyr Pong
Нэвтрүүлэлт
Carpus Chang, Harry Zhao, Joseph Trasatti, Joshua Dickens, Matt Kaufer, Mike Trpcic, Minnia Feng, Neel Ajjarapu, Peter Vidani, Sean Fitzgerald
Хувь нэмэр оруулагчид
Судалгаа
Ahmed El-Kishky, AJ Ostrow, Alexander Wei, Andrei Gheorghe, Andrew Kondrich, Andrey Mishchenko, Anuj Nair, Behrooz Ghorbani, Brydon Eastman, Chak Li, Foivos Tsimpourlas, Francis Song, Giambattista Parascandolo,Gildas Chabot, Hessam Bagherinezhad, Haitang Hu, Hongyu Ren, Henry Aspegren, Hunter Lightman, Ilya Kostrikov, Ilge Akkaya, James Lennon, Jean Harb, Jonathan Ward, Kai Chen, Katy Shi, Kevin Liu, Kevin Yu, Manuka Stratta, Marvin Zhang, Mengyuan Yan, Mostafa Rohaninejad, Noam Brown, Phoebe Thacker, Raz Goan, Reah Miyara, Spencer Papay, Taylor Gordon, Wenda Zhou, Wenlei Xie, Yash Patil, Yann Dubois, Youlong Cheng, Yushi Wang, Wyatt Thompson
+ o3-д хувь нэмэр оруулсан бүх хүн.
Аюулгүй байдлын системүүд
Adam Kalai, Alex Beutel, Andrea Vallone, Andy Applebaum, David Robinson, Elizabeth Proehl, Evan Mays, Grace Zhao, Irina Kofman, Jason Phang, Joaquin Quinonero Candela, Joel Parish, Kevin Liu, Kristen Ying, Lama Ahmad, Leon Maksin, Leyton Ho, Meghan Shah, Michele Wang, Miles Wang, Phillip Guo, Olivia Watkins, Owen Campbell-Moore, Patrick Chao, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Tejal Patwardhan, Tina Sriskandarajah, Troy Peterson, Yaodong Yu, Yunyun Wang
Нэвтрүүлэлт
Adam Koppel, Adam Wells, Adele Li, Andy Applebaum, Andrey Malevich, Andrew Duberstein, Andrew Howell, Anton Tananaev, Ashley Tyra, Brandon Walkin, Bryan Ashley, Cary Bassin, Cary Hudson, Cory Decareaux, Cristina Scheau, Derek Chen, Dibya Bhattacharjee, Drea Lopez, Eric Antonow, Eric Burke, Filippo Raso, Fotis Chantzis, Freddie Sulit, Harris Cohen, Heather Whitney, Jay Dixit, Jeffrey Han, Jen Robinson, Jessica Shieh, Joel Parish, Kan Wu, Kevin Gladstone, Kshitij Wadhwa, Leo Vandriel, Leyton Ho, Liang Chen, Madeline Christian, Mamie Rheingold, Matt Jones, Michelle Fradin, Mike McClay, Mingxuan Wang, Nacho Soto, Niko Felix, Patrick Delaney, Paul McMillan, Philip Pronin, Rodrigo Riaza Perez, Samuel Miserendino, Scott Ethersmith, Steven Baldwin, Thomas Dimson, Tomo Hiratsuka, Yaming Lin, Yara Khakbaz, Yining Chen
Удирдлага
Akshay Nathan, Greg Brockman, Hannah Wong, Jakub Pachocki, Jerry Tworek, Johannes Heidecke, Josh Tobin, Liam Fedus, Mark Chen, Mia Glaese, Nick Turley, Sam Altman, Wojciech Zaremba