Memperkenalkan riset dalam
Agen yang menggunakan penalaran untuk menyintesis sejumlah besar informasi online dan menyelesaikan tugas riset multi-langkah untuk Anda. Tersedia bagi pengguna Pro hari ini, selanjutnya pengguna Plus dan Team.
Pembaruan 10 Februari 2026: Sekarang Anda dapat menghubungkan riset mendalam ke MCP atau aplikasi apa pun dan membatasi pencarian web ke situs tepercaya, sehingga Anda dapat berfokus pada sumber yang terautentikasi dan berstandar industri. Anda juga kini dapat melacak kemajuan secara real-time dan menghentikan untuk menyempurnakan dengan prompt tindak lanjut atau sumber baru. Kami telah memperbarui pengalaman visual sehingga lebih mudah untuk memulai, melacak, dan meninjau riset Anda dari awal hingga akhir.
Pembaruan 17 Juli 2025: Riset mendalam kini dapat dilakukan lebih dalam dan lebih luas dengan akses ke browser visual sebagai bagian dari agen ChatGPT. Untuk mengakses kemampuan yang diperbarui ini, cukup pilih “mode agen” dari menu tarik-turun di komposer dan masukkan kueri Anda secara langsung. Fungsionalitas riset mendalam asli tetap tersedia melalui opsi “riset mendalam” di menu alat.
Pembaruan 24 April 2025: Kami secara signifikan meningkatkan batas frekuensi penggunaan riset mendalam Anda—Pengguna Plus, Team, Enterprise, dan Edu sekarang mendapatkan 25 kueri per bulan, pengguna Pro mendapatkan 250 kueri, dan pengguna Gratis mendapatkan 5 kueri. Hal ini dimungkinkan melalui versi ringan baru dari riset mendalam yang didukung oleh versi o4-mini, yang dirancang untuk lebih efisien secara biaya sambil tetap menjaga kualitas tinggi. Setelah Anda mencapai batas untuk versi lengkap, kueri Anda akan otomatis beralih ke versi ringan.
Pembaruan 25 Februari 2025: Semua pengguna Plus sekarang dapat menggunakan riset mendalam.
Pembaruan 5 Februari 2025: Riset mendalam sekarang tersedia untuk pengguna Pro di Britania Raya, Swiss, dan Wilayah Ekonomi Eropa.
Hari ini, kami meluncurkan riset dalam di ChatGPT, kemampuan agen baru yang melakukan riset multi-langkah di internet untuk tugas yang rumit. ini dapat menyelesaikan dalam hitungan menit apa yang membutuhkan waktu berjam-jam bagi manusia.
Riset dalam adalah agen OpenAI selanjutnya yang dapat melakukan pekerjaan untuk Anda secara mandiri—Anda memberi prompt, dan ChatGPT akan menemukan, menganalisis, serta menyintesis ratusan sumber online untuk membuat laporan menyeluruh dengan level analis riset. Didukung oleh versi model OpenAI o3 yang akan datang yang dioptimalkan untuk penelusuran web dan analisis data, sistem ini memanfaatkan kemampuan penalaran untuk mencari, memahami, dan menganalisis jumlah besar teks, gambar, dan PDF di internet, serta beradaptasi secara dinamis sesuai dengan informasi yang ditemui.
Kemampuan untuk menyintesis pengetahuan merupakan prasyarat untuk membuat pengetahuan baru. Oleh karena itu, riset dalam menandai langkah penting menuju tujuan kami yang lebih luas dalam mengembangkan AGI, yang telah lama kami impikan sebagai kemampuan untuk menghasilkan penelitian ilmiah yang inovatif.
Riset dalam dibuat bagi orang yang melakukan kerja pengetahuan intensif di bidang seperti keuangan, sains, kebijakan, dan rekayasa serta membutuhkan riset menyeluruh, tepat, dan dapat diandalkan. Ini juga dapat bermanfaat bagi pembeli cerdas yang mencari rekomendasi yang sangat dipersonalisasi pada pembelian yang biasanya perlu riset cermat, seperti mobil, peralatan, dan perabotan. Setiap keluaran didokumentasikan sepenuhnya, dengan kutipan yang jelas dan ringkasan pemikiran, sehingga memudahkan referensi dan verifikasi informasi. Ini sangat efektif untuk menemukan informasi khusus dan non-intuitif sehingga akan perlu menjelajah banyak situs web. Riset dalam membebaskan waktu berharga dengan memungkinkan Anda mendelegasikan dan mempercepat riset web yang kompleks dan memakan waktu hanya dengan satu pertanyaan.
Riset dalam secara independen menemukan, menalar, dan mengintegrasikan wawasan dari berbagai sumber di internet. Untuk mencapai ini, riset dalam dilatih pada tugas dunia nyata yang memerlukan penggunaan browser dan alat bantu Python, menggunakan metode pembelajaran penguatan yang sama di belakang OpenAI o1, model penalaran pertama kami. Sementara o1 menunjukkan kemampuan mengesankan dalam koding, matematika, dan domain teknis lainnya, banyak tantangan dunia nyata menuntut konteks dan mengumpulkan informasi yang luas dari berbagai sumber online. Riset dalam dibangun atas kemampuan penalaran untuk menjembatani kesenjangan tersebut, sehingga dapat mengatasi tipe masalah yang dihadapi orang dalam pekerjaan dan kehidupan sehari-hari.
Di ChatGPT, pilih ‘riset dalam’ di pembuat pesan dan masukkan kueri Anda. Beri tahu ChatGPT tentang hal yang Anda butuhkan—baik analisis kompetitif pada platform streaming maupun laporan yang dipersonalisasi tentang sepeda komuter terbaik. Anda dapat melampirkan file atau spreadsheet untuk menambahkan konteks pada pertanyaan Anda. Setelah mulai berjalan, sidebar akan muncul, yang terdiri atas ringkasan langkah yang diambil dan sumber yang digunakan.
Riset dalam dapat perlu waktu sekitar 5 hingga 30 menit untuk menyelesaikan pekerjaan, sehingga dibutuhkan waktu untuk mendalami web. Sementara itu, Anda dapat berhenti sejenak atau mengerjakan tugas lain—Anda akan mendapatkan pemberitahuan setelah riset selesai. Keluaran akhir akan muncul sebagai laporan dalam obrolan–dalam beberapa minggu ke depan, kami juga akan menambahkan gambar tersemat, visualisasi data, dan keluaran analitik lain dalam laporan ini untuk kejelasan dan konteks tambahan.
Dibandingkan dengan riset dalam, GPT‑4o ideal untuk percakapan multimodal secara real-time. Untuk pertanyaan dengan banyak aspek dan domain tertentu di mana kedalaman dan detail sangat penting, kemampuan riset dalam untuk melakukan eksplorasi ekstensif dan mengutip setiap klaim merupakan perbedaan antara ringkasan cepat dan jawaban yang terdokumentasi dengan baik dan terverifikasi sehingga dapat digunakan sebagai produk kerja.
GPT-4o
Riset dalam
Riset dalam menanggapi prompt dengan cara yang sangat terperinci, menyediakan data khusus negara secara berdampingan untuk 10 negara maju teratas dan 10 negara berkembang teratas untuk referensi dan perbandingan yang mudah. Riset dalam menggunakan informasi tersebut untuk menawarkan rekomendasi masuk pasar yang terperinci, informatif, dan dapat digunakan.
Riset dalam dilatih menggunakan pembelajaran penguatan menyeluruh pada tugas penjelajahan dan penalaran yang sulit di berbagai domain. Melalui pelatihan itu, riset dalam belajar merencanakan dan menjalankan lintasan multi-langkah untuk menemukan data yang dibutuhkan, menelusuri kembali dan bereaksi terhadap informasi secara real-time apabila diperlukan. Model ini juga mampu menjelajahi file yang diunggah pengguna, merencanakan dan melakukan iterasi pada grafik menggunakan alat bantu python, menyematkan grafik dan gambar yang dihasilkan dari situs web dalam responsnya, dan mengutip kalimat atau bagian tertentu dari sumbernya. Sebagai hasil dari pelatihan, riset dalam mencapai titik tertinggi baru dalam sejumlah evaluasi publik yang berfokus pada masalah dunia nyata.
Pada Ujian Terakhir Kemanusiaan(terbuka di jendela baru), evaluasi yang baru-baru ini dirilis yang menguji AI di berbagai subjek tentang pertanyaan level pakar, model yang mendukung riset dalam memperoleh skor tertinggi baru dengan keakuratan 26,6%. Tes ini terdiri atas lebih dari 3.000 pertanyaan pilihan ganda dan jawaban singkat di lebih dari 100 subjek, mulai dari linguistik hingga ilmu roket, klasik hingga ekologi. Dibandingkan dengan OpenAI o1, peningkatan terbesar muncul dalam ilmu kimia, humaniora dan sosial, serta matematika. Model yang mendukung riset dalam menunjukkan pendekatan mirip manusia dengan mencari informasi khusus secara efektif saat diperlukan.
| Model | Akurasi (%) |
|---|---|
| GPT-4o | 3,3 |
| Grok-2 | 3,8 |
| Claude 3.5 Sonnet | 4,3 |
| Gemini Thinking | 6,2 |
| OpenAI o1 | 9,1 |
| DeepSeek-R1* | 9,4 |
| OpenAI o3-mini (sedang)* | 10,5 |
| OpenAI o3-mini (tinggi)* | 13,0 |
| Riset dalam OpenAI** | 26,6 |
Pada GAIA(terbuka di jendela baru)1, tolok ukur publik yang mengevaluasi AI pada pertanyaan dunia nyata, model yang mendukung riset dalam mencapai tingkat keunggulan baru (SOTA), menduduki puncak papan peringkat(terbuka di jendela baru) eksternal. Meliputi pertanyaan di tiga level kesulitan, penyelesaian tugas ini secara sukses perlu kemampuan termasuk penalaran, kefasihan multimodal, penjelajahan web, dan kemahiran penggunaan alat bantu.
| GAIA | ||||
|---|---|---|---|---|
| Level 1 | Level 2 | Level 3 | Rerata | |
| SOTA Sebelumnya(terbuka di jendela baru) | 67,92 | 67,44 | 42,31 | 63,64 |
| Riset Dalam (pass@1) | 74,29 | 69,06 | 47,6 | 67,36 |
| Riset Dalam (cons@64) | 78,66 | 73,21 | 58,03 | 72,57 |
Contoh tugas GAIA
Dalam evaluasi internal tugas level pakar di berbagai bidang, riset dalam dinilai oleh pakar domain telah mengautomasi beberapa jam penyelidikan manual yang sulit.
Nilai kelulusan dibandingkan Panggilan Alat Maks.
Contoh tugas level pakar
Nilai Kelulusan pada Tugas Level Pakar berdasarkan Estimasi Nilai Ekonomi
Nilai Kelulusan pada Tugas Level Pakar berdasarkan Estimasi Jam
Riset dalam mengungkap kemampuan baru yang signifikan, tetapi masih dalam tahap awal dan memiliki keterbatasan. Kadang-kadang, model ini dapat menghasilkan halusinasi fakta dalam respons atau membuat kesimpulan yang salah, meskipun dengan tingkat yang jauh lebih rendah dibandingkan dengan model ChatGPT yang ada, menurut evaluasi internal. Riset dalam dapat mengalami kesulitan membedakan informasi yang dapat dipercaya dari rumor, dan saat ini menunjukkan kelemahan dalam kalibrasi keyakinan, sehingga sering kali gagal menyampaikan ketidakpastian secara akurat. Saat peluncuran, mungkin ada kesalahan pembuatan format kecil dalam laporan dan kutipan, serta tugas dapat memerlukan waktu lebih lama untuk dimulai. Kami berharap semua masalah ini akan segera membaik seiring penggunaan dan waktu yang lebih lama.
Riset dalam pada ChatGPT saat ini memerlukan komputasi yang sangat intensif. Makin lama waktu yang dibutuhkan untuk melakukan riset pada kueri, makin banyak komputasi inferensi yang diperlukan. Kami memulai dengan versi yang dioptimalkan untuk pengguna Pro hari ini, dengan hingga 100 kueri per bulan. Pengguna Plus dan Team akan mendapatkan akses selanjutnya, diikuti oleh Enterprise. Kami masih berupaya menyediakan akses bagi pengguna di Kerajaan Inggris, Swiss, dan Wilayah Ekonomi Eropa.
Semua pengguna berbayar akan segera mendapatkan batasan kecepatan yang jauh lebih tinggi saat kami merilis versi riset dalam yang lebih cepat dan lebih hemat biaya yang didukung oleh model lebih kecil yang tetap memberikan hasil berkualitas tinggi.
Dalam waktu beberapa minggu dan bulan mendatang, kami akan mengerjakan infrastruktur teknis, memantau rilis terkini secara ketat, dan melakukan pengujian yang bahkan lebih ketat. Ini sejalan dengan prinsip penerapan iteratif kami. Jika semua pemeriksaan keamanan terus memenuhi standar rilis kami, kami memperkirakan akan merilis riset dalam kepada pengguna Plus dalam waktu sekitar satu bulan.
Riset dalam tersedia hari ini di web ChatGPT, dan akan diluncurkan ke aplikasi seluler dan desktop dalam bulan ini. Saat ini, riset dalam dapat mengakses web terbuka dan semua file yang diunggah. Di masa mendatang, Anda akan mampu terhubung ke sumber data yang lebih terspesialisasi—memperluas akses ke sumber daya berbasis langganan atau internal—untuk membuat keluaran lebih tangguh dan lebih dipersonalisasi.
Ke depan, kami membayangkan pengalaman agen yang hadir bersama di ChatGPT untuk riset dan eksekusi dunia nyata yang tidak sinkron. Kombinasi riset dalam, yang dapat melakukan investigasi online tidak sinkron, dan Operator, yang dapat mengambil tindakan di dunia nyata, akan memungkinkan ChatGPT untuk menjalankan tugas yang makin canggih untuk Anda.
Adendum tanggal 3 Februari 2025: Kami melaksanakan pengujian keselamatan yang ketat, evaluasi kesiapan, dan tinjauan tata kelola pada versi awal o3 yang mendukung riset dalam, dan mengidentifikasinya sebagai risiko Menengah(terbuka di jendela baru). Kami juga menjalankan pengujian keselamatan tambahan untuk lebih memahami risiko tambahan terkait kemampuan riset dalam untuk menjelajahi web, dan kami telah menambahkan mitigasi baru. Kami akan terus menguji secara menyeluruh dan memantau secara cermat rilis terbatas saat ini. Kami akan membagikan wawasan keselamatan dan perlindungan untuk riset dalam pada kartu sistem saat kami memperluas akses ke pengguna Plus.
Catatan kaki
- 1
Kami menemukan bahwa jawaban yang benar untuk kumpulan data ini banyak bocor secara online dan telah memblokir beberapa situs web atau URL untuk memastikan evaluasi model yang adil.
Penulis
Para Pemimpin Riset
Isa Fulford, Zhiqing Sun
Kontributor Dasar
Alex Tachard Passos, Alexandra Barr, Allison Tam, Charlotte Cole, Hyung Won Chung, Jason Wei, Jon Blackman, Scott Mayer McKinney, Valerie Qi
Kontributor Inti
Riset
Elaine Ya Le, Eric Mitchell, Eric Wallace, Hyung Won Chung, Ignasi Clavera, Leo Liu, Lorenz Kuhn, Louis Feuvrier, Max Schwarzer, Saachi Jain, Scottie Yan, Shunyu Yao, Vitchyr Pong
Penerapan
Carpus Chang, Harry Zhao, Joseph Trasatti, Joshua Dickens, Matt Kaufer, Mike Trpcic, Minnia Feng, Neel Ajjarapu, Peter Vidani, Sean Fitzgerald
Kontributor
Riset
Ahmed El-Kishky, AJ Ostrow, Alexander Wei, Andrei Gheorghe, Andrew Kondrich, Andrey Mishchenko, Anuj Nair, Behrooz Ghorbani, Brydon Eastman, Chak Li, Foivos Tsimpourlas, Francis Song, Giambattista Parascandolo,Gildas Chabot, Hessam Bagherinezhad, Haitang Hu, Hongyu Ren, Henry Aspegren, Hunter Lightman, Ilya Kostrikov, Ilge Akkaya, James Lennon, Jean Harb, Jonathan Ward, Kai Chen, Katy Shi, Kevin Liu, Kevin Yu, Manuka Stratta, Marvin Zhang, Mengyuan Yan, Mostafa Rohaninejad, Noam Brown, Phoebe Thacker, Raz Goan, Reah Miyara, Spencer Papay, Taylor Gordon, Wenda Zhou, Wenlei Xie, Yash Patil, Yann Dubois, Youlong Cheng, Yushi Wang, Wyatt Thompson
+ semua kontributor untuk o3.
Sistem Keselamatan
Adam Kalai, Alex Beutel, Andrea Vallone, Andy Applebaum, David Robinson, Elizabeth Proehl, Evan Mays, Grace Zhao, Irina Kofman, Jason Phang, Joaquin Quinonero Candela, Joel Parish, Kevin Liu, Kristen Ying, Lama Ahmad, Leon Maksin, Leyton Ho, Meghan Shah, Michele Wang, Miles Wang, Phillip Guo, Olivia Watkins, Owen Campbell-Moore, Patrick Chao, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Tejal Patwardhan, Tina Sriskandarajah, Troy Peterson, Yaodong Yu, Yunyun Wang
Penerapan
Adam Koppel, Adam Wells, Adele Li, Andy Applebaum, Andrey Malevich, Andrew Duberstein, Andrew Howell, Anton Tananaev, Ashley Tyra, Brandon Walkin, Bryan Ashley, Cary Bassin, Cary Hudson, Cory Decareaux, Cristina Scheau, Derek Chen, Dibya Bhattacharjee, Drea Lopez, Eric Antonow, Eric Burke, Filippo Raso, Fotis Chantzis, Freddie Sulit, Harris Cohen, Heather Whitney, Jay Dixit, Jeffrey Han, Jen Robinson, Jessica Shieh, Joel Parish, Kan Wu, Kevin Gladstone, Kshitij Wadhwa, Leo Vandriel, Leyton Ho, Liang Chen, Madeline Christian, Mamie Rheingold, Matt Jones, Michelle Fradin, Mike McClay, Mingxuan Wang, Nacho Soto, Niko Felix, Patrick Delaney, Paul McMillan, Philip Pronin, Rodrigo Riaza Perez, Samuel Miserendino, Scott Ethersmith, Steven Baldwin, Thomas Dimson, Tomo Hiratsuka, Yaming Lin, Yara Khakbaz, Yining Chen
Kepemimpinan
Akshay Nathan, Greg Brockman, Hannah Wong, Jakub Pachocki, Jerry Tworek, Johannes Heidecke, Josh Tobin, Liam Fedus, Mark Chen, Mia Glaese, Nick Turley, Sam Altman, Wojciech Zaremba