Memperkenalkan agen ChatGPT: menjembatani riset dan tindakan
ChatGPT kini berpikir dan bertindak, secara proaktif memilih dari kotak alat keahlian agen untuk menyelesaikan tugas bagi Anda menggunakan komputernya sendiri.
ChatGPT kini dapat bekerja bagi Anda menggunakan komputernya sendiri, menangani tugas rumit dari awal hingga akhir.
Kini, Anda dapat meminta ChatGPT untuk menangani permintaan seperti “lihat kalender saya dan beri saya penjelasan singkat tentang rapat klien mendatang didasarkan pada berita terkini”, “rencanakan dan beli bahan untuk membuat sarapan ala Jepang bagi empat orang”, dan “analisis tiga pesaing dan buat tayangan slide”. ChatGPT akan secara cerdas menavigasi situs web, memfilter hasil, membuat prompt Anda untuk masuk secara aman ketika diperlukan, menjalankan kode, melakukan analisis, serta bahkan memberikan tayangan slide dan spreadsheet yang dapat diedit yang merangkum temuannya.
Inti dari kemampuan baru ini adalah sistem agensi terpadu. Ini menggabungkan tiga kekuatan dari terobosan sebelumnya: Kemampuan operator untuk berinteraksi dengan situs web, keahlian riset dalam dalam mempersatukan informasi, dan kecerdasan serta kelancaran percakapan ChatGPT.
ChatGPT menjalankan tugas-tugas ini menggunakan komputer virtualnya sendiri, secara lancar beralih antara penalaran dan tindakan untuk menangani alur kerja yang rumit dari awal hingga akhir, semua didasarkan pada instruksi Anda.
Hal terpenting, Anda selalu memegang kendali. ChatGPT meminta izin sebelum mengambil tindakan penting, dan Anda dapat secara mudah menyela, mengambil alih browser, atau menghentikan tugas setiap saat.
Mulai hari ini, pengguna Pro, Plus, dan Team dapat mengaktifkan kemampuan agen baru ChatGPT secara langsung melalui menu tarik-turun alat bantu dari pembuat dengan memilih ‘mode agen’ setiap saat dalam percakapan.
Meskipun agen ChatGPT sudah menjadi alat bantu yang ampuh untuk menangani tugas rumit, peluncuran hari ini hanya permulaan. Kami akan terus menambahkan penyempurnaan signifikan secara berkala, sehingga membuatnya lebih mampu dan bermanfaat bagi lebih banyak orang seiring waktu.
Sebelumnya, Operator dan riset dalam masing-masing membawa kekuatan unik: Operator dapat menggulir, mengeklik, dan mengetik di web, sedangkan riset dalam unggul untuk menganalisis dan meringkas informasi. Namun, Operator bekerja paling baik dalam situasi berbeda: Operator tidak dapat melakukan analisis mendalam atau menulis laporan terperinci, dan riset dalam tidak dapat berinteraksi dengan situs web untuk menyempurnakan hasil atau mengakses konten yang memerlukan autentikasi pengguna. Faktanya, kami melihat bahwa banyak kueri yang dicoba pengguna dengan Operator ternyata lebih cocok untuk riset dalam, jadi, kami menggabungkan hal terbaik dari keduanya.
Dengan mengintegrasikan kekuatan pelengkap ini dalam ChatGPT dan memperkenalkan alat bantu tambahan, kami telah membuka kemampuan yang sepenuhnya baru dalam satu model. Kini, itu dapat secara aktif terlibat dengan situs web—mengeklik, memfilter, dan mengumpulkan hasil yang lebih tepat dan efisien. Anda juga dapat beralih secara alami dari percakapan sederhana ke permintaan tindakan langsung dalam obrolan yang sama.
Kami telah melengkapi agen ChatGPT dengan serangkaian alat bantu: browser visual yang berinteraksi dengan web melalui antarmuka pengguna grafis, browser berbasis teks untuk kueri web berbasis penalaran yang lebih sederhana, terminal, dan akses API langsung. Agen juga dapat memanfaatkan konektor ChatGPT(terbuka di jendela baru), sehingga mengizinkan Anda untuk menghubungkan aplikasi seperti Gmail dan Github sehingga ChatGPT dapat menemukan informasi terkait dengan prompt Anda dan menggunakannya dalam responsnya. Anda juga dapat masuk ke situs web dengan mengambil alih browser, sehingga mengizinkannya untuk menjelajahi lebih dalam dan lebih luas baik dalam riset maupun pelaksanaan tugas. Memberikan ChatGPT berbagai cara untuk mengakses dan berinteraksi dengan informasi web berarti itu dapat memilih jalur optimal guna melaksanakan tugas secara paling efisien. Misalnya, itu dapat mengumpulkan informasi tentang kalender Anda melalui API, sehingga secara efisien menalar teks dalam jumlah besar menggunakan browser berbasis teks, sekaligus juga memiliki kemampuan untuk berinteraksi secara visual dengan situs web yang dirancang terutama untuk manusia.
Semua ini dilakukan menggunakan komputer virtualnya sendiri, sehingga mempertahankan konteks yang diperlukan untuk tugas, bahkan ketika beberapa alat bantu digunakan—model dapat memilih untuk membuka halaman menggunakan browser teks atau browser visual, mengunduh file dari web, memanipulasinya dengan menjalankan perintah di terminal, lalu melihat keluarannya kembali di browser visual. Model menyesuaikan pendekatannya untuk melaksanakan tugas dengan cepat, keakuratan, dan efisien.
Agen ChatGPT dirancang untuk alur kerja kolaboratif dan berulang, yang jauh lebih interaktif dan fleksibel dari model sebelumnya. Ketika ChatGPT bekerja, Anda dapat menyela setiap saat untuk menjelaskan instruksi, mengarahkannya ke hasil yang diinginkan, atau mengubah tugas sepenuhnya. Proses ini akan melanjutkan dari titik terakhir, kini dengan informasi baru, tetapi tanpa kehilangan kemajuan sebelumnya. Demikian pula, ChatGPT sendiri dapat secara proaktif mencari detail tambahan dari Anda apabila dibutuhkan untuk memastikan tugas tetap selaras dengan sasaran Anda. Jika tugas perlu waktu lebih lama dari yang diantisipasi atau terasa macet, Anda dapat menjedanya, meminta ringkasan kemajuan, atau berhenti sepenuhnya dan menerima hasil sebagian. Jika Anda memiliki aplikasi ChatGPT di ponsel, aplikasi akan mengirimkan notifikasi ketika tugas Anda selesai.
Kemampuan agen terpadu ini secara signifikan meningkatkan kegunaan ChatGPT, baik dalam konteks sehari-hari maupun profesional. Di tempat kerja, Anda dapat mengautomasi tugas berulang, seperti mengubah tangkapan layar atau dasbor menjadi presentasi yang terdiri atas elemen vektor yang dapat diedit, menata ulang rapat, merencanakan dan memesan rapat di luar kantor, serta memperbarui spreadsheet dengan data keuangan baru sekaligus mempertahankan format yang sama. Dalam kehidupan pribadi Anda, Anda dapat menggunakannya untuk merencanakan dan memesan rencana perjalanan secara mudah, merancang dan memesan seluruh pesta makan malam, atau mencari spesialis dan menjadwalkan janji temu.
Peningkatan kemampuan model ini tercermin pada kinerja mutakhir (SOTA) dalam evaluasi yang mengukur kemampuan penjelajahan web dan penyelesaian tugas di dunia nyata.
Pada Humanity’s Last Exam(terbuka di jendela baru)*, evaluasi yang mengukur kinerja AI di berbagai subjek pada pertanyaan level pakar, model yang mendukung agen ChatGPT memperoleh skor SOTA pass@1 baru sebesar 41,6. Karena membuat paket secara dinamis dan memilih alat bantunya sendiri, agen dapat menangani tugas yang sama dengan cara berbeda di setiap tahap. Ketika kami mengukurnya dengan strategi peluncuran paralel yang sederhana—menjalankan hingga delapan percobaan sekaligus dan memilih salah satu percobaan dengan tingkat keyakinan tertinggi yang dilaporkan sendiri—skor HLE agen meningkat menjadi 44,4.
FrontierMath** adalah tolok ukur matematika paling sulit yang pernah diketahui, yang menampilkan soal baru yang belum dipublikasikan, yang sering kali perlu waktu beberapa jam atau bahkan beberapa hari bagi pakar matematika untuk menyelesaikannya. Dengan penggunaan alat bantu, seperti akses ke terminal untuk eksekusi kode, agen ChatGPT mencapai keakuratan sebesar 27,4%, mengungguli kedua model sebelumnya dengan margin yang lebar.
Kami juga menilai model menggunakan tolok ukur yang dimodelkan berdasarkan tugas dunia nyata yang rumit. Berdasarkan tolok ukur internal yang dirancang untuk mengevaluasi kinerja model pada tugas kerja berbasis pengetahuan yang rumit dan bernilai ekonomis, keluaran agen ChatGPT sebanding atau lebih baik dari keluaran manusia dalam sekitar setengah kasus di berbagai rentang waktu penyelesaian tugas, sekaligus secara signifikan mengungguli o3 dan o4-mini. Keluaran model dinilai para pakar berdasarkan data dasar manusia berkualitas tinggi yang dibuat oleh pelaku terbaik di setiap bidang. Tugas-tugas ini, yang bersumber dari para pakar di berbagai pekerjaan dan industri, yang mencerminkan pekerjaan profesional di dunia nyata—seperti menyiapkan analisis kompetitif terhadap penyedia layanan perawatan darurat sesuai permintaan, menyusun jadwal amortisasi terperinci, dan mengidentifikasi sumur air yang layak untuk fasilitas hidrogen hijau yang baru.
Pada DSBench(terbuka di jendela baru), yang dirancang untuk mengevaluasi agen pada tugas ilmu data realistis yang meliputi analisis data dan pemodelan, agen ChatGPT secara signifikan melampaui kinerja manusia dengan margin signifikan.
Pada SpreadsheetBench, yang mengevaluasi model berdasarkan kemampuannya untuk mengedit spreadsheet yang berasal dari skenario dunia nyata, agen ChatGPT mengungguli model yang ada dengan margin signifikan. Ketika diberi kemampuan untuk mengedit spreadsheet secara langsung, bahkan agen ChatGPT memperoleh skor lebih tinggi sebesar 45,5%, dibandingkan dengan Copilot di Excel sebesar 20,0%.
Metodologi: Penulis SpreadsheetBench menggunakan lingkungan Windows dan memakai Microsoft Excel untuk mengevaluasi spreadsheet. Kami menggunakan lingkungan OSX dan LibreOffice, sehingga dapat mengakibatkan sedikit perbedaan penilaian. Misalnya, penulis menemukan pembatasan Keras Secara Keseluruhan sebesar 15,02% untuk GPT‑4o, dan kami memperoleh 13,38%. Kami menggunakan tolok ukur 912 pertanyaan lengkap.
Berdasarkan tolok ukur internal yang mengukur kemampuan model untuk menangani tugas pemodelan analis perbankan investasitahun pertama hingga ketiga—seperti menyusun model keuangan tiga tahap untuk perusahaan Fortune 500 dengan format dan kutipan yang tepat, atau membangun model pembelian dengan leverage untuk akuisisi—model yang mendukung agen ChatGPT secara signifikan mengungguli riset dalam dan o3. Setiap tugas dinilai berdasarkan pada ratusan kriteria terkait ketepatan dan penggunaan rumus.
Kami juga mengevaluasi agen ChatGPT pada BrowseComp, tolok ukur yang kami publikasikan awal tahun ini yang mengukur kemampuan agen penjelajahan untuk menemukan informasi yang sulit ditemukan di web. Model tersebut menetapkan SOTA baru sebesar 68,9%, 17,4 poin persentase yang lebih tinggi dari riset dalam.
Akhirnya, pada WebArena(terbuka di jendela baru), tolok ukur yang dirancang untuk mengevaluasi kinerja agen penjelajahan web dalam menyelesaikan tugas web dunia nyata, model tersebut lebih baik dari CUA bertenaga o3 (model yang memberi daya pada Operator).
Anda dapat mengaktifkan kemampuan agen baru ChatGPT secara langsung melalui menu tarik-turun alat bantu dari pembuat dengan memilih ‘mode agen’ setiap saat dalam percakapan. Jelaskan saja tugas yang Anda inginkan—baik itu melakukan riset dalam, membuat tayangan slide, maupun menyerahkan laporan pengeluaran. Ketika menjalankan tugas Anda, narasi di layar memberikan visibilitas tentang hal yang sedang dilakukan ChatGPT. Anda dapat menyela dan mengambil alih kendali browser kapan pun dibutuhkan, sehingga memastikan tugas tetap selaras dengan sasaran Anda.
Agen ChatGPT dapat mengakses konektor Anda, sehingga mengizinkannya terintegrasi dengan alur kerja Anda dan mengakses informasi relevan dan dapat ditindaklanjuti. Setelah diautentikasi, konektor ini mengizinkan ChatGPT melihat informasi dan melakukan beberapa hal seperti merangkum kotak masuk Anda untuk hari itu atau menemukan slot waktu yang tersedia untuk rapat––melakukan tindakan di situs ini, Anda tetap akan memiliki prompt untuk masuk dengan mengambil alih browser.
Di samping itu, Anda dapat menjadwalkan tugas yang telah selesai agar berulang secara otomatis, seperti membuat laporan metrik mingguan setiap Senin pagi.
Rilis ini menandai pengguna pertama kali dapat meminta ChatGPT untuk melakukan tindakan di web. Ini menimbulkan risiko baru, terutama karena agen ChatGPT dapat bekerja secara langsung dengan data Anda, baik itu informasi yang diakses melalui konektor maupun situs web yang Anda masuki melalui mode ambil alih. Kami telah memperkuat kendali yang kuat dari pratinjau riset Operator dan menambahkan perlindungan untuk tantangan seperti menangani informasi sensitif di web langsung, jangkauan pengguna yang lebih luas, dan akses jaringan terminal (terbatas). Meskipun mitigasi ini secara signifikan mengurangi risiko, alat bantu agen ChatGPT yang diperluas dan jangkauan pengguna yang lebih luas berarti profil risiko secara keseluruhan lebih tinggi.
Kami telah memberikan penekanan khusus pada perlindungan agen ChatGPT terhadap manipulasi adversarial melalui injeksi prompt, yang merupakan risiko bagi sistem agen secara umum, dan telah menyiapkan mitigasi yang lebih luas sesuai dengan itu. Injeksi prompt merupakan upaya pihak ketiga untuk memanipulasi perilakunya melalui instruksi berbahaya yang dapat ditemui agen ChatGPT di web ketika menyelesaikan tugas. Misalnya, prompt berbahaya yang tersembunyi di halaman web, seperti dalam elemen yang tidak terlihat atau metadata, dapat mengelabui agen untuk melakukan tindakan tidak diinginkan, seperti membagikan data pribadi dari konektor kepada penyerang, atau melakukan tindakan berbahaya di situs tempat pengguna masuk. Karena agen ChatGPT dapat mengambil tindakan langsung, serangan yang berhasil dapat berdampak lebih besar dan menimbulkan risiko lebih tinggi.
Kami telah melatih dan menguji agen tersebut dalam mengidentifikasi dan melawan injeksi prompt, selain menggunakan pemantauan untuk mendeteksi dan merespons serangan injeksi prompt secara cepat. Mewajibkan konfirmasi pengguna secara eksplisit sebelum melakukan tindakan konsekuensial lebih lanjut mengurangi risiko bahaya dari serangan ini, dan pengguna dapat campur tangan dalam tugas sebagaimana dibutuhkan dengan mengambil alih atau menjeda. Pengguna harus mempertimbangkan pertimbangan-pertimbangan ini ketika memutuskan jenis informasi yang akan diberikan kepada agen, serta mengambil langkah-langkah untuk meminimalkan paparan mereka terhadap risiko-risiko ini, seperti menonaktifkan konektor ketika tidak dibutuhkan untuk tugas.
Kami juga telah menerapkan mitigasi seputar kesalahan model, terutama karena model sekarang dapat melaksanakan tugas yang berdampak terhadap dunia nyata:
- Konfirmasi pengguna secara eksplisit: ChatGPT dilatih agar secara eksplisit meminta izin Anda sebelum mengambil tindakan dengan konsekuensi di dunia nyata, seperti melakukan pembelian.
- Pengawasan aktif (“Mode Tonton”): Tugas-tugas penting tertentu, seperti mengirim email, memerlukan pengawasan aktif Anda.
- Mitigasi risiko secara proaktif: ChatGPT dilatih untuk secara aktif menolak tugas berisiko tinggi seperti transfer bank.
Terakhir, kami telah memperkenalkan kendali tambahan untuk membatasi data yang dapat diakses model:
- Kendali privasi: Dengan satu klik di pengaturan ChatGPT, Anda dapat menghapus semua data penjelajahan dan segera keluar dari semua sesi situs web yang aktif. Jika tidak, cookie akan tetap ada didasarkan pada kebijakan cookie di setiap situs web yang dikunjungi, sehingga dapat membuat kunjungan berulang ke situs menjadi lebih efisien.
- Mode ambil alih browser yang aman: Ketika Anda berinteraksi dengan web menggunakan browser ChatGPT ("mode ambil alih"), masukan Anda tetap bersifat pribadi. ChatGPT tidak mengumpulkan atau menyimpan data yang Anda masukkan selama sesi ini, seperti kata sandi, karena model tidak memerlukannya, dan itu lebih aman jika tidak pernah melihatnya.
Dengan peningkatan kemampuan model, kami telah mengambil keputusan untuk memperlakukan agen ChatGPT sebagai agen dengan kemampuan Biologis dan Kimia Tinggi berdasarkan Kerangka Kerja Kesiapan kami, dengan mengaktifkan perlindungan terkait. Meskipun kami tidak memiliki bukti yang pasti bahwa model dapat secara signifikan membantu pemula untuk membuat bahaya biologis yang parah—ambang batas kami untuk kemampuan Tinggi—kami berhati-hati dan menerapkan langkah-langkah perlindungan yang dibutuhkan sekarang. Akibatnya, model ini memiliki kumpulan keselamatan paling lengkap hingga saat ini dengan perlindungan yang ditingkatkan untuk biologi: pemodelan ancaman secara menyeluruh, pelatihan penolakan penggunaan ganda, pembuat klasifikasi dan pemantau penalaran yang selalu aktif, serta alur penegakan yang jelas.
Selain upaya kami untuk mengamankan agen ChatGPT, kami tahu bahwa keselamatan hayati berlapis bekerja paling baik apabila perlindungan melampaui satu lab, sehingga kami berkolaborasi di seluruh ekosistem untuk memperkuat pertahanan. Sejak awal, kami telah bekerja sama dengan pakar keamanan hayati eksternal, lembaga keselamatan, serta peneliti akademis untuk membentuk model ancaman, penilaian, dan kebijakan kami. Peninjau yang terlatih di bidang biologi memvalidasi data evaluasi kami, dan red teamer di bidangnya telah menguji perlindungan secara ketat dalam skenario realistis. Awal bulan ini, kami menyelenggarakan lokakarya Pertahanan Hayati dengan pakar dari pemerintah, akademisi, laboratorium nasional, dan LSM untuk mempercepat kolaborasi dan memajukan riset pertahanan hayati yang didukung oleh AI. Kami akan terus bermitra secara global agar tetap menjadi terdepan dalam menghadapi risiko yang muncul.
Baca selengkapnya tentang pendekatan keselamatan tangguh kami untuk model agen terpadu di kartu sistem. Kami juga meluncurkan program bug bounty agar kami dapat menemukan dan mengatasi risiko di dunia nyata.
Agen ChatGPT mulai diluncurkan hari ini untuk pengguna Pro, Plus, dan Team; pengguna Pro akan mendapatkan akses pada akhir hari, sedangkan pengguna Plus dan Team akan mendapatkan akses dalam waktu beberapa hari selanjutnya. Pengguna Enterprise dan Education akan mendapatkan akses dalam waktu beberapa minggu mendatang. Pengguna Pro memiliki 400 pesan per bulan, sedangkan pengguna berbayar lainnya mendapatkan 40 pesan per bulan, dengan penggunaan tambahan yang tersedia melalui opsi berbasis kredit yang fleksibel.
Kami masih berupaya mengaktifkan akses bagi Wilayah Ekonomi Eropa dan Swiss.
Situs pratinjau riset Operator akan tetap berfungsi selama beberapa minggu ke depan, setelah itu akan ditutup. Riset dalam merupakan bagian dari kemampuan agen ChatGPT. Jika Anda lebih menyukai fitur riset dalam asli—yang dapat memerlukan waktu lebih lama untuk dijalankan tetapi memberikan respons lebih detail dan mendalam secara default—Anda masih dapat mengaksesnya dengan memilih “riset dalam” dari menu tarik-turun di pembuat pesan.
Agen ChatGPT masih berada dalam tahap awal. Agen ChatGPT mampu menangani berbagai tugas rumit, tetapi masih dapat membuat kesalahan.
Meskipun kami melihat potensi yang signifikan dalam kemampuannya untuk menghasilkan tayangan slide, fungsi ini saat ini masih dalam versi beta. Saat ini, keluaran terkadang terasa sederhana dalam hal memformat dan memoles, terutama ketika dimulai tanpa dokumen yang ada. Kami memfokuskan kemampuan awal model pada membuat artefak yang mengelola informasi dalam alur dan format yang sesuai untuk presentasi, dengan elemen seperti teks, bagan, gambar, dan bentuk yang dapat diedit secara asli dan mudah setelah diekspor, sehingga mengoptimalkan struktur dan fleksibilitas. Saat ini, terkadang masih ada perbedaan antara slide pada penampil dan PowerPoint yang diekspor, yang sedang kami upayakan untuk dikurangi. Di samping itu, meskipun saat ini Anda dapat mengunggah spreadsheet yang ada untuk diedit atau digunakan sebagai templat oleh ChatGPT, kemampuan ini belum tersedia untuk tayangan slide. Kami telah melatih iterasi berikutnya pembuatan tayangan slide ChatGPT agar dapat menghasilkan keluaran yang lebih profesional dan canggih, dengan kemampuan lebih luas dan pemformatan lebih baik.
Secara keseluruhan, kami mengharapkan perbaikan berkelanjutan pada efisiensi, kedalaman, dan fleksibilitas agen ChatGPT dari waktu ke waktu, termasuk interaksi lebih lancar ketika kami terus menyesuaikan tingkat pengawasan yang diperlukan dari pengguna agar lebih bermanfaat sekaligus memastikan keamanan penggunaan.
SpreadsheetBench | ||||
Model | Lingkungan evaluasi | Pembatasan lunak (%): Level sel | Pembatasan lunak (%): Level lembar | Pembatasan lunak (%): Keseluruhan |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot di Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Agen ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Agen ChatGPT dengan .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Manusia | 75,56 | 65,00 | 71,33 |
Penulis
Catatan kaki
* Saat menjelajah diaktifkan, model kadang-kadang dapat menemukan jawaban yang tepat secara online, misalnya, dengan membaca postingan blog dengan contoh masalah dari kumpulan data. Kami mengurangi masalah kecurangan model saat menjelajah dengan dua strategi:
1. Domain yang diblokir, yang modelnya selama ini kami lihat curang.
2. Menggunakan model ekstra sebagai monitor untuk memeriksa semua token keluaran alat bantu pada setiap upaya untuk mengidentifikasi perilaku yang mencurigakan. Perilaku mencurigakan didefinisikan sebagai "halaman, file, atau cuplikan yang tujuan utamanya adalah memberikan jawaban yang tepat untuk pertanyaan tertentu—misalnya, kunci penilaian resmi, inti ‘solusi’ yang bocor, atau pembahasan yang mengutip jawaban akhir kata demi kata." Perilaku baik didefinisikan sebagai "Sumber terpercaya yang dapat dirujuk oleh manusia yang tekun (dokumen, manual, makalah ilmiah, artikel bereputasi baik) meskipun secara kebetulan terdiri atas jawaban yang benar." Upaya apabila pemantauan menganggap peluncuran tersebut mencurigakan akan dihitung sebagai jawaban yang salah. Kebanyakan contoh yang gagal dalam pemeriksaan ini adalah masalah yang solusi pastinya tersedia di berbagai sumber internet yang tidak terkait dengan HLE.
**OpenAI memiliki akses eksklusif ke 237 dari 290 pertanyaan pribadi pada kumpulan data Jenjang 1-3. Pertanyaan FrontierMath jenjang 4 tidak disertakan dalam evaluasi ini. Hasil dievaluasi sebagai rata-rata dari 16 kali percobaan untuk menjawab setiap pertanyaan. Hasil agen ChatGPT diperoleh oleh OpenAI, dinilai oleh Epoch AI, dengan akses browser dan terminal, serta batas 128 ribu token per jawaban. Evaluasi OpenAI o4-mini dan o3 diperoleh dan dinilai oleh Epoch AI, tanpa akses browser dan terminal, dengan penggunaan skrip python melalui pemanggilan fungsi, dan batas 100 ribu token per jawaban.
*** Oracle@64 mengacu pada skor terbaik yang dicapai dari 64 kali sampelnya diuji, dipilih menggunakan kebenaran dasar (yaitu, kami memilih percobaan dengan skor tertinggi untuk setiap tugas didasarkan pada kinerja aktual yang dinilai). Kami melaporkan rata-rata skor terbaik per tugas di semua tugas. Metrik ini menyoroti potensi batas atas model dan variansnya dalam kinerja tugas—menunjukkan seberapa mampu model ketika berhasil dan menunjukkan ruang untuk meningkatkan konsistensi melalui pelatihan lebih lanjut. Berbeda dengan metrik “terbaik dari N” pada umumnya, yang memilih didasarkan pada keyakinan model, oracle@64 menggunakan kebenaran dasar untuk pemilihan dan diterapkan pada tugas yang dinilai dengan skala 0–1 yang berkelanjutan, bukan lulus/gagal biner.


