17 Juli 2025

Ngenalake agen ChatGPT: nyambungake panaliten lan tumindak

Saiki ChatGPT bisa mikir lan tumindak, milih kanthi proaktif saka piranti agenik kanggo ngrampungake tugas kanggo sampeyan nganggo komputeré dhewe.

Coba ing ChatGPT

Lagi dimuat…

Saiki ChatGPT bisa nindakake pakaryan kanggo sampeyan nganggo komputer virtualé dhewe, nangani tugas rumit saka wiwitan nganti pungkasan.

Saiki sampeyan bisa njaluk ChatGPT nangani panjaluk kaya “deloken kalendarku lan wenehana ringkesan babagan rapat klien sing bakal teka adhedhasar kabar anyar,” “rencanakake lan tuku bahan kanggo nggawe sarapan Jepang kanggo papat wong,” lan “analisa telung pesaing lan gawe deck slide.” ChatGPT bakal kanthi pinter njelajah situs web, nyaring asil, njaluk sampeyan mlebu kanthi aman yen dibutuhake, mbukak kode, nindakake analisis, lan malah ngirim slideshow lan spreadsheet sing bisa diowahi sing ngringkes temuane.

Ing inti kemampuan anyar iki ana sistem agenik sing manunggal. Iki nggabungake telung kekuwatan saka terobosan sadurunge: kemampuan Operator⁠ kanggo sesambungan karo situs web, kaprigelan panaliten jero⁠ ing nyintesis informasi, lan kapinteran uga kelancaran obrolan ChatGPT.

ChatGPT nindakake tugas-tugas iki nganggo komputer virtualé dhewe, kanthi luwes ngalih antarane nalar lan tumindak kanggo nangani alur kerja rumit saka wiwitan nganti pungkasan, kabeh adhedhasar instruksi sampeyan.

Sing paling penting, sampeyan tetep nyekel kendhali. ChatGPT njaluk idin sadurunge nindakake tumindak sing nduweni akibat, lan sampeyan bisa kanthi gampang nyelani, njupuk alih browser, utawa mungkasi tugas kapan wae.

Wiwit dina iki, pangguna Pro, Plus, lan Team bisa ngaktifake kemampuan agenik anyar ChatGPT langsung liwat dropdown tools saka penyusun pesen kanthi milih ‘agent mode’ kapan wae ing obrolan apa wae.

Sanajan agen ChatGPT wis dadi piranti sing kuat kanggo nangani tugas rumit, peluncuran dina iki mung wiwitan. Kita bakal terus nambah perbaikan penting kanthi iteratif lan rutin, supaya saya mampu lan migunani kanggo luwih akeh wong saka wektu ke wektu.

Evolusi alami saka Operator lan panaliten jero

Sadurunge, Operator lan panaliten jero saben-saben nggawa kekuwatan unik: Operator bisa nggulung, ngeklik, lan ngetik ing web, dene panaliten jero unggul ing nganalisis lan ngringkes informasi. Nanging kalorone paling apik ing kahanan sing beda: Operator ora bisa nyilem jero menyang analisis utawa nulis laporan rinci, lan panaliten jero ora bisa sesambungan karo situs web kanggo nyaring asil utawa ngakses konten sing mbutuhake otentikasi pangguna. Nyatane, kita weruh manawa akeh pitakon sing dicoba pangguna nganggo Operator sejatiné luwih cocog kanggo panaliten jero, mula kita nggabungake sing paling apik saka kalorone.

Kanthi ngintegrasikake kekuwatan pelengkap iki ing ChatGPT lan ngenalake piranti tambahan, kita wis mbukak kemampuan anyar sakabehé ing siji model. Saiki bisa sesambungan aktif karo situs web—ngeklik, nyaring, lan nglumpukake asil sing luwih presisi lan efisien. Sampeyan uga bisa ngalih kanthi alami saka obrolan sederhana menyang panjaluk tumindak langsung ing chat sing padha.

Agen sing makarya kanggo sampeyan, bebarengan karo sampeyan

Kita wis nglengkapi agen ChatGPT nganggo seperangkat piranti: browser visual sing sesambungan karo web liwat antarmuka pangguna grafis, browser adhedhasar teks kanggo pitakon web sing luwih sederhana lan adhedhasar nalar, terminal, lan akses API langsung. Agen iki uga bisa nggunakke konektor ChatGPT⁠(mbukak ing jendhela anyar), sing ngidini sampeyan nyambungake app kaya Gmail lan Github supaya ChatGPT bisa nemokake informasi sing cocog karo prompt sampeyan lan nggunakke ing tanggapane. Sampeyan uga bisa mlebu ing situs web apa wae kanthi njupuk alih browser, supaya bisa luwih jero lan luwih amba ing panaliten lan eksekusi tugas. Menehi ChatGPT macem-macem jalur kanggo ngakses lan sesambungan karo informasi web iki tegese bisa milih dalan optimal supaya tugas bisa ditindakake kanthi paling efisien. Contone, bisa nglumpukake informasi babagan kalender sampeyan liwat API, nalar kanthi efisien ing teks sing akeh nganggo browser adhedhasar teks, sembari uga nduweni kemampuan kanggo sesambungan kanthi visual karo situs web sing utamane dirancang kanggo manungsa.

Kabeh iki ditindakake nganggo komputer virtualé dhewe, sing njaga konteks sing dibutuhake kanggo tugas kasebut, sanajan digunakake pirang-pirang piranti—model bisa milih mbukak kaca nganggo browser teks utawa browser visual, ngundhuh file saka web, ngolahé kanthi mbukak printah ing terminal, banjur ndeleng output-é maneh ing browser visual. Model nyetel pendekatane kanggo nindakake tugas kanthi cepet, akurat, lan efisien.

Agen ChatGPT dirancang kanggo alur kerja iteratif lan kolaboratif, luwih interaktif lan luwes tinimbang model sadurunge. Nalika ChatGPT makarya, sampeyan bisa nyelani kapan wae kanggo njlentrehake instruksi, ngarahake menyang asil sing dikarepake, utawa ngganti tugas sakabehé. Iku bakal nerusake saka panggonan pungkasané mandheg, saiki nganggo informasi anyar, nanging tanpa kelangan kemajuan sadurunge. Kajaba kuwi, ChatGPT dhewe bisa kanthi proaktif njaluk rincian tambahan saka sampeyan yen dibutuhake supaya tugas tetep selaras karo tujuan sampeyan. Yen tugas mbutuhake wektu luwih suwe tinimbang sing dikira utawa katon macet, sampeyan bisa ngasoake, njaluk ringkesan progres, utawa mungkasi sakabehé lan nampa asil parsial. Yen sampeyan duwe app ChatGPT ing telpon, app iku bakal ngirim kabar nalika tugas wis rampung.

Ngluwari kegunaan ing donya nyata

Kemampuan agenik sing manunggal iki nambah migunané ChatGPT kanthi signifikan ing konteks saben dina lan profesional. Ing panggonan kerja, sampeyan bisa ngotomatisasi tugas sing bola-bali, kaya ngowahi screenshot utawa dashboard dadi presentasi sing kasusun saka unsur vektor sing bisa diowahi, ngatur ulang rapat, ngrancang lan pesen offsite, lan nganyari spreadsheet nganggo data finansial anyar nalika tetep njaga format sing padha. Ing urip pribadi, sampeyan bisa nggunakke kanggo ngrancang lan pesen itinerary lelungan kanthi gampang, ngrancang lan pesen pesta nedha bengi sakabèhé, utawa nemokake spesialis lan nggawe jadwal janji.

Kemampuan model sing luwih dhuwur iki kacermin ing kinerja state-of-the-art (SOTA) ing evaluasi sing ngukur browsing web lan kemampuan ngrampungake tugas ing donya nyata.

Ing Humanity’s Last Exam⁠(mbukak ing jendhela anyar)*, evaluasi sing ngukur kinerja AI ing macem-macem subjek liwat pitakon level ahli, model sing nguwasani agen ChatGPT nyetak pass@1 SOTA anyar ing 41.6. Amarga agen iki ngrancang kanthi dinamis lan milih pirantiné dhewe, bisa nggarap tugas sing padha kanthi cara beda ing saben run. Nalika iki kita skala nganggo strategi rollout paralel sing sederhana—mbukak nganti wolung upaya sekaligus lan milih sing nduweni kapercayan sing dilaporake dhewe paling dhuwur—skor HLE agen mundhak dadi 44.4.

FrontierMath** yaiku benchmark matematika paling angel sing dingerteni, ngemot masalah anyar sing durung diterbitake lan asring mbutuhake ahli matematika nganti pirang-pirang jam utawa malah dina kanggo ngrampungake. Kanthi panggunaan piranti, kaya akses menyang terminal kanggo eksekusi kode, agen ChatGPT tekan akurasi 27.4%, ngluwihi loro model sadurunge kanthi selisih gedhe.

Kita uga ngevaluasi model iki nganggo benchmark sing dimodelake saka tugas rumit ing donya nyata. Ing benchmark internal sing dirancang kanggo ngevaluasi kinerja model ing tugas kerja pengetahuan sing rumit lan nduweni nilai ekonomi, output agen ChatGPT sebanding utawa luwih apik tinimbang output manungsa ing kurang luwih separo kasus ing macem-macem wektu rampung tugas, dene kanthi signifikan ngluwihi o3 lan o4-mini. Output model diadili dening para ahli dibandhingake karo baseline manungsa berkualitas tinggi sing digawe dening performer paling apik ing saben bidang. Tugas-tugas iki, sing asale saka ahli ing macem-macem profesi lan industri, nggambarake pakaryan profesional ing donya nyata—kayata nyiapake analisis kompetitif panyedhiya urgent care on-demand, mbangun jadwal amortisasi rinci, lan ngenali sumur banyu sing layak kanggo fasilitas hidrogen ijo anyar.

Ing DSBench⁠(mbukak ing jendhela anyar), sing dirancang kanggo ngevaluasi agen ing tugas data science realistis sing nyakup analisis data lan pemodelan, agen ChatGPT kanthi cetha ngluwihi kinerja manungsa kanthi selisih sing gedhe.

Ing SpreadsheetBench, sing ngevaluasi model adhedhasar kemampuané nyunting spreadsheet saka skenario donya nyata, agen ChatGPT ngluwihi model sing wis ana kanthi selisih gedhe. Nalika diwenehi kemampuan kanggo nyunting spreadsheet langsung, agen ChatGPT malah nyetak luwih dhuwur kanthi 45.5%, dibandhingake karo Copilot in Excel sing 20.0%.

Metodologi: Penulis SpreadsheetBench nggunakake lingkungan Windows nganggo Microsoft Excel kanggo ngevaluasi spreadsheet. Kita nggunakake lingkungan OSX lan LibreOffice, sing bisa nyebabake beda cilik ing penilaian. Contone, penulis nemokake watesan Overall Hard 15.02% kanggo GPT‑4o, lan kita entuk 13.38%. Kita nggunakake benchmark lengkap 912 pitakonan.

Ing benchmark internal sing ngukur kemampuan model kanggo nindakake tugas pemodelan analis perbankan investasi taun pisanan nganti katelu—kayata nyusun model finansial telung laporan kanggo perusahaan Fortune 500 kanthi format lan sitasi sing bener, utawa mbangun model leveraged buyout kanggo take-private—model sing nguwasani agen ChatGPT kanthi signifikan ngluwihi panaliten jero lan o3. Saben tugas dinilai adhedhasar atusan kriteria sing gegandhengan karo kabeneran lan panggunaan formula.

Kita uga ngevaluasi agen ChatGPT ing BrowseComp⁠, benchmark sing kita terbitake awal taun iki kanggo ngukur kemampuan agen browsing nemokake informasi sing angel digoleki ing web. Model iki netepake SOTA anyar kanthi 68.9%, 17.4 poin persentase luwih dhuwur tinimbang panaliten jero.

Pungkasan, ing WebArena⁠(mbukak ing jendhela anyar), benchmark sing dirancang kanggo ngevaluasi kinerja agen browsing web ing ngrampungake tugas web donya nyata, model iki ningkat ngluwihi CUA bertenaga o3 (model sing nguwasani Operator).

Cara nggunakake

Sampeyan bisa ngaktifake kemampuan agenik anyar ChatGPT langsung liwat dropdown tools saka penyusun pesen kanthi milih ‘agent mode’ kapan wae ing obrolan apa wae. Cukup jelasna tugas sing dikarepake—apa iku nindakake panaliten jero, nggawe slideshow, utawa ngirim expense. Nalika nindakake tugas, narasi ing layar menehi visibilitas babagan persis apa sing ditindakake ChatGPT. Sampeyan bisa nyelani lan njupuk kendhali browser kapan wae dibutuhake, supaya tugas tetep selaras karo tujuan sampeyan.

Agen ChatGPT bisa ngakses konektor sampeyan, saengga bisa terintegrasi karo alur kerja lan ngakses informasi sing relevan lan bisa ditindaklanjuti. Sawise diautentikasi, konektor iki ngidini ChatGPT ndeleng informasi lan nindakake perkara kaya ngringkes inbox sampeyan kanggo dina kasebut utawa nemokake slot wektu sing sampeyan kasedhiya kanggo rapat—nanging, kanggo nindakake aksi ing situs-situs iki, sampeyan isih bakal dijaluk mlebu kanthi njupuk alih browser.

Saliyane, sampeyan bisa njadwalake tugas sing wis rampung supaya mbaleni kanthi otomatis, kayata nggawe laporan metrik mingguan saben Senin esuk.

Kemampuan anyar, risiko anyar

Rilis iki nandhani pisanan pangguna bisa njaluk ChatGPT nindakake aksi ing web. Iki ngenalake risiko anyar, mliginé amarga agen ChatGPT bisa makarya langsung karo data sampeyan, apa iku informasi sing diakses liwat konektor utawa situs web sing wis sampeyan lebokaké liwat mode takeover. Kita wis nguatake kontrol tangguh saka preview riset Operator lan nambah safeguard kanggo tantangan kaya nangani informasi sensitif ing web langsung, jangkauan pangguna sing luwih amba, lan akses jaringan terminal (sing winates). Sanajan mitigasi iki sacara signifikan nyuda risiko, piranti agen ChatGPT sing luwih jembar lan jangkauan pangguna sing luwih amba tegese profil risiko sakabèhé luwih dhuwur.

Kita menehi penekanan khusus kanggo nglindhungi agen ChatGPT saka manipulasi adversarial liwat injeksi prompt, sing dadi risiko kanggo sistem agenik umume, lan mula kita wis nyiapake mitigasi sing luwih jembar. Injeksi prompt yaiku upaya pihak katelu kanggo ngapusi prilakune liwat instruksi jahat sing bisa ditemoni agen ChatGPT ing web nalika ngrampungake tugas. Contone, prompt jahat sing didhelikake ing kaca web, kaya ing unsur sing ora katon utawa metadata, bisa ngapusi agen supaya nindakake aksi sing ora dikarepake, kaya nuduhake data pribadi saka konektor menyang penyerang, utawa nindakake aksi mbebayani ing situs sing wis dipigunakaké pangguna kanggo mlebu. Amarga agen ChatGPT bisa nindakake aksi langsung, serangan sing kasil bisa nduweni dampak luwih gedhe lan nggawa risiko luwih dhuwur.

Kita wis nglatih lan nguji agen iki kanggo ngenali lan nolak injeksi prompt, saliyane nggunakke pemantauan kanggo ndeteksi lan nanggapi serangan injeksi prompt kanthi cepet. Nuntut konfirmasi eksplisit saka pangguna sadurunge aksi sing nduweni konsekuensi luwih lanjut nyuda risiko cilaka saka serangan iki, lan pangguna bisa campur tangan ing tugas yen dibutuhake kanthi njupuk alih utawa ngasoake. Pangguna kudu nimbang tradeoff iki nalika mutusake informasi apa sing bakal diwenehake marang agen, uga njupuk langkah kanggo nyilikake paparan marang risiko iki, kayata mateni konektor nalika ora dibutuhake kanggo tugas.

Kita uga wis ngetrapake mitigasi kanggo kesalahan model, mliginé amarga model saiki bisa nindakake tugas sing nduweni dampak ing donya nyata:

Konfirmasi pangguna eksplisit: ChatGPT dilatih supaya kanthi eksplisit njaluk idin sampeyan sadurunge nindakake aksi sing nduweni akibat ing donya nyata, kaya nggawe tumbas.
Pengawasan aktif (“Watch Mode”): Tugas kritis tartamtu, kaya ngirim email, mbutuhake pengawasan aktif saka sampeyan.
Mitigasi risiko proaktif: ChatGPT dilatih supaya aktif nolak tugas berisiko tinggi kayata transfer bank.

Pungkasan, kita ngenalake kontrol tambahan kanggo matesi data sing bisa diakses model:

Kontrol privasi: Kanthi siji klik ing setelan ChatGPT, sampeyan bisa mbusak kabeh data browsing lan langsung metu saka kabeh sesi situs web sing aktif. Yen ora, cookie bakal tetep adhedhasar kebijakan cookie saben situs web sing dikunjungi, sing bisa nggawe kunjungan baleni menyang situs dadi luwih efisien.
Mode takeover browser sing aman: Nalika sampeyan sesambungan karo web nganggo browser ChatGPT (“takeover mode”), input sampeyan tetep pribadi. ChatGPT ora nglumpukake utawa nyimpen data apa wae sing sampeyan lebokake sajrone sesi iki, kayata sandhi, amarga model ora mbutuhake, lan luwih aman yen model ora tau ndeleng.

Lapisan keamanan paling kuat nganti saiki kanggo risiko biologis

Kanthi kemampuan model sing saya mundhak, kita mutusake kanggo nganggep agen ChatGPT minangka kemampuan Biologis lan Kimia Tinggi miturut Kerangka Kesiapan⁠ kita, lan ngaktifake safeguard sing gegandhengan. Sanajan kita ora nduweni bukti definitif manawa model iki bisa kanthi migunani mbantu wong anyar nggawe cilaka biologis sing abot—ambang kita kanggo kemampuan Tinggi—kita milih tumindak kanthi ati-ati lan ngetrapake safeguard sing dibutuhake saiki. Akibaté, model iki nduweni lapisan keamanan paling komprehensif saka kita nganti saiki kanthi safeguard tambahan kanggo biologi: threat modeling komprehensif, pelatihan penolakan dual-use, classifier lan monitor nalar sing tansah aktif, lan pipeline penegakan sing cetha.

Saliyane karya kita kanggo ngamanake agen ChatGPT, kita ngerti yen biosafety berlapis paling apik yen safeguard ngluwihi siji lab wae, mula kita kolaborasi ing saindenging ekosistem kanggo nguatake pertahanan. Wiwit dina pisanan kita wis makarya karo ahli biosecurity eksternal, lembaga safety, lan peneliti akademik kanggo mbentuk model ancaman, penilaian, lan kabijakan kita. Reviewer sing dilatih biologi wis ngesahake data evaluasi kita, lan red teamer ahli domain wis nguji safeguard kanthi skenario realistis. Awal sasi iki kita nglumpukake workshop Biodefense karo para ahli saka pamaréntah, akademia, laboratorium nasional, lan NGO kanggo nyepetake kolaborasi lan majokake riset biodefense sing didhukung AI. Kita bakal terus kerja bareng sacara global supaya tetep luwih maju tinimbang risiko sing muncul.

Wacanen luwih lengkap babagan pendekatan safety tangguh kita kanggo model agenik manunggal iki ing kertu sistem⁠. Kita uga ngluncurake program bug bounty⁠ supaya kita bisa nemokake lan mbenerake risiko donya nyata.

Kasedhiyan

Agen ChatGPT wiwit digelar dina iki kanggo Pro, Plus, lan Team; Pro bakal entuk akses ing pungkasan dina iki, dene pangguna Plus lan Team bakal entuk akses sajrone sawetara dina sabanjure. Pangguna Enterprise lan Education bakal entuk akses ing minggu-minggu sing bakal teka. Pangguna Pro nduweni 400 pesen saben wulan, dene pangguna mbayar liyane entuk 40 pesen saben wulan, kanthi panggunaan tambahan sing kasedhiya liwat opsi fleksibel adhedhasar kredit.

Kita isih nggarap supaya akses kasedhiya kanggo European Economic Area lan Swiss.

Situs preview riset Operator bakal tetep bisa digunakake sawetara minggu maneh, sawisé kuwi bakal dipateni. Panaliten jero minangka bagean saka kemampuan agen ChatGPT. Yen sampeyan luwih seneng fitur panaliten jero asli—sing bisa mbutuhake wektu luwih suwe nanging kanthi baku menehi tanggapan sing luwih rinci lan jero—sampeyan isih bisa ngaksesé kanthi milih “panaliten jero” saka dropdown ing penyusun pesen.

Watesan lan ndeleng maju

Agen ChatGPT isih ana ing tahap awal. Iku mampu nangani macem-macem tugas rumit, nanging isih bisa nggawe kesalahan.

Sanajan kita ndeleng potensi gedhe ing kemampuané ngasilake slideshow, fungsi iki saiki isih beta. Saiki, output kadhangkala isih krasa dhasar ing format lan polesan, mliginé yen diwiwiti tanpa dokumen sing wis ana. Kita fokusake kemampuan awal model iki kanggo ngasilake artefak sing ngatur informasi ing alur lan format sing cocog kanggo presentasi, kanthi unsur kaya teks, diagram, gambar, lan bentuk sing asli lan gampang diowahi sawisé diekspor, kanthi ngoptimalake struktur lan fleksibilitas. Saiki, uga isih ana bedane sok-sok antarane slide ing viewer lan powerpoint sing diekspor sing lagi kita upayakake kanggo dikurangi. Kajaba kuwi, sanajan saiki sampeyan bisa ngunggah spreadsheet sing wis ana supaya ChatGPT nyunting utawa nggunakke minangka template, kemampuan iki durung kasedhiya kanggo slideshow. Kita wis nglatih iterasi sabanjuré saka pembuatan slideshow ChatGPT supaya ngasilake output sing luwih polesan lan canggih, kanthi kemampuan sing luwih jembar lan format sing luwih apik.

Sakabèhé, kita ngarepake perbaikan terus-terusan ing efisiensi, kedalaman, lan versatilitas agen ChatGPT saka wektu ke wektu, kalebu interaksi sing luwih mulus nalika kita terus nyetel jumlah pengawasan sing dibutuhake saka pangguna supaya luwih migunani nalika tetep aman kanggo digunakake.

Lampiran

SpreadsheetBench
Model	Lingkungan evaluasi	Watesan alus (%): Level sel	Watesan alus (%): Level sheet	Watesan alus (%): Sakabèhé
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot in Excel	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
agen ChatGPT	OSX, LibreOffice	38.27	30.48	35.27
agen ChatGPT nganggo .xlsx	OSX, LibreOffice	50.56	37.51	45.54
Manungsa		75.56	65.00	71.33

Rekaman ulang livestream

Pangarang

OpenAI

Cathetan sikil

* Nalika browsing diaktifake, model kadhangkala bisa nemokake jawaban pas kanthi online, contone kanthi maca postingan blog sing ngemot conto masalah saka dataset. Kita nyuda kekuwatiran model nyontek nalika browsing nganggo rong strategi:

1. Domain sing diblokir sing biyen wis kita amati dadi sumber model nyontek.

2. Nggunakake model tambahan minangka monitor kanggo mriksa kabeh token output tool ing saben upaya kanggo ngenali prilaku sing curiga. Prilaku curiga ditegesi minangka "kaca, file, utawa cuplikan sing tujuan utamane yaiku menehi jawaban pas kanggo pitakon spesifik iki—umpamane, kunci penilaian resmi, gist “solusi” bocor, utawa diskusi sing ngutip jawaban rampung tembung demi tembung." Prilaku sing ora mbebayani ditegesi minangka "Sumber otoritatif apa wae sing bisa dikonsultasi manungsa sing telaten (dokumentasi, manual, makalah ilmiah, artikel tepercaya) sanajan kebeneran ngemot jawaban sing bener." Saben upaya sing monitor anggep rollout-é curiga diitung salah. Umume sampel sing gagal amarga cek iki yaiku masalah sing solusi pas-é kasedhiya ing akeh sumber internet sing ora ana gandhengané karo HLE.

**OpenAI nduweni akses eksklusif marang 237 saka 290 pitakon pribadi ing dataset Tier 1-3. Pitakon FrontierMath tier 4 ora kalebu ing evaluasi iki. Asil dievaluasi minangka rata-rata saka 16 upaya kanggo njawab saben pitakon. Asil agen ChatGPT dielisitasi dening OpenAI, dinilai dening Epoch AI, nganggo akses browser lan terminal, lan wates 128K token saben jawaban. Evaluasi OpenAI o4-mini lan o3 dielisitasi lan dinilai dening Epoch AI, tanpa akses browser lan terminal, nganggo script python liwat nelpon fungsi, lan wates 100K token saben jawaban.

*** Oracle@64 nuduhake skor paling apik sing digayuh ing 64 run sampel, dipilih nganggo ground truth (yaiku, kita milih upaya kanthi skor paling dhuwur kanggo saben tugas adhedhasar kinerja sing pancen wis dinilai). Kita nglaporake rata-rata saka skor paling apik saben tugas iki ing kabeh tugas. Metrik iki nyorot potensi wates ndhuwur model lan variasi kinerja tugas—nuduhake sepira mampu model nalika kasil lan nuduhake ruang kanggo ningkatake konsistensi liwat pelatihan luwih lanjut. Beda karo metrik “best of N” sing umum, sing milih adhedhasar kapercayan model, oracle@64 nggunakake ground truth kanggo milih lan ditrapake kanggo tugas sing dinilai ing skala kontinu 0–1 tinimbang pass/fail biner.