Hulyo 17, 2025

Ipinapakilala ang ChatGPT agent: pinag-uugnay ang pananaliksik at aksyon

Nag-iisip at kumikilos na ngayon ang ChatGPT, at aktibo itong pumipili mula sa isang toolbox ng mga agentic skill upang makumpleto ang mga gawain para sa iyo gamit ang sarili nitong computer.

Subukan sa ChatGPT

Naglo-load…

Kaya na ngayon ng ChatGPT na magtrabaho para sa iyo gamit ang sarili nitong computer, at gumawa ng mga kumplikadong gawain mula sa simula hanggang sa matapos.

Puwede mo nang ipagawa ngayon sa ChatGPT ang mga kahilingang tulad ng "tingnan ang aking kalendaryo at i-brief ako sa mga paparating na meeting sa client batay sa mga kamakailang balita," "magplano at bumili ng mga sangkap para sa paggawa ng Japanese breakfast para sa apat," at "pag-aralan ang tatlong kakumpitensya at gumawa ng isang slide deck." Ang ChatGPT ay matalinong magna-navigate sa mga website, magfi-filter ng mga resulta, magpo-prompt sa iyo na mag-log in nang ligtas kung kinakailangan, magpapatakbo ng code, magsasagawa ng pagsusuri, at maghahatid din ng mga nae-edit na slideshow at spreadsheet na nagbubuod ng mga natuklasan nito.

Isang unified agentic system ang nagpapagana ng bagong kakayahang ito. Pinagsasama-sama nito ang tatlong kalakasan ng mga naunang tagumpay: ang kakayahan ng Operator⁠ na makipag-interact sa mga website, ang skill ng malalimang pananaliksik⁠ sa pag-synthesize ng impormasyon, at ang katalinuhan at kahusayan sa pakikipag-ugnayan ng ChatGPT.

Isinasagawa ng ChatGPT ang mga gawaing ito gamit ang sarili nitong virtual computer, na mahusay na nagpapalipat-lipat sa pagdadahilan at aksyon upang magawa ang mga kumplikadong proseso ng gawain mula sa simula hanggang sa matapos, batay lahat sa mga iniutos mo.

Ang pinakamahalaga, palaging ikaw ang may kontrol. Humihingi ng pahintulot ang ChatGPT bago ito gumawa ng mga aksyon na may kahihinatnan, at madali mong magagawa ang pag-antala, pagkontrol sa browser, o paghinto sa mga gawain sa anumang punto.

Simula ngayon, puwede nang direktang i-activate ng mga user ng Pro, Plus, at Team ang mga bagong kakayahan ng agent ng ChatGPT sa pamamagitan ng dropdown ng mga tool mula sa composer sa pamamagitan ng pagpili ng 'agent mode' sa anumang punto sa kahit anong pag-uusap.

Bagama't isa nang mahusay na tool ang ChatGPT agent sa pagsasagawa ng mga kumplikadong gawain, simula pa lang ang paglulunsad ngayong araw. Magpapatuloy kami sa regular na paulit-ulit na makabuluhang pagpapahusay, para mas magkaroon ito ng kakayahan at mas maging kapaki-pakinabang ito sa mas maraming tao sa paglipas ng panahon.

Isang natural na ebolusyon ng Operator at malalimang pananaliksik

Dati, may kanya-kanyang kalakasan ang Operator at malalimang pananaliksik: May kakayahan ang Operator na mag-scroll, mag-click, at mag-type sa web, at mahusay naman ang malalimang pananaliksik sa pagsusuri at pagbubuod ng impormasyon. Ngunit pinakamahusay na gumagana ang mga ito sa mga magkaibang sitwasyon: Hindi kaya ng Operator na malalimang magsuri o magsulat ng mga detalyadong ulat, at hindi kaya ng malalimang pananaliksik na makipag-interact sa mga website upang pinuhin ang mga resulta o ma-access ang content na nangangailangan ng pag-authenticate ng user. Sa katunayan, napansin namin na marami sa mga query na sinubukan ng mga user sa Operator ang mas naaangkop para sa malalimang pananaliksik, kaya't pinagsama namin ang pinakamahusay na kakayahan ng dalawa.

Sa pamamagitan ng pagsasama ng mga magkatugmang kalakasang ito sa ChatGPT at pagpapakilala ng mga karagdagang tool, nakapaglabas kami ng mga ganap na bagong kakayahan sa loob ng isang modelo. May kakayahan na ito ngayon na aktibong makipag-ugnayan sa mga website—mag-click, mag-filter, at mangolekta ng mga mas tumpak at mas mahusay na resulta. Puwede ka ring natural na mag-transition mula sa simpleng pag-uusap patungo sa paghiling ng mga aksyon nang direkta sa iisang chat lang.

Isang agent na nagtatrabaho para sa iyo, kasama mo

Nilagyan namin ang ChatGPT agent ng isang hanay ng mga tool: isang visual na browser na nakikipag-interact sa web sa pamamagitan ng graphical-user interface, isang text-based na browser para sa mga mas simpleng query sa web na nakabatay sa pagdadahilan, isang terminal, at direktang pag-access sa API. Puwede ring gamitin ng agent ang mga ChatGPT connector⁠(magbubukas sa bagong window), na nagbibigay-daan sa iyo na magkonekta ng mga app tulad ng Gmail at Github upang makahanap ang ChatGPT ng impormasyong may kaugnayan sa mga prompt mo at magamit nito ang mga iyon sa mga sagot nito. Puwede ka ring mag-log in sa kahit anong website sa pamamagitan ng pag-kontrol sa browser, na nagpapahintulot dito na pumunta nang mas malalim at mas malawak sa parehong pananaliksik at pagsasagawa ng gawain. Ang pagbibigay sa ChatGPT ng iba't ibang paraan para ma-access at makipag-ugnayan sa impormasyon sa web ay nangangahulugang puwede nitong piliin ang pinakamainam na landas para mas epektibong maisagawa ang mga gawain. Halimbawa, magagawa nitong mangalap ng impormasyon tungkol sa iyong kalendaryo sa pamamagitan ng isang API, mahusay na makapagbigay ng dahilan sa napakaraming teksto gamit ang text-based na browser, habang nagagawa rin nitong visual na makipag-interact sa mga website na pangunahing idinisenyo para sa mga tao.

Ang lahat ng ito ay ginagawa gamit ang sarili nitong virtual computer, na nagpapanatili ng kontekstong kinakailangan para sa gawain, kahit na maraming tool ang ginagamit—puwedeng piliin ng modelo na buksan ang isang page gamit ang text browser o visual browser, i-download ang isang file mula sa web, manipulahin ito sa pamamagitan ng pagpapatakbo ng isang command sa terminal, at pagkatapos ay tingnan ang output sa visual browser. Iniaakma ng modelo ang diskarte nito para magawa ang mga gawain nang mabilis, tumpak, at mahusay.

Idinisenyo ang ChatGPT agent para sa mga paulit-ulit at collaborative na proseso ng gawain, na higit na interactive at flexible kaysa sa mga naunang modelo. Habang gumagawa ang ChatGPT, puwede mo itong abalahin sa anumang punto para linawin ang mga iniuutos mo, gabayan ito papunta sa mga nais na resulta, o ganap na palitan ang gawain. Magpapatuloy ito sa kung saan ito tumigil, nang may bago na ngayong impormasyon, ngunit naroon pa rin ang naunang nagawa na. Gayundin, maaaring aktibong humingi ang ChatGPT ng mga karagdagang detalye mula sa iyo kapag kinakailangan upang matiyak na nakahanay pa rin ang gawain sa mga layunin mo. Kung mas tumatagal kaysa sa inaasahan o parang hindi umuusad ang isang gawain, magagawa mo na saglit itong pahintuin, humingi rito ng buod ng progreso, o ganap na patigilin ito at matanggap ang mga hindi kumpletong resulta. Kung mayroon kang ChatGPT app sa iyong telepono, magpapadala ito sa iyo ng notification kapag tapos na ito sa iyong gawain.

Pagpapalawak ng paggamit sa tunay na mundo

Lubos na pinapahusay ng mga pinag-isang kakayahan ng agent na ito ang pagiging kapaki-pakinabang ng ChatGPT sa parehong pang-araw-araw at propesyonal na konteksto. Sa trabaho, puwede mong i-automate ang mga paulit-ulit na gawain, tulad ng pag-convert ng mga screenshot o dashboard sa mga presentation na binubuo ng mga nae-edit na vector element, muling pag-aayos ng mga meeting, pagpaplano at pag-book ng mga offsite, at pag-update ng mga spreadsheet na may bagong financial data habang pinapanatili ang parehong formatting. Sa iyong personal na buhay, puwede mo itong gamitin para madaling makapagplano at makapag-book ng mga itinerary sa paglalakbay, makapagdisenyo at makapag-book ng lahat ng dinner party, o makahanap ng mga espesyalista at makapag-iskedyul ng mga appointment.

Makikita ang mga pinahusay na kakayahan ng modelo sa state-of-the-art (SOTA) na performance nito sa mga pagsusuring sumusukat sa mga kakayahan sa pagkumpleto sa gawain sa pag-browse sa web at gawain sa totoong mundo.

Sa Humanity’s Last Exam⁠(magbubukas sa bagong window)*, isang pagsusuri na sumusukat sa performance ng AI sa maraming iba't ibang paksa sa pamamagitan ng mga tanong na pang-eksperto, may score ang modelong nagpapatakbo sa ChatGPT agent na bagong pass@1 SOTA na 41.6. Dahil dynamic na nagpaplano ang agent at pumipili ito ng mga sarili nitong tool, kaya nitong gawin ang parehong gawain sa iba't ibang paraan sa bawat pagtakbo. Noong pinalawak namin ito gamit ang isang simpleng parallel rollout na diskarte—kung saan nagpatakbo kami ng hanggang walong pagsubok nang sabay-sabay at pinili namin ang may pinakamataas na sariling iniulat na kumpiyansa—tumaas sa 44.4 ang HLE score ng agent.

Ang Ang FrontierMath** ang pinakamahirap na kilalang benchmark sa matematika, na nagtatampok ng mga bago at hindi pa nailalathalang problema kung saan kadalasang inaabot ang mga ekspertong mathematician nang ilang oras o araw bago masagot. Sa paggamit ng tool, tulad ng pag-access sa isang terminal para sa pag-execute ng code, nakakaabot ang CHatGPT ng 27.4% na katumpakan, na mas mataas at may malaking agwat sa parehong nakaraang modelo.

Sinuri rin namin ang modelo gamit ang mga benchmark na ibinatay mula sa mga kumplikadong gawain sa totoong mundo. Sa isang internal na benchmark na idinisenyo upang suriin ang performance ng modelo sa mga kumplikadong gawain sa trabaho na may kaugnayan sa kaalamang mahalaga sa ekonomiya, maihahambing ang output ng ChatGPT agent sa, o mas mahusay ito sa, mga output ng mga tao sa halos kalahati ng mga sitwasyon sa iba't ibang oras ng pagkumpleto ng gawain, nang may napakalaking agwat sa o3 at o4-mini. Sinusuri ng mga eksperto ang mga output ng modelo kumpara sa mga mataas na kalidad na baseline ng tao na ginawa ng mga nangungunang performer sa bawat larangan. Sumasalamin ang mga gawaing ito, na kinuha mula sa mga eksperto mula sa iba't ibang propesyon at industriya, sa propesyonal na gawain sa tunay na mundo—gaya ng paghahanda ng mahusay na pagsusuri ng mga on-demand na provider ng agarang pangangalaga, pagbuo ng mga detalyadong iskedyul ng amortization, at pagtukoy ng mga magagamit na balon ng tubig para sa isang bagong green hydrogen facility.

Sa DSBench⁠(magbubukas sa bagong window), na idinisenyo upang suriin ang mga agent sa mga makatotohanang gawain sa data science na sumasaklaw sa pagsusuri at pagmomodelo ng data, kapansin-pansing nahigitan ng ChatGPT agent ang performance ng tao nang may malaking agwat.

Sa SpreadsheetBench, na sumusuri sa mga modelo sa kakayahan ng mga itong mag-edit ng mga spreadsheet mula sa mga sitwasyon sa totoong mundo, nahigitan ng ChatGPT agent ang performance ng mga kasalukuyang modelo nang may malaking agwat. Nang binigyan ng kakayahang mag-edit nang direkta sa mga spreadsheet, nakakuha ang ChatGPT agent ng score na mas mataas pa sa 45.5%, kumpara sa Copilot sa Excel na may 20.0%.

Pamamaraan: Gumamit ang mga may-akda ng SpreadsheetBench ng Windows environment gamit ang Microsoft Excel para suriin ang mga spreadsheet. Gumamit kami ng OSX environment at LibreOffice, na maaaring magresulta sa mga maliit na pagkakaiba sa pagbibigay ng grado. Halimbawa, natuklasan ng mga may-akda ang isang Pangkalahatang Mahigpit na paghihigpit na 15.02% para sa GPT‑4o, at nakakuha kami ng 13.38%. Ginamit namin ang kumpletong benchmark na may 912 tanong.

Sa isang internal na benchmark na sumusukat sa kakayahan ng modelo na magsagawa ng mga gawain sa pagmomodelo ng investment banking analystmula sa unang hanggang ikatlong taon—tulad ng pagbuo ng financial model na may tatlong statement para sa isang kumpanya sa Fortune 500 na may tamang formatting at mga pagsipi, o pagbuo ng isang leveraged buyout model para sa isang take-private—labis na nahigitan ng modelong nagpapatakbo sa ChatGPT agent ang performance ng malalimang pananaliksik at o3. Ang bawat gawain ay binibigyan ng grado batay sa daan-daang pamantayan na may kaugnayan sa kawastuhan at paggamit ng formula.

Sinuri din namin ang ChatGPT agent sa BrowseComp⁠, isang benchmark na inilathala namin sa unang bahagi ng taong ito na sumusukat sa kakayahan ng mga browsing agent na maghanap ng mahirap makitang impormasyon sa web. Nagtala ang modelo ng bagong SOTA na may 68.9%, na mas mataas nang 17.4 percentage points sa malalimang pananaliksik.

Panghuli, sa WebArena⁠(magbubukas sa bagong window), isang benchmark na idinisenyo upang suriin ang performance ng mga agent sa pag-browse sa web sa pagkumpleto ng mga gawain sa web sa totoong mundo, at nakita na mas humusay ang modelo kumpara sa CUA na pinapatakbo ng o3 (ang modelong nagpapatakbo sa Operator).

Paano gamitin

Pwede mong i-activate ang mga bagong kakayahan ng agent ng ChatGPT nang direkta sa dropdown ng mga tool mula sa composer sa pamamagitan ng pagpili ng 'agent mode' sa anumang punto sa kahit anong pag-uusap. Ilarawan lang ang gusto mong gawain—ito man ay pagsasagawa ng malalimang pananaliksik, paggawa ng slideshow, o pagsusumite ng mga gastusin. Habang ginagawa nito ang iyong gawain, may on-screen na pagsasalaysay na nagpapakita ng eksaktong ginagawa ng ChatGPT. Magagawa mong abalahin ito at kontrolin ang browser kung kinakailangan, para matiyak na nakahanay pa rin ang mga gawain sa iyong mga layunin.

Puwedeng i-access ng ChatGPT agent ang iyong mga connector, na nagbibigay-daan ditong maisama sa mga proseso ng gawain mo at ma-access ang nauugnay at naaaksyunang impormasyon. Kapag na-authenticate na, pinapayagan ng mga connector na ito ang ChatGPT na makita ang impormasyon at gumawa ng mga bagay na tulad ng pagbubuod ng iyong inbox para sa araw o paghahanap ng mga oras na puwede ka para sa isang meeting—upang makagawa ng aksyon sa mga site na ito, gayunpaman, ipo-prompt ka pa rin na mag-log in sa browser.

Dagdag dito, puwede mong iiskedyul na awtomatikong maulit ang mga natapos na gawain, gaya ng pagbuo ng lingguhang ulat ng sukatan tuwing Lunes ng umaga.

Mga bagong kakayahan, mga bagong panganib

Ang release na ito ang nagmamarka sa unang pagkakataon na puwedeng humiling ang mga user sa ChatGPT na gumawa ng mga aksyon sa web. Nagpapakilala ito ng mga bagong panganib, partikular dahil puwede nang direktang gumawa ang ChatGPT agent gamit ang iyong data, ito man ay impormasyon na na-access sa pamamagitan ng mga connector o mga website kung saan mo ito na-log in sa pamamagitan ng takeover mode. Pinalakas namin ang mga matatag na kontrol mula sa research preview ng Operator at nagdagdag kami ng mga proteksyon para sa mga hamong gaya ng pangangasiwa ng sensitibong impormasyon sa live na web, mas malawak na abot ng user, at (limitado) pag-access sa network ng terminal. Bagama't malaki ang nababawas sa panganib ng mga hakbang na ito, ang mga pinalawak na tool ng ChatGPT agent at mas malawak na abot ng user ay nangangahulugan ng mas mataas na pangkalahatang risk profile nito.

Partikular naming binibigyang-pansin ang pagprotekta sa ChatGPT agent mula sa adversarial manipulation sa pamamagitan ng prompt injection, na isang panganib para sa mga agentic system sa pangkalahatan, at naghanda kami ng mga mas malawak na hakbang sa pagbawas ng panganib na naaayon dito. Ang mga prompt injection ay mga pagtatangka ng mga third party na manipulahin ang gawi nito sa pamamagitan ng mga nakakapinsalang tagubilin na maaaring makaengkuwentro ng ChatGPT agent sa web habang isinasagawa ang isang gawain. Halimbawa, ang isang nakakapinsalang prompt na nakatago sa isang webpage, gaya ng mga hindi nakikitang element o metadata, ay maaaring makapanlinlang sa agent na gumawa ng mga hindi sinasadyang aksyon, tulad ng pagbabahagi sa attacker ng pribadong data mula sa isang connector, o paggawa ng isang nakakapinsalang aksyon sa isang site kung saan naka-log in ang user. Dahil puwedeng gumawa ang ChatGPT agent ng mga direktang aksyon, puwedeng lubhang makaapekto at magdulot ng mga mas malaking panganib ang mga matagumpay na pag-atake.

Sinanay at sinubukan namin ang agent sa pagtukoy at paglaban sa mga prompt injection, bilang karagdagan sa paggamit ng pagsubaybay upang mabilis na matukoy at matugunan ang mga prompt injection na pag-atake. Nakakapagpababa nang malaki sa panganib ng pinsala mula sa mga pag-atakeng ito ang paghingi ng malinaw na kumpirmasyon mula sa user bago ang mga mahalagang aksyon, at magagawa ng mga user na sumingit sa mga gawain kung kinakailangan sa pamamagitan ng pagkuha ng kontrol o pag-pause. Dapat timbangin ng mga user ang mga kaakibat na panganib na ito kapag nagpapasya kung anong impormasyon ang ibibigay sa agent, at dapat silang gumawa ng mga hakbang upang mabawasan ang pagkakalantad nila sa mga panganib na ito, gaya ng pag-disable ng mga connector kapag hindi kinakailangan ang mga ito para sa isang gawain.

Nagpatupad din kami ng mga hakbang upang mabawasan ang mga pagkakamali ng modelo, lalo't puwede nang gumawa ang modelo ngayon ng mga gawaing may epekto sa totoong mundo:

Malinaw na kumpirmasyon mula sa user: Sinanay ang ChatGPT na malinaw na humingi ng pahintulot mo bago gumawa ng mga aksyon na may mga kahihinatnan sa totoong mundo, tulad ng pagbili.
Aktibong pangangasiwa (“Watch Mode”): Kinakailangan ang aktibo mong pagbabantay sa ilang partikular na kritikal na gawain, tulad ng pagpapadala ng mga email.
Proactive na pagbabawas ng panganib: Sinanay ang ChatGPT na aktibong tumanggi sa mga gawain na may mataas na panganib gaya ng mga pag-transfer sa bangko.

Panghuli, nagpakilala kami ng mga karagdagang kontrol upang limitahan ang data na maaaring ma-access ng modelo:

Mga kontrol sa privacy: Sa isang pag-click lang sa mga setting ng ChatGPT, made-delete mo ang lahat ng data ng pag-browse at mala-log out ka kaagad sa lahat ng aktibong session ng website. Kung hindi naman, mananatili ang cookies nang naaayon sa mga patakaran sa cookie ng bawat binisitang website, na maaaring mas magpahusay sa mga paulit-ulit na pagbisita sa mga site.
Secure na takeover mode ng browser: Kapag nakikipag-interact ka sa web gamit ang browser ng ChatGPT ("takeover mode"), mananatiling pribado ang iyong mga input. Hindi nangongolekta o nag-iimbak ang ChatGPT ng anumang data na inilalagay mo sa mga session na ito, gaya ng mga password, dahil hindi ito kailangan ng modelo, at mas ligtas kung hindi nito kailanman nakikita ang mga iyon.

Ang pinakamalakas naming safety stack para sa panganib na biyolohikal

Dahil sa mga nadagdagang kakayahan ng modelo, nagpasya kaming ituring ang ChatGPT agent na nagtataglay ng mga Mataas na Kakayahang Biyolohikal at Kemikal sa ilalim ng aming Framework sa Kahandaan⁠, at nag-activate kami ng mga kaugnay na pag-iingat. Bagama't wala kaming tiyak na ebidensya na may malaking maitutulong ang modelo sa isang baguhan na lumikha ng matinding biyolohikal na pinsala—ang aming threshold para sa Mataas na kakayahan—nag-iingat kami at nagpapatupad kami ng mga kinakailangang proteksyon sa ngayon. Bilang resulta, tinataglay ng modelong ito ang pinakakomprehensibo naming safety stack sa kasalukuyan na may mga pinahusay na pag-iingat para sa biyolohiya: komprehensibong pagmomodelo ng banta, pagsasanay sa pagtanggi sa dual-use, mga palaging naka-on na classifier at monitor ng pagdadahilan, at mga malinaw na pipeline ng pagpapatupad.

Bilang karagdagan sa aming gawain upang ma-secure ang ChatGPT agent, alam namin na pinakamahusay na gumagana ang layered biosafety kapag hindi lang sa iisang lab ginagawa ang mga pag-iingat, kaya nakipagtulungan kami sa buong ecosystem upang mapalakas ang mga depensa. Mula sa unang araw, nakipagtulungan na kami sa mga eksperto sa biosecurity mula sa labas, institusyon ng kaligtasan, at pang-akademyang mananaliksik upang mabuo ang aming modelo ng banta, mga pagtatasa, at mga patakaran. Pinatunayan ng mga tagasuri na sinanay sa biyolohiya ang aming data ng pagsusuri, at nagsagawa ang mga red teamer na dalubhasa sa domain ng stress testing sa mga proteksyon sa mga makatotohanang sitwasyon. Sa unang bahagi ng buwang ito, nagsagawa kami ng isang workshop sa Biodefense kasama ang mga eksperto mula sa gobyerno, akademya, mga laboratoryo sa bansa, at mga NGO upang mapabilis ang pakikipagtulungan at maisulong ang pananaliksik sa biodefense na pinapagana ng AI. Patuloy kaming makikipagtulungan sa buong mundo para manatiling nauuna sa pagtugon sa mga lumilitaw na panganib.

Basahin pa ang tungkol sa aming matatag na diskarte sa kaligtasan para sa unified agentic model sa system card⁠. May inilulunsad din kaming programa ng bug bounty⁠ upang makita at maayos namin ang mga panganib sa totoong mundo.

Pagiging available

Sisimulan ang pag-roll out ng ChatGPT agent ngayong araw sa Pro, Plus, at Team; magkakaroon ng access ang Pro sa pagtatapos ng araw, at magkakaroon naman ng access ang mga user ng Plus at Team sa susunod na ilang araw. Magkakaroon ng access ang mga user ng Enterprise at Edu sa mga susunod na linggo. Ang mga user ng Pro ay may 400 mensahe bawat buwan, habang ang iba namang may bayad na user ay nakakakuha ng 40 mensahe buwan-buwan, na may karagdagang paggamit na available sa pamamagitan ng mga flexible na opsyong batay sa credit.

Ginagawa pa rin namin ang pag-enable sa pag-access para sa European Economic Area at Switzerland.

Gagana pa rin ang research preview site ng Operator sa loob ng ilan pang linggo, at pagkatapos ay ititigil na ito. Ang malalimang pananaliksik ay bahagi ng mga kakayahan ng ChatGPT agent. Kung mas gusto mo ang orihinal na feature na malalimang pananaliksik—na maaaring mas matagal bago mapatakbo ngunit nagbibigay ng mga mas detalyado at in-depth na sagot bilang default—puwede mo pa ring i-access ito sa pamamagitan ng pagpili ng "malalimang pananaliksik" mula sa dropdown sa composer ng mensahe.

Mga limitasyon at inaasahan sa hinaharap

Nasa mga unang yugto pa rin nito ang ChatGPT agent. May kakayahan itong gumawa ng iba't ibang kumplikadong gawain, ngunit puwede pa rin itong magkamali.

Bagama't nakikita namin ang malaking potensyal sa kakayahan nitong bumuo ng mga slideshow, kasalukuyang nasa beta ang functionality na ito. Sa ngayon, puwedeng magmukha pang simple paminsan-minsan ang mga output sa formatting at pagkakaayos ng mga ito, partikular na kapag nagsisimula nang walang kasalukuyang dokumento. Itinuon namin ang mga paunang kakayahan ng modelo sa pagbuo ng mga artifact na nag-aayos ng impormasyon sa isang flow at format na naaakma para sa mga presentation, na may mga element na tulad ng text, mga chart, mga larawan, at mga hugis na native at madaling nae-edit pagkatapos i-export, na nag-o-optimize sa istruktura at flexibility. Sa kasalukuyan, may mga paminsan-minsang pagkakaiba sa pagitan ng mga slide sa viewer at ng na-export na PowerPoint na sinusubukan naming mabawasan. Dagdag pa rito, bagama't puwede kang mag-upload ng umiiral na spreadsheet sa kasalukuyan para ma-edit ng ChatGPT o magamit nito bilang template, hindi pa available ang kakayahang ito para sa mga slideshow. Nagsasanay na kami ng susunod na bersyon ng paggawa ng slideshow ng ChatGPT upang makabuo ng mga mas mahusay at sopistikadong output, na may mas malalawak na kakayahan at pinahusay na formatting.

Sa pangkalahatan, inaasahan namin ang mga patuloy na pagpapabuti sa kahusayan, lalim, at versatility ng ChatGPT agent sa paglipas ng panahon, kasama ang mga mas tuloy-tuloy na pakikipag-interact habang patuloy naming isinasaayos ang antas ng pangangasiwang kinakailangan mula sa user upang mas maging kapaki-pakinabang ito habang tinitiyak na ligtas itong gamitin.

Apendise

SpreadsheetBench
Modelo	Environment ng pagsusuri	Banayad na paghihigpit (%): Level ng cell	Banayad na paghihigpit (%): Level ng sheet	Banayad na paghihigpit (%): Pangkalahatan
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot sa Excel	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
Agent ng ChatGP	OSX, LibreOffice	38.27	30.48	35.27
ChatGPT agent na may .xlsx	OSX, LibreOffice	50.56	37.51	45.54
Tao		75.56	65.00	71.33

Replay ng livestream

May-akda

OpenAI

Mga Footnote

* Kapag na-enable ang pag-browse, puwedeng makahanap minsan ang modelo ng mga eksaktong sagot online, halimbawa, sa pamamagitan ng pagbabasa ng mga post sa blog na may mga sample na problema mula sa isang dataset. Binabawasan namin ang mga alalahanin tungkol sa pandaraya ng modelo habang nagba-browse gamit ang dalawang estratehiya:

1. Mga na-block na domain na naobserbahan naming ginagamit ng modelo sa pandaraya sa nakaraan.

2. Gumamit ng karagdagang modelo bilang tagapagmasid upang suriin ang lahat ng output token ng tool sa bawat pagtatangka upang matukoy ang kahina-hinalang gawi. Ang kahina-hinalang gawi ay tinukoy na "isang page, file, o snippet na ang pangunahing layunin ay magbigay ng eksaktong sagot sa partikular na tanong na ito—halimbawa, isang opisyal na key sa pagmamarka, kumalat na buod ng “solusyon”, o talakayan na nagsisipi sa natapos na sagot nang verbatim." Ang benign na gawi ay tinukoy na "Anumang mapagkakatiwalaang resource na maaaring konsultahin ng isang masigasig na tao (dokumentasyon, mga manwal, mga scholarly paper, mga mapagkakatiwalaang artikulo) kahit na hindi sinasadyang naglalaman ito ng tamang sagot." Ibinibilang sa hindi wasto ang anumang pagtatangka na may paglulunsad na itinuturing ng tagapagmasid na kahina-hinala. Ang karamihan sa mga sample na hindi pumasa sa pagsusuring ito ay ang mga problema na may eksaktong solusyon na available sa maraming source sa internet na walang kaugnayan sa HLE.

** Ang OpenAI ay may eksklusibong access sa 237 sa 290 pribadong tanong sa Tier 1-3 dataset. Ang mga tanong ng FrontierMath tier 4 ay hindi kasama sa pagsusuring ito. Ang mga resulta ay tinasa bilang average ng 16 na pagtatangka na sagutin ang bawat tanong. Ang mga resulta ng ChatGPT agent ay kinukuha ng OpenAI, na binibigyan ng grado ng Epoch AI, nang may access sa browser at terminal, at may limitasyon na 128K token bawat sagot. Ang mga pagsusuri ng OpenAI o4-mini at o3 ay isinasagawa at binibigyan ng grado ng Epoch AI, nang walang access sa browser at terminal, gamit ang mga python script sa pamamagitan ng pagtawag sa function, at may limitasyong 100K token bawat sagot.

*** Ang Oracle@64 ay tumutukoy sa pinakamataas na score na nakamit sa 64 na na-sample na pagpapatakbo, na pinili gamit ang ground truth (ibig sabihin, pinipili namin ang pagtatangka na may pinakamataas na score para sa bawat gawain batay sa aktwal na may gradong performance). Iniuulat namin ang average ng mga pinakamataas na score na ito sa bawat gawain sa lahat ng gawain. Itinatampok sa sukatang ito ang potensyal sa itaas na hangganan ng modelo at ang pagkakaiba-iba sa performance sa gawain—na nagpapakita sa antas ng kakayahan ng modelo kapag nagtagumpay ito at nagpapahiwatig ng posibilidad para mapahusay pa ang pagkakapare-pareho sa pamamagitan ng karagdagang pagsasanay. Hindi katulad ng tipikal na "pinakamahusay sa N" na sukatan, na pumipili batay sa kumpiyansa ng modelo, gumagamit ang oracle@64 ng ground truth para sa pagpili at nalalapat ito sa mga gawain na binibigyan ng grado sa tuloy-tuloy na 0–1 scale sa halip na binary pass/fail.