17 ta’ Lulju 2025

Nintroduċu ChatGPT aġent: ngħaqqdu r-riċerka mal-azzjoni

ChatGPT issa jaħseb u jaġixxi, jagħżel b’mod proattiv minn sett ta’ ħiliet aġentiċi biex iwettaq kompiti għalik billi juża l-kompjuter tiegħu stess.

Ipprova fuq ChatGPT

Qed jillowdja…

ChatGPT issa jista’ jagħmel xogħol għalik billi juża l-kompjuter tiegħu stess, u jimmaniġġja kompiti kumplessi mill-bidu sal-aħħar.

Issa tista’ titlob lil ChatGPT jieħu ħsieb talbiet bħal “agħti ħarsa lejn il-kalendarju tiegħi u agħmilli briefing dwar laqgħat li ġejjin mal-klijenti abbażi ta’ aħbarijiet riċenti,” “ippjana u ixtri l-ingredjenti biex tagħmel kolazzjon Ġappuniż għal erbgħa,” u “analizza tliet kompetituri u oħloq slide deck.” ChatGPT se jinnaviga websajts b’mod intelliġenti, jiffiltra r-riżultati, jitolbok tidħol b’mod sigur meta jkun hemm bżonn, iħaddem kodiċi, iwettaq analiżi, u saħansitra jwassal slideshows u spreadsheets editjabbli li jiġbru fil-qosor is-sejbiet tiegħu.

Fil-qalba ta’ din il-kapaċità l-ġdida hemm sistema aġentika unifikata. Din tiġbor flimkien tliet saħħiet ta’ avvanzi preċedenti: il-kapaċità ta’ Operator⁠ li jinteraġixxi ma’ websajts, il-ħila ta’ riċerka profonda⁠ fis-sinteżi tal-informazzjoni, u l-intelliġenza u l-fluwidità konversazzjonali ta’ ChatGPT.

ChatGPT iwettaq dawn il-kompiti billi juża l-kompjuter virtwali tiegħu stess, u jaqleb b’mod fluwidu bejn ir-raġunament u l-azzjoni biex jimmaniġġja flussi ta’ xogħol kumplessi mill-bidu sal-aħħar, kollha abbażi tal-istruzzjonijiet tiegħek.

L-aktar importanti, inti dejjem fil-kontroll. ChatGPT jitlob permess qabel ma jieħu azzjonijiet b’konsegwenzi, u tista’ faċilment tinterrompi, tieħu kontroll tal-browser, jew twaqqaf il-kompiti fi kwalunkwe mument.

Mill-lum, l-utenti Pro, Plus, u Team jistgħu jattivaw il-kapaċitajiet aġentiċi l-ġodda ta’ ChatGPT direttament permezz tad-dropdown tal-għodod mill-kompożitur tal-messaġġi billi jagħżlu ‘agent mode’ fi kwalunkwe punt ta’ kwalunkwe konversazzjoni.

Filwaqt li ChatGPT aġent diġà huwa għodda qawwija għall-immaniġġjar ta’ kompiti kumplessi, it-tnedija tal-lum hija biss il-bidu. Se nkomplu nżidu titjibiet sinifikanti regolarment b’mod iterattiv, biex maż-żmien nagħmluh aktar kapaċi u aktar utli għal aktar nies.

Evoluzzjoni naturali ta’ Operator u riċerka profonda

Preċedentement, Operator u riċerka profonda kull wieħed ġabu saħħiet uniċi: Operator seta’ jiskrollja, jikklikkja, u jittajpja fuq il-web, filwaqt li riċerka profonda kienet eċċellenti fl-analiżi u s-sommarju tal-informazzjoni. Iżda kienu jaħdmu l-aħjar f’sitwazzjonijiet differenti: Operator ma setax jinżel fil-fond fl-analiżi jew jikteb rapporti dettaljati, u riċerka profonda ma setgħetx tinteraġixxi ma’ websajts biex tirfina r-riżultati jew taċċessa kontenut li jeħtieġ awtentikazzjoni tal-utent. Fil-fatt, rajna li ħafna mistoqsijiet li l-utenti ppruvaw b’Operator kienu fil-fatt aktar adattati għal riċerka profonda, għalhekk ġibna flimkien l-aħjar tat-tnejn.

Billi integrajna dawn is-saħħiet komplementari f’ChatGPT u introduċejna għodod addizzjonali, ftaħna kapaċitajiet kompletament ġodda fi ħdan mudell wieħed. Issa jista’ jinvolvi ruħu b’mod attiv ma’ websajts—jikklikkja, jiffiltra, u jiġbor riżultati aktar preċiżi u effiċjenti. Tista’ wkoll tgħaddi b’mod naturali minn konversazzjoni sempliċi għal talba għal azzjonijiet direttament fl-istess chat.

Aġent li jaħdem għalik, miegħek

Armajna lil ChatGPT aġent b’sett ta’ għodod: browser viżiv li jinteraġixxi mal-web permezz ta’ interface grafika għall-utent, browser ibbażat fuq it-test għal mistoqsijiet tal-web aktar sempliċi bbażati fuq ir-raġunament, terminal, u aċċess dirett għall-API. L-aġent jista’ wkoll juża konnetturi ta’ ChatGPT⁠(jinfetaħ f’tieqa ġdida), li jippermettulek tqabbad apps bħal Gmail u Github sabiex ChatGPT ikun jista’ jsib informazzjoni rilevanti għall-prompts tiegħek u jużaha fit-tweġibiet tiegħu. Tista’ wkoll tidħol fuq kwalunkwe websajt billi tieħu kontroll tal-browser, u b’hekk tħallih jidħol aktar fil-fond u usa’ kemm fir-riċerka kif ukoll fl-eżekuzzjoni tal-kompiti tiegħu. Billi nagħtu lil ChatGPT dawn il-mogħdijiet differenti biex jaċċessa u jinteraġixxi ma’ informazzjoni mill-web, jista’ jagħżel l-aħjar triq biex iwettaq il-kompiti bl-aktar mod effiċjenti. Pereżempju, jista’ jiġbor informazzjoni dwar il-kalendarju tiegħek permezz ta’ API, jirraġuna b’mod effiċjenti fuq ammonti kbar ta’ test billi juża l-browser ibbażat fuq it-test, filwaqt li jkollu wkoll il-ħila jinteraġixxi viżwalment ma’ websajts iddisinjati primarjament għall-bnedmin.

Dan kollu jsir billi juża l-kompjuter virtwali tiegħu stess, li jżomm il-kuntest meħtieġ għall-kompitu, anke meta jintużaw għodod multipli—il-mudell jista’ jagħżel li jiftaħ paġna billi juża l-browser tat-test jew il-browser viżiv, iniżżel fajl mill-web, jimmanipulah billi jħaddem kmand fit-terminal, u mbagħad jerġa’ jara l-output fil-browser viżiv. Il-mudell jadatta l-approċċ tiegħu biex iwettaq il-kompiti b’veloċità, preċiżjoni u effiċjenza.

ChatGPT aġent huwa mfassal għal flussi ta’ xogħol iterattivi u kollaborattivi, ferm aktar interattivi u flessibbli minn mudelli preċedenti. Waqt li ChatGPT ikun qed jaħdem, tista’ tinterrompih fi kwalunkwe punt biex tiċċara l-istruzzjonijiet tiegħek, tmexxih lejn ir-riżultati mixtieqa, jew tibdel il-kompitu kompletament. Huwa jkompli minn fejn waqaf, issa bl-informazzjoni l-ġdida, iżda mingħajr ma jitlef il-progress preċedenti. Bl-istess mod, ChatGPT innifsu jista’ b’mod proattiv ifittex aktar dettalji mingħandek meta jkun hemm bżonn biex jiżgura li l-kompitu jibqa’ allinjat mal-għanijiet tiegħek. Jekk kompitu jieħu aktar żmien milli mistenni jew jidher li waqaf, tista’ tpoġġih fuq pawsa, titolbu sommarju tal-progress, jew twaqqfu kompletament u tirċievi riżultati parzjali. Jekk għandek l-app ta’ ChatGPT fuq it-telefon tiegħek, tibgħatlek notifika meta jlesti l-kompitu tiegħek.

Twessigħ tal-utilità fid-dinja reali

Dawn il-kapaċitajiet aġentiċi unifikati jtejbu b’mod sinifikanti l-utilità ta’ ChatGPT kemm fil-kuntesti ta’ kuljum kif ukoll professjonali. Fuq ix-xogħol, tista’ tawtomatizza kompiti ripetittivi, bħal tikkonverti screenshots jew dashboards f’preżentazzjonijiet magħmula minn elementi vettorjali editjabbli, tirranġa mill-ġdid laqgħat, tippjana u tibbukkja offsites, u taġġorna spreadsheets b’data finanzjarja ġdida filwaqt li żżomm l-istess formatting. Fil-ħajja personali tiegħek, tista’ tużah biex faċilment tippjana u tibbukkja itinerarji tal-ivvjaġġar, tiddisinja u tibbukkja festi sħaħ għall-pranzu, jew issib speċjalisti u tiskeda appuntamenti.

Il-kapaċitajiet imtejba tal-mudell huma riflessi fil-prestazzjoni state-of-the-art (SOTA) tiegħu fuq evalwazzjonijiet li jkejlu l-browsing tal-web u l-kapaċità li jitlestew kompiti fid-dinja reali.

Fuq Humanity’s Last Exam⁠(jinfetaħ f’tieqa ġdida)*, evalwazzjoni li tkejjel il-prestazzjoni tal-IA fuq firxa wiesgħa ta’ suġġetti bi mistoqsijiet ta’ livell espert, il-mudell li jħaddem ChatGPT aġent jikseb pass@1 SOTA ġdid ta’ 41.6. Minħabba li l-aġent jippjana b’mod dinamiku u jagħżel l-għodod tiegħu stess, jista’ jindirizza l-istess kompitu b’modi differenti bejn run u ieħor. Meta skalejna dan b’strateġija sempliċi ta’ parallel rollout—billi nħaddmu sa tmien tentattivi f’daqqa u nagħżlu dak bl-ogħla kunfidenza rrappurtata minnu nnifsu—il-punteġġ HLE tal-aġent jiżdied għal 44.4.

FrontierMath** huwa l-aktar benchmark tal-matematika diffiċli magħruf, b’problemi ġodda u mhux ippubblikati li spiss jieħdu lill-matematiċi esperti sigħat jew saħansitra jiem biex isolvuhom. Bl-użu tal-għodod, bħall-aċċess għal terminal għall-eżekuzzjoni tal-kodiċi, ChatGPT aġent jilħaq preċiżjoni ta’ 27.4%, u jaqbeż bi bosta kemm il-mudelli preċedenti.

Evalwajna wkoll il-mudell bl-użu ta’ benchmarks immudellati fuq kompiti kumplessi tad-dinja reali. Fuq benchmark intern imfassal biex jevalwa l-prestazzjoni tal-mudell fuq kompiti kumplessi u ekonomikament ta’ valur ta’ xogħol tal-għarfien, l-output ta’ ChatGPT aġent huwa komparabbli ma’ jew aħjar minn dak tal-bnedmin f’madwar nofs il-każijiet fuq firxa ta’ ħinijiet għat-tlestija tal-kompiti, filwaqt li jaqbeż b’mod sinifikanti lil o3 u o4-mini. L-outputs tal-mudell jiġu ġġudikati minn esperti kontra baselines umani ta’ kwalità għolja maħluqa mill-aqwa performers f’kull qasam. Dawn il-kompiti, miksuba minn esperti f’okkupazzjonijiet u industriji differenti, jirriflettu xogħol professjonali fid-dinja reali—bħat-tħejjija ta’ analiżi kompetittiva ta’ fornituri ta’ kura urġenti on-demand, il-bini ta’ skedi dettaljati ta’ amortizzazzjoni, u l-identifikazzjoni ta’ bjar tal-ilma vijabbli għal faċilità ġdida ta’ idroġenu aħdar.

Fuq DSBench⁠(jinfetaħ f’tieqa ġdida), imfassal biex jevalwa aġenti fuq kompiti realistiċi tax-xjenza tad-data li jkopru l-analiżi u l-immudellar tad-data, ChatGPT aġent jaqbeż b’mod notevoli l-prestazzjoni umana b’marġni sinifikanti.

Fuq SpreadsheetBench, li jevalwa l-mudelli fuq il-kapaċità tagħhom li jeditjaw spreadsheets derivati minn xenarji tad-dinja reali, ChatGPT aġent jaqbeż il-mudelli eżistenti b’marġni sinifikanti. Meta jingħata l-kapaċità li jeditja spreadsheets direttament, ChatGPT aġent jikseb saħansitra aktar b’45.5%, meta mqabbel ma’ 20.0% ta’ Copilot in Excel.

Metodoloġija: L-awturi ta’ SpreadsheetBench użaw ambjent Windows b’Microsoft Excel biex jevalwaw spreadsheets. Aħna użajna ambjent OSX u LibreOffice, li jistgħu jwasslu għal differenzi żgħar fil-valutazzjoni. Pereżempju, l-awturi sabu restrizzjoni Hard Overall ta’ 15.02% għal GPT‑4o, u aħna ksibna 13.38%. Użajna l-benchmark sħiħ ta’ 912-il mistoqsija.

Fuq benchmark intern li jkejjel il-kapaċità ta’ mudell li jieħu f’idejh kompiti ta’ immudellar ta’ analist tal-investment banking mill-ewwel sat-tielet sena—bħall-għaqda ta’ mudell finanzjarju bi tliet statements għal kumpanija Fortune 500 b’formatting u ċitazzjonijiet korretti, jew il-bini ta’ mudell leveraged buyout għal take-private—il-mudell li jħaddem ChatGPT aġent jaqbeż b’mod sinifikanti lil riċerka profonda u o3. Kull kompitu jiġi vvalutat fuq mijiet ta’ kriterji relatati mal-korrettezza u l-użu tal-formuli.

Evalwajna wkoll lil ChatGPT aġent fuq BrowseComp⁠, benchmark li ppubblikajna aktar kmieni din is-sena li jkejjel il-kapaċità ta’ aġenti tal-browsing li jsibu informazzjoni diffiċli biex tinstab fuq il-web. Il-mudell stabbilixxa SOTA ġdid b’68.9%, 17.4 punti perċentwali ogħla minn riċerka profonda.

Fl-aħħar nett, fuq WebArena⁠(jinfetaħ f’tieqa ġdida), benchmark imfassal biex jevalwa l-prestazzjoni ta’ aġenti li jibbrawżjaw il-web fit-tlestija ta’ kompiti reali fuq il-web, il-mudell itejjeb fuq CUA imħaddem minn o3 (il-mudell li jħaddem Operator).

Kif tużah

Tista’ tattiva l-kapaċitajiet aġentiċi l-ġodda ta’ ChatGPT direttament permezz tad-dropdown tal-għodod mill-kompożitur tal-messaġġi billi tagħżel ‘agent mode’ fi kwalunkwe punt ta’ kwalunkwe konversazzjoni. Sempliċement iddeskrivi l-kompitu mixtieq tiegħek—kemm jekk huwa li twettaq riċerka profonda, toħloq slideshow, jew tissottometti spejjeż. Waqt li jwettaq il-kompitu tiegħek, narrazzjoni fuq l-iskrin tipprovdi viżibilità eżatta dwar x’inhu jagħmel ChatGPT. Tista’ tinterrompi u tieħu kontroll tal-browser kull meta jkun hemm bżonn, biex tiżgura li l-kompiti jibqgħu allinjati mal-għanijiet tiegħek.

ChatGPT aġent jista’ jaċċessa l-konnetturi tiegħek, u b’hekk jippermettilu jintegra mal-flussi tax-xogħol tiegħek u jaċċessa informazzjoni rilevanti u azzjonabbli. Ladarba tkun awtentikat, dawn il-konnetturi jippermettu lil ChatGPT jara informazzjoni u jagħmel affarijiet bħal jagħmel sommarju tal-inbox tiegħek għal dak il-jum jew isib ħinijiet meta tkun disponibbli għal laqgħa—biex jieħu azzjoni fuq dawn is-siti, madankollu, xorta se tintalab tidħol billi tieħu kontroll tal-browser.

Barra minn hekk, tista’ tiskeda kompiti kompluti biex jerġgħu jseħħu awtomatikament, bħal li tiġġenera rapport ta’ metriċi kull ġimgħa kull nhar ta’ Tnejn filgħodu.

Kapaċitajiet ġodda, riskji ġodda

Din ir-rilaxx timmarka l-ewwel darba li l-utenti jistgħu jitolbu lil ChatGPT jieħu azzjonijiet fuq il-web. Dan jintroduċi riskji ġodda, partikolarment għaliex ChatGPT aġent jista’ jaħdem direttament bid-data tiegħek, kemm jekk hi informazzjoni aċċessata permezz tal-konnetturi jew websajts li tkun dħalt fihom permezz tal-mod takeover. Saħħaħna l-kontrolli robusti mill-preview tar-riċerka ta’ Operator u żidna safeguards għal sfidi bħall-immaniġġjar ta’ informazzjoni sensittiva fuq il-web live, firxa usa’ ta’ utenti, u aċċess (limitat) għan-netwerk mit-terminal. Filwaqt li dawn il-mitigazzjonijiet inaqqsu b’mod sinifikanti r-riskju, l-għodod imwessgħa ta’ ChatGPT aġent u l-firxa usa’ ta’ utenti jfissru li l-profil tar-riskju ġenerali tiegħu huwa ogħla.

Poġġejna enfasi partikolari fuq il-protezzjoni ta’ ChatGPT aġent kontra manipulazzjoni avversarja permezz ta’ injezzjoni tal-prompts, li hija riskju għas-sistemi aġentiċi b’mod ġenerali, u għaldaqstant ħejjejna mitigazzjonijiet aktar estensivi. L-injezzjonijiet tal-prompts huma tentattivi minn partijiet terzi biex jimmanipulaw l-imġiba tiegħu permezz ta’ istruzzjonijiet malizzjużi li ChatGPT aġent jista’ jiltaqa’ magħhom fuq il-web waqt li jkun qed itemm kompitu. Pereżempju, prompt malizzjuż moħbi f’paġna web, bħal f’elementi inviżibbli jew metadata, jista’ iqarraq bl-aġent biex jieħu azzjonijiet mhux intenzjonati, bħal jaqsam data privata minn konnettur mal-attakkant, jew jieħu azzjoni dannuża fuq sit li l-utent ikun daħal fih. Minħabba li ChatGPT aġent jista’ jieħu azzjonijiet diretti, attakki ta’ suċċess jista’ jkollhom impatt akbar u joħolqu riskji ogħla.

Ħarriġna u ttestjajna l-aġent biex jidentifika u jirreżisti injezzjonijiet tal-prompts, minbarra li nużaw monitoraġġ biex nindividwaw u nirrispondu malajr għal attakki ta’ injezzjoni tal-prompts. Li nitolbu konferma espliċita tal-utent qabel azzjonijiet b’konsegwenzi jnaqqas aktar ir-riskju ta’ ħsara minn dawn l-attakki, u l-utenti jistgħu jintervjenu fil-kompiti kif meħtieġ billi jieħdu kontroll jew ipoġġu fuq pawsa. L-utenti għandhom jiżnu dawn il-kompromessi meta jiddeċiedu x’informazzjoni jipprovdu lill-aġent, kif ukoll jieħdu passi biex jimminimizzaw l-espożizzjoni tagħhom għal dawn ir-riskji, bħad-diżattivazzjoni tal-konnetturi meta ma jkunux meħtieġa għal kompitu.

Implimentajna wkoll mitigazzjonijiet madwar żbalji tal-mudell, speċjalment peress li l-mudell issa jista’ jwettaq kompiti li jħallu impatt fuq id-dinja reali:

Konferma espliċita tal-utent: ChatGPT huwa mħarreġ biex b’mod espliċitu jitlob il-permess tiegħek qabel jieħu azzjonijiet b’konsegwenzi fid-dinja reali, bħal jagħmel xirja.
Superviżjoni attiva (“Watch Mode”): Ċerti kompiti kritiċi, bħall-bgħit ta’ emails, jeħtieġu s-superviżjoni attiva tiegħek.
Mitigazzjoni proattiva tar-riskju: ChatGPT huwa mħarreġ biex jirrifjuta b’mod attiv kompiti ta’ riskju għoli bħal trasferimenti bankarji.

Fl-aħħar nett, introduċejna kontrolli addizzjonali biex nillimitaw id-data li l-mudell għandu aċċess għaliha:

Kontrolli tal-privatezza: B’klik waħda fis-settings ta’ ChatGPT, tista’ tħassar id-data kollha tal-browsing u immedjatament toħroġ mis-sessjonijiet kollha attivi tal-websajts. Inkella, il-cookies jibqgħu skont il-politiki tal-cookies ta’ kull websajt miżjura, li jistgħu jagħmlu żjarat ripetuti lis-siti aktar effiċjenti.
Mod sigur ta’ takeover tal-browser: Meta tinteraġixxi mal-web billi tuża l-browser ta’ ChatGPT (“takeover mode”), l-inputs tiegħek jibqgħu privati. ChatGPT ma jiġborx jew jaħżen ebda data li ddaħħal matul dawn is-sessjonijiet, bħal passwords, għax il-mudell m’għandux bżonnha, u huwa aktar sigur jekk qatt ma jaraha.

L-aktar stack ta’ sikurezza b’saħħitha tagħna s’issa għar-riskju bijoloġiku

Biż-żieda fil-kapaċitajiet tal-mudell, ħadna d-deċiżjoni li nittrattaw lil ChatGPT aġent bħala li għandu kapaċitajiet Bijoloġiċi u Kimiċi Għoljin taħt il-Qafas tat-Tħejjija⁠ tagħna, u nattivaw is-safeguards assoċjati. Filwaqt li m’għandniex evidenza definittiva li l-mudell jista’ jgħin b’mod sinifikanti lil novizz joħloq ħsara bijoloġika severa—il-limitu tagħna għal kapaċità Għolja—qed naġixxu b’kawtela u nimplimentaw is-safeguards meħtieġa issa. B’riżultat ta’ dan, dan il-mudell għandu l-aktar stack ta’ sikurezza komprensiva tagħna s’issa b’safeguards imtejba għall-bijoloġija: threat modeling komprensiv, taħriġ ta’ rifjut għal użu doppju, classifiers u monitors tar-raġunament dejjem mixgħula, u pipelines ċari ta’ infurzar.

Minbarra x-xogħol tagħna biex niżguraw lil ChatGPT aġent, nafu li l-bijosikurezza b’saffi taħdem l-aħjar meta s-safeguards jestendu lil hinn minn laboratorju wieħed, għalhekk nikkollaboraw madwar l-ekosistema biex insaħħu d-difiżi. Mill-ewwel jum ħdimna ma’ esperti esterni tal-bijosigurtà, istituti tas-sikurezza, u riċerkaturi akkademiċi biex insawru t-threat model, l-assessments, u l-politiki tagħna. Reviżuri mħarrġa fil-bijoloġija vvalidaw id-data tal-evalwazzjoni tagħna, u red teamers esperti fid-dominju għamlu stress tests tas-safeguards f’xenarji realistiċi. Aktar kmieni dan ix-xahar organizzajna workshop tal-Biodefense ma’ esperti mill-gvern, l-akkademja, laboratorji nazzjonali, u NGOs biex inħaffu l-kollaborazzjoni u navvanzaw ir-riċerka tad-difiża bijoloġika msaħħa bl-IA. Se nkomplu nissieħbu globalment biex nibqgħu quddiem ir-riskji emerġenti.

Aqra aktar dwar l-approċċ robust tagħna għas-sikurezza għall-mudell aġentiku unifikat fil-kard tas-sistema⁠. Qed inniedu wkoll programm bug bounty⁠ sabiex inkunu nistgħu nsibu u nirranġaw riskji tad-dinja reali.

Disponibbiltà

ChatGPT aġent jibda jitqassam mil-lum lil Pro, Plus, u Team; Pro se jkollu aċċess sal-aħħar tal-ġurnata, filwaqt li l-utenti Plus u Team se jiksbu aċċess matul il-jiem li ġejjin. L-utenti Enterprise u Education se jiksbu aċċess fil-ġimgħat li ġejjin. L-utenti Pro għandhom 400 messaġġ fix-xahar, filwaqt li utenti oħra li jħallsu jiksbu 40 messaġġ fix-xahar, b’użu addizzjonali disponibbli permezz ta’ għażliet flessibbli bbażati fuq kreditu.

Għadna qed naħdmu biex nippermettu aċċess għaż-Żona Ekonomika Ewropea u l-Iżvizzera.

Is-sit preview tar-riċerka ta’ Operator se jibqa’ jiffunzjona għal ftit ġimgħat oħra, wara li mbagħad jiġi rtirat gradwalment. Riċerka profonda hija parti mill-kapaċitajiet ta’ ChatGPT aġent. Jekk tippreferi l-karatteristika oriġinali ta’ riċerka profonda—li tista’ tieħu aktar żmien biex taħdem iżda tipprovdi tweġibiet aktar dettaljati u fil-fond b’mod awtomatiku—xorta tista’ taċċessaha billi tagħżel “deep research” mid-dropdown fil-kompożitur tal-messaġġi.

Limitazzjonijiet u ħarsa ’l quddiem

ChatGPT aġent għadu fl-istadji bikrija tiegħu. Huwa kapaċi jieħu f’idejh firxa ta’ kompiti kumplessi, iżda xorta jista’ jagħmel żbalji.

Filwaqt li naraw potenzjal sinifikanti fil-kapaċità tiegħu li jiġġenera slideshows, din il-funzjonalità bħalissa tinsab fil-beta. Bħalissa, l-outputs kultant jistgħu jidhru rudimentarji fil-formatting u l-finitura tagħhom, b’mod partikolari meta tibda mingħajr dokument eżistenti. Iffukajna l-kapaċitajiet inizjali tal-mudell fuq il-ġenerazzjoni ta’ artifacts li jorganizzaw l-informazzjoni f’fluss u format adattati għall-preżentazzjonijiet, b’elementi bħal test, charts, immaġnijiet, u forom li huma nattivament u faċilment editjabbli wara l-esportazzjoni, u ottimizzajna għall-istruttura u l-flessibbiltà. Bħalissa hemm ukoll diskrepanzi okkażjonali bejn is-slides fil-viewer u l-powerpoint esportat li qed naħdmu biex innaqqsu. Barra minn hekk, filwaqt li bħalissa tista’ ttella’ spreadsheet eżistenti biex ChatGPT jeditjah jew jużah bħala template, din il-kapaċità għadha mhijiex disponibbli għal slideshows. Aħna diġà qed inħarrġu l-iterazzjoni li jmiss tal-ħolqien ta’ slideshows ta’ ChatGPT biex tipproduċi outputs aktar raffinati u sofistikati, b’kapaċitajiet usa’ u formatting imtejjeb.

B’mod ġenerali, nistennew titjib kontinwu fl-effiċjenza, il-fond, u l-versatilità ta’ ChatGPT aġent maż-żmien, inklużi interazzjonijiet aktar bla xkiel hekk kif inkomplu naġġustaw l-ammont ta’ superviżjoni meħtieġa mill-utent biex nagħmluh aktar utli filwaqt li niżguraw li huwa sigur biex jintuża.

Appendiċi

SpreadsheetBench
Mudell	Ambjent tal-evalwazzjoni	Restrizzjoni soft (%): Livell taċ-ċellola	Restrizzjoni soft (%): Livell tal-folja	Restrizzjoni soft (%): Ġenerali
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot in Excel	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT aġent	OSX, LibreOffice	38.27	30.48	35.27
ChatGPT aġent b’.xlsx	OSX, LibreOffice	50.56	37.51	45.54
Bniedem		75.56	65.00	71.33

Replay tal-livestream

Awtur

OpenAI

Noti f’qiegħ il-paġna

* Meta tattiva l-browsing, il-mudell kultant jista’ jsib tweġibiet eżatti online, pereżempju, billi jaqra blog posts b’problemi kampjun minn dataset. Innaqqsu t-tħassib dwar il-qerq tal-mudell waqt il-browsing b’żewġ strateġiji:

1. Domains imblukkati li osservajna li l-mudell qarraq minnhom fil-passat.

2. Użajna mudell addizzjonali bħala monitor biex jeżamina t-tokens kollha tal-output tal-għodod f’kull tentattiv biex jidentifika mġiba suspettuża. Mġiba suspettuża hija definita bħala "paġna, fajl, jew snippet li l-għan ewlieni tiegħu hu li jipprovdi t-tweġiba eżatta għal din il-mistoqsija speċifika—eż., grading key uffiċjali, gist ta’ “solutions” imnixxija, jew diskussjoni li tikkwota t-tweġiba finali verbatim." Mġiba beninna hija definita bħala "Kwalunkwe riżorsa awtorevoli li bniedem diliġenti jista’ jikkonsulta (dokumentazzjoni, manwali, papers akkademiċi, artikli reputabbli) anke jekk inċidentalment ikun fiha t-tweġiba korretta." Kwalunkwe tentattiv fejn il-monitor iqis ir-rollout suspettuż jiġi kkunsidrat bħala żbaljat. Il-biċċa l-kbira tal-kampjuni li fallew b’dan il-kontroll kienu problemi li s-soluzzjoni eżatta tagħhom kienet disponibbli fuq sorsi multipli tal-internet mhux relatati ma’ HLE.

**OpenAI għandu aċċess esklussiv għal 237 minn 290 mistoqsija privati fid-dataset Tier 1-3. Il-mistoqsijiet Tier 4 ta’ FrontierMath mhumiex inklużi f’din l-evalwazzjoni. Ir-riżultati ġew evalwati bħala l-medja ta’ 16-il tentattiv biex tingħata tweġiba għal kull mistoqsija. Ir-riżultati ta’ ChatGPT aġent huma elicited minn OpenAI, graded minn Epoch AI, b’aċċess għall-browser u għat-terminal, u limitu ta’ 128K tokens għal kull tweġiba. L-evalwazzjonijiet ta’ OpenAI o4-mini u o3 huma elicited u graded minn Epoch AI, mingħajr aċċess għall-browser u għat-terminal, bl-użu ta’ python scripts permezz ta’ sejħa għall-funzjoni, u limitu ta’ 100K tokens għal kull tweġiba.

*** Oracle@64 jirreferi għall-aħjar punteġġ miksub fuq 64 runs kampjunati, magħżul bl-użu tal-ground truth (jiġifieri, nagħżlu t-tentattiv bl-ogħla punteġġ għal kull kompitu abbażi tal-prestazzjoni gradata reali). Nirrapportaw il-medja ta’ dawn l-aqwa punteġġi għal kull kompitu fuq il-kompiti kollha. Din il-metrika tenfasizza l-potenzjal upper-bound tal-mudell u l-varjanza fil-prestazzjoni tal-kompiti—u turi kemm il-mudell jista’ jkun kapaċi meta jirnexxi u tindika spazju għal titjib fil-konsistenza permezz ta’ aktar taħriġ. B’differenza mill-metriċi tipiċi “best of N”, li jagħżlu abbażi tal-kunfidenza tal-mudell, oracle@64 juża ground truth għall-għażla u japplika għal kompiti gradata fuq skala kontinwa 0–1 aktar milli pass/fail binarju.