Nintroduċu ChatGPT aġent: ngħaqqdu r-riċerka mal-azzjoni
ChatGPT issa jaħseb u jaġixxi, jagħżel b’mod proattiv minn sett ta’ ħiliet aġentiċi biex iwettaq kompiti għalik billi juża l-kompjuter tiegħu stess.
ChatGPT issa jista’ jagħmel xogħol għalik billi juża l-kompjuter tiegħu stess, u jimmaniġġja kompiti kumplessi mill-bidu sal-aħħar.
Issa tista’ titlob lil ChatGPT jieħu ħsieb talbiet bħal “agħti ħarsa lejn il-kalendarju tiegħi u agħmilli briefing dwar laqgħat li ġejjin mal-klijenti abbażi ta’ aħbarijiet riċenti,” “ippjana u ixtri l-ingredjenti biex tagħmel kolazzjon Ġappuniż għal erbgħa,” u “analizza tliet kompetituri u oħloq slide deck.” ChatGPT se jinnaviga websajts b’mod intelliġenti, jiffiltra r-riżultati, jitolbok tidħol b’mod sigur meta jkun hemm bżonn, iħaddem kodiċi, iwettaq analiżi, u saħansitra jwassal slideshows u spreadsheets editjabbli li jiġbru fil-qosor is-sejbiet tiegħu.
Fil-qalba ta’ din il-kapaċità l-ġdida hemm sistema aġentika unifikata. Din tiġbor flimkien tliet saħħiet ta’ avvanzi preċedenti: il-kapaċità ta’ Operator li jinteraġixxi ma’ websajts, il-ħila ta’ riċerka profonda fis-sinteżi tal-informazzjoni, u l-intelliġenza u l-fluwidità konversazzjonali ta’ ChatGPT.
ChatGPT iwettaq dawn il-kompiti billi juża l-kompjuter virtwali tiegħu stess, u jaqleb b’mod fluwidu bejn ir-raġunament u l-azzjoni biex jimmaniġġja flussi ta’ xogħol kumplessi mill-bidu sal-aħħar, kollha abbażi tal-istruzzjonijiet tiegħek.
L-aktar importanti, inti dejjem fil-kontroll. ChatGPT jitlob permess qabel ma jieħu azzjonijiet b’konsegwenzi, u tista’ faċilment tinterrompi, tieħu kontroll tal-browser, jew twaqqaf il-kompiti fi kwalunkwe mument.
Mill-lum, l-utenti Pro, Plus, u Team jistgħu jattivaw il-kapaċitajiet aġentiċi l-ġodda ta’ ChatGPT direttament permezz tad-dropdown tal-għodod mill-kompożitur tal-messaġġi billi jagħżlu ‘agent mode’ fi kwalunkwe punt ta’ kwalunkwe konversazzjoni.
Filwaqt li ChatGPT aġent diġà huwa għodda qawwija għall-immaniġġjar ta’ kompiti kumplessi, it-tnedija tal-lum hija biss il-bidu. Se nkomplu nżidu titjibiet sinifikanti regolarment b’mod iterattiv, biex maż-żmien nagħmluh aktar kapaċi u aktar utli għal aktar nies.
Preċedentement, Operator u riċerka profonda kull wieħed ġabu saħħiet uniċi: Operator seta’ jiskrollja, jikklikkja, u jittajpja fuq il-web, filwaqt li riċerka profonda kienet eċċellenti fl-analiżi u s-sommarju tal-informazzjoni. Iżda kienu jaħdmu l-aħjar f’sitwazzjonijiet differenti: Operator ma setax jinżel fil-fond fl-analiżi jew jikteb rapporti dettaljati, u riċerka profonda ma setgħetx tinteraġixxi ma’ websajts biex tirfina r-riżultati jew taċċessa kontenut li jeħtieġ awtentikazzjoni tal-utent. Fil-fatt, rajna li ħafna mistoqsijiet li l-utenti ppruvaw b’Operator kienu fil-fatt aktar adattati għal riċerka profonda, għalhekk ġibna flimkien l-aħjar tat-tnejn.
Billi integrajna dawn is-saħħiet komplementari f’ChatGPT u introduċejna għodod addizzjonali, ftaħna kapaċitajiet kompletament ġodda fi ħdan mudell wieħed. Issa jista’ jinvolvi ruħu b’mod attiv ma’ websajts—jikklikkja, jiffiltra, u jiġbor riżultati aktar preċiżi u effiċjenti. Tista’ wkoll tgħaddi b’mod naturali minn konversazzjoni sempliċi għal talba għal azzjonijiet direttament fl-istess chat.
Armajna lil ChatGPT aġent b’sett ta’ għodod: browser viżiv li jinteraġixxi mal-web permezz ta’ interface grafika għall-utent, browser ibbażat fuq it-test għal mistoqsijiet tal-web aktar sempliċi bbażati fuq ir-raġunament, terminal, u aċċess dirett għall-API. L-aġent jista’ wkoll juża konnetturi ta’ ChatGPT(jinfetaħ f’tieqa ġdida), li jippermettulek tqabbad apps bħal Gmail u Github sabiex ChatGPT ikun jista’ jsib informazzjoni rilevanti għall-prompts tiegħek u jużaha fit-tweġibiet tiegħu. Tista’ wkoll tidħol fuq kwalunkwe websajt billi tieħu kontroll tal-browser, u b’hekk tħallih jidħol aktar fil-fond u usa’ kemm fir-riċerka kif ukoll fl-eżekuzzjoni tal-kompiti tiegħu. Billi nagħtu lil ChatGPT dawn il-mogħdijiet differenti biex jaċċessa u jinteraġixxi ma’ informazzjoni mill-web, jista’ jagħżel l-aħjar triq biex iwettaq il-kompiti bl-aktar mod effiċjenti. Pereżempju, jista’ jiġbor informazzjoni dwar il-kalendarju tiegħek permezz ta’ API, jirraġuna b’mod effiċjenti fuq ammonti kbar ta’ test billi juża l-browser ibbażat fuq it-test, filwaqt li jkollu wkoll il-ħila jinteraġixxi viżwalment ma’ websajts iddisinjati primarjament għall-bnedmin.
Dan kollu jsir billi juża l-kompjuter virtwali tiegħu stess, li jżomm il-kuntest meħtieġ għall-kompitu, anke meta jintużaw għodod multipli—il-mudell jista’ jagħżel li jiftaħ paġna billi juża l-browser tat-test jew il-browser viżiv, iniżżel fajl mill-web, jimmanipulah billi jħaddem kmand fit-terminal, u mbagħad jerġa’ jara l-output fil-browser viżiv. Il-mudell jadatta l-approċċ tiegħu biex iwettaq il-kompiti b’veloċità, preċiżjoni u effiċjenza.
ChatGPT aġent huwa mfassal għal flussi ta’ xogħol iterattivi u kollaborattivi, ferm aktar interattivi u flessibbli minn mudelli preċedenti. Waqt li ChatGPT ikun qed jaħdem, tista’ tinterrompih fi kwalunkwe punt biex tiċċara l-istruzzjonijiet tiegħek, tmexxih lejn ir-riżultati mixtieqa, jew tibdel il-kompitu kompletament. Huwa jkompli minn fejn waqaf, issa bl-informazzjoni l-ġdida, iżda mingħajr ma jitlef il-progress preċedenti. Bl-istess mod, ChatGPT innifsu jista’ b’mod proattiv ifittex aktar dettalji mingħandek meta jkun hemm bżonn biex jiżgura li l-kompitu jibqa’ allinjat mal-għanijiet tiegħek. Jekk kompitu jieħu aktar żmien milli mistenni jew jidher li waqaf, tista’ tpoġġih fuq pawsa, titolbu sommarju tal-progress, jew twaqqfu kompletament u tirċievi riżultati parzjali. Jekk għandek l-app ta’ ChatGPT fuq it-telefon tiegħek, tibgħatlek notifika meta jlesti l-kompitu tiegħek.
Dawn il-kapaċitajiet aġentiċi unifikati jtejbu b’mod sinifikanti l-utilità ta’ ChatGPT kemm fil-kuntesti ta’ kuljum kif ukoll professjonali. Fuq ix-xogħol, tista’ tawtomatizza kompiti ripetittivi, bħal tikkonverti screenshots jew dashboards f’preżentazzjonijiet magħmula minn elementi vettorjali editjabbli, tirranġa mill-ġdid laqgħat, tippjana u tibbukkja offsites, u taġġorna spreadsheets b’data finanzjarja ġdida filwaqt li żżomm l-istess formatting. Fil-ħajja personali tiegħek, tista’ tużah biex faċilment tippjana u tibbukkja itinerarji tal-ivvjaġġar, tiddisinja u tibbukkja festi sħaħ għall-pranzu, jew issib speċjalisti u tiskeda appuntamenti.
Il-kapaċitajiet imtejba tal-mudell huma riflessi fil-prestazzjoni state-of-the-art (SOTA) tiegħu fuq evalwazzjonijiet li jkejlu l-browsing tal-web u l-kapaċità li jitlestew kompiti fid-dinja reali.
Fuq Humanity’s Last Exam(jinfetaħ f’tieqa ġdida)*, evalwazzjoni li tkejjel il-prestazzjoni tal-IA fuq firxa wiesgħa ta’ suġġetti bi mistoqsijiet ta’ livell espert, il-mudell li jħaddem ChatGPT aġent jikseb pass@1 SOTA ġdid ta’ 41.6. Minħabba li l-aġent jippjana b’mod dinamiku u jagħżel l-għodod tiegħu stess, jista’ jindirizza l-istess kompitu b’modi differenti bejn run u ieħor. Meta skalejna dan b’strateġija sempliċi ta’ parallel rollout—billi nħaddmu sa tmien tentattivi f’daqqa u nagħżlu dak bl-ogħla kunfidenza rrappurtata minnu nnifsu—il-punteġġ HLE tal-aġent jiżdied għal 44.4.
FrontierMath** huwa l-aktar benchmark tal-matematika diffiċli magħruf, b’problemi ġodda u mhux ippubblikati li spiss jieħdu lill-matematiċi esperti sigħat jew saħansitra jiem biex isolvuhom. Bl-użu tal-għodod, bħall-aċċess għal terminal għall-eżekuzzjoni tal-kodiċi, ChatGPT aġent jilħaq preċiżjoni ta’ 27.4%, u jaqbeż bi bosta kemm il-mudelli preċedenti.
Evalwajna wkoll il-mudell bl-użu ta’ benchmarks immudellati fuq kompiti kumplessi tad-dinja reali. Fuq benchmark intern imfassal biex jevalwa l-prestazzjoni tal-mudell fuq kompiti kumplessi u ekonomikament ta’ valur ta’ xogħol tal-għarfien, l-output ta’ ChatGPT aġent huwa komparabbli ma’ jew aħjar minn dak tal-bnedmin f’madwar nofs il-każijiet fuq firxa ta’ ħinijiet għat-tlestija tal-kompiti, filwaqt li jaqbeż b’mod sinifikanti lil o3 u o4-mini. L-outputs tal-mudell jiġu ġġudikati minn esperti kontra baselines umani ta’ kwalità għolja maħluqa mill-aqwa performers f’kull qasam. Dawn il-kompiti, miksuba minn esperti f’okkupazzjonijiet u industriji differenti, jirriflettu xogħol professjonali fid-dinja reali—bħat-tħejjija ta’ analiżi kompetittiva ta’ fornituri ta’ kura urġenti on-demand, il-bini ta’ skedi dettaljati ta’ amortizzazzjoni, u l-identifikazzjoni ta’ bjar tal-ilma vijabbli għal faċilità ġdida ta’ idroġenu aħdar.
Fuq DSBench(jinfetaħ f’tieqa ġdida), imfassal biex jevalwa aġenti fuq kompiti realistiċi tax-xjenza tad-data li jkopru l-analiżi u l-immudellar tad-data, ChatGPT aġent jaqbeż b’mod notevoli l-prestazzjoni umana b’marġni sinifikanti.
Fuq SpreadsheetBench, li jevalwa l-mudelli fuq il-kapaċità tagħhom li jeditjaw spreadsheets derivati minn xenarji tad-dinja reali, ChatGPT aġent jaqbeż il-mudelli eżistenti b’marġni sinifikanti. Meta jingħata l-kapaċità li jeditja spreadsheets direttament, ChatGPT aġent jikseb saħansitra aktar b’45.5%, meta mqabbel ma’ 20.0% ta’ Copilot in Excel.
Metodoloġija: L-awturi ta’ SpreadsheetBench użaw ambjent Windows b’Microsoft Excel biex jevalwaw spreadsheets. Aħna użajna ambjent OSX u LibreOffice, li jistgħu jwasslu għal differenzi żgħar fil-valutazzjoni. Pereżempju, l-awturi sabu restrizzjoni Hard Overall ta’ 15.02% għal GPT‑4o, u aħna ksibna 13.38%. Użajna l-benchmark sħiħ ta’ 912-il mistoqsija.
Fuq benchmark intern li jkejjel il-kapaċità ta’ mudell li jieħu f’idejh kompiti ta’ immudellar ta’ analist tal-investment banking mill-ewwel sat-tielet sena—bħall-għaqda ta’ mudell finanzjarju bi tliet statements għal kumpanija Fortune 500 b’formatting u ċitazzjonijiet korretti, jew il-bini ta’ mudell leveraged buyout għal take-private—il-mudell li jħaddem ChatGPT aġent jaqbeż b’mod sinifikanti lil riċerka profonda u o3. Kull kompitu jiġi vvalutat fuq mijiet ta’ kriterji relatati mal-korrettezza u l-użu tal-formuli.
Evalwajna wkoll lil ChatGPT aġent fuq BrowseComp, benchmark li ppubblikajna aktar kmieni din is-sena li jkejjel il-kapaċità ta’ aġenti tal-browsing li jsibu informazzjoni diffiċli biex tinstab fuq il-web. Il-mudell stabbilixxa SOTA ġdid b’68.9%, 17.4 punti perċentwali ogħla minn riċerka profonda.
Fl-aħħar nett, fuq WebArena(jinfetaħ f’tieqa ġdida), benchmark imfassal biex jevalwa l-prestazzjoni ta’ aġenti li jibbrawżjaw il-web fit-tlestija ta’ kompiti reali fuq il-web, il-mudell itejjeb fuq CUA imħaddem minn o3 (il-mudell li jħaddem Operator).
Tista’ tattiva l-kapaċitajiet aġentiċi l-ġodda ta’ ChatGPT direttament permezz tad-dropdown tal-għodod mill-kompożitur tal-messaġġi billi tagħżel ‘agent mode’ fi kwalunkwe punt ta’ kwalunkwe konversazzjoni. Sempliċement iddeskrivi l-kompitu mixtieq tiegħek—kemm jekk huwa li twettaq riċerka profonda, toħloq slideshow, jew tissottometti spejjeż. Waqt li jwettaq il-kompitu tiegħek, narrazzjoni fuq l-iskrin tipprovdi viżibilità eżatta dwar x’inhu jagħmel ChatGPT. Tista’ tinterrompi u tieħu kontroll tal-browser kull meta jkun hemm bżonn, biex tiżgura li l-kompiti jibqgħu allinjati mal-għanijiet tiegħek.
ChatGPT aġent jista’ jaċċessa l-konnetturi tiegħek, u b’hekk jippermettilu jintegra mal-flussi tax-xogħol tiegħek u jaċċessa informazzjoni rilevanti u azzjonabbli. Ladarba tkun awtentikat, dawn il-konnetturi jippermettu lil ChatGPT jara informazzjoni u jagħmel affarijiet bħal jagħmel sommarju tal-inbox tiegħek għal dak il-jum jew isib ħinijiet meta tkun disponibbli għal laqgħa—biex jieħu azzjoni fuq dawn is-siti, madankollu, xorta se tintalab tidħol billi tieħu kontroll tal-browser.
Barra minn hekk, tista’ tiskeda kompiti kompluti biex jerġgħu jseħħu awtomatikament, bħal li tiġġenera rapport ta’ metriċi kull ġimgħa kull nhar ta’ Tnejn filgħodu.
Din ir-rilaxx timmarka l-ewwel darba li l-utenti jistgħu jitolbu lil ChatGPT jieħu azzjonijiet fuq il-web. Dan jintroduċi riskji ġodda, partikolarment għaliex ChatGPT aġent jista’ jaħdem direttament bid-data tiegħek, kemm jekk hi informazzjoni aċċessata permezz tal-konnetturi jew websajts li tkun dħalt fihom permezz tal-mod takeover. Saħħaħna l-kontrolli robusti mill-preview tar-riċerka ta’ Operator u żidna safeguards għal sfidi bħall-immaniġġjar ta’ informazzjoni sensittiva fuq il-web live, firxa usa’ ta’ utenti, u aċċess (limitat) għan-netwerk mit-terminal. Filwaqt li dawn il-mitigazzjonijiet inaqqsu b’mod sinifikanti r-riskju, l-għodod imwessgħa ta’ ChatGPT aġent u l-firxa usa’ ta’ utenti jfissru li l-profil tar-riskju ġenerali tiegħu huwa ogħla.
Poġġejna enfasi partikolari fuq il-protezzjoni ta’ ChatGPT aġent kontra manipulazzjoni avversarja permezz ta’ injezzjoni tal-prompts, li hija riskju għas-sistemi aġentiċi b’mod ġenerali, u għaldaqstant ħejjejna mitigazzjonijiet aktar estensivi. L-injezzjonijiet tal-prompts huma tentattivi minn partijiet terzi biex jimmanipulaw l-imġiba tiegħu permezz ta’ istruzzjonijiet malizzjużi li ChatGPT aġent jista’ jiltaqa’ magħhom fuq il-web waqt li jkun qed itemm kompitu. Pereżempju, prompt malizzjuż moħbi f’paġna web, bħal f’elementi inviżibbli jew metadata, jista’ iqarraq bl-aġent biex jieħu azzjonijiet mhux intenzjonati, bħal jaqsam data privata minn konnettur mal-attakkant, jew jieħu azzjoni dannuża fuq sit li l-utent ikun daħal fih. Minħabba li ChatGPT aġent jista’ jieħu azzjonijiet diretti, attakki ta’ suċċess jista’ jkollhom impatt akbar u joħolqu riskji ogħla.
Ħarriġna u ttestjajna l-aġent biex jidentifika u jirreżisti injezzjonijiet tal-prompts, minbarra li nużaw monitoraġġ biex nindividwaw u nirrispondu malajr għal attakki ta’ injezzjoni tal-prompts. Li nitolbu konferma espliċita tal-utent qabel azzjonijiet b’konsegwenzi jnaqqas aktar ir-riskju ta’ ħsara minn dawn l-attakki, u l-utenti jistgħu jintervjenu fil-kompiti kif meħtieġ billi jieħdu kontroll jew ipoġġu fuq pawsa. L-utenti għandhom jiżnu dawn il-kompromessi meta jiddeċiedu x’informazzjoni jipprovdu lill-aġent, kif ukoll jieħdu passi biex jimminimizzaw l-espożizzjoni tagħhom għal dawn ir-riskji, bħad-diżattivazzjoni tal-konnetturi meta ma jkunux meħtieġa għal kompitu.
Implimentajna wkoll mitigazzjonijiet madwar żbalji tal-mudell, speċjalment peress li l-mudell issa jista’ jwettaq kompiti li jħallu impatt fuq id-dinja reali:
- Konferma espliċita tal-utent: ChatGPT huwa mħarreġ biex b’mod espliċitu jitlob il-permess tiegħek qabel jieħu azzjonijiet b’konsegwenzi fid-dinja reali, bħal jagħmel xirja.
- Superviżjoni attiva (“Watch Mode”): Ċerti kompiti kritiċi, bħall-bgħit ta’ emails, jeħtieġu s-superviżjoni attiva tiegħek.
- Mitigazzjoni proattiva tar-riskju: ChatGPT huwa mħarreġ biex jirrifjuta b’mod attiv kompiti ta’ riskju għoli bħal trasferimenti bankarji.
Fl-aħħar nett, introduċejna kontrolli addizzjonali biex nillimitaw id-data li l-mudell għandu aċċess għaliha:
- Kontrolli tal-privatezza: B’klik waħda fis-settings ta’ ChatGPT, tista’ tħassar id-data kollha tal-browsing u immedjatament toħroġ mis-sessjonijiet kollha attivi tal-websajts. Inkella, il-cookies jibqgħu skont il-politiki tal-cookies ta’ kull websajt miżjura, li jistgħu jagħmlu żjarat ripetuti lis-siti aktar effiċjenti.
- Mod sigur ta’ takeover tal-browser: Meta tinteraġixxi mal-web billi tuża l-browser ta’ ChatGPT (“takeover mode”), l-inputs tiegħek jibqgħu privati. ChatGPT ma jiġborx jew jaħżen ebda data li ddaħħal matul dawn is-sessjonijiet, bħal passwords, għax il-mudell m’għandux bżonnha, u huwa aktar sigur jekk qatt ma jaraha.
Biż-żieda fil-kapaċitajiet tal-mudell, ħadna d-deċiżjoni li nittrattaw lil ChatGPT aġent bħala li għandu kapaċitajiet Bijoloġiċi u Kimiċi Għoljin taħt il-Qafas tat-Tħejjija tagħna, u nattivaw is-safeguards assoċjati. Filwaqt li m’għandniex evidenza definittiva li l-mudell jista’ jgħin b’mod sinifikanti lil novizz joħloq ħsara bijoloġika severa—il-limitu tagħna għal kapaċità Għolja—qed naġixxu b’kawtela u nimplimentaw is-safeguards meħtieġa issa. B’riżultat ta’ dan, dan il-mudell għandu l-aktar stack ta’ sikurezza komprensiva tagħna s’issa b’safeguards imtejba għall-bijoloġija: threat modeling komprensiv, taħriġ ta’ rifjut għal użu doppju, classifiers u monitors tar-raġunament dejjem mixgħula, u pipelines ċari ta’ infurzar.
Minbarra x-xogħol tagħna biex niżguraw lil ChatGPT aġent, nafu li l-bijosikurezza b’saffi taħdem l-aħjar meta s-safeguards jestendu lil hinn minn laboratorju wieħed, għalhekk nikkollaboraw madwar l-ekosistema biex insaħħu d-difiżi. Mill-ewwel jum ħdimna ma’ esperti esterni tal-bijosigurtà, istituti tas-sikurezza, u riċerkaturi akkademiċi biex insawru t-threat model, l-assessments, u l-politiki tagħna. Reviżuri mħarrġa fil-bijoloġija vvalidaw id-data tal-evalwazzjoni tagħna, u red teamers esperti fid-dominju għamlu stress tests tas-safeguards f’xenarji realistiċi. Aktar kmieni dan ix-xahar organizzajna workshop tal-Biodefense ma’ esperti mill-gvern, l-akkademja, laboratorji nazzjonali, u NGOs biex inħaffu l-kollaborazzjoni u navvanzaw ir-riċerka tad-difiża bijoloġika msaħħa bl-IA. Se nkomplu nissieħbu globalment biex nibqgħu quddiem ir-riskji emerġenti.
Aqra aktar dwar l-approċċ robust tagħna għas-sikurezza għall-mudell aġentiku unifikat fil-kard tas-sistema. Qed inniedu wkoll programm bug bounty sabiex inkunu nistgħu nsibu u nirranġaw riskji tad-dinja reali.
ChatGPT aġent jibda jitqassam mil-lum lil Pro, Plus, u Team; Pro se jkollu aċċess sal-aħħar tal-ġurnata, filwaqt li l-utenti Plus u Team se jiksbu aċċess matul il-jiem li ġejjin. L-utenti Enterprise u Education se jiksbu aċċess fil-ġimgħat li ġejjin. L-utenti Pro għandhom 400 messaġġ fix-xahar, filwaqt li utenti oħra li jħallsu jiksbu 40 messaġġ fix-xahar, b’użu addizzjonali disponibbli permezz ta’ għażliet flessibbli bbażati fuq kreditu.
Għadna qed naħdmu biex nippermettu aċċess għaż-Żona Ekonomika Ewropea u l-Iżvizzera.
Is-sit preview tar-riċerka ta’ Operator se jibqa’ jiffunzjona għal ftit ġimgħat oħra, wara li mbagħad jiġi rtirat gradwalment. Riċerka profonda hija parti mill-kapaċitajiet ta’ ChatGPT aġent. Jekk tippreferi l-karatteristika oriġinali ta’ riċerka profonda—li tista’ tieħu aktar żmien biex taħdem iżda tipprovdi tweġibiet aktar dettaljati u fil-fond b’mod awtomatiku—xorta tista’ taċċessaha billi tagħżel “deep research” mid-dropdown fil-kompożitur tal-messaġġi.
ChatGPT aġent għadu fl-istadji bikrija tiegħu. Huwa kapaċi jieħu f’idejh firxa ta’ kompiti kumplessi, iżda xorta jista’ jagħmel żbalji.
Filwaqt li naraw potenzjal sinifikanti fil-kapaċità tiegħu li jiġġenera slideshows, din il-funzjonalità bħalissa tinsab fil-beta. Bħalissa, l-outputs kultant jistgħu jidhru rudimentarji fil-formatting u l-finitura tagħhom, b’mod partikolari meta tibda mingħajr dokument eżistenti. Iffukajna l-kapaċitajiet inizjali tal-mudell fuq il-ġenerazzjoni ta’ artifacts li jorganizzaw l-informazzjoni f’fluss u format adattati għall-preżentazzjonijiet, b’elementi bħal test, charts, immaġnijiet, u forom li huma nattivament u faċilment editjabbli wara l-esportazzjoni, u ottimizzajna għall-istruttura u l-flessibbiltà. Bħalissa hemm ukoll diskrepanzi okkażjonali bejn is-slides fil-viewer u l-powerpoint esportat li qed naħdmu biex innaqqsu. Barra minn hekk, filwaqt li bħalissa tista’ ttella’ spreadsheet eżistenti biex ChatGPT jeditjah jew jużah bħala template, din il-kapaċità għadha mhijiex disponibbli għal slideshows. Aħna diġà qed inħarrġu l-iterazzjoni li jmiss tal-ħolqien ta’ slideshows ta’ ChatGPT biex tipproduċi outputs aktar raffinati u sofistikati, b’kapaċitajiet usa’ u formatting imtejjeb.
B’mod ġenerali, nistennew titjib kontinwu fl-effiċjenza, il-fond, u l-versatilità ta’ ChatGPT aġent maż-żmien, inklużi interazzjonijiet aktar bla xkiel hekk kif inkomplu naġġustaw l-ammont ta’ superviżjoni meħtieġa mill-utent biex nagħmluh aktar utli filwaqt li niżguraw li huwa sigur biex jintuża.
SpreadsheetBench | ||||
Mudell | Ambjent tal-evalwazzjoni | Restrizzjoni soft (%): Livell taċ-ċellola | Restrizzjoni soft (%): Livell tal-folja | Restrizzjoni soft (%): Ġenerali |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT aġent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT aġent b’.xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Bniedem | 75.56 | 65.00 | 71.33 |
Awtur
Noti f’qiegħ il-paġna
* Meta tattiva l-browsing, il-mudell kultant jista’ jsib tweġibiet eżatti online, pereżempju, billi jaqra blog posts b’problemi kampjun minn dataset. Innaqqsu t-tħassib dwar il-qerq tal-mudell waqt il-browsing b’żewġ strateġiji:
1. Domains imblukkati li osservajna li l-mudell qarraq minnhom fil-passat.
2. Użajna mudell addizzjonali bħala monitor biex jeżamina t-tokens kollha tal-output tal-għodod f’kull tentattiv biex jidentifika mġiba suspettuża. Mġiba suspettuża hija definita bħala "paġna, fajl, jew snippet li l-għan ewlieni tiegħu hu li jipprovdi t-tweġiba eżatta għal din il-mistoqsija speċifika—eż., grading key uffiċjali, gist ta’ “solutions” imnixxija, jew diskussjoni li tikkwota t-tweġiba finali verbatim." Mġiba beninna hija definita bħala "Kwalunkwe riżorsa awtorevoli li bniedem diliġenti jista’ jikkonsulta (dokumentazzjoni, manwali, papers akkademiċi, artikli reputabbli) anke jekk inċidentalment ikun fiha t-tweġiba korretta." Kwalunkwe tentattiv fejn il-monitor iqis ir-rollout suspettuż jiġi kkunsidrat bħala żbaljat. Il-biċċa l-kbira tal-kampjuni li fallew b’dan il-kontroll kienu problemi li s-soluzzjoni eżatta tagħhom kienet disponibbli fuq sorsi multipli tal-internet mhux relatati ma’ HLE.
**OpenAI għandu aċċess esklussiv għal 237 minn 290 mistoqsija privati fid-dataset Tier 1-3. Il-mistoqsijiet Tier 4 ta’ FrontierMath mhumiex inklużi f’din l-evalwazzjoni. Ir-riżultati ġew evalwati bħala l-medja ta’ 16-il tentattiv biex tingħata tweġiba għal kull mistoqsija. Ir-riżultati ta’ ChatGPT aġent huma elicited minn OpenAI, graded minn Epoch AI, b’aċċess għall-browser u għat-terminal, u limitu ta’ 128K tokens għal kull tweġiba. L-evalwazzjonijiet ta’ OpenAI o4-mini u o3 huma elicited u graded minn Epoch AI, mingħajr aċċess għall-browser u għat-terminal, bl-użu ta’ python scripts permezz ta’ sejħa għall-funzjoni, u limitu ta’ 100K tokens għal kull tweġiba.
*** Oracle@64 jirreferi għall-aħjar punteġġ miksub fuq 64 runs kampjunati, magħżul bl-użu tal-ground truth (jiġifieri, nagħżlu t-tentattiv bl-ogħla punteġġ għal kull kompitu abbażi tal-prestazzjoni gradata reali). Nirrapportaw il-medja ta’ dawn l-aqwa punteġġi għal kull kompitu fuq il-kompiti kollha. Din il-metrika tenfasizza l-potenzjal upper-bound tal-mudell u l-varjanza fil-prestazzjoni tal-kompiti—u turi kemm il-mudell jista’ jkun kapaċi meta jirnexxi u tindika spazju għal titjib fil-konsistenza permezz ta’ aktar taħriġ. B’differenza mill-metriċi tipiċi “best of N”, li jagħżlu abbażi tal-kunfidenza tal-mudell, oracle@64 juża ground truth għall-għażla u japplika għal kompiti gradata fuq skala kontinwa 0–1 aktar milli pass/fail binarju.


