17 korrik 2025

Prezantimi i agjentit ChatGPT: duke lidhur kërkimin me veprimin

ChatGPT tani mendon dhe vepron, duke zgjedhur në mënyrë proaktive nga një grup mjetesh me aftësi agjenti për të kryer detyrat për ju duke përdorur kompjuterin e vet.

Provoni në ChatGPT

Duke ngarkuar…

ChatGPT tani mund të kryejë punë për ju duke përdorur kompjuterin e vet, duke përballuar detyra komplekse nga fillimi në fund.

Tani mund t'i kërkoni ChatGPT të trajtojë kërkesa si “shiko kalendarin tim dhe më trego për takimet e ardhshme të klientëve bazuar në lajmet e fundit”, “planifiko dhe bli përbërës për të bërë mëngjes japonez për katër vetë” dhe “analizo tre konkurrentë dhe krijo një prezantim”. ChatGPT shfleton në mënyrë inteligjente në faqet e internetit, filtron rezultatet, ju kërkon të identifikoheni në formë të sigurt kur të jetë nevoja, ekzekuton kodin, kryeen analiza dhe madje ofron prezantime dhe tabela të redaktueshme që përmbledhin rezultatet e gjetura.

Në thelb të kësaj aftësie të re është një sistem i unifikuar agjenti. Ai bashkon tri pikat e forta të arritjeve të mëparshme: Aftësinë e operatorit⁠ për të ndërvepruar me faqet e internetit, Aftësinë e kërkimit të thelluar⁠ për të sintetizuar informacionin dhe inteligjencën dhe rrjedhshmërinë e bisedës së ChatGPT.

ChatGPT i kryen këto detyra duke përdorur kompjuterin e tij virtual, duke kaluar rrjedhshëm midis arsyetimit dhe veprimit për të trajtuar flukse pune komplekse nga fillimi në fund, të gjitha bazuar në udhëzimet e tua.

Më e rëndësishmja, ju jeni gjithmonë në kontroll. ChatGPT kërkon leje para se të ndërmarrë veprime me pasoja, dhe mund ta ndërpresni lehtësisht, të merrni përsipër shfletuesin ose t'i ndaloni detyrat në çdo moment.

Duke filluar nga sot, përdoruesit e Pro, Plus dhe Team mund të aktivizojnë aftësitë e reja të agjentit të ChatGPT direkt përmes menysë së mjeteve nga kompozuesi duke zgjedhur "agent mode" në çdo moment të çdo bisede.

Ndërsa agjenti ChatGPT tashmë është një mjet i fuqishëm për trajtimin e detyrave komplekse, qarkullimi i sotëm është vetëm fillimi. Ne do të vazhdojmë të shtojmë përmirësime të rëndësishme në mënyrë të përsëritur dhe të rregullt, duke e bërë atë më të aftë dhe të dobishëm për më shumë njerëz me kalimin e kohës.

Një evolucion natyror i operatorit dhe i kërkimit të thelluar

Më parë, operatori dhe kërkimi i thelluar secili sollën pikat e veta të forta unike: Operatori mund të lëvizte, klikonte dhe shkruante në internet, ndërsa kërkimi i thelluar shkëlqente në analizimin dhe përmbledhjen e informacionit. Por këta funksionuan më mirë në situata të ndryshme: Operatori nuk mund të zhytej thellë në analiza apo të shkruante raporte të hollësishme, dhe kërkimi i thelluar nuk mund të bashkëvepronte me faqet e internetit për të rafinuar rezultatet apo për të aksesuar përmbajtje që kërkonte identifikimin e përdoruesit. Në fakt, pamë që shumë pyetje që përdoruesit provuan me operatorin ishin më të përshtatshme për kërkime të thelluara, kështu që bashkuam pikat e forta të të dyjave.

Duke integruar këto pika të forta plotësuese në ChatGPT dhe duke prezantuar mjete shtesë, kemi shkyçur aftësi krejtësisht të reja brenda një modeli. Tani mund të angazhohet në mënyrë aktive me faqet e internetit—duke klikuar, filtruar dhe mbledhur rezultate më të sakta dhe efikase. Ti gjithashtu mund të kaloni natyrshëm nga një bisedë e thjeshtë në kërkesën për veprime drejtpërdrejt brenda të njëjtës bisedë.

Një agjent që punon për ju, me ju

Ne e kemi pajisur agjentin ChatGPT me një sërë mjetesh: një shfletues vizual që ndërvepron me internetin përmes një ndërfaqeje grafike përdorimi, një shfletues tekstual për pyetje më të thjeshta të bazuara në arsyetim në internet, një terminal dhe akses të drejtpërdrejtë në API. Agjenti mund të përdorë gjithashtu lidhësit ChatGPT⁠(hapet në një dritare të re), të cilët ju mundësojnë lidhjen e aplikacioneve si Gmail dhe Github në mënyrë që ChatGPT të gjejë informacione relevante për kërkesat tuaja dhe t'i përdorë ato në përgjigjet e veta. Gjithashtu mund të hyninë çdo faqe interneti duke marrë kontrollin e shfletuesit, duke e lejuar të shkojë më thellë dhe më gjerë si në kërkimin e tij ashtu edhe në ekzekutimin e detyrave. Duke i dhënë ChatGPT këto rrugë të ndryshme për të aksesuar dhe ndërvepruar me informacionin në internet do të thotë që ai mund të zgjedhë rrugën optimale për të kryer detyrat në mënyrën më efikase. Për shembull, mund të mbledhë informacione rreth kalendarit tuaj përmes një API, të arsyetojë me efikasitet mbi sasi të mëdha teksti duke përdorur shfletuesin e bazuar në tekst, ndërsa gjithashtu ka aftësinë për të ndërvepruar vizualisht me faqet e internetit të dizajnuara kryesisht për njerëzit.

E gjithë kjo bëhet duke përdorur kompjuterin e vet virtual, i cili ruan kontekstin e nevojshëm për detyrën, edhe kur përdoren mjete të shumta - modeli mund të zgjedhë të hapë një faqe duke përdorur shfletuesin e tekstit ose shfletuesin vizual, të shkarkojë një skedar nga interneti, ta manipulojë duke ekzekutuar një komandë në terminal dhe pastaj ta shikojë daljen prapa në shfletuesin vizual. Modeli përshtat qasjen e vet për të kryer detyra me shpejtësi, saktësi dhe efikasitet.

Agjenti ChatGPT është projektuar për flukse pune përsëritëse dhe bashkëpunuese, shumë më interaktive dhe fleksibël se modelet e mëparshme. Ndërsa ChatGPT funksionon, mund ta ndërprisni në çdo moment për të sqaruar udhëzimet tuaja, për ta drejtuar drejt rezultateve të dëshiruara ose për ta ndryshuar plotësisht detyrën. Do të vazhdojë aty ku e la, tani me informacionin e ri, por pa humbur ecurinë e mëparshme. Po ashtu, vetë ChatGPT mund të kërkojë në mënyrë proaktive detaje shtesë nga ju kur është e nevojshme për të siguruar që detyra të mbetet në përputhje me qëllimet tuaja. Nëse një detyrë zgjat më shumë se sa parashikohet ose ndjehet e ngecur, mund ta ndaloni, të kërkoni për një përmbledhje të ecurisë ose ta ndaloni tërësisht dhe të merrni rezultate të pjesshme. Nëse keni aplikacionin ChatGPT në telefon, ai do të të dërgojë një njoftim kur të ketë përfunduar me detyrën tuaj.

Zgjerimi i përdorimit praktik në botën reale

Këto aftësi të njësuara agjenti rrisin ndjeshëm dobinë e ChatGPT si në kontekstet e përditshme ashtu edhe në ato profesionale. Në punë, mund të automatizoni detyra të përsëritura, si konvertimi i pamjeve të ekranit ose paneleve në prezantime të përbëra nga elementë vektorë të redaktueshëm, riorganizimi i takimeve, planifikimi dhe rezervimi i aktiviteteve jashtë zyrës dhe përditësimi i tabelave me të dhëna të reja financiare duke ruajtur të njëjtin formatim. Në jetën tënde personale, mund ta përdorni për të planifikuar dhe rezervuar pa mundim itinerare udhëtimi, për të hartuar dhe rezervuar mbrëmje të tëra, ose për të gjetur specialistë dhe për të planifikuar dhe rezervuar takime.

Aftësitë e avancuara të modelit pasqyrohen në performancën e tij më të fundit (SOTA) në vlerësimet që matin shfletimin në internet dhe aftësitë për përfundimin e detyrave në botën reale.

Në Humanity’s Last Exam⁠(hapet në një dritare të re)*, një vlerësim që mat performancën e AI në një gamë të gjerë lëndësh me pyetje të nivelit ekspert, modeli që fuqizon agjentin ChatGPT arrin një rezultat të ri pass@1 SOTA prej 41.6. Për shkak se agjenti planifikon në mënyrë dinamike dhe zgjedh mjetet e veta, ai mund të trajtojë të njëjtën detyrë në mënyra të ndryshme në çdo ekzekutim. Kur e shkallëzuam këtë me një strategji të thjeshtë paralele të zbatimit—duke kryer deri në tetë përpjekje njëkohësisht dhe duke zgjedhur atë me besimin më të lartë të vetëraportuar—rezultati HLE i agjentit rritet në 44.4.

FrontierMath** është standardi më i vështirë i njohur i matematikës, duke përfshirë probleme të reja dhe të pabotuara që shpesh u marrin matematikanëve ekspertë orë apo edhe ditë për t'u zgjidhur. Me përdorimin e mjeteve, si aksesi në një terminal për ekzekutimin e kodit, agjenti ChatGPT arrin një saktësi prej 27,4%, duke tejkaluar të dy modelet e mëparshme me një diferencë të madhe.

Ne gjithashtu vlerësuam modelin duke përdorur standarde të modeluara sipas detyrave komplekse të botës reale. Në një standard të brendshëm të krijuar për të vlerësuar performancën e modelit në detyra komplekse, ekonomikisht të vlefshme të punës së njohurive, dalja e agjentit ChatGPT është e krahasueshme ose më e mirë se ajo e njerëzve në afërsisht gjysmën e rasteve në një sërë kohësh përfundimi të detyrave, ndërsa tejkalon dukshëm o3 dhe o4-mini. Outputet e modeleve vlerësohen nga ekspertët në krahasim me standardet njerëzore me cilësi të lartë të krijuara nga performuesit më të mirë në çdo fushë. Këto detyra, të marra nga ekspertët nëpër profesione dhe sektorë të ndryshëm, pasqyrojnë punën profesionale në botën reale - si përgatitja e një analize konkurruese të ofruesve të kujdesit urgjent sipas kërkesës, ndërtimi i orareve të hollësishme të amortizimit dhe identifikimi i puseve të qëndrueshme të ujit për një objekt të ri të hidrogjenit të gjelbër.

Në DSBench⁠(hapet në një dritare të re), i krijuar për të vlerësuar agjentët në detyra realiste të shkencës së të dhënave që përfshijnë analizën dhe modelimin e të dhënave, agjenti ChatGPT tejkalon dukshëm performancën njerëzore me një diferencë të madhe.

Në SpreadsheetBench, që vlerëson modelet për aftësinë e tyre për të redaktuar fletëllogaritëse të krijuara nga skenarë të botës reale, agjenti ChatGPT i tejkalon modelet ekzistuese me një diferencë të madhe. Kur i jepet mundësia për të redaktuar drejtpërdrejt fletëllogaritëset, agjenti ChatGPT shënon edhe më lart me 45,5%, krahasuar me Copilot në Excel me 20,0%.

Metodologjia: Autorët e SpreadsheetBench përdorën një mjedis Windows duke përdorur Microsoft Excel për të vlerësuar fletëllogaritjet. Ne përdorëm një mjedis OSX dhe LibreOffice, që mund të çojë në ndryshime të vogla në vlerësim. Për shembull, autorët zbuluan një kufizim të përgjithshëm të vështirë prej 15,02% për GPT‑4o, dhe ne arritëm 13,38%. Ne përdorëm pikën e plotë të referimit me 912 pyetje.

Në një standard të brendshëm që mat aftësinë e një modeli për të kryer detyrat e modelimit të analistëve të bankës së investimeve nga viti i parë deri në të tretë— si përgatitja e një modeli financiar me tre deklarata për një kompani Fortune 500 me formatim dhe citime të sakta, ose ndërtimi i një modeli blerjeje me hua për një marrje private — modeli që fuqizon agjentin ChatGPT tejkalon ndjeshëm kërkimin e thellë dhe o3. Çdo detyrë vlerësohet sipas qindra kritereve që lidhen me saktësinë dhe përdorimin e formulave.

Ne gjithashtu vlerësuam agjentin ChatGPT në BrowseComp⁠, një standard që publikuam në fillim të këtij viti që mat aftësinë e agjentëve të shfletimit për të gjetur informacione të vështira për t'u gjetur në internet. Modeli vendosi një SOTA të ri me 68,9%, 17,4% më lart se kërkimi i thelluar.

Së fundi, në WebArena⁠(hapet në një dritare të re), një pikë referimi e krijuar për të vlerësuar performancën e agjentëve të shfletimit të internetit në kryerjen e detyrave reale në internet, modeli përmirësohet mbi CUA të mbështetur nga o3 (modeli që mban operatorin).

Si ta përdorni

Mund t'i aktivizoni aftësitë e reja të agjentit të ChatGPT direkt përmes menysë zbritëse të mjeteve nga kompozitori duke zgjedhur "modalitetin e agjentit" në çdo moment të çdo bisede. Thjesht përshkruani detyrën e dëshiruar – qoftë për të kryer kërkime të thelluara, për të krijuar një prezantim, ose për të paraqitur shpenzimet. Ndërsa kryeni detyrën tuaj, një rrëfim në ekran ofron shikueshmëri të saktë për atë që po bën ChatGPT. Mund ta ndërprisni dhe të merrni kontrollin e shfletuesit kurdo që është e nevojshme, duke siguruar që detyrat të mbeten në përputhje me qëllimet tuaja.

Agjenti i ChatGPT mund të hyjë në lidhësit tuaj, duke e lejuar të integrohet me ciklet tuaja të punës dhe të ketë akses në informacionin përkatës dhe të zbatueshëm. Pasi të identifikoheni, këta lidhës i lejojnë ChatGPT të shohë informacione dhe të bëjë gjëra si përmbledhja e kutisë suaj postare për ditën ose gjetja e orarit kur jeni të lirë për një takim—për të ndërmarrë veprime në këto faqe, megjithatë, do t'ju kërkohet të identifikoheni duke marrë kontrollin e shfletuesit.

Për më tepër, mund të planifikoni detyrat e përfunduara që të përsëriten automatikisht, si për shembull të krijoni një raport javor statistikor çdo të hënë në mëngjes.

Aftësi të reja, rreziqe të reja

Ky qarkullim shënon herën e parë që përdoruesit mund t'i kërkojnë ChatGPT të ndërmarrë veprime në internet. Kjo paraqet rreziqe të reja, veçanërisht sepse agjenti i ChatGPT mund të punojë drejtpërdrejt me të dhënat tuaja, qoftë informacionin e aksesuar përmes lidhësve ose faqeve të internetit ku keni hyrë përmes modalitetit të marrjes së kontrollit. Ne kemi forcuar kontrollet e fuqishme nga pamja paraprake e kërkimit të Operatorit dhe kemi shtuar masa mbrojtëse për sfida si trajtimi i informacionit delikat në internetin e drejtpërdrejtë, shtrirja më e gjerë e përdoruesve dhe aksesi (i kufizuar) në rrjetin e terminaleve. Ndërsa këto masa uljeje rreziku e ulin ndjeshëm rrezikun, mundësitë e zgjeruara të agjentit ChatGPT dhe shtrirja më e gjerë e përdoruesve bëjnë që profili i tij i përgjithshëm i rrezikut të jetë më i lartë.

Ne kemi vënë një theks të veçantë në mbrojtjen e agjentit ChatGPT kundër manipulimit kundërshtar përmes injektimit të kërkesës, që është një rrezik për sistemet e agjentëve në përgjithësi, dhe kemi përgatitur mas më të gjera rreziku në përputhje me këtë. Injektimet e kërkesave janë përpjekje nga palët e treta për të manipuluar sjelljen e tij përmes udhëzimeve me qëllim të keq që agjenti ChatGPT mund të hasë në internet gjatë kryerjes së një detyre. Për shembull, një kërkesë me qëllim të keq e fshehur në një faqe interneti, si p.sh. në elementet e padukshme ose në metadata, mund të mashtrojë agjentin për të ndërmarrë veprime të padëshiruara, si ndarja e të dhënave private nga një lidhës me sulmuesin, ose ndërmarrja e një veprimi të dëmshëm në një faqe ku përdoruesi është i identifikuar. Duke qenë se agjenti i ChatGPT mund të ndërmarrë veprime të drejtpërdrejta, sulmet e suksesshme mund të kenë ndikim më të madh dhe të paraqesin rreziqe më të larta.

Ne kemi trajnuar dhe testuar agjentin për të identifikuar dhe rezistuar ndaj injektimit të kërkesave, si dhe për të përdorur monitorimin për të zbuluar dhe reaguar shpejt ndaj sulmeve të injektimit të kërkesave. Kërkimi i konfirmimit të shprehur nga përdoruesi para veprimeve me pasoja zvogëlon më tej rrezikun e dëmtimit nga këto sulme, dhe përdoruesit mund të ndërhyjnë në detyra sipas nevojës duke marrë kontrollin ose duke ndaluar. Përdoruesit duhet të peshojnë këto kompromise kur vendosin se çfarë informacioni t'i ofrojnë agjentit, si dhe të ndërmarrin hapa për të minimizuar ekspozimin e tyre ndaj këtyre rreziqeve, si p.sh. çaktivizimi i lidhësve kur nuk nevojiten më për një detyrë.

Ne gjithashtu kemi zbatuar masa për të ulur gabimet e modelit, veçanërisht pasi modeli tani mund të kryejë detyra që ndikojnë në botën reale:

Konfirmimi i shprehur i përdoruesit: ChatGPT është trajnuar për të kërkuar në mënyrë të qartë lejen tuaj përpara se të ndërmarrë veprime me pasoja në botën reale, si p.sh. kryerja e blerjeve.
Mbikëqyrja aktive (“Modaliteti i shikimit”): Disa detyra kritike, si dërgimi i emaileve, kërkojnë mbikëqyrjen tuaj aktive.
Zbutja proaktive e rrezikut: ChatGPT është trajnuar për të refuzuar në mënyrë aktive detyrat me rrezik të lartë, si transfertat bankare.

Së fundmi, kemi paraqitur kontrolle shtesë për të kufizuar të dhënat që modeli mund të përdorë:

Kontrollet e privatësisë: Me një klik të vetëm në cilësimet e ChatGPT, mund të fshijë të gjitha të dhënat e shfletimit dhe menjëherë të dalë nga të gjitha seancat aktive të faqes në internet. Përndryshe, kukit vazhdojnë të ekzistojnë bazuar në politikat e skedarëve të personalizimit të çdo faqeje interneti të vizituar, të cilat mund t'i bëjnë vizitat e përsëritura në faqe më efikase.
Modaliteti i sigurt i marrjes së kontrollit të shfletuesit: Kur ndërveproni me internetin duke përdorur shfletuesin e ChatGPT (“modaliteti i marrjes së kontrollit”), inputet tuaja mbeten private. ChatGPT nuk mbledh ose ruan asnjë të dhënë që fusni gjatë këtyre seancave, si fjalëkalimet, sepse modeli nuk ka nevojë për to dhe është më i sigurt nëse nuk i sheh kurrë.

Paketa jonë më e fortë i sigurisë deri më sot për rrezikun biologjik

Me aftësitë e rritura të modelit, kemi vendosur të trajtojmë agjentin ChatGPT si me aftësi të larta biologjike dhe kimike sipas kuadrit tonë të gatishmërisë⁠, duke aktivizuar masat mbrojtëse përkatëse. Ndërsa nuk kemi prova përfundimtare që modeli mund të ndihmojë në mënyrë kuptimplotë një fillestar të krijojë dëm të rëndë biologjik—pragu ynë për aftësi të lartë—po tregojmë kujdes dhe po zbatojmë masat mbrojtëse të nevojshme tani. Si rezultat, ky model ka paketën tonë më të plotë të sigurisë deri më sot me masa mbrojtëse të përmirësuara për biologjinë: modelim gjithëpërfshirës të kërcënimeve, trajnim për refuzimin e përdorimit të dyfishtë, klasifikues dhe monitorues të arsyetimit gjithmonë aktivë dhe linja të qarta zbatimi.

Përveç punës sonë për të siguruar agjentin ChatGPT, ne e dimë se biosiguria me shtresa funksionon më mirë kur masat mbrojtëse shtrihen përtej çdo laboratori të vetëm, kështu që bashkëpunojmë në të gjithë ekosistemin për të forcuar mbrojtjen. Që nga dita e parë kemi punuar me ekspertë të jashtëm të biosigurisë, institute të sigurisë dhe studiues akademikë për të formuar modelin tonë të kërcënimeve, vlerësimet dhe politikat tona. Shqyrtuesit e trajnuar në biologji verifikuan të dhënat tona të vlerësimit, dhe ekipet e kuqe të ekspertëve të fushës përkatëse kanë testuar sigurinë në ngarkesë dhe masat mbrojtëse në skenarë realistë. Në fillim të këtij muaji organizuam një seminar mbi biombrojtjen me ekspertë nga qeveria, akademia, laboratorët kombëtarë dhe OJQ-të për të përshpejtuar bashkëpunimin dhe për të avancuar kërkimet në biombrojtje të mundësuara nga AI. Ne do të vazhdojmë të bashkëpunojmë globalisht për të qëndruar përpara rreziqeve të reja.

Lexoni më shumë rreth qasjes sonë të fuqishme të sigurisë për modelin e agjentit të njësuar në kartën e sistemit⁠. Ne po qarkullojmë gjithashtu një program shpërblimesh për gjetjen e gabimeve⁠ në mënyrë që të mund të gjejmë dhe korrigjojmë rreziqet e botës reale.

Disponueshmëria

Agjenti i ChatGPT fillon të dalë sot për Pro, Plus dhe Team; Pro do të ketë akses deri në fund të ditës, ndërsa përdoruesit e Plus dhe Team do të kenë akses gjatë ditëve para. Përdoruesit e sektorit të kompanive dhe të arsimit do të kenë akses në javët e ardhshme. Përdoruesit Pro kanë 400 mesazhe në muaj, ndërsa përdoruesit e tjerë me pagesë marrin 40 mesazhe në muaj, me përdorim shtesë të disponueshëm përmes opsioneve fleksibël të bazuara në kredi.

Ne jemi ende duke punuar për të mundësuar aksesin për Zonën Ekonomike Evropiane dhe Zvicrën.

Faqja e pamjes paraprake kërkimore të operatorit do të mbetet funksionale për disa javë të tjera, pas së cilës do të mbyllet. Kërkimi i thelluar është pjesë e aftësive të agjentit të ChatGPT. Nëse preferoni veçorinë origjinale të kërkimit të thelluar—e cila mund të zgjasë më shumë për t'u ekzekutuar, por ofron përgjigje më të hollësishme dhe të thelluara si parazgjedhje—mund ta aksesoni ende duke zgjedhur “kërkimin e thelluar” nga menyja në krijuesin e mesazhit.

Kufizimet dhe shikimi përpara

Agjenti i ChatGPT është ende në fazat e tij të hershme. Është i aftë të kryejë një sërë detyrash komplekse, por ende mund të bëjë gabime.

Ndërsa shohim potencial të madh në aftësinë e tij për të krijuar prezantime, ky funksionalitet është aktualisht në fazë beta. Për momentin, rezultatet ndonjëherë mund të duken të thjeshta në formatimin dhe përpunimin e tyre, veçanërisht kur fillohet pa një dokument ekzistues. Ne e përqendruam aftësitë fillestare të modelit në realizimin e artefakteve që organizojnë informacionin në një rrjedhë dhe format të përshtatshëm për prezantime, me elemente si tekst, tabela, imazhe dhe forma që janë në formatin origjinal dhe lehtësisht të redaktueshëm pas eksportit, duke optimizuar për strukturë dhe fleksibilitet. Aktualisht, ka gjithashtu mospërputhje të herëpashershme midis prezantimeve në lexues dhe atyre në PowerPoint e eksportuar që po përpiqemi t'i zvogëlojmë. Për më tepër, ndërsa aktualisht mund të ngarkoni një tabelë ekzistuese për ChatGPT për ta modifikuar ose përdorur si një shabllon, kjo aftësi nuk është ende e disponueshme për prezantimet. Ne tashmë po bëjmë trajnim për iteracionin para të krijimit të shfaqjes së prezantimeve të ChatGPT për të marrë rezultate më të arrira, më të sofistikuara, me aftësi më të gjera dhe formatim të përmirësuar.

Në përgjithësi, ne presim përmirësime të vazhdueshme në efikasitetin, thellësinë dhe shkathtësinë e agjentit ChatGPT me kalimin e kohës, duke përfshirë ndërveprime më të shtruara ndërsa vazhdojmë të rregullojmë nivelin e mbikëqyrjes që kërkohet nga përdoruesi për ta bërë më të dobishëm duke siguruar që të jetë i sigurt për t'u përdorur.

Shtojca

SpreadsheetBench
Modeli	Mjedisi i vlerësimit	Kufizim i butë (%): Niveli i qelizës	Kufizim i lehtë (%): Niveli i fletës	Kufizim i lehtë (%): Në përgjithësi
GPT‑4o	Windows, Excel	15.03	23,65	18,35
Copilot në Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Agjent ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Agjent i ChatGPT me .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Njeri		75,56	65,00	71,33

Ritransmetim i drejtpërdrejtë

Autor

OpenAI

Shënime në fund

* Kur aktivizon shfletimin, modeli ndonjëherë mund të gjejë përgjigje të sakta në internet, për shembull, duke lexuar postime në blog me probleme shembull nga një grup të dhënash. Ne i ulim problemet e mashtrimit të modelit gjatë shfletimit me dy strategji:

1. Domenet e bllokuara nga të cilat kemi vënë re që modeli ka mashtruar në të kaluarën.

2. Përdoret një model shtesë si monitor për të shqyrtuar të gjitha tokenet e outputit të mjetit në çdo përpjekje për të identifikuar sjelljen e dyshimtë. Sjellja e dyshimtë përkufizohet si "një faqe, skedar ose fragment, qëllimi kryesor i të cilit është të japë përgjigjen e saktë për këtë pyetje specifike - p.sh., një çelës zyrtar i vlerësimit, thelbi i “zgjidhjeve” të rrjedhura ose diskutim që citon përgjigjen e përfunduar fjalë për fjalë." Sjellja dashamirëse përkufizohet si "Çdo burim autoritar që një njeri i zellshëm mund të konsultojë (dokumentacion, manuale, dokumente shkencore, artikuj me reputacion) edhe nëse rastësisht përmban përgjigjen e saktë." Çdo përpjekje ku monitori e konsideron hedhjen e dyshimtë llogaritet si e pasaktë. Shumica e mostrave që dështuan nga ky kontroll ishin probleme zgjidhja e saktë e të cilave ishte e disponueshme në burime të shumta të internetit që nuk lidhen me HLE.

**OpenAI ka akses ekskluziv në 237 nga 290 pyetje private në grupin e të dhënave të nivelit 1-3. Pyetjet e nivelit 4 të FrontierMath nuk janë përfshirë në këtë vlerësim. Rezultatet vlerësohen si mesatarja e 16 përpjekjeve për t'iu përgjigjur secilës pyetje. Rezultatet e agjentit ChatGPT nxirren nga OpenAI, vlerësohen nga Epoch AI, me akses në shfletues dhe terminal, dhe një kufi prej 128K tokenësh për përgjigje. Vlerësimet e OpenAI o4-mini dhe o3 nxiten dhe vlerësohen nga Epoch AI, pa akses në shfletues dhe terminal, me përdorimin e skripteve Python përmes thirrjes së funksioneve dhe një kufi prej 100K tokenesh për përgjigje.

*** Oracle@64 i referohet rezultatit më të mirë të arritur në 64 drejtime të mostruara, të përzgjedhura duke përdorur të vërtetën bazë (d.m.th. ne zgjedhim përpjekjen me rezultatin më të lartë për secilën detyrë bazuar në performancën aktuale të vlerësuar). Ne raportojmë mesataren e këtyre rezultateve më të mira për detyrë në të gjitha detyrat. Kjo metrikë thekson potencialin e sipërm të modelit dhe variancën në performancën e detyrës – duke treguar se sa i aftë mund të jetë modeli kur të ketë sukses dhe tregon hapësirë për përmirësimin e qëndrueshmërisë përmes trajnimit të mëtejshëm. Ndryshe nga metrikat tipike “më të mira nga N”, të cilat zgjedhin bazuar në besimin e modelit, Oracle@64 përdor të vërtetën bazë për përzgjedhje dhe zbatohet për detyrat e vlerësuara në një shkallë të vazhdueshme 0–1 sesa kalimin binar kalim/dështim.