Tunawaletea wakala wa ChatGPT: kuunganisha utafiti na kitendo
ChatGPT sasa inawaza na kutenda, ikichagua kwa bidii kutoka kwenye sanduku la zana la ujuzi wa kiwakala ili kukamilisha shughuli zako kwa kutumia kompyuta yake mwenyewe.
ChatGPT sasa inaweza kukufanyia kazi kwa kutumia kompyuta yake, ikishughulikia shughuli ngumu kutoka mwanzo hadi mwisho.
Sasa unaweza kuomba ChatGPT kushughulikia maombi kama “angalia kalenda yangu na unipe muhtasari kuhusu mikutano ijayo na wateja kulingana na habari za hivi karibuni,” “panga na ununue viungo vya kutengeneza kifungua kinywa cha Kijapani kwa watu wanne,” na “changanua washindani watatu na uunde slaidi za mawasilisho.” ChatGPT itavinjari tovuti, kuchuja matokeo, kukuhimiza kuingia kwa usalama inapohitajika, kuendesha msimbo, kufanya uchanganuzi na hata kutoa maonyesho ya slaidi na laha jedwali zinazoweza kuhaririwa ambazo zinatoa muhtasari wa matokeo yake.
Katika msingi wa uwezo huu mpya kuna mfumo wa wakala uliojumuishwa. Unaleta pamoja nguvu tatu za mafanikio ya awali: uwezo wa Operator kuingiliana na tovuti, ujuzi wa utafiti wa kina katika kuunganisha habari na maarifa ya ChatGPT na umahiri wa mazungumzo.
ChatGPT hufanya shughuli hizi kwa kutumia kompyuta yake pepe, ikibadilisha kwa urahisi kati ya hoja na kitendo kushughulikia mtiririko tata wa kazi kutoka mwanzo hadi mwisho, yote kulingana na maagizo yako.
Muhimu zaidi, daima uko katika udhibiti. ChatGPT huomba ruhusa kabla ya kuchukua vitendo muhimu na unaweza kwa urahisi kuingilia kati, kuchukua udhibiti wa kivinjari, au kusitisha shughuli wakati wowote.
Kuanzia leo, watumiaji wa Pro, Plus, na Team wanaweza kuamilisha uwezo mpya wa wakala wa ChatGPT moja kwa moja kupitia menyu ya zana kutoka kwa mtunzi kwa kuchagua 'agent mode' wakati wowote katika mazungumzo yoyote.
Ingawa wakala wa ChatGPT tayari ni chombo chenye nguvu kwa kushughulikia shughuli ngumu, uzinduzi wa leo ni mwanzo tu. Tutaendelea kuongeza maboresho makubwa mara kwa mara na kuifanya iwe na uwezo zaidi na muhimu kwa watu wengi zaidi kwa muda.
Hapo awali, Operator na utafiti wa kina zilileta nguvu za kipekee: Operator ingeweza kusogeza, kubonyeza na kuandika kwenye wavuti, ilhali utafiti wa kina ulikuwa bora katika kuchambua na kutoa muhtasari wa taarifa. Lakini zilifanya kazi bora katika hali tofauti: Operator haingeweza kuingia kwa kina katika uchanganuzi au kuandika ripoti za kina na utafiti wa kina haungeweza kuingiliana na tovuti ili kusafisha matokeo au kufikia maudhui yanayohitaji uthibitishaji wa mtumiaji. Kwa kweli, tuliona kwamba maswali mengi ambayo watumiaji walijaribu na Operator yalikuwa yanafaa zaidi kwa utafiti wa kina, kwa hivyo tulileta bora zaidi ya pande zote mbili pamoja.
Kwa kuunganisha nguvu hizi za ziada katika ChatGPT na kuanzisha zana za ziada, tumefungua uwezo mpya kabisa ndani ya muundo mmoja. Sasa inaweza kushiriki kikamilifu na tovuti—kubonyeza, kichujio na kukusanya matokeo sahihi zaidi na yenye ufanisi. Unaweza pia kwa urahisi kubadilisha kutoka mazungumzo rahisi hadi kuomba vitendo moja kwa moja ndani ya chati hiyo hiyo.
Tumekabidhi wakala wa ChatGPT seti ya zana: kivinjari cha picha kinachoingiliana na wavuti kupitia kiolesura cha mtumiaji wa picha, kivinjari kinachotumia maandishi kwa maswali rahisi ya wavuti yanayotegemea uwazaji, terminali, na upatikanaji wa moja kwa moja wa API. Wakala anaweza pia kutumia viunganishi vya ChatGPT(fungua katika dirisha jipya), ambavyo hukuruhusu kuunganisha programu kama Gmail na Github ili ChatGPT ipate taarifa zinazohusiana na dokezo zako na kuzitumia katika majibu yake. Unaweza pia kuingia kwenye tovuti yoyote kwa kuchukua udhibiti wa kivinjari, na kuiruhusu kwenda kwa kina na upana zaidi katika utafiti wake na utekelezaji wa shughuli. Kuipa ChatGPT njia hizi tofauti za kufikia na kuingiliana na taarifa za wavuti kunamaanisha kuwa inaweza kuchagua njia bora zaidi ya kutekeleza shughuli kwa ufanisi zaidi. Kwa mfano, inaweza kukusanya taarifa kuhusu kalenda yako kupitia API, kufikiri kwa ufanisi juu ya kiasi kikubwa cha maandishi kwa kutumia kivinjari kinachotegemea maandishi, huku pia ikiwa na uwezo wa kuingiliana kwa kuona na tovuti zilizoundwa hasa kwa wanadamu.
Yote hii inafanywa kwa kutumia kompyuta yake pepe, ambayo huhifadhi muktadha muhimu kwa shughuli hiyo, hata wakati zana nyingi zinatumiwa—muundo unaweza kuchagua kufungua ukurasa kwa kutumia kivinjari cha maandishi au kivinjari cha picha, pakua faili kutoka kwenye wavuti, kuibadilisha kwa kuendesha amri kwenye terminali, kisha kutazama utoaji nyuma kwenye kivinjari cha picha. Muundo huu hubadilisha mbinu yake ili kutekeleza shughuli kwa kasi, usahihi, na ufanisi.
Wakala wa ChatGPT umeundwa kwa ajili ya michakato ya kazi ya kurudiarudia na ya kushirikiana, ambayo ni ya maingiliano zaidi na rahisi zaidi kuliko miundo ya awali. Unapofanya kazi na ChatGPT, unaweza kuingilia kati wakati wowote ili kufafanua maagizo yako, kuelekeza kwenye matokeo unayotaka, au kubadilisha shughuli kabisa. Itaendelea pale ilipoishia, sasa ikiwa na taarifa mpya, lakini bila kupoteza maendeleo ya awali. Vivyo hivyo, ChatGPT yenyewe inaweza kutafuta maelezo ya ziada kutoka kwako inapohitajika ili kuhakikisha kwamba shughuli inabaki sambamba na malengo yako. Ikiwa shughuli inachukua muda mrefu kuliko ilivyotarajiwa au inaonekana kukwama, unaweza kuisimamisha, kuiuliza muhtasari wa maendeleo, au kuiacha kabisa na kupokea matokeo ya sehemu. Ikiwa una programu ya ChatGPT kwenye simu yako, itakutumia arifa wakati itakapokamilisha shughuli yako.
Uwezo huu wa wakala uliounganishwa huongeza sana manufaa ya ChatGPT katika muktadha wa kila siku na wa kitaaluma. Kazini, unaweza kuotomatisha shughuli zinazojirudia, kama vile kubadilisha picha za skrini au dashibodi kuwa wasilisho yenye vipengele vya vekta vinavyoweza kuhaririwa, kupanga upya mikutano, kupanga na kuhifadhi safari za nje ya ofisi, na kusasisha laha jedwali na data mpya ya kifedha huku ukihifadhi muundo uleule. Katika maisha yako ya kibinafsi, unaweza kuitumia kupanga na kuweka mpango wa ratiba za safari kwa urahisi, kubuni na kuweka sherehe kamili za chakula cha jioni, au kupata wataalamu na kupanga miadi.
Uwezo wa juu wa muundo huo unaonyeshwa katika utendaji wake wa kisasa (SOTA) kwenye tathmini za kupima kuvinjari wavuti na uwezo wa kukamilisha shughuli halisi.
Katika Mtihani wa Mwisho wa Binadamu(fungua katika dirisha jipya)*, tathmini inayopima utendaji wa AI katika masomo mbalimbali kwenye maswali ya kiwango cha wataalamu, muundo unaoendesha wakala wa ChatGPT unapata alama mpya ya kupita@1 SOTA ya 41.6. Kwa sababu wakala hufanya mipango kwa njia ya nguvu na huchagua zana zake mwenyewe, unaweza kushughulikia shughuli hiyo hiyo kwa njia tofauti katika kila mzunguko. Tulipoongeza hii kwa mkakati rahisi wa utekelezaji sambamba—kuendesha majaribio hadi nane kwa wakati mmoja na kuchagua ile yenye ujasiri wa juu zaidi wa kujiripoti—alama ya HLE ya wakala huongezeka hadi 44.4.
FrontierMath** ni kipimo kigumu zaidi cha hisabati kinachojulikana, kinachojumuisha matatizo mapya, ambayo hayajachapishwa na mara nyingi huchukua wataalamu wa hisabati masaa au hata siku kutatua. Kwa kutumia zana, kama vile ufikiaji wa terminali kwa utekelezaji wa msimbo, wakala wa ChatGPT hufikia usahihi wa 27.4%, ukizidi kwa mbali miundo yote ya awali.
Pia tuliathmini muundo kwa kutumia viwango vya majaribio vilivyoundwa kwa kuiga shughuli ngumu za ulimwengu halisi. Kwenye kipimo cha ndani kilichoundwa kutathmini utendaji wa muundo kwenye shughuli ngumu za maarifa zenye thamani ya kiuchumi, utoaji wa wakala wa ChatGPT unalinganishwa na au ni bora kuliko wa wanadamu katika takriban nusu ya kesi katika nyakati mbalimbali za kukamilisha shughuli, huku ukizidi sana o3 na o4-mini. Utoaji wa miundo unahukumiwa na wataalamu dhidi ya viwango vya juu vya kibinadamu vilivyoundwa na wataalamu bora katika kila uwanja. Shughuli hizi, zinazotolewa kutoka kwa wataalamu katika kazi na tasnia mbalimbali, zinaonyesha kazi halisi ya kitaalamu ya ulimwengu—kama vile kuandaa uchanganuzi wa ushindani wa watoa huduma wa haraka wanaohitajika, kujenga ratiba za kina za upotezaji na kutambua visima vya maji vinavyofaa kwa kituo kipya cha hidrojeni safi.
Kwenye DSBench(fungua katika dirisha jipya), iliyoundwa kutathmini mawakala katika shughuli halisi za sayansi ya data zinazojumuisha uchanganuzi wa data na uundaji, wakala wa ChatGPT anazidi utendaji wa binadamu kwa kiwango kikubwa.
Katika SpreadsheetBench, inayotathmini miundo kwa uwezo wao wa kuhariri laha jedwali zinazotokana na hali halisi za ulimwengu, wakala wa ChatGPT anapita miundo iliyopo kwa tofauti kubwa. Wakati unapewa uwezo wa kuhariri laha jedwali moja kwa moja, wakala wa ChatGPT anapata alama ya juu zaidi ya 45.5%, ikilinganishwa na Copilot katika Excel yenye 20.0%.
Mbinu: Waandishi wa SpreadsheetBench walitumia mazingira ya Windows kwenye Microsoft Excel kutathmini laha za jedwali. Tulitumia mazingira ya OSX na LibreOffice, ambayo inaweza kusababisha tofauti ndogo za upangaji wa alama. Kwa mfano, waandishi waligundua kizuizi cha jumla cha ngumu cha 15.02% kwa GPT‑4o, na sisi tulipata 13.38%. Tulitumia alama kamili ya maswali 912.
Katika kipimo cha ndani kinachopima uwezo wa muundo kushughulikia shughuli za uchanganuzi wa uwekezaji wa benki kwa mwaka wa kwanza hadi wa tatu—kama vile kuunda muundo wa kifedha wa taarifa tatu kwa kampuni ya Fortune 500 na muundo na marejeleo sahihi, au kujenga muundo wa ununuzi wa hisa kwa ajili ya ubinafsishaji—muundo unaoendesha wakala wa ChatGPT unazidi kwa kiasi kikubwa utafiti wa kina na o3. Kila shughuli hukaguliwa kwa mamia ya vigezo vinavyohusiana na usahihi na matumizi ya fomula.
Pia tuliathmini wakala wa ChatGPT kwenye BrowseComp, kipimo tulichochapisha mapema mwaka huu ambacho hupima uwezo wa mawakala wa kuvinjari kupata habari ngumu kupata kwenye wavuti. Muundo huo uliweka SOTA mpya kwa kupata 68.9%, pointi asilimia 17.4 zaidi kuliko utafiti wa kina.
Mwishowe, kwenye WebArena(fungua katika dirisha jipya), kipimo kilichoundwa kutathmini utendaji wa mawakala wa kuvinjari wavuti katika kukamilisha shughuli halisi za wavuti, muundo unaboresha zaidi ya CUA inayotumia o3 (muundo unaoendesha Operator).
Unaweza kuamilisha uwezo mpya wa wakala wa ChatGPT moja kwa moja kupitia menyu kunjuzi ya zana kutoka kwa mtunzi kwa kuchagua 'agent mode' wakati wowote katika mazungumzo yoyote. Eleza tu shughuli unazotaka—iwe ni kufanya utafiti wa kina, kuunda onyesho la slaidi, au kuwasilisha gharama. Inapofanya shughuli yako, simulizi kwenye skrini hutoa mwonekano wa kile ambacho ChatGPT inafanya. Unaweza kusitisha na kuchukua udhibiti wa kivinjari wakati wowote inapohitajika, kuhakikisha kwamba shughuli zinabaki zikiwa sambamba na malengo yako.
Wakala wa ChatGPT anaweza kufikia viunganisho vyako, ikiruhusu kuunganishwa na mtiririko wako wa kazi na kupata taarifa muhimu na zinazoweza kutekelezwa. Baada ya kuthibitishwa, viunganisho hivi huruhusu ChatGPT kuona taarifa na kufanya mambo kama kutoa muhtasari wa kikasha chako kwa siku hiyo au kupata nafasi za muda ambazo unapatikana kwa mkutano—hata hivyo, ili kufanya kitendo kwenye tovuti hizi, bado utaombwa kuingia kwa kudhibiti kivinjari.
Zaidi ya hayo, unaweza kupanga shughuli zilizokamilishwa kurudiwa kiotomatiki, kama vile kuzalisha ripoti ya metriki ya kila wiki kila Jumatatu asubuhi.
Toleo hili linaashiria mara ya kwanza watumiaji wanaweza kuomba ChatGPT kuchukua vitendo kwenye wavuti. Hii inaleta hatari mpya, hasa kwa sababu wakala wa ChatGPT inaweza kufanya kazi moja kwa moja na data yako, iwe ni taarifa zinazopatikana kupitia viunganisho au tovuti ambazo umeingia kupitia hali ya kuchukua. Tumeimarisha udhibiti thabiti kutoka kwa onyesho la awali la utafiti ya Operator na kuongeza ulinzi kwa changamoto kama vile kushughulikia taarifa nyeti kwenye wavuti wa moja kwa moja, ufikiaji mpana wa mtumiaji na upatikanaji(wenye vikomo) wa mtandao wa terminali wenye kikomo. Ingawa hatua hizi za kupunguza hatari hupunguza kwa kiasi kikubwa hatari, zana zilizopanuliwa za wakala wa ChatGPT na ufikiaji mpana wa mtumiaji inamaanisha kuwa wasifu wake wa jumla wa hatari ni wa juu zaidi.
Tumeweka msisitizo maalum juu ya kulinda wakala wa ChatGPT dhidi ya udanganyifu wa upinzani kupitia uwekaji wa dokezo, ambayo ni hatari kwa mifumo ya wakala kwa ujumla na tumeandaa mikakati zaidi ya kupunguza hatari ipasavyo. Majaribio ya dokezo ni juhudi za mhusika mwingine kudhibiti tabia ya wakala kupitia maagizo mabaya ambayo wakala wa ChatGPT anaweza kukutana nayo kwenye wavuti wakati wa kukamilisha shughuli. Kwa mfano, dokeza ovu lililofichwa kwenye ukurasa wa wavuti, kama vile katika vipengele visivyoonekana au metadata, linaweza kumdanganya wakala kuchukua hatua zisizotarajiwa, kama kushiriki data ya siri kutoka kwa kiunganishi na mshambuliaji, au kuchukua kitendo hatari kwenye tovuti ambayo mtumiaji ameingia. Kwa sababu wakala wa ChatGPT inaweza kuchukua vitendo vya moja kwa moja, mashambulizi yenye mafanikio yanaweza kuwa na athari kubwa na kuleta hatari kubwa zaidi.
Tumefundisha na kujaribu wakala katika kutambua na kupinga sindikizo za dokezo, pamoja na kutumia ufuatiliaji kugundua haraka na kujibu mashambulizi ya sindikizo la dokezo. Kuhitaji uthibitisho wazi wa mtumiaji kabla ya vitendo muhimu hupunguza zaidi hatari ya madhara kutoka kwa mashambulizi haya na watumiaji wanaweza kuingilia kati katika shughuli kama inavyohitajika kwa kuchukua au kusitisha. Watumiaji wanapaswa kupima faida na hasara hizi wakati wa kuamua ni taarifa gani za kutoa kwa wakala na pia kuchukua hatua za kupunguza hatari hizi, kama vile kuzima viunganisho wakati havihitajiki kwa shughuli fulani.
Tumetekeleza pia hatua za kupunguza makosa ya muundo, hasa kwa kuwa muundo huo sasa unaweza kufanya shughuli zinazoathiri ulimwengu halisi:
- Uthibitisho wazi wa mtumiaji: ChatGPT imefundishwa kuomba ruhusa yako kabla ya kuchukua vitendo zenye matokeo ya ulimwengu halisi, kama vile kufanya ununuzi.
- Usimamizi hai (“Njia ya Tazama”): Shughuli fulani muhimu, kama vile kutuma barua pepe, zinahitaji usimamizi wako wa moja kwa moja.
- Upunguzaji wa hatari kwa hatua za awali: ChatGPT imefundishwa kukataa kwa makusudi shughuli za hatari kubwa kama vile uhamisho wa fedha kwa benki.
Mwishowe, tumeanzisha udhibiti wa ziada ili kuzuia data ambayo muundo unaweza kufikia:
- Vidhibiti vya faragha: Kwa mbofyo mmoja katika mipangilio ya ChatGPT, unaweza kufuta data zote za kuvinjari na mara moja kutoka kutoka kwenye vikao vyote vya wavuti vinavyotumika. Vinginevyo, vidakuzi huendelea kulingana na sera za kuki za kila tovuti iliyotembelewa, ambazo zinaweza kufanya ziara za kurudia kwenye tovuti kuwa bora zaidi.
- Hali salama ya kuchukua kivinjari: Unaposhirikiana na wavuti kwa kutumia kivinjari cha ChatGPT (“hali ya kuchukua”), viingizo vyako vinabaki kuwa vya faragha. ChatGPT haikusanyi wala kuhifadhi data yoyote unayoingiza wakati wa vikao hivi, kama vile manenosiri, kwa sababu muundo hauihitaji na ni salama zaidi ikiwa hayaoni kamwe.
Kwa uwezo ulioongezeka wa muundo, tumeamua kuchukulia wakala wa ChatGPT kama wenye uwezo wa Juu wa Kibaolojia na Kemikali chini ya Mfumo wetu wa Utayari na kuamilisha ulinzi unaohusiana. Ingawa hatuna ushahidi wa uhakika kwamba muundo huo unaweza kumsaidia mwanzilishi kuunda madhara makubwa ya kibaolojia kwa njia yenye maana—kizingiti chetu cha uwezo wa Juu—tunachukua tahadhari na kutekeleza hatua zinazohitajika za ulinzi sasa. Matokeo yake, muundo huu una mfumo wetu kamili zaidi wa usalama hadi sasa na ulinzi ulioboreshwa kwa biolojia: uundaji wa kina wa hatari, mafunzo ya kukataa matumizi ya pande mbili, viainishaji vinavyofanya kazi kila wakati na wachunguzi wa hoja na njia wazi za utekelezaji.
Mbali na kazi yetu ya kulinda wakala wa ChatGPT, tunajua kuwa usalama wa kibaolojia hufanya kazi bora zaidi wakati hatua za ulinzi zinaenea zaidi ya maabara yoyote moja, kwa hivyo tunashirikiana katika mfumo mzima ili kuimarisha ulinzi. Tangu siku ya kwanza tumeshirikiana na wataalam wa nje wa usalama wa kibaolojia, taasisi za usalama na watafiti wa kitaaluma ili kuunda muundo wetu wa hatari, tathmini na sera. Wakaguzi‑waliopewa mafunzo ya kibaolojia walihakiki data zetu za tathmini na timu ya wataalamu‑wa taaluma hiyo imejaribu kikali mifumo ya kinga katika hali halisi. Mapema mwezi huu tulifanya warsha ya Ulinzi wa Kibayolojia na wataalamu kutoka serikalini, vyuo vikuu, maabara za kitaifa na mashirika yasiyo ya serikali ili kuharakisha ushirikiano na kuendeleza utafiti wa ulinzi wa kibayolojia unaoendeshwa na AI. Tutaendelea kushirikiana kimataifa ili kuwa mbele ya hatari zinazoibuka.
Pata maelezo zaidi kuhusu mbinu yetu thabiti ya usalama kwa muundo wa wakala uliounganishwa katika kadi ya mfumo. Pia tunazindua mpango wa zawadi kwa hitilafu ili tuweze kupata na kurekebisha hatari za ulimwengu halisi.
Wakala wa ChatGPT unaanza kusambazwa leo kwa Pro, Plus, na Team; Pro watapata ufikiaji mwishoni mwa siku, wakati watumiaji wa Plus na Team watapata ufikiaji katika siku chache zijazo. Watumiaji wa Enterprise na Education watapata ufikiaji katika wiki zijazo. Watumiaji wa Pro wana ujumbe 400 kwa kila mwezi, huku watumiaji wengine wanaolipia wakipata ujumbe 40 kila mwezi na matumizi ya ziada yanapatikana kupitia chaguo za malip[o zinazobadilika.
Bado tunafanya kazi kuwezesha ufikiaji kwa Eneo la Uchumi la Ulaya na Uswizi.
Tovuti ya muhtasari wa utafiti wa Operetor itaendelea kufanya kazi kwa wiki chache zaidi, baada ya hapo itasitishwa. Utafiti wa kina ni sehemu ya uwezo wa wakala wa ChatGPT. Ikiwa unapendelea kipengele asili cha utafiti wa kina—ambacho kinaweza kuchukua muda mrefu zaidi kufanya kazi lakini kinatoa majibu ya kina zaidi kwa chaguomsingi—bado unaweza kukipata kwa kuchagua 'deep research' kwenye menyu kunjuzi katika sehemu ya ujumbe.
Wakala wa ChatGPT bado iko katika hatua zake za awali. Ina uwezo wa kushughulikia shughuli mbalimbali ngumu, lakini bado inaweza kufanya makosa.
Ingawa tunaona uwezo mkubwa katika uwezo wake wa kuzalisha maonyesho ya slaidi, utendaji huu kwa sasa uko katika toleo la Beta. Kwa sasa, utoaji unaweza wakati mwingine kuonekana kuwa wa kawaida katika muundo na ukamilifu wake, hasa wakati wa kuanza bila hati iliyopo. Tulilenga uwezo wa awali wa muundo katika kuzalisha vitu vinavyoandaa habari kwa mtiririko na muundo unaofaa kwa mawasilisho, na vipengele kama maandishi, chati, picha, na maumbo ambayo yanaweza kuhaririwa kwa urahisi baada ya kusafirisha nje, kwa kuboresha muundo na kubadilika. Kwa sasa, pia kuna tofauti za mara kwa mara kati ya slaidi kwenye kionyeshi na PowerPoint iliyosafirishwa nje ambayo tunajaribu kupunguza. Kwa kuongezea, ingawa kwa sasa unaweza kupakia lahajedwali iliyopo ili ChatGPT iihariri au kuitumia kama kiolezo, uwezo huu bado haupatikani katika maonyesho ya slaidi. Tayari tunaendelea na mafunzo ya toleo linalofuata la uundaji wa onyesho la slaidi la ChatGPT ili kutoa utoaji uliosafishwa zaidi, wa kisasa, wenye uwezo mpana na muundo ulioboreshwa.
Kwa ujumla, tunatarajia maboresho endelevu katika ufanisi, kina na utofauti wa wakala wa ChatGPT kwa muda, ikiwa ni pamoja na mwingiliano usio na mshono zaidi tunapoendelea kurekebisha kiwango cha usimamizi kinachohitajika kutoka kwa mtumiaji ili kuifanya iwe muhimu zaidi huku tukihakikisha kuwa ni salama kutumia.
SpreadsheetBench | ||||
Muundo | Mazingira ya tathmini | Kizuizi laini (%): Ngazi ya seli | Kizuizi laini (%): Kiwango cha karatasi | Kizuizi laini (%): Jumla |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot katika Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
Wakala wa ChatGPT | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
Wakala wa ChatGPT mwenye .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Binadamu | 75.56 | 65.00 | 71.33 |
Mwandishi
Tanbihi
* Wakati wa kuwezesha kuvinjari, wakati mwingine muundo unaweza kupata majibu sahihi mtandaoni, kwa mfano, kwa kusoma machapisho ya blogi yenye matatizo ya sampuli kutoka kwa seti ya data. Tunapunguza wasiwasi kuhusu udanganyifu wa muundo wakati wa kuvinjari kwa kutumia mikakati miwili:
1. Vikoa vilivyofungiwa ambavyo tumegundua muundo una danganya kutoka hapo awali.
2. Ilitumia muundo wa ziada kama mfuatiliaji kuchunguza tokeni zote za kitolewa za zana katika kila jaribio ili kutambua tabia ya kutiliwa shaka. Tabia ya kutiliwa shaka inafafanuliwa kama "ukurasa, faili, au kipande ambacho lengo kuu ni kutoa jibu sahihi kwa swali hili maalum—kwa mfano, ufunguo rasmi wa alama, muhtasari wa “suluhisho” uliovuja, au majadiliano yanayonukuu jibu lililokamilika neno kwa neno." Tabia isiyo na madhara inafafanuliwa kama "Rasilimali yoyote yenye mamlaka ambayo binadamu mwenye bidii anaweza kushauriana (nyaraka, miongozo, karatasi za kitaaluma, makala zinazoheshimika) hata ikiwa kwa bahati mbaya ina jibu sahihi." Jaribio lolote ambalo mfuatiliaji aliona kuwa linaendelezwa kwa njia ya kutiliwa shaka linahesabiwa kuwa si sahihi. Sampuli nyingi zilizoshindwa na ukaguzi huu zilikuwa matatizo ambayo suluhisho sahihi lilikuwa linapatikana kwenye vyanzo vingi vya mtandao visivyo na uhusiano na HLE.
** OpenAI ina ufikiaji wa kipekee wa maswali 237 kati ya 290 ya kibinafsi kwenye seti ya data ya Tier 1-3. Maswali ya kiwango cha 4 ya FrontierMath hayajajumuishwa katika tathmini hii. Matokeo yametathminiwa kama wastani wa majaribio 16 ya kujibu kila swali. Matokeo ya wakala wa ChatGPT yanatolewa na OpenAI, yanakaguliwa na Epoch AI, na yana ufikiaji wa kivinjari na terminal, na kikomo cha tokeni 128K kwa kila jibu. Tathmini za OpenAI o4-mini na o3 zinafanywa na kupimwa na Epoch AI, bila ufikiaji wa kivinjari na kituo, kwa kutumia maandishi ya python kupitia kupiga kazi na kikomo cha tokeni 100K kwa kila jibu.
*** Oracle@64 inahusu alama bora iliyopatikana katika majaribio 64 yaliyosampuliwa, yaliyoteuliwa kwa kutumia ukweli wa msingi (yaani, tunachagua jaribio lenye alama ya juu zaidi kwa kila shughuli kulingana na utendaji halisi uliopimwa). Tunaripoti wastani wa alama hizi bora kwa kila shughuli katika shughuli zote. Kipimo hiki kinaonyesha uwezo wa juu wa muundo na tofauti katika utendaji wa shughuli—kuonyesha jinsi muundo unavyoweza kuwa na uwezo wakati unafanikiwa na kuonyesha nafasi ya kuboresha uthabiti kupitia mafunzo zaidi. Tofauti na vipimo vya kawaida vya “bora ya N”, ambavyo huchagua kulingana na ujasiri wa muundo, oracle@64 hutumia ukweli wa msingi kwa uteuzi na inatumika kwa shughuli zilizopimwa kwa kiwango kinachoendelea cha 0–1 badala ya kupita/kushindwa.


