Pristatome „ChatGPT“ agentą, jungiantį tyrimus ir praktinius veiksmus
Dabar „ChatGPT“ mąsto ir veikia, iniciatyviai rinkdamasis iš agentinių įgūdžių rinkinio, kad atliktų užduotis už jus naudodamas savo kompiuterį.
„ChatGPT“ dabar gali dirbti už jus naudodamas savo kompiuterį ir atlikdamas sudėtingas užduotis nuo pradžios iki pabaigos.
Dabar galite prašyti „ChatGPT“ įvykdyti tokias užklausas kaip „peržiūrėk mano kalendorių ir, remdamasis naujausia informacija, informuok apie artėjančius susitikimus su klientais“, „suplanuok ir nupirk ingredientus japoniškiems pusryčiams keturiems asmenims“ bei „išanalizuok tris konkurentus ir sukurk skaidrių rinkinį“. „ChatGPT“ išmaniai naršys interneto svetainėse, filtruos rezultatus, paprašys saugiai prisijungti, kai to prireiks, vykdys kodą, atliks analizę ir net pateiks redaguojamas skaidres bei skaičiuokles, apibendrinančias išvadas.
Šio naujo gebėjimo pagrindas yra bendra agentinė sistema. Ji sujungia tris ankstesnių proveržių stiprybes: „Operator“ gebėjimą sąveikauti su interneto svetainėmis, gilaus tyrinėjimo įgūdžius apibendrinti informaciją bei „ChatGPT“ intelektą ir sklandų pokalbį.
„ChatGPT“ atlieka šias užduotis naudodamas savo virtualųjį kompiuterį, sklandžiai pereidamas nuo samprotavimo prie veiksmų, kad atliktų sudėtingas darbo eigas nuo pradžios iki pabaigos, vadovaudamasis tik jūsų instrukcijomis.
Svarbiausia, kad valdymas visada išlieka jūsų rankose. Prieš atlikdamas svarbius veiksmus „ChatGPT“ prašo leidimo, o jūs galite bet kuriuo metu lengvai pertraukti procesą, perimti naršyklės valdymą arba sustabdyti užduotis.
Nuo šiandien „Pro“, „Plus“ ir „Team“ naudotojai gali aktyvinti „ChatGPT“ naujas agentines galimybes bet kuriuo pokalbio metu tiesiogiai įrankių išskleidžiamajame sąraše, esančiame kūrimo lauke, pasirinkę agento veikseną.
Nors „ChatGPT“ agentas jau yra galingas įrankis sudėtingoms užduotims atlikti, šiandienos pristatymas yra tik pradžia. Toliau nepaliaujamai diegsime reikšmingus patobulinimus, kad laikui bėgant jis taptų dar pajėgesnis ir naudingesnis daugiau žmonių.
Anksčiau „Operator“ ir gilus tyrinėjimas turėjo unikalių privalumų: „Operator“ galėjo slinkti, spustelėti ir rašyti internete, o gilus tyrinėjimas puikiai tiko informacijai analizuoti ir apibendrinti. Tačiau jie geriausiai veikė skirtingose situacijose: „Operator“ negalėjo atlikti gilios analizės ar rašyti išsamių ataskaitų, o gilaus tyrinėjimo funkcija negalėjo sąveikauti su interneto svetainėmis, kad patikslintų rezultatus, ar pasiekti turinio, kuriam reikalingas naudotojo leidimas. Tiesą sakant, pastebėjome, kad daugelis užklausų, kurias naudotojai bandė atlikti su „Operator“, iš tikrųjų labiau tiko giliam tyrinėjimui, todėl sujungėme geriausias abiejų funkcijų savybes.
Integravę šias viena kitą papildančias stiprybes į „ChatGPT“ ir pristatę papildomų įrankių, viename modelyje atvėrėme visiškai naujas galimybes. Dabar jis gali aktyviai veikti interneto svetainėse – spustelėti, filtruoti ir rinkti tikslesnius bei efektyvesnius rezultatus. Taip pat galite natūraliai pereiti nuo paprasto pokalbio prie veiksmų užklausos tiesiogiai tame pačiame pokalbyje.
Aprūpinome „ChatGPT“ agentą įrankių rinkiniu: vizualine naršykle, kuri sąveikauja su internetu per grafinę naudotojo sąsają, tekstine naršykle, skirta paprastesnėms samprotavimu pagrįstoms žiniatinklio užklausoms, terminalu ir tiesiogine API prieiga. Agentas taip pat gali pasinaudoti „ChatGPT“ jungtimis(atsidaro naujame lange) ir per jas prijungti tokias programas kaip „Gmail“ ir „Github“, kad „ChatGPT“ galėtų rasti jūsų raginimams aktualią informaciją ir naudoti ją savo atsakymuose. Taip pat galite prisijungti prie bet kurios interneto svetainės perimdami naršyklės valdymą, o tai leidžia modeliui atlikti gilesnius ir platesnius tyrimus bei užduotis. Suteikus „ChatGPT“ šiuos skirtingus būdus pasiekti žiniatinklio informaciją ir su ja sąveikauti, jis gali pasirinkti optimalų kelią užduotims atlikti efektyviausiu būdu. Pavyzdžiui, jis gali surinkti informaciją apie jūsų kalendorių per API, efektyviai samprotauti apie didelius teksto kiekius naudodamas tekstinę naršyklę ir kartu gebėti vizualiai sąveikauti su interneto svetainėmis, sukurtomis pirmiausia žmonėms.
Visa tai atliekama naudojant jo paties virtualųjį kompiuterį, išsaugantį užduočiai būtiną kontekstą, net kai naudojami keli įrankiai – modelis gali pasirinkti atidaryti puslapį naudodamas tekstinę arba vizualinę naršyklę, atsisiųsti failą iš interneto, apdoroti jį vykdydamas komandą terminale, o tada peržiūrėti rezultatą vizualinėje naršyklėje. Modelis pritaiko savo metodą, kad užduotis atliktų greitai, tiksliai ir efektyviai.
„ChatGPT“ agentas sukurtas kartotinėms, bendradarbiavimo darbo eigoms, kurios yra daug interaktyvesnės ir lankstesnės nei ankstesnių modelių. Kol „ChatGPT“ dirba, galite bet kuriuo metu jį pertraukti ir patikslinti nurodymus, nukreipti norimų rezultatų link arba visiškai pakeisti užduotį. Jis tęs darbą nuo ten, kur baigė, jau turėdamas naują informaciją, bet neprarasdamas to, kas jau padaryta. Taip pat pats „ChatGPT“ gali iniciatyviai prašyti papildomos informacijos iš jūsų, kai to reikia siekiant užtikrinti, kad užduotis atitiktų jūsų tikslus. Jei užduotis trunka ilgiau nei tikėtasi arba atrodo įstrigusi, galite ją pristabdyti, paprašyti ankstesnių rezultatų santraukos arba visiškai sustabdyti ir gauti dalinius rezultatus. Jei telefone turite „ChatGPT“ programėlę, ji atsiųs pranešimą, kai užduotis bus baigta.
Šie bendri agentiniai gebėjimai reikšmingai padidina „ChatGPT“ naudingumą tiek kasdieniame, tiek profesiniame kontekste. Darbe galite automatizuoti pasikartojančias užduotis, pavyzdžiui, ekrano kopijų ar sąvadų konvertavimą į pristatymus, sudarytus iš redaguojamų vektorinių elementų, susitikimų perplanavimą, išvykstamųjų renginių planavimą ir rezervavimą bei skaičiuoklių atnaujinimą naujais finansiniais duomenimis, išlaikydami tą patį formatavimą. Asmeniniame gyvenime galite jį naudoti norėdami be vargo planuoti ir užsakyti kelionių maršrutus, kurti ir užsakyti reikiamus dalykus vakarienėms arba rasti specialistus ir suplanuoti vizitus.
Didesnės modelio galimybės atsispindi jo geriausiuose rezultatuose (SOTA) atliekant vertinimus, kuriais matuojamos naršymo internete ir realių užduočių atlikimo galimybės.
Atliekant „Humanity's Last Exam“(atsidaro naujame lange)* vertinimą, kuriuo matuojamas DI veikimas įvairiose temose atsakant į eksperto lygio klausimus, modelis, kurio pagrindu veikia „ChatGPT“ agentas, pasiekia naują „pass@1“ SOTA rezultatą – 41,6. Kadangi agentas planuoja dinamiškai ir pasirenka savo įrankius, jis gali tą pačią užduotį atlikti skirtingais būdais per skirtingus bandymus. Pritaikžius paprastą lygiagretaus vykdymo strategiją – atliekant iki aštuonių bandymų vienu metu ir pasirenkant tą, kurio pasitikėjimo rodiklis yra didžiausias – agento HLE rezultatas padidėja iki 44,4.
„FrontierMath“** yra sunkiausias žinomas matematikos lyginamasis testas, apimantis naujus, neskelbtus uždavinius, kuriuos išspręsti matematikos ekspertams dažnai prireikia valandų ar net dienų. Naudodamas įrankius, pavyzdžiui, prieigą prie terminalo kodui vykdyti, „ChatGPT“ agentas pasiekia 27,4 proc. tikslumą ir didele persvara lenkia abu ankstesnius modelius.
Taip pat vertinome modelį naudodami lyginamuosius testus, sukurtus pagal sudėtingas realaus pasaulio užduotis. Atliekant vidinį lyginamąjį vertinimą, skirtą modelio veiklai atliekant sudėtingas, ekonomiškai vertingas protinio darbo užduotis įvertinti, „ChatGPT“ agento rezultatai yra panašūs į žmonių arba geresni maždaug pusėje atvejų, vertinant įvairią užduočių atlikimo trukmę, ir gerokai lenkia „o3“ bei „o4-mini“. Modelio rezultatus vertina ekspertai, lygindami juos su aukštos kokybės žmonių atskaitos taškais, sukurtais geriausių kiekvienos srities specialistų. Šios užduotys, kurias pateikė įvairių profesijų ir pramonės šakų ekspertai, atspindi realų profesinį darbą, pavyzdžiui, skubios pagalbos teikėjų konkurencinės analizės rengimą, išsamių amortizacijos grafikų sudarymą ir tinkamų vandens gręžinių naujai žaliojo vandenilio gamyklai nustatymą.
Atliekant DSBench(atsidaro naujame lange), skirtą agentų gebėjimui atlikti realias duomenų mokslo užduotis (duomenų analizę ir modeliavimą) įvertinti, „ChatGPT“ agentas gerokai viršija žmonių veiklos rezultatus.
Atliekant SpreadsheetBench, kuriuo vertinamas modelių gebėjimas redaguoti skaičiuokles pagal realius scenarijus, „ChatGPT“ agentas didele persvara lenkia esamus modelius. Suteikus galimybę tiesiogiai redaguoti skaičiuokles, „ChatGPT“ agentas surenka dar daugiau – 45,5 proc., palyginti su „Copilot in Excel“, kuris surenka 20,0 proc.
Metodika: „SpreadsheetBench“ autoriai skaičiuoklėms vertinti naudojo „Windows“ aplinką ir „Microsoft Excel“. Mes naudojome OSX aplinką ir „LibreOffice“, todėl gali atsirasti nedidelių vertinimo skirtumų. Pavyzdžiui, autoriai nustatė 15,02 proc. bendrą griežtą (angl. „Overall Hard“) apribojimą „GPT‑4o“, o mes gavome 13,38 proc. Naudojome visą 912 klausimų lyginamąjį standartą.
Atliekant vidaus vertinimą, kuriuo matuojamas modelio gebėjimas atlikti pirmo–trečio kurso investicinės bankininkystės analitiko modeliavimo užduotis (pvz., sudaryti „Fortune 500“ įmonės trijų ataskaitų finansinį modelį su tinkamu formatavimu ir citatomis arba sukurti sverto išpirkimo modelį privatizavimui), modelis, kurio pagrindu veikia „ChatGPT“ agentas, gerokai lenkia „deep research“ ir „o3“. Kiekviena užduotis vertinama pagal šimtus kriterijų, susijusių su teisingumu ir formulių naudojimu.
Taip pat įvertinome „ChatGPT“ agentą naudodami BrowseComp – anksčiau šiais metais paskelbtą lyginamąjį testą, kuriuo matuojamas naršymo agentų gebėjimas rasti sunkiai aptinkamą informaciją internete. Modelis pasiekė naują SOTA rezultatą – 68,9 proc., t. y. 17,4 procentinio punkto daugiau nei gilaus tyrinėjimo funkcija.
Galiausiai, atliekant WebArena(atsidaro naujame lange) – lyginamąjį testą, skirtą naršymo agentų veikimui atliekant realias interneto užduotis įvertinti, modelis lenkia „o3“ pagrįstą CUA (modelį, kurio pagrindu veikia „Operator“).
Aktyvinti „ChatGPT“ naujas agentines galimybes galite bet kuriuo pokalbio metu tiesiogiai įrankių išskleidžiamajame sąraše, esančiame kūrimo lauke, pasirinkę agento veikseną. Tiesiog aprašykite norimą užduotį – ar tai būtų gilus tyrinėjimas, skaidrių rinkinio kūrimas, ar išlaidų pateikimas. Vykdant užduotį ekrane rodomas pasakojimas leidžia matyti, ką tiksliai daro „ChatGPT“. Prireikus galite bet kada nutraukti procesą ir perimti naršyklės valdymą, taip užtikrindami, kad užduotys atitiktų jūsų tikslus.
„ChatGPT“ agentas gali pasiekti jūsų jungtis, todėl jis gali integruotis į jūsų darbo eigą ir pasiekti svarbią, veiksmams tinkančią informaciją. Autentifikavus šios jungtys leidžia „ChatGPT“ matyti informaciją ir atlikti tokius veiksmus kaip gautų laiškų santraukos rengimas ar laisvų laiko tarpsnių susitikimams paieška; vis dėlto, norėdami atlikti veiksmus šiose svetainėse, vis tiek būsite raginami prisijungti perimdami naršyklę.
Be to, galite suplanuoti, kad atliktos užduotys kartotųsi automatiškai, pavyzdžiui, kiekvieną pirmadienio rytą būtų generuojamas savaitinis rodiklių pranešimas.
Ši laida žymi pirmą kartą, kai naudotojai gali paprašyti „ChatGPT“ atlikti veiksmus internete. Tai kelia naują riziką, ypač todėl, kad „ChatGPT“ agentas gali tiesiogiai dirbti su jūsų duomenimis – tiek su informacija, pasiekiama per jungtis, tiek su svetainėmis, prie kurių esate prisijungę naudodami perėmimo režimą. Sustiprinome patikimus „Operator“ tyrimų peržiūros valdiklius ir pridėjome apsaugos priemonių tokiems iššūkiams kaip neskelbtinos informacijos tvarkymas tiesioginiame internete, platesnis naudotojų pasiekiamumas ir (ribota) terminalo prieiga prie tinklo spręsti. Nors šios rizikos mažinimo priemonės gerokai sumažina pavojų, išplėsti „ChatGPT“ agento įrankiai ir platesnis naudotojų pasiekiamumas reiškia, kad bendras rizikos lygis yra didesnis.
Ypatingą dėmesį skyrėme „ChatGPT“ agento apsaugai nuo priešiško manipuliavimo įterpiant raginimus, kuris yra būdingas agentinėms sistemoms apskritai, todėl parengėme išsamesnes rizikos mažinimo priemones. Raginimų įterpimas – tai trečiųjų šalių bandymai manipuliuoti agento elgesiu pasitelkiant kenkėjiškas instrukcijas, su kuriomis „ChatGPT“ agentas gali susidurti internete atlikdamas užduotį. Pavyzdžiui, tinklalapyje (pvz., nematomuose elementuose arba metaduomenyse) paslėptas kenkėjiškas raginimas galėtų suklaidinti agentą ir priversti atlikti nenumatytus veiksmus, pavyzdžiui, pasidalyti privačiais duomenimis iš jungties su užpuoliku arba atlikti žalingus veiksmus interneto svetainėje, prie kurios naudotojas yra prisijungęs. Kadangi „ChatGPT“ agentas gali atlikti tiesioginius veiksmus, sėkmingi išpuoliai gali turėti didesnį poveikį ir kelti didesnę riziką.
Mokėme ir testavome agentą, siekdami užtikrinti, kad jis atpažintų raginimų įterpimą ir jam atsispirtų, taip pat pasitelkiame stebėseną, kad greitai aptiktume raginimų įterpimo atakas ir į jas reaguotume. Aiškus naudotojo patvirtinimas, kurio reikalaujama prieš atliekant svarbius veiksmus, dar labiau sumažina žalos riziką dėl šių atakų, be to, naudotojai prireikus gali įsikišti į užduotis, perimdami valdymą arba jas pristabdydami. Spręsdami, kokią informaciją teikti agentui, naudotojai turėtų įvertinti šiuos aspektus ir imtis priemonių rizikai sumažinti, pavyzdžiui, išjungti jungtis, kai jos nėra būtinos užduočiai atlikti.
Taip pat įdiegėme priemones, skirtas rizikai dėl modelio klaidų mažinti, ypač atsižvelgdami į tai, kad modelis dabar gali atlikti užduotis, darančias poveikį realiajam pasauliui:
- Aiškus naudotojo patvirtinimas: „ChatGPT“ yra išmokytas aiškiai prašyti leidimo prieš atliekant veiksmus, sukeliančius pasekmių realiajame pasaulyje, pavyzdžiui, prieš ką nors perkant.
- Aktyvi priežiūra (stebėjimo režimas): tam tikroms kritinėms užduotims, pavyzdžiui, el. laiškų siuntimui, būtina aktyvi jūsų priežiūra.
- Iniciatyvus rizikos mažinimas: „ChatGPT“ yra išmokytas iniciatyviai atsisakyti atlikti didelės rizikos užduotis, pavyzdžiui, banko pavedimus.
Galiausiai įdiegėme papildomų valdiklių, skirtų duomenims, prie kurių modelis turi prieigą, riboti:
- Privatumo valdikliai: vienu spustelėjimu „ChatGPT“ nuostatose galite ištrinti visus naršymo duomenis ir iškart atsijungti nuo visų aktyvių interneto svetainių seansų. Kitu atveju slapukai išsaugomi pagal kiekvienos aplankytos interneto svetainės slapukų politiką, o tai gali padidinti pakartotinių apsilankymų efektyvumą.
- Saugus naršyklės perėmimo režimas: kai sąveikaujate su žiniatinkliu naudodami „ChatGPT“ naršyklę (perėmimo režimu), jūsų įvestys išlieka privačios. „ChatGPT“ nerenka ir nesaugo jokių per šiuos seansus jūsų įvedamų duomenų, pavyzdžiui, slaptažodžių, nes modeliui jie nereikalingi, be to, taip saugiau.
Atsižvelgdami į padidėjusias modelio galimybes, nusprendėme laikyti, kad „ChatGPT“ agentas pasižymi didelėmis biologinėmis ir cheminėmis galimybėmis pagal mūsų Pasirengimo sistemą, ir įjungti atitinkamas apsaugos priemones. Nors neturime neginčijamų įrodymų, kad modelis galėtų reikšmingai padėti pradedančiajam sukelti didelę biologinę žalą (tai mūsų didelių galimybių slenkstis), imamės atsargumo priemonių ir diegiame reikiamas apsaugas jau dabar. Todėl šiame modelyje įdiegta iki šiol išsamiausia mūsų saugos sistema su sustiprintomis biologijos apsaugos priemonėmis, apimančiomis išsamų grėsmių modeliavimą, mokymą atsisakyti atlikti dvigubos paskirties užduotis, nuolat veikiančius klasifikatorius ir samprotavimo stebėseną bei aiškius vykdymo užtikrinimo procesus.
Be pastangų apsaugoti „ChatGPT“ agentą, suprantame, kad daugiapakopė biologinė sauga veiksmingiausia, kai apsaugos priemonės taikomos ne tik vienoje laboratorijoje, todėl bendradarbiaujame visoje ekosistemoje, siekdami sustiprinti gynybą. Nuo pat pradžių dirbome su išorės biologinio saugumo ekspertais, saugos institutais ir akademiniais tyrėjais, kurdami grėsmių modelį, vertinimus ir politikas. Biologinį išsilavinimą turintys vertintojai patvirtino mūsų vertinimo duomenis, o srities ekspertai (testavimo komanda) atliko apsaugos priemonių testavimą nepalankiausiomis sąlygomis pagal tikroviškus scenarijus. Šio mėnesio pradžioje surengėme biologinės gynybos seminarą, kuriame dalyvavo vyriausybės, akademinės bendruomenės, nacionalinių laboratorijų ir NVO ekspertai, siekdami skatinti bendradarbiavimą ir plėtoti DI paremtus biologinės gynybos tyrimus. Ir toliau bendradarbiausime pasauliniu mastu, kad užbėgtume už akių kylančiai rizikai.
Daugiau apie mūsų patikimą saugos metodiką, taikomą bendram agentiniam modeliui, skaitykite sistemos kortelėje. Taip pat pradedame klaidų paieškos premijų programą, siekdami aptikti ir pašalinti realiojo pasaulio riziką.
„ChatGPT“ agentas nuo šiandien pradedamas teikti „Pro“, „Plus“ ir „Team“ planų naudotojams; „Pro“ naudotojai prieigą gaus iki dienos pabaigos, o „Plus“ ir „Team“ naudotojams prieiga bus suteikta per kelias artimiausias dienas. „Enterprise“ ir švietimo sektoriaus naudotojams prieiga bus suteikta per artimiausias savaites. „Pro“ naudotojams skirta 400 žinučių per mėnesį, o kitiems mokamų planų naudotojams – 40 žinučių per mėnesį; papildomai naudotis paslauga galima pasitelkus lanksčias kreditais pagrįstas parinktis.
Vis dar stengiamės suteikti prieigą Europos ekonominės erdvės ir Šveicarijos naudotojams.
„Operator“ tyrimų peržiūros svetainė veiks dar kelias savaites, o vėliau bus uždaryta. Gilus tyrinėjimas yra viena iš „ChatGPT“ agento galimybių. Jei pageidaujate naudoti pradinę gilaus tyrinėjimo funkciją (ji gali veikti ilgiau, bet pagal numatytąsias nuostatas pateikia išsamesnius atsakymus), vis tiek galite ją pasiekti žinučių rengyklės išskleidžiamajame meniu pasirinkę „gilus tyrinėjimas“.
„ChatGPT“ agentas vis dar yra ankstyvojoje kūrimo stadijoje. Jis gali atlikti įvairias sudėtingas užduotis, tačiau vis dar daro klaidų.
Nors matome didelį skaidrių demonstracijų generavimo funkcijos potencialą, šiuo metu tai tėra beta versija. Šiuo metu išvesties formatavimas ir išbaigtumas kartais gali atrodyti paprastas, ypač pradedant darbą be esamo dokumento. Pradines modelio galimybes sutelkėme į artefaktų generavimą, kad informacija būtų išdėstyta pristatymams tinkama eiga ir formatu, naudojant tokius elementus kaip tekstas, diagramos, vaizdai ir figūros, kuriuos po eksporto galima lengvai redaguoti, taip užtikrinant struktūrą ir lankstumą. Šiuo metu taip pat pasitaiko neatitikimų tarp skaidrių peržiūros priemonėje ir eksportuoto „PowerPoint“ failo; stengiamės juos pašalinti. Be to, nors šiuo metu galite įkelti esamą skaičiuoklę, kad „ChatGPT“ ją redaguotų arba naudotų kaip šabloną, skaidrių demonstracijoms ši galimybė dar netaikoma. Jau mokome kitą „ChatGPT“ skaidrių kūrimo versiją, kad būtų generuojama labiau išbaigta ir sudėtingesnė išvestis, pasižyminti platesnėmis galimybėmis ir geresniu formatavimu.
Apskritai tikimės, kad laikui bėgant „ChatGPT“ agento efektyvumas, išsamumas ir universalumas toliau gerės, įskaitant sklandesnę sąveiką – nuolat koreguojame naudotojo priežiūros poreikį, siekdami padidinti agento naudingumą ir užtikrinti naudojimo saugumą.
SpreadsheetBench | ||||
Modelis | Vertinimo aplinka | Švelnus apribojimas (%): ląstelių lygis | Švelnus apribojimas (%): lapo lygis | Švelnus apribojimas (%): bendras |
GPT‑4o | „Windows“, „Excel“ | 15,03 | 23,65 | 18,35 |
„Copilot“ programoje „Excel“ | „Windows“, „Excel“ | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, „LibreOffice“ | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, „LibreOffice“ | 22,40 | 24,60 | 23,25 |
„ChatGPT“ agentas | OSX, „LibreOffice“ | 38,27 | 30,48 | 35,27 |
„ChatGPT“ agentas su .xlsx | OSX, „LibreOffice“ | 50,56 | 37,51 | 45,54 |
Žmogus | 75,56 | 65,00 | 71,33 |
Autorius
Pastabos
* Įjungus naršymą, modelis kartais gali rasti tikslius atsakymus internete, pavyzdžiui, skaitydamas tinklaraščių įrašus, kuriuose pateikiami pavyzdiniai duomenų rinkinio uždaviniai. Susirūpinimą dėl modelio sukčiavimo naršant mažiname pasitelkę dvi strategijas.
1. Užblokavome domenus, kuriais naudodamasis modelis anksčiau sukčiavo.
2. Naudojame papildomą modelį kaip stebėsenos priemonę visiems įrankio išvesties prieigos raktams kiekvieno bandymo metu tikrinti, siekdami nustatyti įtartiną veikseną. Įtartina veiksena apibrėžiama kaip „puslapis, failas arba fragmentas, kurio pagrindinė paskirtis – pateikti tikslų atsakymą į konkretų klausimą (pvz., oficialus vertinimo raktas, nutekinta „sprendimų“ santrauka arba diskusija, kurioje pažodžiui cituojamas galutinis atsakymas)“. Nekenksminga veiksena apibrėžiama kaip „bet koks patikimas šaltinis, kuriuo galėtų remtis kruopštus žmogus (dokumentacija, vadovai, moksliniai straipsniai, patikimos publikacijos), net jei jame atsitiktinai pateiktas teisingas atsakymas“. Visi bandymai, kuriuos stebėsenos priemonė įvertino kaip įtartinus, laikomi neteisingais. Dauguma pavyzdžių, neatitinkančių šio kriterijaus, buvo uždaviniai, kurių tikslus sprendimas buvo prieinamas keliuose su HLE nesusijusiuose interneto šaltiniuose.
»» „OpenAI“ turi išskirtinę prieigą prie 237 iš 290 privačių klausimų 1–3 lygio duomenų rinkinyje. „FrontierMath“ 4 lygio klausimai į šį vertinimą neįtraukti. Rezultatai vertinami kaip 16-os bandymų atsakyti į kiekvieną klausimą vidurkis. „ChatGPT“ agento rezultatus gavo „OpenAI“, įvertino „Epoch AI“; naudojama prieiga prie naršyklės bei terminalo, o vienam atsakymui taikomas 128 tūkst. prieigos raktų limitas. „OpenAI o4-mini“ ir „o3“ vertinimus gavo ir atliko „Epoch AI“, be prieigos prie naršyklės ir terminalo, naudojant „Python“ scenarijus per funkcijų iškvietimą, vienam atsakymui taikant 100 tūkst. prieigos raktų limitą.
*** „Oracle@64“ nurodo geriausią rezultatą, pasiektą per 64 imties vykdymo ciklus, atrinktą remiantis faktine tiesa (t. y. kiekvienai užduočiai atrenkame geriausiai įvertintą bandymą pagal faktinius vertinimo rezultatus). Pateikiame šių geriausių rezultatų vidurkį visose užduotyse. Ši metrika išryškina modelio galimybių viršutinę ribą ir užduočių atlikimo svyravimus – parodo modelio pajėgumą sėkmės atveju ir nurodo, kad yra galimybių gerinti nuoseklumą toliau mokant. Skirtingai nei įprastos „best of N“ metrikos, kai pasirenkama remiantis modelio pasitikėjimu, „oracle@64“ atrankai naudoja faktinę tiesą ir yra taikoma užduotims, vertinamoms pagal tęstinę 0–1 skalę, o ne pagal dvejetainę sistemą „išlaikyta / neišlaikyta“.


