2025. gada 17. jūlijs

Iepazīstinām ar ChatGPT aģentu: pētniecības un rīcības apvienošana

ChatGPT tagad domā un rīkojas, proaktīvi izvēloties no aģenta prasmju rīku komplekta, lai izpildītu uzdevumus tavā vietā, izmantojot savu datoru.

Izmēģini ChatGPT

Notiek ielāde…

ChatGPT tagad var veikt darbu tavā vietā, izmantojot savu datoru, veicot sarežģītus uzdevumus no sākuma līdz beigām.

Tagad tu vari lūgt ChatGPT apstrādāt tādus pieprasījumus kā “apskati manu kalendāru un informē mani par gaidāmajām klientu sanāksmēm, pamatojoties uz jaunākajām ziņām”, “plāno un iegādājies sastāvdaļas japāņu brokastu pagatavošanai četriem cilvēkiem” un “analizē trīs konkurentus un izveido slaidu klāju”. ChatGPT inteliģenti pārvietosies vietnēs, filtrēs rezultātus, sniegs uzvedni, lai droši pieteiktos, ja nepieciešams, palaidīs kodu, veiks analīzi un pat piegādās rediģējamas slaidrādes un izklājlapas, kas apkopo tā secinājumus.

Šīs jaunās spējas pamatā ir vienota aģentūras sistēma. Tas apvieno trīs agrāko sasniegumu stiprās puses: Operator⁠ spēju mijiedarboties ar vietnēm, dziļās izpētes⁠ prasmi sintezēt informāciju un ChatGPT inteliģenci un sarunu brīvību.

ChatGPT veic šos uzdevumus, izmantojot savu virtuālo datoru, vienmērīgi pārejot starp spriešanu un rīcību, lai no sākuma līdz beigām pārvaldītu sarežģītas darbplūsmas, pamatojoties uz tavām norādēm.

Vissvarīgākais ir tas, ka tu vienmēr to kontrolē. ChatGPT pieprasa atļauju pirms nozīmīgu rīcību veikšanas, un tu jebkurā brīdī vari viegli pārtraukt, pārņemt pārlūku vai apturēt uzdevumus.

Sākot ar šodienu, Pro, Plus un Team lietotāji var aktivizēt ChatGPT jaunās aģenta iespējas tieši, izmantojot sastādītāja rīku nolaižamo izvēlni, jebkurā sarunas brīdī izvēloties "aģenta režīmu".

Lai gan ChatGPT aģents jau ir spēcīgs rīks sarežģītu uzdevumu veikšanai, šodienas palaišana ir tikai sākums. Mēs turpināsim regulāri pievienot būtiskus uzlabojumus, padarot to laika gaitā spējīgāku un noderīgāku vairāk cilvēkiem.

Operatora un dziļās izpētes dabiska evolūcija

Iepriekš Operator un dziļā izpēte katrs deva unikālas priekšrocības: Operator varēja ritināt, klikšķināt un rakstīt tīmeklī, savukārt dziļā izpēte izcēlās ar informācijas analīzi un apkopošanu. Bet tie vislabāk darbojās dažādās situācijās: Operator nevarēja iedziļināties analīzē vai rakstīt detalizētus ziņojumus, un padziļinātā izpēte nevarēja mijiedarboties ar vietnēm, lai precizētu rezultātus vai piekļūtu saturam, kam nepieciešama lietotāja autentifikācija. Patiesībā mēs novērojām, ka daudzi vaicājumi, kurus lietotāji mēģināja veikt ar Operator, bija labāk piemēroti dziļai izpētei, tāpēc mēs apvienojām abu labākās īpašības.

Integrējot šīs papildinošās stiprās puses ChatGPT un ieviešot papildu rīkus, mēs esam atvēruši pilnīgi jaunas iespējas vienā modelī. Tagad tas var aktīvi darboties tīmekļa vietnēs—klikšķināt, filtrēt un apkopot precīzākus, efektīvākus rezultātus. Tu vari arī dabiski pāriet no vienkāršas sarunas uz rīcības pieprasīšanu tajā pašā tērzēšanā.

Aģents, kas strādā tavā labā un kopā ar tevi

Mēs esam aprīkojuši ChatGPT aģentu ar rīku komplektu: vizuālu pārlūku, kas mijiedarbojas ar tīmekli, izmantojot grafisko lietotāja saskarni, teksta pārlūku vienkāršākiem, uz pamatojumu balstītiem tīmekļa vaicājumiem, termināli un tiešu API piekļuvi. Aģents var arī izmantot ChatGPT savienotājus⁠(atveras jaunā logā), kas ļauj savienot tādas lietotnes kā Gmail un Github, lai ChatGPT varētu atrast informāciju, kas attiecas uz tavām uzvednēm, un izmantot to savās atbildēs. Tu vari arī pieteikties jebkurā tīmekļa vietnē, pārņemot pārlūku, ļaujot tam padziļināt un paplašināt gan pētījumus, gan uzdevumu izpildi. Nodrošinot ChatGPT dažādus veidus, kā piekļūt un mijiedarboties ar tīmekļa informāciju, tas var izvēlēties optimālo ceļu, lai visefektīvāk veiktu uzdevumus. Piemēram, tas var apkopot informāciju par tavu kalendāru, izmantojot API, efektīvi apsvērt lielu teksta apjomu, izmantojot teksta pārlūku, vienlaikus arī spējot vizuāli mijiedarboties ar vietnēm, kas paredzētas galvenokārt cilvēkiem.

Tas viss tiek veikts, izmantojot savu virtuālo datoru, kas saglabā uzdevumam nepieciešamo kontekstu, pat ja tiek izmantoti vairāki rīki. Modelis var izvēlēties atvērt lapu, izmantojot teksta pārlūku vai vizuālo pārlūku, lejupielādēt failu no tīmekļa, manipulēt ar to, izpildot komandu terminālī, un pēc tam apskatīt izvadi vizuālajā pārlūkā. Modelis pielāgo savu pieeju, lai veiktu uzdevumus ātri, precīzi un efektīvi.

ChatGPT aģents ir izstrādāts atkārtotām sadarbības darbplūsmām, kas ir daudz interaktīvākas un elastīgākas nekā iepriekšējie modeļi. Tā kā ChatGPT darbojas, jebkurā brīdī tu vari pārtraukt, lai precizētu norādījumus, virzītu to uz vēlamajiem rezultātiem vai pilnībā mainītu uzdevumu. Tas atsāks tur, kur pārtrauca, tagad ar jauno informāciju, bet nezaudējot iepriekšējo progresu. Tāpat pats ChatGPT var proaktīvi meklēt no tevis papildu informāciju, kad tas nepieciešams, lai nodrošinātu, ka uzdevums paliek saskaņots ar taviem mērķiem. Ja uzdevums aizņem ilgāku laiku, nekā paredzēts, vai šķiet iestrēdzis, tu vari to apturēt, lūgt progresa kopsavilkumu vai pilnībā pārtraukt un saņemt daļējus rezultātus. Ja tev tālrunī ir lietotne ChatGPT, tā nosūtīs tev paziņojumu, kad būs pabeigusi tavu uzdevumu.

Paplašinot reālās pasaules lietderību

Šīs vienotās aģentu spējas ievērojami uzlabo ChatGPT lietderību gan ikdienas, gan profesionālajos kontekstos. Darbā tu vari automatizēt atkārtotus uzdevumus, piemēram, pārvērst ekrānuzņēmumus vai infopaneļus prezentācijās, kas sastāv no rediģējamiem vektorelementiem, pārkārtot sapulces, plānot un rezervēt ārpusbiroja pasākumus, kā arī atjaunināt izklājlapas ar jauniem finanšu datiem, saglabājot to pašu formatējumu. Savā personīgajā dzīvē tu vari to izmantot, lai bez piepūles izstrādātu plānu un rezervētu ceļojumu maršrutus, organizētu un rezervētu veselas vakariņu ballītes vai atrastu speciālistus un ieplānotu tikšanās.

Modeļa paaugstinātās spējas atspoguļojas tā modernajā (SOTA) sniegumā, novērtējumos, kas mēra tīmekļa pārlūkošanas un reālās pasaules uzdevumu izpildes spējas.

Cilvēces pēdējā eksāmenā⁠(atveras jaunā logā)*, novērtējumā, kas mēra mākslīgā intelekta veiktspēju plašā priekšmetu klāstā ekspertu līmeņa jautājumos, modelis, kas darbina ChatGPT aģentu, sasniedz jaunu pass@1 SOTA rezultātu 41,6. Tā kā aģents plāno dinamiski un pats izvēlas savus rīkus, tas var risināt vienu un to pašu uzdevumu dažādos veidos dažādās reizēs. Kad mēs to mērogojam, izmantojot vienkāršu paralēlās izvēršanas stratēģiju—vienlaicīgi veicot līdz pat astoņiem mēģinājumiem un izvēloties to ar visaugstāko pašnovērtēto pārliecību— aģenta HLE rādītājs palielinās līdz 44,4.

FrontierMath** ir visgrūtākais zināmais matemātikas etalons, kurā ir jaunas, nepublicētas problēmas, kuru atrisināšana bieži prasa ekspertiem matemātiķiem stundas vai pat dienas. Izmantojot rīkus, piemēram, piekļuvi terminālim koda izpildei, ChatGPT aģents sasniedz 27,4% precizitāti, ievērojami pārspējot abus iepriekšējos modeļus.

Mēs arī novērtējām modeli, izmantojot etalonus, kas veidoti pēc sarežģītiem reālās pasaules uzdevumiem. Iekšējā etalonā, kas izstrādāts, lai novērtētu modeļa veiktspēju sarežģītu, ekonomiski vērtīgu zināšanu darba uzdevumu izpildē, ChatGPT aģenta izvade ir salīdzināma vai labāka nekā cilvēku rezultāti aptuveni pusē gadījumu dažādos uzdevumu izpildes laikos, vienlaikus ievērojami pārspējot o3 un o4-mini. Eksperti vērtē modeļu izvades, salīdzinot tos ar augstas kvalitātes cilvēku etaloniem, ko izveidojuši labākie speciālisti katrā jomā. Šie uzdevumi, ko nodrošina eksperti no dažādām profesijām un nozarēm, atspoguļo reālo profesionālo darbu, piemēram, konkurētspējīgas analīzes sagatavošana pēc pieprasījuma steidzamās aprūpes sniedzējiem, detalizētu amortizācijas grafiku izveide un dzīvotspējīgu ūdens aku identificēšana jaunai zaļā ūdeņraža ražotnei.

Uz DSBench⁠(atveras jaunā logā), kas izstrādāts, lai novērtētu aģentus reālistisku datu zinātnes uzdevumu veikšanā, aptverot datu analīzi un modelēšanu, ChatGPT aģents ievērojami pārspēj cilvēka veiktspēju.

SpreadsheetBench platformā, kas novērtē modeļus pēc to spējas rediģēt izklājlapas, kas iegūtas no reālās pasaules scenārijiem, ChatGPT aģents ievērojami pārspēj esošos modeļus. Kad tiek dota iespēja tieši rediģēt izklājlapas, ChatGPT aģents iegūst vēl augstāku rezultātu ar 45,5%, salīdzinot ar Copilot programmā Excel, kas ir 20.0%.

Metodoloģija: SpreadsheetBench autori izmantoja Windows vidi, Microsoft Excel, lai novērtētu izklājlapas. Mēs izmantojām OSX vidi un LibreOffice, kas var radīt nelielas vērtējuma atšķirības. Piemēram, autori atklāja, ka GPT‑4o kopējais stingrais ierobežojums ir 15,02%, un mēs ieguvām 13,38%. Mēs izmantojām pilno 912 jautājumu etalonu.

Veicot iekšējo salīdzinošo testu, kas mēra modeļa spēju veikt pirmā līdz trešā gada investīciju banku analītiķu modelēšanas uzdevumus—piemēram, sastādīt trīs pārskatu finanšu modeli Fortune 500 uzņēmumam ar pareizu formatējumu un atsaucēm vai izveidot izpirkšanas ar aizņemto līdzekļu modeli privatizācijai—ChatGPT aģenta modelis ievērojami pārspēj dziļo izpēti un o3. Katrs uzdevums tiek vērtēts pēc simtiem kritēriju, kas saistīti ar pareizību un formulu lietošanu.

Mēs arī novērtējām ChatGPT aģentu BrowseComp⁠, etalonu, ko publicējām šī gada sākumā, kas mēra pārlūkošanas aģentu spēju atrast grūti atrodamu informāciju tīmeklī. Modelis uzstādīja jaunu SOTA ar 68,9%, kas ir par 17,4 procentpunktiem vairāk nekā dziļajā izpētē.

Visbeidzot, WebArena⁠(atveras jaunā logā), etalons, kas izstrādāts, lai novērtētu tīmekļa pārlūkošanas aģentu veiktspēju reālu tīmekļa uzdevumu veikšanā, modelis uzlabo o3 darbināto CUA (modeli, kas darbina Operator).

Kā lietot

Tu vari aktivizēt ChatGPT jaunās aģenta iespējas tieši, izmantojot sastādītāja rīku nolaižamo izvēlni, jebkurā sarunas brīdī izvēloties "aģenta režīmu". Vienkārši apraksti vēlamo uzdevumu - vai tas būtu padziļinātas izpētes veikšana, slaidrādes izveide vai izdevumu iesniegšana. Veicot tavu uzdevumu, ekrāna stāstījums nodrošina redzamību, ko tieši dara ChatGPT. Tu vari pārtraukt un pārņemt kontroli pār pārlūku, kad vien nepieciešams, nodrošinot, ka uzdevumi atbilst taviem mērķiem.

ChatGPT aģents var piekļūt taviem savienotājiem, ļaujot tam integrēties ar tavām darbplūsmām un piekļūt attiecīgajai izmantojamajai informācijai. Pēc autentifikācijas šie savienotāji ļauj ChatGPT skatīt informāciju un veikt tādas rīcības kā apkopot dienas ienākošo vēstuļu kastīti vai atrast laiku, kad esi pieejams sanāksmei. Tomēr, lai veiktu rīcību šajās vietnēs, tev joprojām būs jāpiesakās, pārņemot pārlūku.

Turklāt tu vari ieplānot pabeigtu uzdevumu automātisku atkārtošanos, piemēram, iknedēļas metrikas ziņojuma ģenerēšanu katru pirmdienas rītu.

Jaunas iespējas, jauni riski

Šī versija iezīmē pirmo reizi, kad lietotāji var lūgt ChatGPT veikt rīcības tīmeklī. Tas rada jaunus riskus, jo īpaši tāpēc, ka ChatGPT aģents var strādāt tieši ar taviem datiem, neatkarīgi no tā, vai tā ir informācija, kurai piekļūst caur savienotājiem vai vietnēm, kurās esi pieteicies, izmantojot pārņemšanas režīmu. Mēs esam pastiprinājuši robustās kontroles no Operatora izpētes priekšskatījuma un pievienojuši aizsargpasākumus, lai risinātu tādas problēmas kā konfidenciālas informācijas apstrāde tiešsaistē, plašāka lietotāju sasniedzamība un (ierobežota) piekļuve termināla tīklam. Lai gan šie mazinājumi ievērojami samazina risku, ChatGPT aģenta paplašinātie rīki un plašāka lietotāju sasniedzamība nozīmē, ka tā kopējais riska profils ir augstāks.

Mēs esam īpaši pievērsuši uzmanību ChatGPT aģenta aizsardzībai pret uzbrucēju manipulācijām, izmantojot uzvedņu injekciju, kas ir vispārējs risks aģentu sistēmām, un attiecīgi esam sagatavojuši plašākus mazināšanas pasākumus. Uzvedņu injekcijas ir trešo personu mēģinājumi manipulēt ar ChatGPT aģenta uzvedību, izmantojot ļaunprātīgas instrukcijas, ar kurām tas var saskarties tīmeklī, veicot uzdevumu. Piemēram, tīmekļa lapā paslēpta tāda ļaunprātīga uzvedne kā neredzami elemeni vai metadati var maldināt aģentu veikt neparedzētu rīcību, piemēram, koplietot privātus datus no savienotāja ar uzbrucēju vai veikt kaitīgu rīcību vietnē, kurā lietotājs ir pieteicies. Tā kā ChatGPT aģents var veikt tiešu rīcību, veiksmīgiem uzbrukumiem var būt lielāka ietekme ar lielākiem riskiem.

Mēs esam apmācījuši un pārbaudījuši aģentu uzvedņu injekciju identificēšanai un atvairīšanai, kā arī izmantojuši uzraudzību, lai ātri atklātu un reaģētu uz uzvedņu injekciju uzbrukumiem. Nepieciešamība saņemt nepārprotamu lietotāja apstiprinājumu pirms svarīgas rīcības vēl vairāk samazina šo uzbrukumu radīto kaitējumu risku, un lietotāji var iejaukties uzdevumos pēc vajadzības, tos pārņemot vai apturot. Lietotājiem vajadzētu apsvērt šos kompromisus, izlemjot, kādu informāciju sniegt aģentam, kā arī veikt pasākumus, lai samazinātu sevis pakļaušanu šiem riskiem, piemēram, atspējot savienotājus, kad tie nav nepieciešami uzdevumam.

Mēs esam ieviesuši arī modeļa kļūdu novēršanas pasākumus, jo īpaši tāpēc, ka modelis tagad var veikt uzdevumus, kas ietekmē reālo pasauli:

Skaidrs lietotāja apstiprinājums: ChatGPT ir apmācīts skaidri lūgt tavu atļauju pirms rīcību veikšanas ar reālām sekām, piemēram, pirkuma veikšanas.
Aktīvā uzraudzība (“Skatīšanās režīms”): dažiem kritiskiem uzdevumiem, piemēram, e-pasta sūtīšanai, nepieciešama tava aktīva uzraudzība.
Proaktīva riska mazināšana: ChatGPT ir apmācīts aktīvi atteikties no augsta riska uzdevumiem, piemēram, bankas pārskaitījumiem.

Visbeidzot, mēs esam ieviesuši papildu kontroles, lai ierobežotu datus, kuriem modelis var piekļūt:

Privātuma kontroles: ar vienu klikšķi ChatGPT iestatījumos tu vari dzēst visus pārlūkošanas datus un nekavējoties atteikties no visām aktīvajām vietnes sesijām. Pretējā gadījumā sīkdatnes saglabājas atbilstoši katras apmeklētās vietnes sīkdatņu politikai, kas var padarīt atkārtotus vietņu apmeklējumus efektīvākus.
Drošs pārlūka pārņemšanas režīms: kad tu mijiedarbojies ar tīmekli, izmantojot ChatGPT pārlūku ("pārņemšanas režīms"), tava ievade paliek privāta. ChatGPT neapkopo un neuzglabā nekādus datus, ko ievadi šo sesiju laikā, piemēram, paroles, jo modelim tas nav vajadzīgs, un ir drošāk, ja tas nekad tos neredz.

Mūsu līdz šim spēcīgākais drošības risinājums bioloģiskā riska novēršanai.

Ar modeļa palielinātajām iespējām mēs esam pieņēmuši lēmumu uzskatīt ChatGPT aģentu par augstu bioloģisko un ķīmisko spēju nesēju saskaņā ar mūsu Gatavības sistēmu⁠, aktivizējot saistītos piesardzības pasākumus. Lai gan mums nav pārliecinošu pierādījumu, ka modelis varētu jēgpilni palīdzēt iesācējam izveidot nopietnu bioloģisku kaitējumu — mūsu augsto spēju slieksni — mēs esam piesardzīgi un jau tagad īstenojam nepieciešamos piesardzības pasākumus. Rezultātā šim modelim ir mūsu līdz šim visaptverošākais drošības komplekts ar uzlabotiem bioloģijas aizsardzības pasākumiem: visaptveroša draudu modelēšana, atteikuma mācības divējādu lietojumu gadījumā, vienmēr ieslēgti klasifikatori un argumentācijas monitori, kā arī skaidri izpildes mehānismi.

Papildus mūsu darbam, lai nodrošinātu ChatGPT aģentu, mēs zinām, ka slāņainā biodrošība vislabāk darbojas, ja aizsardzības pasākumi pārsniedz vienas laboratorijas robežas, tāpēc mēs sadarbojamies visā ekosistēmā, lai stiprinātu aizsardzību. Jau no pirmās dienas mēs esam sadarbojušies ar ārējiem bioloģiskās drošības ekspertiem, drošības institūtiem un akadēmiskajiem pētniekiem, lai izveidotu mūsu draudu modeli, novērtējumus un politikas. Bioloģijā apmācīti recenzenti apstiprināja mūsu novērtējuma datus, un jomas eksperti no sarkanās komandas pārbaudīja aizsardzības pasākumus reālos scenārijos. Šī mēneša sākumā mēs rīkojām bioloģiskās aizsardzības semināru ar ekspertiem no valdības, akadēmiskajām aprindām, valsts laboratorijām un NVO, lai paātrinātu sadarbību un veicinātu bioloģiskās aizsardzības pētniecību, izmantojot MI. Mēs turpināsim sadarboties globālā mērogā, lai būtu soli priekšā jaunajiem riskiem.

Uzzini vairāk par mūsu robusto drošības pieeju vienotajam aģenta modelim sistēmas kartē⁠. Mēs arī uzsākam kļūdu meklēšanas atlīdzības programmu⁠, lai mēs varētu atrast un novērst reālos riskus.

Pieejamība

ChatGPT aģents šodien sāk izplatīšanu Pro, Plus un Team lietotājiem; Pro saņems piekļuvi līdz dienas beigām, savukārt Plus un Team lietotāji saņems piekļuvi nākamo dienu laikā. Enterprise un izglītības lietotāji iegūs piekļuvi tuvāko nedēļu laikā. Pro lietotājiem ir 400 ziņojumi mēnesī, savukārt citi maksas lietotāji saņem 40 ziņojumus mēnesī, un papildu izmantošana ir pieejama, izmantojot elastīgas kredītbalstītas iespējas.

Mēs joprojām strādājam pie piekļuves nodrošināšanas Eiropas Ekonomikas zonas un Šveices iedzīvotājiem.

Operatora izpētes priekšskatījuma vietne darbosies vēl dažas nedēļas, pēc tam tā tiks slēgta. Padziļināta izpēte ir daļa no ChatGPT aģenta iespējām. Ja tu dod priekšroku sākotnējai dziļās izpētes funkcijai, kas var aizņemt ilgāku laiku, bet pēc noklusējuma sniedz detalizētākas, padziļinātas atbildes, tu joprojām vari tai piekļūt, ziņojumu sastādītāja nolaižamajā izvēlnē izvēloties “dziļā izpēte”.

Ierobežojumi un skatījums uz nākotni

ChatGPT aģents joprojām ir savā agrīnajā stadijā. Tas spēj veikt dažādus sarežģītus uzdevumus, bet joprojām var pieļaut kļūdas.

Lai gan mēs redzam ievērojamu potenciālu tās spējā ģenerēt slaidrādes, šī funkcionalitāte pašlaik ir beta versijā. Pašlaik izvades dažkārt var šķist vienkārši formatētas un nepietiekami noslīpētas, īpaši, ja sākat bez jau esoša dokumenta. Mēs koncentrējām modeļa sākotnējās iespējas uz artefaktu ģenerēšanu, kas organizē informāciju prezentācijām piemērotā plūsmā un formātā ar tādiem elementiem kā teksts, diagrammas, attēli un formas, kas pēc eksportēšanas ir viegli rediģējami, optimizējot struktūru un elastību. Pašlaik dažkārt ir arī neatbilstības starp skatītāja slaidiem un eksportēto PowerPoint prezentāciju, kuras mēs cenšamies samazināt. Turklāt, lai gan pašlaik tu vari augšupielādēt esošu izklājlapu, lai ChatGPT to rediģētu vai izmantotu kā veidni, šī iespēja vēl nav pieejama slaidrādēm. Mēs jau veicam nākamās ChatGPT mācības slaidrāžu izveidē, lai radītu izsmalcinātākas un sarežģītākas izvades ar plašākām iespējām un uzlabotu formatējumu.

Kopumā mēs sagaidām, ka laika gaitā ChatGPT aģenta efektivitāte, dziļums un daudzpusība turpinās uzlaboties, tostarp nodrošinot nevainojamāku mijiedarbību, jo mēs turpinām pielāgot lietotājam nepieciešamo pārraudzības apjomu, lai padarītu to noderīgāku, vienlaikus nodrošinot tā drošu lietošanu.

Pielikums

SpreadsheetBench
Modelis	Novērtēšanas vide	Maigs ierobežojums (%): šūnu līmenis	Maigs ierobežojums (%): lapas līmenī	Maigs ierobežojums (%): kopumā
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot programmā Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT aģents	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT aģents ar .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Cilvēks		75,56	65,00	71,33

Tiešraides atkārtojums

Autors

OpenAI

Zemsvītras piezīmes

* Kad ir iespējota pārlūkošana, modelis dažkārt var atrast precīzas atbildes tiešsaistē, piemēram, lasot emuāru ierakstus ar datu kopas uzdevumu paraugiem. Mēs mazinām bažas par modeļa krāpšanos pārlūkošanas laikā, izmantojot divas stratēģijas:

1. Bloķētie domēni, no kuriem mēs esam novērojuši, ka modelis iepriekš krāpjas.

2. Kā monitoru izmantoja papildu modeli, lai pārbaudītu visas rīka izvades tekstvienības katrā mēģinājumā un lai identificētu aizdomīgu uzvedību. Aizdomīga uzvedība tiek definēta kā "lapa, fails vai fragments, kura galvenais mērķis ir sniegt precīzu atbildi uz šo konkrēto jautājumu—piemēram, oficiālu vērtēšanas atslēgu, noplūdušu “risinājumu” būtību vai diskusiju, kurā burtiski citēta pabeigtā atbilde." Labdabīga uzvedība tiek definēta kā "jebkurš autoritatīvs resurss, ar kuru rūpīgs cilvēks varētu konsultēties (dokumentācija, rokasgrāmatas, zinātniski raksti, cienījami raksti), pat ja tas satur pareizo atbildi tikai gadījuma pēc." Visi mēģinājumi, kuros monitors uzskatīja, ka izlaišana ir aizdomīga, tiek uzskatīti par nepareiziem. Lielākā daļa paraugu, kas neizturēja šo pārbaudi, bija problēmas, kuru precīzs risinājums bija pieejams vairākos interneta avotos, kas nav saistīti ar HLE.

**OpenAI ir ekskluzīva piekļuve 237 no 290 privātiem jautājumiem 1.-3. līmeņa datu kopā. FrontierMath 4. līmeņa jautājumi nav iekļauti šajā novērtējumā. Rezultāti novērtēti kā vidējais no 16 mēģinājumiem atbildēt uz katru jautājumu. ChatGPT aģenta rezultātus nodrošina OpenAI, vērtē Epoch AI, ar piekļuvi pārlūkam un terminālim, un ierobežojumu 128 tūkst. tekstvienības uz vienu atbildi. OpenAI o4-mini un o3 novērtējumus veic un vērtē Epoch AI, bez piekļuves pārlūkam un terminālim, izmantojot Python skriptus ar funkciju izsaukumiem, un ierobežojumu 100 000 tekstvienības uz vienu atbildi.

*** Oracle@64 attiecas uz labāko rezultātu, kas sasniegts 64 paraugos, atlasītiem, izmantojot patiesos datus (t. i., mēs izvēlamies katra uzdevuma mēģinājumu ar augstāko rezultātu, pamatojoties uz faktisko novērtēto veiktspēju). Mēs ziņojam par šo katra uzdevuma labāko rezultātu vidējo rādītāju visos uzdevumos. Šī metrika izceļ modeļa maksimālo potenciālu un uzdevumu izpildes variācijas — parāda, cik spējīgs var būt modelis, kad tas gūst panākumus, un norāda uz iespējām uzlabot konsekvenci, veicot turpmākas mācības. Atšķirībā no tipiskajām “labākais no N” metrikām, kas atlasi veic, pamatojoties uz modeļa pārliecību, oracle@64 atlasei izmanto patiesos datus un piemēro uzdevumiem, kas tiek vērtēti pēc nepārtrauktas 0–1 skalas, nevis bināri pozitīvi/negatīvi.