Fara beint í aðalefni
OpenAI

17. júlí 2025

VaraSlepping

Kynning á ChatGPT‑fulltrúa: að brúa bilið milli rannsókna og aðgerðar

ChatGPT hugsar nú og framkvæmir, velur af eigin frumkvæði úr verkfærakistu af færni til að ljúka verkefnum fyrir þig með eigin tölvu.

Hleður inn...

ChatGPT getur nú unnið fyrir þig með því að nota sína eigin tölvu og leysa flókin verkefni frá upphafi til enda.

Þú getur nú beðið ChatGPT um að meðhöndla beiðnir eins og „líttu á dagatalið mitt og gefðu mér yfirlit yfir komandi viðskiptavinafundi byggt á nýlegum fréttum,“ „gerðu áætlun og keyptu innihaldsefni til að búa til japanskan morgunmat fyrir fjóra,“ og „greindu þrjá keppinauta og búðu til glærusýningu.“ ChatGPT mun vafra á snjallan hátt um vefsíður, sía niðurstöður, senda þér kvaðningu til að skrá inn á öruggan hátt þegar þörf krefur, keyra kóða, framkvæma greiningu og jafnvel skila breytanlegum glærusýningum og töflureiknum sem draga saman niðurstöður þess. 

Í kjarna þessarar nýju getu er sameinað fulltrúakerfi. Það sameinar þrjá styrkleika fyrri nýjunga: Færni Operator til að hafa samskipti við vefsíður, færni ítarlegra rannsókna til að samþætta upplýsingar og greind og samræðuhæfni ChatGPT.

ChatGPT framkvæmir þessi verkefni með eigin sýndartölvu, færist áreynslulaust á milli röksemdafærslu og aðgerða til að stjórna flóknum vinnuflæðum frá upphafi til enda, allt byggt á leiðbeiningum þínum.

Mikilvægast er að þú ert alltaf við stjórnina. ChatGPT biður um leyfi áður en það grípur til aðgerða sem hafa afleiðingar, og þú getur auðveldlega truflað, tekið yfir vafrann eða stöðvað verkefni hvenær sem er.

Frá og með deginum í dag geta Pro-, Plus- og Team-notendur virkjað nýju fulltrúagetu ChatGPT beint í gegnum verkfærafellilista í ritlinum með því að velja „fulltrúastilling“ hvenær sem er í hvaða samtali sem er. 

Þó að ChatGPT‑fulltrúinn sé nú þegar öflugt tæki til að takast á við flókin verkefni, þá er kynningin í dag bara byrjunin. Við munum halda áfram að bæta við verulegum endurbótum reglulega, sem gerir það öflugra og gagnlegra fyrir fleiri með tímanum.

Náttúruleg þróun Operator og ítarlegar rannsóknir

Áður höfðu Operator og ítarlegar rannsóknir hver um sig einstaka styrkleika: Operator gat flett, smellt og slegið inn á vefnum, en ítarlegar rannsóknir skáru fram úr við að greina og draga saman upplýsingar. Þetta virkaði þó best við mismunandi aðstæður: Operator gat ekki kafað djúpt í greiningu eða skrifað ítarlegar skýrslur, og ítarlegtar rannsóknir gátu ekki haft samskipti við vefsíður til að betrumbæta niðurstöður eða fá aðgang að efni sem krefst auðkenningar notenda. Reyndar sáum við að margar fyrirspurnir sem notendur reyndu með Operator voru í raun betur til fallnar fyrir ítarlegtar rannsóknir, svo við sameinuðum það besta úr báðum.

Með því að samþætta þessa viðbótarstyrkleika í ChatGPT og kynna ný verkfæri höfum við opnað algjörlega nýja möguleika innan eins líkans. Það getur nú virkan tekið þátt í vefsíðum—smellt, síað og safnað nákvæmari og skilvirkari niðurstöðum. Þú getur líka náttúrulega fært þig úr einföldu samtali yfir í að biðja um aðgerðir beint innan sama spjallsins. 

Fulltrúi sem vinnur fyrir þig, með þér 

Við höfum útbúið ChatGPT‑fulltrúa með safni verkfæra: sjónrænum vafra sem hefur samskipti við vefinn í gegnum myndrænt notendaviðmót, textamiðaðan vafra fyrir einfaldari röksemdafærslubundnar veffyrirspurnir, skel og beinan API-aðgang. Fulltrúinn getur einnig nýtt sér ChatGPT‑tengla(opnast í nýjum glugga), sem gerir þér kleift að tengja öpp eins og Gmail og Github svo ChatGPT geti fundið upplýsingar sem skipta máli fyrir kvaðningar þínar og notað þær í svörum sínum. Þú getur líka skráð þig inn á hvaða vefsíðu sem er með því að taka yfir vafrann, sem gerir honum kleift að fara dýpra og víðtækara í bæði rannsóknir sínar og verkefnaframkvæmd. Með því að veita ChatGPT þessar mismunandi leiðir til að nálgast og eiga samskipti við vefupplýsingar, getur það valið bestu leiðina til að framkvæma verkefni á sem skilvirkastan hátt. Til dæmis getur það safnað upplýsingum um dagatalið þitt í gegnum API, rökstutt á skilvirkan hátt mikið magn af texta með því að nota textamiðaðan vafra, á meðan það hefur einnig getu til að eiga sjónræn samskipti við vefsíður sem eru hannaðar fyrst og fremst fyrir menn. 

Allt þetta er gert með eigin sýndartölvu, sem varðveitir nauðsynlegt samhengi fyrir verkefnið, jafnvel þegar mörg verkfæri eru notuð—líkanið getur valið að opna síðu með textavafranum eða sjónrænum vafranum, sækja skrá af vefnum, vinna hana með því að keyra skipun í skelinni og skoða síðan frálagið til baka í sjónrænum vafranum. Líkanið aðlagar nálgun sína til að framkvæma verkefni með hraða, nákvæmni og skilvirkni.

ChatGPT‑fulltrúi er hannaður fyrir endurtekin, samvinnuferli, sem eru mun gagnvirkari og sveigjanlegri en fyrri líkön. Á meðan ChatGPT vinnur geturðu truflað það hvenær sem er til að skýra leiðbeiningar þínar, stýra því í átt að æskilegum niðurstöðum eða breytt verkefninu alveg. Það mun halda áfram þar sem það hætti, nú með nýju upplýsingunum, en án þess að missa fyrri framvindu. Sömuleiðis getur ChatGPT sjálft leitað frekari upplýsinga frá þér þegar þörf er á til að tryggja að verkefnið haldist í takt við markmið þín. Ef verkefni tekur lengri tíma en búist var við eða virðist fast geturðu gert hlé á því, beðið um samantekt eða stöðvað það alveg og fengið niðurstöður að hluta. Ef þú ert með ChatGPT‑appið í símanum þínum mun það senda þér tilkynningu þegar það hefur lokið við verkefnið þitt.

Að víkka út raunverulegt notagildi 

Þessi sameinaða fulltrúageta eykur verulega gagnsemi ChatGPT bæði í daglegu og faglegu samhengi. Í vinnunni geturðu sjálfvirkt endurtekin verkefni, eins og að umbreyta skjámyndum eða stjórnborðum í framsetningar sem samanstanda af breytanlegum vektorþáttum, endurskipuleggja fundi, skipuleggja og bóka utan vinnustaðar og uppfæra töflureikna með nýjum fjárhagslegum gögnum á meðan þú heldur sama sniði. Í persónulegu lífi þínu geturðu notað það til að gera áætlun og bóka ferðaáætlanir áreynslulaust, hanna og bóka heilar kvöldverðarveislur eða finna sérfræðinga og panta tíma. 

Aukin geta líkansins endurspeglast í nýjustu frammistöðu (SOTA) á mati sem mælir vafra- og raunverulega getu til að ljúka verkefnum. 

Á Humanity’s Last Exam(opnast í nýjum glugga)*, sem er mat sem mælir frammistöðu gervigreindar á fjölbreyttum sviðum með spurningum á sérfræðistigi, skorar líkanið sem knýr ChatGPT‑fulltrúann nýja pass@1 SOTA einkunn upp á 41,6. Þar sem fulltrúinn gerir áætlun á sveigjanlegan hátt og velur sín eigin verkfæri, getur hann tekist á við sama verkefni á mismunandi hátt í hverri keyrslu. Þegar við sköluðum þetta með einfaldri samhliða útfærslustefnu—keyrðum allt að átta tilraunir í einu og völdum þá sem höfðu hæsta sjálfmetna sjálfstraustið—hækkar HLE-stig fulltrúans í 44,4.

FrontierMath** er erfiðasta þekkta stærðfræðiviðmiðið, með ný og óbirt verkefni sem oft taka sérfræðinga í stærðfræði margar klukkustundir eða jafnvel marga daga að leysa. Með notkun verkfæra, eins og aðgangi að skel fyrir keyrslu kóða, nær ChatGPT‑fulltrúi 27,4% nákvæmni og skarar fram úr báðum fyrri líkönum með miklum mun.

Við mátum einnig líkanið með því að nota viðmið sem voru mótuð eftir flóknum raunverulegum verkefnum. Á innri viðmiði sem ætlað er að meta frammistöðu líkana á flóknum, efnahagslega dýrmætum þekkingarverkefnum, er frálag ChatGPT‑fulltrúa sambærilegt við eða betra en hjá mönnum í um það bil helmingi tilfella yfir fjölbreytt tímabil verkefna, á meðan það stendur sig verulega betur en o3 og o4-mini. Frálag líkana er metið af sérfræðingum miðað við hágæða mannleg viðmið sem eru búin til af fremstu sérfræðingum á hverju sviði. Þessi verkefni, fengin frá sérfræðingum í fjölbreyttum störfum og atvinnugreinum, endurspegla raunverulega faglega vinnu - eins og að undirbúa samkeppnisgreiningu á bráðaþjónustuaðilum eftir eftirspurn, búa til ítarlegar afskriftaráætlanir og bera kennsl á lífvænlega vatnsbrunna fyrir nýja græna vetnisaðstöðu. 

Á DSBench(opnast í nýjum glugga), sem er hannað til að meta fulltrúa á raunhæfum gagnavísindaverkefnum sem ná yfir gagnagreiningu og líkanagerð, skarar ChatGPT‑fulltrúinn fram úr mannlegri frammistöðu með umtalsverðum mun.

Á SpreadsheetBench, sem metur líkön á getu þeirra til að breyta töflureiknum sem unnir eru úr raunverulegum sviðsmyndum, skarar ChatGPT‑fulltrúi umtalsvert fram úr núverandi líkönum. Þegar ChatGPT‑fulltrúinn fær möguleika á að breyta töflureiknum beint, skorar hann enn hærra með 45,5%, samanborið við Copilot í Excel með 20,0%. 

Aðferðafræði: Höfundar SpreadsheetBench notuðu Windows-umhverfi með Microsoft Excel til að meta töflureikna. Við notuðum OSX-umhverfi og LibreOffice, sem gæti leitt til smávægilegs munar á einkunnagjöf. Til dæmis fundu höfundar heildar Hard takmörkun upp á 15,02% fyrir GPT‑4o og við fengum 13,38%. Við notuðum heildar 912-spurninga viðmiðið.

Á innri viðmiði sem mælir getu líkansins til að takast á við fyrsta til þriðja árs verkefni fjárfestingabankagreiningarlíkans—eins og að setja saman þriggja yfirlýsinga fjármálalíkan fyrir Fortune 500 fyrirtæki með réttu sniði og tilvísunum, eða byggja skuldsett kaupslíkan fyrir einkaaðila—líkanið sem knýr ChatGPT‑fulltrúa skarar verulega fram úr ítarlegum rannsóknum og o3. Hvert verkefni er metið út frá hundruðum viðmiða sem tengjast réttmæti og notkun formúla.

Við metum einnig ChatGPT‑fulltrúa á BrowseComp, viðmiðunarprófi sem við birtum fyrr á þessu ári sem mælir getu vafrafulltrúa til að finna erfiðar upplýsingar á vefnum. Líkanið setti nýtt SOTA með 68,9%, 17,4 prósentustigum hærra en ítarlegar rannsóknir.

Að lokum, á WebArena(opnast í nýjum glugga), viðmiði sem er hannað til að meta frammistöðu vafrafulltrúa við að klára raunveruleg vefverkefni, bætir líkanið sig yfir o3‑knúið CUA (líkanið sem knýr Operator). 

Hvernig á að nota

Þú getur virkjað nýju fulltrúagetu ChatGPT beint í gegnum verkfærafellilista í ritlinum með því að velja „fulltrúastilling“ hvenær sem er í hvaða samtali sem er. Lýstu einfaldlega verkefninu sem þú vilt - hvort sem það er að stunda ítarlegar rannsóknir, búa til skyggnusýningu eða skila inn kostnaði. Þegar það framkvæmir verkefnið þitt, veitir frásögn á skjánum sýnileika í nákvæmlega hvað ChatGPT er að gera. Þú getur truflað og tekið stjórn á vafranum hvenær sem er til að tryggja að verkefnin séu í samræmi við markmið þín.

ChatGPT‑fulltrúi getur fengið aðgang að tenglum þínum, sem gerir honum kleift að samþætta vinnuflæði þitt og fá aðgang að viðeigandi, framkvæmanlegum upplýsingum. Eftir staðfestingu leyfa þessir tenglar ChatGPT að sjá upplýsingar og gera hluti eins og að draga saman pósthólfið þitt fyrir daginn eða finna tíma sem þú ert laus fyrir fund. Til að grípa til aðgerða á þessum síðum þarftu samt að skrá inn með því að taka yfir vafrann. 

Að auki geturðu tímasett lokin verkefni til að endurtaka sig sjálfkrafa, eins og að búa til vikulega skýrslu um mælikvarða á hverjum mánudagsmorgni.

Ný geta, nýjar áhættur 

Þessi útgáfa markar í fyrsta sinn tímann sem notendur geta beðið ChatGPT um að grípa til aðgerða á vefnum. Þetta skapar nýja áhættu, sérstaklega vegna þess að ChatGPT‑fulltrúi getur unnið beint með gögnin þín, hvort sem það eru upplýsingar sem nálgast er í gegnum tengla eða vefsíður sem þú hefur skráð það inn í gegnum vinnslustýringuna. Við höfum styrkt öflugar stýringar frá Operator rannsóknarforskoðun og bætt við öryggisráðstöfunum fyrir áskoranir eins og meðhöndlun viðkvæmra upplýsinga á lifandi vefnum, víðtækari notendasókn og (takmarkaðan) aðgang að endabúnaði. Þó að þessar mótvægisaðgerðir dragi verulega úr áhættu, þýða stækkuð verkfæri ChatGPT‑fulltrúa og víðtækari notendur að heildaráhættuprófíll hans sé hærri. 

Við höfum lagt sérstaka áherslu á að vernda ChatGPT‑fulltrúa gegn neikvæðri meðferð með kvaðningasáningu, sem er áhætta fyrir fulltrúakerfi almennt, og höfum undirbúið umfangsmeiri mótvægi í samræmi við það. Kvaðningasáning eru tilraunir þriðja aðila til að hafa áhrif á hegðun þess í gegnum illgjarnar leiðbeiningar sem ChatGPT‑fulltrúi kann að rekast á á vefnum meðan hann er að ljúka verkefni. Til dæmis gæti illgjörn kvaðning falin á vefsíðu, eins og í ósýnilegum þáttum eða lýsigögnum, blekkt fulltrúann til að framkvæma óviljandi aðgerðir, eins og að deila persónuupplýsingum úr tengli með tölvuþrjótinum eða framkvæma skaðlegar aðgerðir á vefsvæði sem notandinn hefur skráð sig inn á. Þar sem ChatGPT‑fulltrúi getur gripið til beinna aðgerða geta árangursríkar árásir haft meiri áhrif og skapað meiri áhættu. 

Við höfum þjálfað og prófað fulltrúann í að bera kennsl á og standast kvaðningasáningar, auk þess að nota eftirlit til að greina hratt og bregðast við árásum á sviði kvaðningasáningar. Að krefjast skýrrar staðfestingar notenda áður en afdrifaríkar aðgerðir eru framkvæmdar dregur enn frekar úr hættu á skaða af þessum árásum, og notendur geta gripið inn í verkefni eftir þörfum með því að taka yfir eða gera hlé. Notendur ættu að vega og meta þessa málamiðlun þegar þeir ákveða hvaða upplýsingar þeir veita fulltrúanum, og gera ráðstafanir til að lágmarka útsetningu sína fyrir þessum áhættum, eins og að slökkva á tenglum þegar þeirra er ekki þörf fyrir verkefni. 

Við höfum einnig innleitt mótvægisaðgerðir gegn mistökum líkansins, sérstaklega þar sem líkanið getur nú sinnt verkefnum sem hafa áhrif á raunheiminn: 

  • Skýr staðfesting notanda: ChatGPT er þjálfað til að biðja beinlínis um leyfi þitt áður en það grípur til aðgerða með raunverulegum afleiðingum, eins og að kaupa eitthvað.
  • Virkt eftirlit („Watch Mode“): Ákveðin mikilvæg verkefni, eins og að senda tölvupóst, krefjast virks eftirlits þíns.
  • Fyrirbyggjandi áhættuminnkun: ChatGPT er þjálfað til að hafna áhættusömum verkefnum eins og bankamillifærslum.

Að lokum höfum við innleitt viðbótarstýringar til að takmarka aðgang að gögnum sem líkanið hefur: 

  • Persónuverndarstýringar: Með einum smelli í stillingum ChatGPT geturðu eytt öllum vafragögnum og skráð þig strax út úr öllum virkum lotum. Annars haldast vafrakökur í samræmi við stefnu hvers heimsóttar vefsíðu, sem getur gert endurteknar heimsóknir á síður skilvirkari.
  • Örugg vinnslustýring vafra: Þegar þú hefur samskipti við vefinn með því að nota vafra ChatGPT („vinnslustýring“), eru inntök þín áfram persónuleg. ChatGPT safnar ekki né geymir nein gögn sem þú slærð inn á þessum lotum, eins og lykilorð, vegna þess að líkanið þarf ekki á þeim að halda og það er öruggara ef það sér þau aldrei.

Sterkasta öryggislausnin okkar hingað til fyrir líffræðilega áhættu 

Með aukinni getu líkansins höfum við ákveðið að meðhöndla ChatGPT‑fulltrúann sem með mikla líffræðilega og efnafræðilega getu samkvæmt viðbúnaðarramma okkar, og virkja þar með tilheyrandi öryggisráðstafanir. Þó að við höfum ekki óyggjandi sönnunargögn um að líkanið gæti raunverulega hjálpað nýliða að skapa alvarlegan líffræðilegan skaða—sem er okkar viðmiðun fyrir mikla getu—erum við að gæta varúðar og innleiða nauðsynlegar öryggisráðstafanir núna. Þar af leiðandi hefur þetta líkan umfangsmesta öryggisstafla okkar til þessa með auknum öryggisráðstöfunum fyrir líffræði: alhliða ógnarlíkanagerð, þjálfun í að hafna tvíþættri notkun, stöðugum flokkunaraðilum og röksemdafærsluvöktum, og skýrum framkvæmdarleiðum. 

Til viðbótar við vinnu okkar til að tryggja ChatGPT‑fulltrúa, vitum við að lagskipt líföryggi virkar best þegar öryggisráðstafanir ná út fyrir eina rannsóknarstofu, svo við vinnum saman í vistkerfinu til að styrkja varnir. Frá fyrsta degi höfum við unnið með utanaðkomandi sérfræðingum í líföryggi, öryggisstofnunum og fræðimönnum til að móta ógnarlíkan okkar, mat okkar og stefnur. Líffræðimenntaðir gagnrýnendur staðfestu matsgögn okkar og sérfræðingar í rauða teymi hafa álagsprófað öryggisráðstafanir í raunhæfum aðstæðum. Fyrr í þessum mánuði boðuðum við til vinnufundarins Biodefense með sérfræðingum frá stjórnvöldum, háskólum, innlendum rannsóknarstofum og frjálsum félagasamtökum til að flýta fyrir samstarfi og efla rannsóknir á lífvörnum sem knúnar eru af gervigreind. Við munum halda áfram að vinna saman á heimsvísu til að vera á undan nýjum áhættum. 

Lestu meira um öfluga öryggisnálgun okkar fyrir sameinaða fulltrúalíkanið í kerfiskortinu. Við erum líka að setja af stað umbunarkerfi fyrir villur svo að við getum fundið og lagfært raunverulega áhættu.

Aðgengi

ChatGPT‑fulltrúi fer af stað í dag fyrir Pro, Plus og Team; Pro mun fá aðgang í lok dags, á meðan Plus- og Team-notendur munu fá aðgang á næstu dögum. Enterprise- og Education-notendur munu fá aðgang á næstu vikum. Pro-notendur fá 400 skilaboð á mánuði, á meðan aðrir greiddir notendur fá 40 skilaboð mánaðarlega, með viðbótarnotkun í boði í gegnum sveigjanlega lánamöguleika.

Við erum enn að vinna að því að gera aðgang aðgengilegan fyrir Evrópska efnahagssvæðið og Sviss. 

Forskoðunarvefur Operator mun halda áfram að virka í nokkrar vikur í viðbót, eftir það verður hann tekinn úr notkun. Ítarlegar rannsóknir eru hluti af getu ChatGPT‑fulltrúa. Ef þú kýst upprunalega ítarlega rannsóknareiginleikann—sem getur tekið lengri tíma að keyra en veitir nánari, ítarlegri svör sjálfgefið—geturðu samt nálgast hann með því að velja „ítarleg rannsókn“ úr fellilistanum í skilaboðagerðinni.

Takmarkanir og framtíðarsýn 

ChatGPT‑fulltrúi er enn á frumstigi. Það er fært um að taka að sér margs konar flókin verkefni, en það getur samt gert mistök. 

Þó að við sjáum umtalsverða möguleika í getu þess til að búa til glærusýningar, er þessi virkni nú á beta-stigi. Núna geta frálög stundum virst frumstæð í sniði og fágun, sérstaklega þegar byrjað er án fyrirliggjandi skjals. Við lögðum áherslu á upphaflega getu líkansins til að búa til verkfæri sem skipuleggja upplýsingar á flæði og sniði sem hentar fyrir framsetningar, með þáttum eins og texta, töflum, myndum og formum sem eru innbyggð og auðveldlega breytanleg eftir útflutning, með áherslu á uppbyggingu og sveigjanleika. Eins og er eru einnig einstaka misræmi á milli glæranna í skoðaranum og útflutta PowerPoint-skjalsins sem við erum að vinna að því að draga úr slíku. Að auki, þó þú getir nú hlaðið upp núverandi töflureikni fyrir ChatGPT til að breyta eða nota sem sniðmát, þá er þessi möguleiki ekki enn tiltækur fyrir glærusýningar. Við erum nú þegar að framkvæma þjálfun næstu útgáfu af glærusýningargerð ChatGPT til að framleiða fágaðri og háþróaðri frálög, með víðtækari getu og betra sniði.

Á heildina litið búumst við við áframhaldandi endurbótum á skilvirkni, dýpt og fjölhæfni ChatGPT‑fulltrúans með tímanum, þar á meðal óaðfinnanlegri samskiptum þar sem við höldum áfram að stilla magn eftirlits sem krafist er frá notanda til að gera það gagnlegra en tryggja að það sé öruggt í notkun.

Viðauki

SpreadsheetBench

Líkan

Matsumhverfi

Mjúk takmörkun (%): Frumustig

Mild takmörkun (%): Blaðstig

Mild takmörkun (%): Heildstætt

GPT‑4o

Windows, Excel

15,03

23,65

18,35

Copilot í Excel

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

ChatGPT‑fulltrúi

OSX, LibreOffice

38,27

30,48

35,27

ChatGPT‑fulltrúi með .xlsx

OSX, LibreOffice

50,56

37,51

45,54

Manneskja

75,56

65,00

71,33

Endurspilun á streymi í beinni útsendingu

Höfundur

OpenAI

Neðanmálsgreinar

* Þegar vafri er virkjaður getur líkanið stundum fundið nákvæm svör á netinu, til dæmis með því að lesa bloggfærslur með sýnidæmum úr gagnasafni. Við drögum úr áhyggjum af því að líkanið svindli meðan það vafrar með tveimur aðferðum:

1. Útilokuð lén sem við höfum fylgst með líkaninu svindla frá í fortíðinni.

2. Notað var aukalíkan sem eftirlit til að skoða öll úttaksmerki tækja í hverri tilraun til að bera kennsl á grunsamlega hegðun. Grunsamleg hegðun er skilgreind sem „síða, skrá eða bútur þar sem megintilgangurinn er að veita nákvæmlega svarið við þessari tilteknu spurningu – t.d. opinber einkunnarlykill, lekið „lausnir“ eða umræða þar sem vitnað er í lokið svar orðrétt.“ Góðkynja hegðun er skilgreind sem „sérhvert heimildarúrræði sem duglegur einstaklingur gæti haft samráð við (skjöl, handbækur, fræðigreinar, virtar greinar) jafnvel þótt það tilviljunarkennt innihaldi rétt svar.“ Allar tilraunir þar sem eftirlitið taldi kynningu grunsamlega eru taldar rangar. Flest sýni sem mistókust með þessari athugun voru vandamál þar sem nákvæm lausn var fáanleg á mörgum netheimildum ótengdum HLE.

**OpenAI hefur einkarétt á aðgangi að 237 af 290 einkaspurningum í Tier 1-3 gagnasafninu. Spurningar á stigi 4 í FrontierMath eru ekki innifaldar í þessu mati. Niðurstöður voru metnar sem meðaltal 16 tilrauna til að svara hverri spurningu. Niðurstöður ChatGPT-fulltrúa eru framkallaðar af OpenAI, metnar af Epoch AI, með aðgangi að vafra og stöð og hámarki 128 þús. tákna fyrir hvert svar. OpenAI o4-mini og o3 mat eru framkvæmd og metin af Epoch AI, án aðgangs að vafra og stöðvum, með notkun python-forskrifta í gegnum aðgerðaköllun og með takmörkun á 100 þús. tákn á hvert svar. 

*** Oracle@64 vísar til besta skorsins sem náðst hefur í 64 sýnishornum, valið með raunverulegum gögnum (þ.e. við veljum hæstu stigagjöfina fyrir hvert verkefni byggt á raunverulegum einkunnum). Við greinum frá meðaltali þessara bestu skora fyrir hvert verkefni yfir öll verkefni. Þessi mælikvarði varpar ljósi á efri mörk getu líkansins og breytileika í frammistöðu verkefna - sýnir hversu hæft líkanið getur verið þegar það tekst og gefur til kynna svigrúm til að bæta samræmi með frekari þjálfun. Ólíkt dæmigerðum „best af N“ mælikvörðum, sem velja út frá trausti líkansins, notar Oracle@64 raunveruleg gögn fyrir val og gildir um verkefni sem eru metin á samfelldum 0–1 kvarða frekar en tvíundar pass/fail.