17. heinäkuuta 2025

Esittelyssä ChatGPT‑agentti: tutkimuksen ja toiminnan yhteensovittaminen

ChatGPT ajattelee ja toimii nyt valitsemalla ennakoivasti agenttitaitojen työkalupakista tehtävien suorittamiseen puolestasi omalla tietokoneellaan.

Kokeile ChatGPT:ssä

Ladataan...

ChatGPT voi nyt tehdä töitä puolestasi omalla tietokoneellaan ja hoitaa monimutkaisia tehtäviä alusta loppuun.

Voit nyt pyytää ChatGPT:tä käsittelemään pyyntöjä, kuten ”katso kalenteristani tulevia asiakastapaamisia viimeaikaisten uutisten perusteella”, ”suunnittele ja osta ainekset japanilaisen aamiaisen valmistamiseksi neljälle” ja ”analysoi kolme kilpailijaa ja luo diaesitys.” ChatGPT navigoi älykkäästi verkkosivustoilla, suodattaa tuloksia, kehottaa tarvittaessa kirjautumaan sisään turvallisesti, suorittaa koodia, tekee analyysejä ja jopa toimittaa muokattavia diaesityksiä ja laskentataulukoita, jotka tiivistävät sen löydökset.

Tämän uuden kyvykkyyden ytimessä on yhtenäinen itsenäisten agenttien järjestelmä. Siinä yhdistyvät kolmen aiemman läpimurron vahvuutta: Operator⁠-agentin kyky olla vuorovaikutuksessa verkkosivustojen kanssa, syvätutkimustaito⁠ tiedon syntetisoinnissa sekä ChatGPT:n älykkyys ja keskustelun sujuvuus.

ChatGPT suorittaa nämä tehtävät omalla virtuaalitietokoneellaan siirtyen sujuvasti päättelyn ja toiminnan välillä, kun se käsittelee monimutkaisia työnkulkuja alusta loppuun ohjeittesi mukaisesti.

Mikä tärkeintä, voit aina hallita tilannetta. ChatGPT pyytää lupaa ennen merkittävien toimien tekemistä, ja voit helposti keskeyttää, ottaa selaimen haltuusi tai pysäyttää tehtäviä milloin tahansa.

Pro-, Plus- ja Team-käyttäjät voivat nyt aktivoida ChatGPT:n uudet agenttiominaisuudet suoraan muokkaimen työkaluvalikosta valitsemalla ”agenttitilan” missä tahansa keskustelun vaiheessa.

Vaikka ChatGPT‑agentti on jo ollut tehokas työkalu monimutkaisten tehtävien käsittelyyn, tämänpäiväinen julkaisu on vasta alkua. Jatkamme merkittävien iteratiivisten parannusten lisäämistä säännöllisesti, mikä tekee siitä ajan myötä tehokkaamman ja hyödyllisemmän useammille käyttäjille.

Operator-agentin ja syvätutkimuksen luonnollinen kehitys

Aiemmin sekä Operator että syvätutkimus toivat mukanaan ainutlaatuisia vahvuuksia: Operator pystyi selaamaan, napsauttamaan ja kirjoittamaan verkossa, kun taas syvätutkimus oli erikoistunut tiedon analysointiin ja tiivistämiseen. Ne toimivat kuitenkin parhaiten eri tilanteissa: Operator ei pystynyt syventymään analyyseihin tai kirjoittamaan yksityiskohtaisia raportteja, eikä syvätutkimus pystynyt olemaan vuorovaikutuksessa verkkosivustojen kanssa tulosten tarkentamiseksi tai käyttämään sisältöä, joka vaati käyttäjän tunnistautumista. Itse asiassa huomasimme, että monet Operator-agentilla tehdyt kyselyt sopivat paremmin syvätutkimukseen, joten yhdistimme molempien parhaat puolet.

Yhdistämällä nämä toisiaan täydentävät vahvuudet ChatGPT:hen ja ottamalla käyttöön uusia työkaluja, olemme avanneet täysin uusia ominaisuuksia yhdessä mallissa. Se voi nyt aktiivisesti käyttää verkkosivustoja napsauttamalla, suodattamalla ja keräämällä tarkempia ja tehokkaampia tuloksia. Nyt voi myös luontevasti siirtyä pelkästä keskustelemisesta pyytämään toimintoja suoraan samassa keskustelussa.

Agentti, joka työskentelee puolestasi, sinun kanssasi

Olemme varustaneet ChatGPT‑agentin työkaluilla: visuaalisella selaimella, joka on vuorovaikutuksessa verkon kanssa graafisen käyttöliittymän kautta, tekstipohjaisella selaimella yksinkertaisempia päättelyyn perustuvia verkkokyselyitä varten, terminaalilla ja suoralla API-yhteydellä. Agentti voi myös hyödyntää ChatGPT‑yhdistimiä⁠(avautuu uudessa ikkunassa), joiden avulla voit yhdistää sovelluksia, kuten Gmailin ja Githubin, jotta ChatGPT voi löytää kehotteisiisi liittyviä tietoja ja käyttää niitä vastauksissaan. Voit myös kirjautua mille tahansa verkkosivustolle ottamalla selaimen haltuusi, jolloin se voi syventää ja laajentaa sekä tutkimustaan että tehtävien suorittamistaan. Kun ChatGPT:lle annetaan nämä erilaiset tavat käyttää tietoja verkosta ja olla vuorovaikutuksessa niiden kanssa, se voi valita optimaalisen polun tehtävien suorittamiseen tehokkaimmin. Se voi esimerkiksi kerätä tietoja kalenteristasi API:n kautta, analysoida tehokkaasti suuria tekstimääriä tekstipohjaisen selaimen avulla ja samalla olla visuaalisesti vuorovaikutuksessa ensisijaisesti ihmisille suunniteltujen verkkosivustojen kanssa.

Kaikki tehdään sen omalla virtuaalitietokoneella, joka säilyttää tehtävän kannalta tarvittavan kontekstin, vaikka käytettäisiin useita työkaluja. Malli voi avata sivun tekstiselaimella tai visuaalisella selaimella, ladata tiedoston verkosta, käsitellä sitä suorittamalla komennon terminaalissa ja tarkastella sitten tulostetta visuaalisessa selaimessa. Malli mukauttaa lähestymistapaansa suorittaakseen tehtäviä nopeasti, tarkasti ja tehokkaasti.

ChatGPT‑agentti on suunniteltu iteratiivisiin, yhteistoiminnallisiin työnkulkuihin ja on paljon vuorovaikutteisempi ja joustavampi kuin aiemmat mallit. ChatGPT:n toimiessa voit keskeyttää sen milloin tahansa selventääksesi ohjeitasi, ohjataksesi sitä haluttuihin tuloksiin tai muuttaaksesi tehtävää kokonaan. Se jatkaa siitä, mihin oli jäänyt, nyt uusien tietojen kanssa, mutta menettämättä aiempaa edistymistä. Samalla tavalla ChatGPT voi tarvittaessa itse pyytää sinulta lisätietoja varmistaakseen, että tehtävä pysyy tavoitteidesi mukaisena. Jos tehtävä kestää odotettua kauemmin tai tuntuu olevan jumissa, voit keskeyttää sen, pyytää siltä yhteenvetoa edistymisestä tai pysäyttää sen kokonaan ja saada osittaisia tuloksia. Jos puhelimessasi on ChatGPT‑sovellus, se lähettää sinulle ilmoituksen, kun tehtävä on valmis.

Reaalimaailman hyötyjen laajentaminen

Nämä yhtenäiset agenttiominaisuudet parantavat merkittävästi ChatGPT:n käyttökelpoisuutta sekä arjessa että työelämässä. Työssä voit automatisoida toistuvia tehtäviä, kuten muuntaa ruutukaappauksia tai ohjauspaneeleja muokattavista vektorielementeistä koostuviksi esityksiksi, järjestää kokouksia uudelleen, suunnitella ja varata offsite-tilaisuuksia ja päivittää laskentataulukoita uusilla taloustiedoilla säilyttäen saman muotoilun. Henkilökohtaisessa elämässä voit käyttää sitä matkareittien vaivattomaan suunnitteluun ja varaamiseen, illalliskutsujen suunnitteluun ja varaamiseen tai asiantuntijoiden etsimiseen ja tapaamisten sopimiseen.

Mallin parannetut ominaisuudet näkyvät sen huippuluokan (SOTA) suorituskyvyssä arvioinneissa, joissa mitataan verkon selailua ja suorittamiskykyä tosielämän tehtävissä.

Humanity’s Last Exam⁠(avautuu uudessa ikkunassa)* -arvioinnissa, joka mittaa tekoälyn suorituskykyä laajalla aihealueella asiantuntijatason kysymyksissä, ChatGPT‑agentin käyttämä malli saavutti uuden pass@1 SOTA-pistemäärän 41,6. Koska agentti suunnittelee dynaamisesti ja valitsee omat työkalunsa, se voi hoitaa saman tehtävän eri tavoin eri suorituksissa. Kun skaalasimme tätä yksinkertaisella rinnakkaisjulkaisustrategialla – suorittamalla jopa kahdeksan yritystä kerralla ja valitsemalla sen, jolla on korkein itse ilmoitetun luotettavuuden mittari – agentin HLE-pistemäärä nousi 44,4:ään.

FrontierMath** on vaikein tunnettu matematiikan vertailukohta, joka sisältää uusia, julkaisemattomia ongelmia, joiden ratkaiseminen vie usein asiantuntevilta matemaatikoilta tunteja tai jopa päiviä. Työkalua käytettäessä, kuten esimerkiksi päätelaitteen kautta koodin suorittamista varten, ChatGPT‑agentti saavuttaa 27,4 %:n tarkkuuden, mikä reilusti ylittää molemmat aiemmat mallit.

Arvioimme mallia myös käyttämällä vertailuarvoja, jotka oli mallinnettu monimutkaisten tosielämän tehtävien jälkeen. Sisäisessä vertailukokeessa, jolla arvioitiin mallin suorituskykyä monimutkaisissa, taloudellisesti arvokkaissa tietotyötehtävissä, ChatGPT‑agentin tuotos on verrattavissa ihmisten tuotokseen tai parempi noin puolessa tapauksista useilla eri tehtävien suoritusajoilla, ja se on siinä merkittävästi parempi kuin o3 ja o4-mini. Asiantuntijat arvioivat mallien tuloksia kunkin alan parhaiden suorittajien luomia korkealaatuisia ihmisten vertailukohtia vasten. Nämä tehtävät eri ammattien ja toimialojen asiantuntijoilta heijastelevat käytännön ammatillista työtä – kuten kilpailuanalyysin laatimista kysynnän perusteella saatavilla olevien kiireellisen hoidon tarjoajista, yksityiskohtaisten poistoaikataulujen laatimista ja kannattavien vesikaivojen tunnistamista uutta vihreää vetylaitosta varten.

DSBench⁠(avautuu uudessa ikkunassa)-testissä, joka on suunniteltu arvioimaan agentteja realistisissa data-analyysin ja mallinnuksen tehtävissä, ChatGPT‑agentti ylittää huomattavasti ihmisen suorituskyvyn.

SpreadsheetBench-testissä, joka arvioi mallien kykyä muokata tosielämän skenaarioista johdettuja laskentataulukoita, ChatGPT‑agentti suoriutuu merkittävästi paremmin kuin olemassa olevat mallit. Kun ChatGPT‑agentti voi muokata laskentataulukoita suoraan, se sai vieläkin paremman tuloksen, 45,5 %, verrattuna Copilotin 20,0 %:iin Excelissä.

Menetelmät: SpreadsheetBenchin laatijat käyttivät laskentataulukoiden arviointiin Windows-ympäristöä ja Microsoft Exceliä. Käytimme OSX-ympäristöä ja LibreOfficea, mikä saattaa aiheuttaa pieniä eroja arvostelussa. Kirjoittajat löysivät esimerkiksi GPT‑4o:lle 15,02 %:n kokonaiskovan rajoituksen, ja me saimme tulokseksi 13,38 %. Käytimme täydellistä 912-kysymysten vertailuarvoa.

Sisäisessä vertailuarviossa, jossa mitataan mallin kykyä suoriutua ensimmäisen tai kolmannen vuoden investointipankkitoiminnan analyytikon mallinnustehtävistä, kuten laatia Fortune 500 -yhtiötä varten kolmen laskelman rahoitusmalli, jossa on asianmukainen muotoilu ja viittaukset, tai rakentaa velkarahoitteinen yritysostomalli yksityisomistukseen siirtymistä varten, ChatGPT‑agentin käyttämä malli ylittää selvästi syvätutkimuksen ja o3:n tulokset. Kukin tehtävä arvioidaan satojen oikeellisuuteen ja kaavojen käyttöön liittyvien kriteerien perusteella.

Lopuksi arvioimme ChatGPT‑agenttia BrowseComp-vertailuarviolla, jonka julkaisimme aiemmin tänä vuonna mittaamaan selailuagenttien kykyä hakea vaikeasti löydettävää tietoa verkosta. Malli saavutti uuden SOTA-arvon 68,9 %, joka on 17,4 prosenttiyksikköä korkeampi kuin syvätutkimus.⁠

WebArena⁠(avautuu uudessa ikkunassa)-vertailuarviossa, joka on suunniteltu arvioimaan verkkoselailuagenttien suorituskykyä tosielämän verkkotehtävien suorittamisessa, malli on parempi kuin o3‑mallia käyttävä CUA (Operatorin käyttämä malli).

Kuinka käytetään

Voit aktivoida ChatGPT:n uudet agenttiominaisuudet suoraan muokkaimen työkalut-pudotusvalikon kautta valitsemalla ”agenttitilan” missä tahansa keskustelun vaiheessa. Kuvaile vain haluamasi tehtävä – olipa kyse sitten syvätutkimuksesta, diaesityksen luomisesta tai kustannusten lähettämisestä. Kun se suorittaa tehtävääsi, näytöllä näkyvä selostus kertoo, mitä ChatGPT tekee. Voit keskeyttää selaimen käytön ja ottaa sen hallintaasi aina tarvittaessa, jolloin varmistat, että tehtävät pysyvät linjassa tavoitteidesi kanssa.

ChatGPT‑agentti voi käyttää yhdistimiäsi, jolloin se voi integroitua työnkulkuihisi ja saada käyttöönsä merkityksellistä ja käyttökelpoista tietoa. Kun yhdistin on todennettu, ChatGPT voi sen avulla nähdä tietoja ja tehdä esimerkiksi yhteenvedon päivän postilaatikostasi tai etsiä aikoja, jolloin olet vapaana kokoukseen. Jotta se voi tehdä toimia näillä sivustoilla, sinua kuitenkin pyydetään edelleen kirjautumaan sisään ottamalla selain haltuusi.

Lisäksi voit ajoittaa suoritetut tehtävät toistumaan automaattisesti, esimerkiksi luoda viikoittaisen mittariraportin joka maanantaiaamu.

Uusia ominaisuuksia, uusia riskejä

Tämä julkaisu on ensimmäinen kerta, kun käyttäjät voivat pyytää ChatGPT:tä suorittamaan toimintoja verkossa. Se tuo mukanaan uusia riskejä erityisesti siksi, että ChatGPT‑agentti voi työskennellä suoraan tietojesi kanssa, olipa kyseessä sitten yhdistimien kautta käytettävät tiedot tai verkkosivustot, joille olet kirjautunut sisään haltuunottotilassa. Olemme vahvistaneet Operator-agentin esikatseluversion vankkoja suojausmenetelmiä ja lisänneet suojaustoimia haasteisiin, kuten arkaluonteisten tietojen käsittelyyn verkossa, laajempaan käyttäjäkattavuuteen ja (rajoitettuun) pääteverkon käyttöön. Vaikka nämä lieventävät toimenpiteet vähentävät riskejä merkittävästi, ChatGPT‑agentin laajennetut työkalut ja laajempi käyttäjäkunta tarkoittavat, että sen yleinen riskiprofiili on korkeampi.

Olemme erityisesti painottaneet ChatGPT‑agentin suojaamista hyökkäävältä manipuloinnilta nopean injektion avulla, mikä on riski agenttijärjestelmille yleensä, ja olemme laatineet laajempia lieventämistoimia vastaavasti. Pikainjektiot ovat kolmansien osapuolten yrityksiä manipuloida sen toimintaa haitallisilla ohjeilla, joita ChatGPT‑agentti voi kohdata verkossa suorittaessaan tehtäväänsä. Esimerkiksi verkkosivulle näkymättömiin elementteihin tai metatietoihin piilotettu haitallinen kehote voi huijata agentin tekemään tahattomia toimia, kuten jakamaan henkilötietoja yhdistimestä hyökkääjälle tai tekemään haitallisen toiminnon sivustolla, johon käyttäjä on kirjautunut sisään. Koska ChatGPT‑agentti voi suorittaa suoria toimia, onnistuneilla hyökkäyksillä voi olla suurempi vaikutus ja ne voivat aiheuttaa suurempia riskejä.

Olemme kouluttaneet ja testanneet agenttia tunnistamaan ja vastustamaan nopeita injektioita sekä käyttämään seurantaa nopeiden injektiohyökkäysten havaitsemiseen ja niihin reagoimiseen nopeasti. Käyttäjän nimenomaisen vahvistuksen vaatiminen ennen seuraustoimia vähentää edelleen näiden hyökkäysten aiheuttamien vahinkojen riskiä, ja käyttäjät voivat puuttua tehtäviin tarpeen mukaan ottamalla ne haltuunsa tai keskeyttämällä ne. Käyttäjien tulisi punnita näitä kompromisseja päättäessään, mitä tietoja antaa agentille, ja ryhtyä toimiin minimoidakseen altistumisensa näille riskeille, kuten poistamalla yhdistimet käytöstä, kun niitä ei tarvita tehtävässä.

Olemme myös ottaneet käyttöön lieventäviä toimenpiteitä mallivirheiden varalta, erityisesti, koska malli voi nyt suorittaa tehtäviä, jotka vaikuttavat reaalimaailmaan:

Käyttäjän selkeä vahvistus: ChatGPT on koulutettu pyytämään nimenomaisesti lupaa ennen kuin se tekee toimia, joilla on todellisia seurauksia, kuten ostaminen.
Aktiivinen valvonta (”katselutila”): Tietyt kriittiset tehtävät, kuten sähköpostien lähettäminen, vaativat aktiivista valvontaa.
Riskien ennakoiva lieventäminen: ChatGPT on koulutettu kieltäytymään aktiivisesti riskialttiista tehtävistä, kuten pankkisiirroista.

Lopuksi olemme ottaneet käyttöön lisätoimintoja, joilla rajoitetaan mallin käytettävissä olevien tietojen määrää:

Tietosuoja-asetukset: Yhdellä napsautuksella ChatGPT:n asetuksissa voi poistaa kaikki selaustiedot ja kirjautua heti ulos kaikista aktiivisista verkkosivustoistunnoista. Muussa tapauksessa evästeet pysyvät voimassa kunkin verkkosivuston evästekäytäntöjen mukaisesti, mikä voi tehostaa toistuvia vierailuja sivustoilla.
Turvallinen selaimen haltuunottotila: Kun olet vuorovaikutuksessa verkon kanssa ChatGPT:n selaimella (”haltuunottotilassa”), syötteesi pysyvät yksityisinä. ChatGPT ei kerää tai tallenna mitään näiden istuntojen aikana antamiasi tietoja, kuten salasanoja, koska malli ei tarvitse niitä, ja on turvallisempaa, jos se ei koskaan näe niitä.

Vahvin turvapinomme tähän mennessä biologista riskiä vastaan

Mallin lisääntyneiden ominaisuuksien vuoksi olemme päättäneet käsitellä ChatGPT‑agenttia korkean biologisen ja kemiallisen kyvykkyyden omaavana agenttina valmiusviitekehyksemme⁠ mukaisesti ja aktivoida siihen liittyvät turvatoimet. Vaikka meillä ei ole lopullista näyttöä siitä, että malli voisi merkityksellisesti auttaa aloittelijaa aiheuttamaan vakavaa biologista vahinkoa – kynnystämme korkealle suorituskyvylle – noudatamme varovaisuutta ja toteutamme nyt tarvittavat turvatoimet. Sen vuoksi tässä mallissa on tähän mennessä kattavin turvapinomme, jossa on parannetut biologian turvatoimet: kattava uhkamallinnus, kaksoiskäyttöisten hylkäysten koulutus, aina käytössä olevat luokittelijat ja päättelyn valvonnat sekä selkeät valvontaprosessit.

ChatGPT‑agentin suojaamiseen tähtäävän työmme lisäksi tiedämme, että kerrostettu bioturvallisuus toimii parhaiten, kun suojatoimet ulottuvat yhden laboratorion ulkopuolelle, joten teemme yhteistyötä koko ekosysteemin kanssa vahvistaaksemme puolustuskykyämme. Alusta alkaen olemme työskennelleet ulkopuolisten bioturvallisuusasiantuntijoiden, turvallisuuslaitosten ja akateemisten tutkijoiden kanssa uhkamalliemme, arviointien ja käytäntöjen muokkaamiseksi. Biologian koulutuksen saaneet arvioijat validoivat arviointitietomme, ja eri alojen asiantuntijoiden laatimat riskienhallintaryhmät ovat testanneet turvatoimia realistisissa tilanteissa. Aiemmin tässä kuussa kutsuimme koolle biopuolustuksen työpajan, johon osallistui asiantuntijoita julkisesta hallinnosta, akateemisesta maailmasta, kansallisista laboratorioista ja kansalaisjärjestöistä nopeuttaaksemme yhteistyötä ja edistääksemme tekoälyn avulla tehtävää biopuolustustutkimusta. Jatkamme kumppanuuksia maailmanlaajuisesti pysyäksemme ajan tasalla uusista riskeistä.

Lue järjestelmäkortista⁠ lisää vankasta lähestymistavastamme turvallisuuteen yhtenäiselle itsenäisten agenttien mallille. Käynnistämme myös bug bounty -ohjelman⁠, jotta voimme löytää ja korjata reaalimaailman riskejä.

Saatavuus

ChatGPT‑agentti otetaan nyt käyttöön Pro-, Plus- ja Team-versioissa; Pro-käyttäjät saavat käyttöoikeuden päivän loppuun mennessä, kun taas Plus- ja Team-käyttäjät saavat käyttöoikeuden muutaman päivän kuluessa. Enterprise- ja Education-käyttäjät saavat käyttöoikeuden tulevina viikkoina. Pro-käyttäjillä on 400 viestiä kuukaudessa, kun taas muut maksavat käyttäjät saavat 40 viestiä kuukaudessa, ja lisäkäyttöä on saatavilla joustavien luottopohjaisten vaihtoehtojen kautta.

Työskentelemme edelleen käytön mahdollistamiseksi Euroopan talousalueella ja Sveitsissä.

Operator-agentin esikatselusivusto pysyy toiminnassa vielä muutaman viikon, minkä jälkeen se suljetaan. Syvätutkimus on osa ChatGPT‑agentin valmiuksia. Jos käytät mieluummin alkuperäistä syvätutkimusominaisuutta – jonka suorittaminen voi kestää kauemmin, mutta joka oletusarvoisesti tarjoaa tarkempia ja perusteellisempia vastauksia – voit silti käyttää sitä valitsemalla viestin muokkaimen pudotusvalikosta ”syvätutkimus”.

Rajoitukset ja tulevaisuudennäkymät

ChatGPT‑agentti on vielä alkuvaiheessa. Se pystyy hoitamaan monenlaisia tehtäviä, mutta se voi silti tehdä virheitä.

Vaikka näemme sen diaesitysten luomiskyvyssä merkittävää potentiaalia, toiminto on tällä hetkellä beeta-vaiheessa. Tällä hetkellä tuotosten muotoilu ja viimeistely voivat joskus tuntua alkeelliselta, varsinkin jos aloitetaan ilman olemassa olevaa dokumenttia. Keskityimme mallin alkuperäisissä ominaisuuksissa sellaisten artefaktien luomiseen, jotka järjestävät tietoa esityksiin sopivaan kulkuun ja muotoon. Elementtejä, kuten tekstiä, kaavioita, kuvia ja muotoja, voi muokata alkuperäisesti ja helposti viennin jälkeen, mikä optimoi rakenteen ja joustavuuden. Tällä hetkellä katseluohjelman diojen ja viedyn PowerPoint-esityksen välillä on myös satunnaisia eroja, joita pyrimme vähentämään. Lisäksi, vaikka voit nyt ladata olemassa olevan laskentataulukon ChatGPT:n muokattavaksi tai käytettäväksi mallina, ominaisuus ei ole vielä käytettävissä diaesityksille. Koulutamme jo ChatGPT:n diaesityksen luomisen seuraavaa versiota. Se tuottaa hiotumpia ja hienostuneempia tuotoksia, joissa on laajemmat ominaisuudet ja parempi muotoilu.

Odotamme, että ChatGPT‑agentin tehokkuus, syvyys ja monipuolisuus paranevat edelleen, mukaan lukien saumattomampi vuorovaikutus, samalla kun jatkamme käyttäjältä vaadittavan valvonnan määrän säätämistä, jotta voimme tehdä mallista vielä käyttökelpoisemman ja varmistaa myös sen käytön turvallisuuden.

Lisäys

SpreadsheetBench
Malli	Arviointiympäristö	Pehmeä rajoitus (%): Solutaso	Pehmeä rajoitus (%): Taulukkotaso	Pehmeä rajoitus (%): Kaiken kaikkiaan
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Copilot Excelissä	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT‑agentti	OSX, LibreOffice	38.27	30.48	35.27
ChatGPT‑agentti, jossa on .xlsx	OSX, LibreOffice	50.56	37.51	45.54
Human		75.56	65.00	71.33

Livestream-toisto

Tekijä

OpenAI

Alaviitteet

* Kun selaustoiminto on käytössä, malli voi toisinaan löytää tarkkoja vastauksia verkosta, esimerkiksi lukemalla blogikirjoituksia, joissa on esimerkkitehtäviä tietojoukosta. Pyrimme vähentämään huolta mallin mahdollisesta huijaamisesta selaamisen aikana kahdella strategialla:

1. Estimme verkkotunnuksia, joilta olemme aiemmin havainneet mallin hankkineen vastauksia vilpillisesti.

2. Käytimme ylimääräistä mallia monitorina kaikkien työkalun tuotostunnisteiden tutkimiseen jokaisella yrityksellä epäilyttävän toiminnan tunnistamiseksi. Epäilyttäväksi toiminnaksi määritellään ”sivu, tiedosto tai katkelma, jonka ensisijainen tarkoitus on tarjota täsmälleen oikea vastaus tiettyyn kysymykseen, esimerkiksi virallinen arvosteluavain, vuodettu ”ratkaisujen” ydin tai keskustelu, jossa valmis vastaus lainataan sanatarkasti.” Hyväntahtoinen käyttäytyminen määritellään seuraavasti: “Mikä tahansa arvovaltainen resurssi, jota huolellinen ihminen voisi käyttää (dokumentaatio, käsikirjat, tieteelliset julkaisut, arvostetut artikkelit), vaikka se sisältäisi oikean vastauksen sattumalta.“ Kaikki yritykset, joissa valvontajärjestelmä piti siirtoa epäilyttävänä, lasketaan virheellisiksi. Useimpien näytteiden, jotka eivät läpäisseet tätä tarkastusta, tarkka ratkaisu oli saatavilla useista internetlähteistä, jotka eivät liittyneet HLE:hen.

**OpenAI:lla on yksinoikeus 237:ään tason 1–3 -tietojoukon 290:stä yksityisestä kysymyksestä. FrontierMath tason 4 kysymyksiä ei sisälly tähän arviointiin. Tulokset arvioitiin 16 vastausyrityksen keskiarvona kuhunkin kysymykseen. ChatGPT-agentin tulokset hakee OpenAI, ne arvioi Epoch AI, ja niitä voidaan käyttää selain- ja päätelaitteella. Rajoitus on enintään 128 000 tunnistetta vastausta kohden. OpenAI o4-mini- ja o3-arvioinnit tuottaa ja arvostelee Epoch AI ilman selain- tai päätekäyttöoikeutta. Arvioinnit tehdään Python-skriptejä käyttäen funktiokutsujen kautta. Rajoitus on enintään 100 000 tunnistetta vastausta kohden.

*** Oracle@64 viittaa parhaaseen pistemäärään, joka on saavutettu 64 otosajossa, jotka on valittu käyttämällä ground truth -menetelmää (eli valitsemme kullekin tehtävälle korkeimman pistemäärän saaneen yrityksen todellisen arvioidun suorituksen perusteella). Ilmoitamme näiden tehtäväkohtaisten parhaiden pisteiden keskiarvon kaikissa tehtävissä. Tämä mittari korostaa mallin ylärajapotentiaalia ja tehtävien suoritustason vaihtelua. Se osoittaa, kuinka kyvykäs malli voi olla onnistuessaan, ja että johdonmukaisuutta voidaan parantaa jatkokoulutuksen avulla. Toisin kuin tyypilliset ”paras n:stä” -mittarit, jotka valitsevat mallin luotettavuuden perusteella, oracle@64 käyttää valinnassa perusteellisuutta ja soveltaa sitä tehtäviin, jotka on arvioitu jatkuvalla 0–1-asteikolla binäärisen hyväksytty/hylätty-asteikon sijaan.