Esittelyssä OpenAI o1‑preview
Uusi sarja päätteleviä malleja vaikeiden ongelmien ratkaisemiseen. Saatavilla nyt.
Päivitys 17. syyskuuta 2024: Hakurajoitukset ovat nyt 50 kyselyä viikossa o1‑preview'ssa ja 50 kyselyä päivässä o1‑minissä.
Olemme kehittäneet uuden sarjan tekoälymalleja, jotka on suunniteltu käyttämään enemmän aikaa ajattelemiseen ennen reagointia. Ne pystyvät päättelemään monimutkaisia tehtäviä ja ratkaisemaan vaikeampia ongelmia kuin aiemmat mallit tieteessä, koodauksessa ja matematiikassa.
Julkaisemme nyt ensimmäisen tästä sarjasta ChatGPT:ssä ja API-rajapainnassa. Tämä on esikatseluversio, johon teemme säännöllisiä päivityksiä ja parannuksia. Tämän julkaisun lisäksi sisällytämme myös arviointeja seuraavaa päivitystä varten, joka on parhaillaan kehitteillä.
Koulutimme näitä malleja käyttämään enemmän aikaa ongelmien miettimiseen ennen kuin ne reagoivat, aivan kuten ihminen tekisi. Koulutuksessa ne oppivat hiomaan ajatteluprosessiaan, kokeilemaan erilaisia strategioita ja tunnistamaan virheensä.
Testeissämme seuraava mallipäivitys suoriutuu samalla tavalla kuin tohtoriopiskelijat haastavissa fysiikan, kemian ja biologian vertailutehtävissä. Havaitsimme myös, että se on erinomainen matematiikassa ja koodaamisessa. Kansainvälisen matematiikan olympialaisten (IMO) karsintakokeessa GPT‑4o ratkaisi oikein vain 13 % tehtävistä, kun taas päättelymallin pistemäärä oli 83 %. Niiden koodaustaitoja arvioitiin kilpailuissa, ja ne saavuttivat Codeforces-kilpailuissa 89. prosenttipisteen. Lisätietoja tästä aiheesta on teknisessä tutkimusjulkaisussamme.
Varhaisena mallina siinä ei vielä ole monia ChatGPT:n hyödyllisiä ominaisuuksia, kuten tiedon etsimistä verkosta sekä tiedostojen ja kuvien lähettämistä. Monissa yleisissä tapauksissa GPT‑4o on kykenevämpi lyhyellä aikavälillä.
Monimutkaisissa päättelytehtävissä tämä on merkittävä edistysaskel ja edustaa uutta tasoa tekoälyn kyvyissä. Sen vuoksi nollaamme laskurin takaisin arvoon 1 ja nimeämme tämän sarjan OpenAI o1:ksi.
Osana näiden uusien mallien kehittämistä olemme laatineet uuden lähestymistavan turvallisuuskoulutukseen, jossa hyödynnetään mallien päättelykykyä, jotta ne noudattaisivat turvallisuus- ja linjausohjeita. Malleja voidaan soveltaa tehokkaammin, koska ne pystyvät miettimään turvallisuussääntöjämme kontekstissa.
Yksi tapa mitata turvallisuutta on testata, kuinka hyvin mallimme noudattaa edelleen turvallisuussääntöjä, jos käyttäjä yrittää ohittaa ne (tunnetaan nimellä "jailbreaking"). Yhdessä vaikeimmista suojauksen ohitustesteistämme GPT‑4o sai 22 pistettä (asteikolla 0–100), kun taas o1‑preview sai 84 pistettä. Lisätietoja tästä aiheesta on järjestelmäkortissa ja tutkimusjulkaisussamme.
Näiden mallien uusien ominaisuuksien yhteensovittamiseksi olemme vahvistaneet turvallisuustyötämme, sisäistä hallintoa ja yhteistyötämme liittovaltion viranomaisten kanssa. Siihen sisältyy perusteellinen testaus ja arvioinnit valmiusviitekehyksemme(avautuu uudessa ikkunassa), luokkansa parhaan mahdollisen red teaming -toiminnan ja hallitustason arviointiprosessien avulla, mukaan lukien turvallisuuskomiteamme suorittamat arvioinnit.
Edistääksemme sitoutumistamme tekoälyn turvallisuuteen, olemme äskettäin tehneet viralliset sopimukset Yhdysvaltojen ja Ison-Britannian kanssa. Tekoälyn turvallisuusinstituutit. Olemme ryhtyneet toteuttamaan näitä sopimuksia käytäntöön, mukaan lukien myöntäneet laitoksille ennakko-oikeuden tämän mallin tutkimusversioon. Se oli tärkeä ensimmäinen askel kumppanuudessamme, joka auttoi luomaan prosessin tulevien mallien tutkimukselle, arvioinnille ja testaukselle ennen niiden yleistä julkaisua ja sen jälkeen.
Nämä parannetut päättelykyvyt voivat olla erityisen hyödyllisiä, jos käsittelet monimutkaisia ongelmia tieteissä, koodauksessa, matematiikassa ja vastaavilla aloilla. Esimerkiksi terveydenhuollon tutkijat voivat käyttää o1‑mallia solujen sekvensointidatan merkintöihin, fyysikot kvanttioptiikassa tarvittavien monimutkaisten matemaattisten kaavojen luomiseen ja muiden alojen kehittäjät monivaiheisten työnkulkujen rakentamiseen ja suorittamiseen.
o1‑sarja on erinomainen monimutkaisen koodin luomisessa tarkasti ja sen virheenkorjauksessa. Halusimme tarjota kehittäjille tehokkaamman ratkaisun, joten julkaisemme myös päättelevän OpenAI o1‑mini -mallin, joka on nopeampi ja edullisempi ja erityisen tehokas koodauksessa. Pienempänä mallina o1‑mini on 80 % edullisempi kuin o1‑preview, mikä tekee siitä tehokkaan ja kustannustehokkaan mallin sovelluksiin, jotka vaativat päättelykykyä mutta eivät laajaa maailmantuntemusta.
ChatGPT Plus ja Team -käyttäjät voivat käyttää O1-malleja ChatGPT:ssä jo nyt. Sekä o1‑preview että o1‑mini voidaan valita manuaalisesti mallinvalitsimella, ja julkaisun yhteydessä viikoittaiset viestirajoitukset ovat o1‑preview'lle 30 ja o1‑minille 50 viestiä. Työskentelemme parhaillaan nostaaksemme näitä rajoja ja mahdollistaaksemme ChatGPT:lle automaattisen oikean mallin valinnan tietylle kehotteelle.

ChatGPT Enterprise ja Edu -käyttäjät saavat käyttöönsä molemmat mallit ensi viikosta alkaen.
Kehittäjät, jotka täyttävät API-käyttötason 5(avautuu uudessa ikkunassa) vaatimukset, voivat aloittaa prototyyppien tekemisen molemmilla API-malleilla jo tänään 20:n viestin rajoituksella. Työskentelemme parhaillaan näiden rajoitusten nostamiseksi lisätestauksen jälkeen. Näiden mallien API ei tällä hetkellä sisällä toiminnon kutsumista, suoratoistoa, järjestelmäviestien tukea ja muita ominaisuuksia. Aloita tutustumalla API-dokumentaatioon(avautuu uudessa ikkunassa).
Suunnittelemme myös o1‑minin käyttöoikeuden myöntämistä kaikille ChatGPT Free -käyttäjille.
Tämä on varhainen esikatseluversio näistä päättelymalleista ChatGPT:ssä ja API:ssa. Mallipäivitysten lisäksi aiomme lisätä selaamisen, tiedostojen ja kuvien lähettämisen sekä muita ominaisuuksia, jotka tekevät niistä hyödyllisempiä kaikille.
Uuden OpenAI o1 -sarjan lisäksi aiomme myös jatkaa GPT‑sarjamme mallien kehittämistä ja julkaisemista.