14. maaliskuuta 2023

GPT‑4

Lue artikkeli Näytä järjestelmäkortti Kokeile ChatGPT Plus -mallissa

Lisää resursseja

Kokeile Playgroundissa Katso esittely uudelleen Osallistu OpenAI Evals -arviointeihin

Ladataan...

Olemme luoneet GPT‑4:n, joka on OpenAI:n uusin merkkipaalu syväoppimisen skaalaamisessa. GPT‑4 on laaja multimodaalinen malli, eli se hyväksyy kuva- ja tekstisyötteitä ja tekee tekstituotoksia. Sen kyvyt, vaikka ovatkin monissa tosielämän tilanteissa ihmisiä heikompia, osoittavat ihmistason suorituskykyä useissa ammatillisissa ja akateemisissa vertailuarvoissa. Se esimerkiksi läpäisee simuloidun asianajajakokeen arviolta parhaiden 10 %:n pisteillä. Sitä vastoin GPT‑3.5:n pisteet olivat arviolta heikoimpien 10 %:n joukossa. Olemme käyttäneet kuusi kuukautta GPT‑4:n iteratiiviseen yhdenmukaistamiseen⁠ hyödyntäen sekä kilpailevasta testausohjelmastamme että ChatGPT:stä saatuja oppeja. Tuloksena on parhaat mahdolliset (vaikkakin kaukana täydellisistä) tulokset tosiasioissa, ohjattavuudessa ja kieltäytymisessä menemästä rajoitusten ulkopuolelle.

Kahden viime vuoden aikana olemme rakentaneet koko syväoppimispinomme uudelleen ja yhdessä Azuren kanssa suunnitelleet supertietokoneen alusta alkaen työkuormaamme varten. Vuosi sitten koulutimme GPT‑3.5:n järjestelmän ensimmäisenä eräänlaisena koeajona. Löysimme ja korjasimme joitakin virheitä ja paransimme teoreettista perustaamme. Sen seurauksena GPT‑4‑koulutusajomme oli (ainakin meille!) ennennäkemättömän vakaa, ja siitä tuli ensimmäinen suuri mallimme, jonka koulutustehon pystyimme ennustamaan tarkasti etukäteen. Keskittyessämme edelleen luotettavaan skaalautumiseen pyrimme hiomaan menetelmiämme, jotta voimme ennustaa ja valmistautua tuleviin ominaisuuksiin yhä aikaisemmin etukäteen – asia, jota pidämme kriittisenä turvallisuuden kannalta.

Julkaisemme GPT‑4:n tekstinsyöttöominaisuuden ChatGPT:n ja API-rajapinnan kautta (mukaan lukien odotuslistan⁠). Kuvansyöttöominaisuuden laajemman saatavuuden varmistamiseksi teemme aluksi tiivistä yhteistyötä yhden kumppanin⁠(avautuu uudessa ikkunassa) kanssa. Julkaisemme myös avoimen lähdekoodin OpenAI Evals⁠(avautuu uudessa ikkunassa) -nimisen tekoälymallien suorituskyvyn automaattiseen arviointiin tarkoitetun viitekehyksemme, jotta kuka tahansa voi ilmoittaa malleissamme olevista puutteista ja auttaa meitä parantamaan niitä jatkossa.

Ominaisuudet

Rennossa keskustelussa GPT‑3.5:n ja GPT‑4:n välinen ero voi olla hienovarainen. Ero ilmenee, kun tehtävän monimutkaisuus saavuttaa riittävän kynnyksen, jolloin GPT‑4 on luotettavampi, luovempi ja pystyy käsittelemään paljon vivahteikkaampia ohjeita kuin GPT‑3.5.

Ymmärtääksemme kahden mallin välisen eron, testasimme niitä useilla vertailuarvoilla, mukaan lukien simuloimalla kokeita, jotka oli alun perin suunniteltu ihmisille. Jatkoimme käyttämällä uusimpia julkisesti saatavilla olevia testejä (kansainvälisten kilpailujen ja AP:n vapaasti vastattavien kysymysten tapauksessa) tai ostamalla harjoituskokeiden vuoden 2022–2023 versiot. Emme järjestäneet erityistä koulutusta näitä kokeita varten. Malli havaitsi koulutuksen aikana vain pienen osan kokeissa ilmenneistä ongelmista, mutta uskomme tulosten olevan edustavia. Katso lisätietoja teknisestä raportistamme⁠(avautuu uudessa ikkunassa).

sisäinen viite ¹

Ladataan...

Arvioimme GPT‑4:ää myös perinteisillä koneoppimismalleille suunnitelluilla vertailuarvoilla. GPT‑4 suoriutuu huomattavasti paremmin kuin olemassa olevat suuret kielimallit, samoin kuin useimmat huippuluokan (SOTA) mallit, jotka voivat sisältää vertailukohtaisia muokkausprotokollia tai lisäkoulutusprotokollia:

Ladataan...

Monet olemassa olevat koneoppimisen vertailuarvot on kirjoitettu englanniksi. Saadaksemme alustavan käsityksen osaamisesta muilla kielillä käänsimme MMLU-vertailutestin, joka on 14 000 monivalintatehtävän sarja 57 aiheesta, useille kielille Azure Translate -työkalun avulla (katso liite⁠). 24:ssä testatuista 26 kielestä GPT‑4 suoriutuu paremmin kuin GPT‑3.5 ja muut LLM-kielimallit (Chinchilla, PaLM) englannin kielessä, mukaan lukien kielet, joilla on saatavilla vähän resursseja, kuten latvia, kymri ja swahili:

Ladataan...

Olemme käyttäneet GPT‑4:ää myös sisäisesti, ja sillä on ollut suuri vaikutus toimintoihin, kuten tukeen, myyntiin, sisällön moderointiin ja ohjelmointiin. Käytämme sitä myös apuna ihmisille tekoälyn tulosten arvioinnissa aloittaen toisen vaiheen yhdenmukaistamisen strategiassamme⁠.

Visuaaliset syötteet

GPT‑4 voi hyväksyä teksti- ja kuvakehotteita, jotka pelkän tekstiasetuksen rinnalla antavat käyttäjän määrittää minkä tahansa näkö- tai kielitehtävän. Tarkemmin sanottuna se tuottaa tekstimuotoisia tuotoksia (luonnollista kieltä, koodia jne.) annettujen syötteiden perusteella, jotka koostuvat tekstistä ja kuvista. GPT‑4:llä on samanlaisia ominaisuuksia kuin pelkkiä tekstimuotoisia syötteitä käytettäessä useilla eri aloilla, mukaan lukien tekstiä ja valokuvia sisältävät asiakirjat, kaaviot tai kuvakaappaukset. Lisäksi sitä voidaan täydentää testiaikatekniikoilla, jotka on kehitetty vain tekstipohjaisille kielimalleille, mukaan lukien muutaman otoksen ja ajatusketjun⁠(avautuu uudessa ikkunassa) kehotteet. Kuvasyötteet ovat edelleen esikatseluversiossa eivätkä julkisesti saatavilla.

Ladataan...

Arvioimme GPT‑4:n suorituskykyä kapealla valikoimalla akateemisia näöntarkasteluperusteita. Nämä luvut eivät kuitenkaan täysin vastaa sen kykyjen laajuutta, sillä löydämme jatkuvasti uusia ja jännittäviä tehtäviä, joista malli pystyy selviytymään. Aiomme julkaista pian lisää analyysejä ja arviointilukuja sekä perusteellisen selvityksen testiaikatekniikoiden vaikutuksesta.

sisäinen alaviite ^A

Ladataan...

Ohjattavuus

Olemme työskennelleet tekoälyjen käyttäytymisen määrittelemistä⁠ koskevassa julkaisussamme esitetyn suunnitelman jokaisen osa-alueen parissa, mukaan lukien ohjattavuus. Klassisen ChatGPT‑persoonallisuuden, jolla on kiinteä sanallisuus, sävy ja tyyli, sijaan kehittäjät (ja pian ChatGPT‑käyttäjät) voivat nyt määrätä tekoälynsä tyylin ja tehtävän kuvaamalla nämä ohjeet eräänlaisessa järjestelmäviestissä. Järjestelmäviestit antavat API-käyttäjille mahdollisuuden mukauttaa käyttökokemusta merkittävästi tiettyjen rajojen puitteissa⁠(avautuu uudessa ikkunassa). Jatkamme parannuksia tähän (tiedämme erityisesti, että järjestelmäviestit ovat helpoin tapa murtaa nykyisen mallin suojaukset, eli rajojen noudattaminen ei ole täydellistä), mutta kannustamme kokeilemaan sitä ja kertomaan meille mielipiteesi.

Ladataan...

Rajoitukset

Ominaisuuksistaan huolimatta GPT‑4:llä on samanlaisia rajoituksia kuin aikaisemmilla GPT‑malleilla. Mikä tärkeintä, se ei vieläkään ole täysin luotettava (se hallusinoi faktoja ja tekee päättelyvirheitä). Kielimallien tuotosten käytössä on oltava erittäin varovainen, erityisesti merkittävissä tilanteissa. Tarkan protokollan (kuten ihmisen tekemä tarkastus, lisäkontekstin käyttö tai merkittävien käyttötapojen välttäminen kokonaan) on vastattava tietyn käyttötapauksen tarpeita.

Vaikka asia on edelleen todellinen ongelma, GPT‑4 vähentää merkittävästi hallusinaatioita verrattuna aiempiin malleihin (jotka nekin ovat parantuneet jokaisen iteraation myötä). GPT‑4 saa 40 % korkeammat pisteet kuin viimeisin GPT‑3.5 sisäisissä vastakkainasettelun arvioinneissamme:

Ladataan...

Olemme edistyneet ulkoisissa vertailuarvoissa, kuten TruthfulQA-vertailussa, joka testaa mallin kykyä erottaa faktat vastakkaisesti valituista virheellisistä väittämistä. Näihin kysymyksiin on liitetty tilastollisesti houkuttelevia, tosiasiallisesti virheellisiä vastauksia.

Ladataan...

GPT‑4‑perusmalli on tässä tehtävässä vain hieman GPT‑3.5:tä parempi. Suuri ero havaitaan RLHF⁠-jälkikoulutuksen jälkeen (soveltaen samaa prosessia kuin GPT‑3.5:n⁠ kanssa). Tarkasteltaessa alla olevia esimerkkejä, GPT‑4 vastustaa yleisten sanontojen valitsemista (et voi opettaa vanhalle koiralle uusia temppuja), mutta se voi silti jättää huomioimatta hienovaraisia yksityiskohtia (Elvis Presley ei ollut näyttelijän poika).

Ladataan...

Mallin tuotoksissa voi olla erilaisia vinoumia, joissa olemme edistyneet, mutta tehtävää on vielä paljon. Viimeaikaisen blogikirjoituksemme⁠ mukaan pyrimme luomaan tekoälyjärjestelmille kohtuulliset oletusarvoiset toimintatavat, jotka heijastavat laajasti käyttäjien arvoja ja mahdollistavat järjestelmien mukauttamisen laajoissa rajoissa. Saamme myös yleisöltä palautetta siitä, mitkä näiden rajojen tulisi olla.

GPT‑4:llä ei yleensä ole tietoa tapahtumista, jotka ovat tapahtuneet sen jälkeen, kun suurin osa sen tiedoista on kerätty (syyskuu 2021), eikä se opi kokemuksistaan. Se voi joskus tehdä yksinkertaisia päättelyvirheitä, jotka eivät tunnu sopivan yhteen pätevyyden kanssa niin monilla aloilla, tai olla liian herkkäuskoinen hyväksyessään käyttäjältä ilmeisiä vääriä väitteitä. Joskus se voi myös epäonnistua vaikeissa ongelmissa samalla tavalla kuin ihmiset, kuten esimerkiksi lisäämällä tietoturva-aukkoja tuottamaansa koodiin.

GPT‑4 voi myös olla ennusteissaan varmasti väärässä, koska se ei huolehdi työn tarkastamisesta uudelleen silloin, kun se todennäköisesti tekee virheen. Mielenkiintoista kyllä, perusmalli on erittäin kalibroitu (sen ennustettu luotettavuus vastaukseen vastaa yleensä oikean vastauksen todennäköisyyttä). Nykyisen koulutuksen jälkeisen prosessimme kautta kalibrointia kuitenkin vähennetään.

Ladataan...

Riskit ja lieventämistoimet

Olemme iteroineet GPT‑4:ää tehdäksemme siitä turvallisemman ja yhdenmukaisemman koulutuksen alusta alkaen. Tähän on sisältynyt koulutusta edeltävän datan valinta ja suodatus, arvioinnit ja asiantuntijoiden osallistuminen, mallin turvallisuuden parantaminen sekä seuranta ja valvonta.

GPT‑4 aiheuttaa samanlaisia riskejä kuin aiemmat mallit, kuten haitallisten neuvojen tuottaminen, virheellinen koodi tai epätarkka tieto. GPT‑4:n lisäominaisuudet johtavat kuitenkin uusiin riskipintoihin. Ymmärtääksemme näiden riskien laajuuden otimme mukaan yli 50 asiantuntijaa muun muassa tekoälyn yhdenmukaistamisriskien, kyberturvallisuuden, bioriskien, luottamuksen ja turvallisuuden sekä kansainvälisen turvallisuuden aloilta testaamaan mallia vastakkainasettelulla. Heidän löydöksensä mahdollistivat erityisesti mallin käyttäytymisen testaamisen korkean riskin alueilla, joiden arviointi vaatii asiantuntemusta. Näiden asiantuntijoiden palautetta ja tietoja on hyödynnetty mallin riskien lieventämistoimissa ja parannuksissa. Olemme esimerkiksi keränneet lisätietoja parantaaksemme GPT‑4:n kykyä kieltäytyä pyynnöistä, jotka koskevat vaarallisten kemikaalien syntetisointia.

GPT‑4 ottaa käyttöön RLHF-koulutuksen aikana ylimääräisen turvallisuuspalkkiosignaalin haitallisten tuotosten vähentämiseksi (kuten käyttöohjeissamme⁠(avautuu uudessa ikkunassa) on määritelty) kouluttamalla mallia hylkäämään tällaisen sisällön pyynnöt. Palkinnon tarjoaa GPT‑4‑nollaotosluokittelija, joka arvioi turvallisuusrajoja ja suoritustyyliä turvallisuuteen liittyvissä kehotteissa. Jotta malli ei hylkäisi kelvollisia pyyntöjä, keräämme monipuolisen tietojoukon eri lähteistä (esim. merkityistä tuotantotiedoista, ihmisten tekemästä red teaming -analysoinnista ja mallin luomista kehotteista) ja käytämme turvallisuuspalkkiosignaalia (positiivisella tai negatiivisella arvolla) sekä sallittuihin että kiellettyihin luokkiin.

Lievennystoimemme ovat parantaneet merkittävästi monia GPT‑4:n turvallisuusominaisuuksia GPT‑3.5:een verrattuna. Olemme vähentäneet mallin taipumusta vastata kiellettyä sisältöä koskeviin pyyntöihin 82 % GPT‑3.5:een verrattuna. GPT‑4 vastaa arkaluonteisiin pyyntöihin (esim. liittyen lääketieteelliseen neuvontaan ja itsetuhoisuuteen) käytäntöjemme mukaisesti 29 % useammin.

Ladataan...

Kaiken kaikkiaan mallitason interventiomme vaikeuttavat huonon käyttäytymisen aikaansaamista, mutta se on silti mahdollista. Lisäksi on edelleen olemassa suojauksen murtotoimintoja, joilla voi luoda käyttöohjeitamme⁠ rikkovaa sisältöä. Tekoälyjärjestelmien tunnistekohtaisen riskin kasvaessa on hyvin tärkeää saavuttaa erittäin korkea luotettavuusaste näissä interventioissa. Nyt on tärkeää täydentää näitä rajoituksia käyttöönoton aikaisilla turvallisuustekniikoilla, kuten väärinkäytösten seurannalla.

GPT‑4:llä ja sitä seuraavilla malleilla on potentiaalia vaikuttaa merkittävästi yhteiskuntaan sekä hyödyllisillä että haitallisilla tavoilla. Teemme yhteistyötä ulkopuolisten tutkijoiden kanssa parantaaksemme mahdollisten vaikutusten ymmärtämistä ja arviointia sekä laatiaksemme arviointeja tulevaisuuden järjestelmissä mahdollisesti ilmeneville vaarallisille ominaisuuksille. Kerromme pian lisää ajatuksiamme GPT‑4:n ja muiden tekoälyjärjestelmien mahdollisista sosiaalisista ja taloudellisista vaikutuksista.

Koulutusprosessi

Aiempien GPT‑mallien tavoin GPT‑4‑perusmalli koulutettiin ennustamaan seuraava sana asiakirjassa, ja se koulutettiin käyttämällä julkisesti saatavilla olevaa dataa (kuten internet-dataa) sekä lisensoimaamme dataa. Data on verkkolaajuinen tietojoukko, joka sisältää oikeita ja vääriä ratkaisuja matemaattisiin tehtäviin, heikkoja ja vahvoja päättelyjä, ristiriitaisia ja johdonmukaisia väittämiä ja edustaa suurta valikoimaa ideologioita ja ideoita.

Joten kun perusmallilta kysytään kysymys, se voi vastata monin eri tavoin, jotka saattavat olla kaukana käyttäjän tarkoituksesta. Jotta se olisi yhdenmukainen käyttäjän aikomuksen kanssa rajoitusten puitteissa, hienosäädämme mallin toimintaa käyttämällä vahvistusoppimista ja ihmisen antamaa palautetta (RLHF⁠).

Huomaa, että mallin ominaisuudet näyttävät tulevan pääasiassa koulutusta edeltävästä prosessista. RLHF ei paranna koesuoritusta (ilman aktiivista ponnistelua se itse asiassa heikentää sitä). Mallin ohjaaminen tulee kuitenkin jälkikoulutusprosessista. Perusmalli vaatii kehotemuotoilua, jotta se edes tietää, että sen pitäisi vastata kysymyksiin.

Ennakoitava skaalaus

GPT‑4‑projektin suuri painopiste on ollut ennustettavasti skaalautuvan syväoppimispinon rakentamisessa. Ensisijainen syy on se, että erittäin suurissa koulutuserissä, kuten GPT‑4:ssä, ei ole mahdollista tehdä laajaa mallikohtaista viritystä. Kehitimme infrastruktuuria ja optimointia, joilla on erittäin ennustettava käyttäytyminen useilla eri mittakaavoilla. Tämän skaalautuvuuden varmistamiseksi ennustimme etukäteen tarkasti GPT‑4:n lopullisen hävikin sisäisessä koodikannassamme (ei osa koulutusjoukkoa) ekstrapoloimalla samalla menetelmällä koulutetuista malleista mutta käyttämällä 10 000 kertaa vähemmän laskentatehoa:

Ladataan...

Nyt kun pystymme tarkasti ennustamaan koulutuksen aikana optimoimamme mittarin (häviön), alamme kehittää menetelmiä helpommin tulkittavien mittareiden ennustamiseksi. Ennustimme esimerkiksi onnistuneesti läpäisyprosentin HumanEval⁠(avautuu uudessa ikkunassa)-tietojoukon osajoukolle ekstrapoloimalla malleista, joissa oli 1 000 kertaa vähemmän laskentatehoa:

Ladataan...

Joidenkin ominaisuuksien ennustaminen on vielä vaikeaa. Esimerkiksi käänteisen skaalauksen palkinto -kilpailussa etsittiin mittaria, joka huononee mallin laskennan kasvaessa, ja jälkiviisauden laiminlyönti⁠(avautuu uudessa ikkunassa) oli yksi voittajista. Aivan kuten toisenkin tuoreen tuloksen⁠(avautuu uudessa ikkunassa) kohdalla, GPT‑4 kääntää trendin:

Ladataan...

Uskomme, että tulevien koneoppimisominaisuuksien tarkka ennustaminen on tärkeä osa turvallisuutta, johon ei kiinnitetä läheskään tarpeeksi huomiota suhteessa sen potentiaaliseen vaikutukseen (vaikka useiden instituutioiden ponnistelut ovat rohkaisseet meitä tähän). Lisäämme pyrkimyksiämme kehittää menetelmiä, jotka tarjoavat yhteiskunnalle parempaa tulevaisuuden järjestelmiä koskevaa ohjausta, ja toivomme, että tästä tulee yhteinen tavoite alalla.

OpenAI Evals

Julkaisemme avoimella lähdekoodilla OpenAI Evals⁠(avautuu uudessa ikkunassa)-ohjelmistoviitekehyksemme, jolla luodaan ja suoritetaan vertailuarvoja GPT‑4:n kaltaisten mallien arviointiin samalla, kun tarkastellaan niiden suorituskykyä näyte kerrallaan. Käytämme Evalsia malliemme kehittämisen ohjaamiseen (sekä puutteiden tunnistamiseen että regression estämiseen), ja käyttäjämme voivat soveltaa sitä suorituskyvyn seurantaan eri malliversioissa (joita julkaistaan nyt säännöllisesti) ja kehittyvissä tuoteintegraatioissa. Esimerkiksi Stripe on käyttänyt Evalsia täydentämään ihmisten tekemiä arviointejaan GPT‑pohjaisen dokumentointityökalunsa tarkkuuden mittaamiseksi.

Koska koodi on kokonaan avointa lähdekoodia, Evals tukee uusien luokkien kirjoittamista mukautetun arviointilogiikan⁠(avautuu uudessa ikkunassa) toteuttamiseksi. Kokemuksemme mukaan monet vertailuarvot kuitenkin seuraavat jotakin muutamista mallipohjista, joten olemme myös ottaneet mukaan mallipohjat⁠(avautuu uudessa ikkunassa), jotka ovat olleet hyödyllisimpiä sisäisesti. (Tähän sisältyy mallipohja mallitason arvioinneille. Olemme havainneet, että GPT‑4 pystyy yllättävän hyvin tarkastamaan oman työnsä). Yleensä tehokkain tapa rakentaa uusi arviointi⁠(avautuu uudessa ikkunassa) on luoda jokin näistä mallipohjista ja antaa siihen tietoja. Meistä on hienoa nähdä, mitä muut voivat rakentaa näillä mallipohjilla ja yleisemmin Evalseilla.

Toivomme, että Evalsista tulee väline vertailuarvojen jakamiseen ja joukkoistamiseen, jolloin se edustaa mahdollisimman laajaa joukkoa vikatiloja ja vaikeita tehtäviä. Seurattavaksi esimerkiksi olemme luoneet logiikkapulmien⁠(avautuu uudessa ikkunassa) arviointityökalun. Se sisältää kymmenen kysymystä, joissa GPT‑4 epäonnistuu. Evals on myös yhteensopiva olemassa olevien vertailuarvojen toteuttamisen kanssa. Olemme sisällyttäneet esimerkkinä useita muistikirjoja⁠(avautuu uudessa ikkunassa), jotka toteuttavat akateemisia vertailuarvoja, ja muutamia muunnelmia CoQA:n⁠(avautuu uudessa ikkunassa) (pienten osajoukkojen) integroinnista.

Kutsumme kaikkia kiinnostuneita testaamaan mallejamme Evalsin avulla ja lähettämään meille mielenkiintoisimmat esimerkit. Uskomme, että arviointi on olennainen osa malliemme käyttöä ja niiden pohjalta rakentamista, ja otamme mielellämme vastaan suoria osuuksia, kysymyksiä ja palautetta⁠(avautuu uudessa ikkunassa).

ChatGPT Plus

ChatGPT Plus -tilaajat saavat käyttörajoitetun GPT‑4‑käyttöoikeuden chatgpt.com⁠(avautuu uudessa ikkunassa)-sivustolla. Säädämme tarkkaa käyttörajaa käytännön kysynnän ja järjestelmän suorituskyvyn mukaan, mutta odotamme kapasiteetin olevan erittäin rajoitettu (vaikka skaalaammekin ja optimoimme toimintaamme tulevina kuukausina).

Näkemiemme liikennemallien perusteella saatamme ottaa käyttöön uuden tilaustason suuremmalle GPT‑4‑käytölle. Toivomme myös, että jossain vaiheessa voimme tarjota jonkin verran ilmaisia GPT‑4‑kyselyitä, jotta myös tilauksettomat voivat kokeilla sitä.

API

Saadaksesi käyttöoikeuden GPT‑4‑rajapintaan (joka käyttää samaa ChatCompletions API-rajapintaa⁠(avautuu uudessa ikkunassa) kuin gpt-3.5-turbo), liity jonotuslistallemme⁠. Alamme kutsua joitakin kehittäjiä tänään ja skaalaamme sitä vähitellen tasapainottaaksemme kapasiteettia kysynnän kanssa. Jos olet tutkija, joka tutkii tekoälyn yhteiskunnallisia vaikutuksia tai tekoälyn yhdenmukaistamiskysymyksiä, voit myös hakea tuettua käyttöoikeutta tutkijoiden käyttöoikeusohjelmamme⁠ kautta.

Kun olet saanut käyttöoikeuden, voit tehdä tekstimuotoisia pyyntöjä gpt-4-mallille (kuvasyötteet ovat vielä rajoitetussa alfa-vaiheessa), jota päivitämme automaattisesti suosittelemaamme vakaaseen malliin uusien versioiden myötä ajan kuluessa (voit kiinnittää nykyisen version kutsumalla gpt-4-0314:ää, jota tuemme 14. kesäkuuta asti). Hinnoittelu on 0,03 $ 1 000 kehotetunnistetta kohden ja 0,06 $ 1 000 suoritustunnistetta kohden. Oletusarvoiset nopeusrajoitukset ovat 40 000 tunnistetta minuutissa ja 200 pyyntöä minuutissa.

gpt-4:n kontekstin pituus on 8 192 tunnistetta. Tarjoamme myös rajoitetun käyttöoikeuden 32 768-kontekstiseen (noin 50 tekstisivua) versioon gpt-4-32k, jota myös päivitetään automaattisesti ajan kuluessa (nykyinen versio on gpt-4-32k-0314, jota tuetaan myös 14. kesäkuuta asti). Hinnoittelu on 0,06 $ 1 000 kehotetunnistetta kohden ja 0,12 $ 1 000 suoritustunnistetta kohden. Parannamme edelleen mallin laatua pitkässä kontekstissa ja haluaisimme saada palautetta siitä, miten se toimii juuri sinun käyttötarkoituksessasi. Käsittelemme 8K- ja 32K-moduulien pyyntöjä eri nopeuksilla kapasiteetin mukaan, joten saatat saada ne käyttöösi eri aikoina.

Johtopäätökset

Odotamme innolla, että GPT‑4:stä tulee arvokas työkalu, joka parantaa ihmisten elämää monien sovellusten avulla. Työtä on vielä paljon tehtävänä, ja odotamme mallin paranevan yhteisön yhteisillä ponnisteluilla rakentaa, tutkia ja osallistua mallin kehittämiseen.

Lisätietoja: Lue artikkeli⁠(avautuu uudessa ikkunassa) / Näytä järjestelmäkortti⁠(avautuu uudessa ikkunassa) / Kokeile ChatGPT Plus -versiossa⁠(avautuu uudessa ikkunassa) / Kokeile Playgroundissa⁠(avautuu uudessa ikkunassa) / Katso esittely uudelleen⁠(avautuu uudessa ikkunassa) / Osallistu OpenAI Evals -ohjelmaan⁠(avautuu uudessa ikkunassa)

Lisäys

Esimerkki MMLU-kysymyksistä, käännettynä muille kielille. Huomaa, että käytämme johdonmukaisia valintatunnisteita (A–D):

Ladataan...

Alaviitteet

A
Arvioimme tätä vertailuarvoa käyttämällä ajatusketjukehotusta, jossa on neljä esimerkkiä koulutusjoukosta kontekstissa. Erityinen kehote säädettiin vastaamaan validointijoukkoa.

Viitteet

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Lisäanalyysi on saatavilla asiakirjassa⁠(avautuu uudessa ikkunassa).