2023. gada 14. marts

GPT‑4

Read paper View system card Try on ChatGPT Plus

Vairāk resursu

Try in Playground Rewatch demo livestream Contribute to OpenAI Evals

Notiek ielāde…

Mēs esam izveidojuši GPT‑4, kas ir jaunākais pagrieziena punkts OpenAI centienos paplašināt dziļo mācīšanos. GPT‑4 ir liels multimodāls modelis (pieņem attēlu un teksta ievadi, izvada teksta rezultātus), kas, lai gan daudzos reālās pasaules scenārijos ir mazāk spējīgs nekā cilvēki, uzrāda cilvēka līmeņa sniegumu dažādos profesionālos un akadēmiskos etalonos. Piemēram, tas nokārto simulētu advokātu eksāmenu ar rezultātu apmēram 10% labāko testa kārtotāju vidū; turpretī GPT‑3.5 rezultāts bija aptuveni apakšējos 10%. Mēs esam pavadījuši 6 mēnešus, iteratīvi saskaņojot⁠ GPT‑4, izmantojot mācības no mūsu uzbrukuma scenāriju testēšanas programmas, kā arī ChatGPT, kā rezultātā esam sasnieguši savus visu laiku labākos rezultātus (lai gan vēl nebūt ne ideālus) tādās jomās kā faktiskums, vadāmība un atteikšanās iet ārpus aizsarglīnijām.

Pēdējo divu gadu laikā mēs pārbūvējām visu savu dziļās mācīšanās pakotni un kopā ar Azure no pašiem pamatiem izstrādājām superdatoru mūsu darba slodzei. Pirms gada mēs apmācījām GPT‑3.5 kā pirmo sistēmas “testa versiju”. Mēs atradām un izlabojām dažas kļūdas un uzlabojām savus teorētiskos pamatus. Tā rezultātā mūsu GPT‑4 mācību process bija (vismaz mums!) nepieredzēti stabils, kļūstot par mūsu pirmo lielo modeli, kura mācību veiktspēju mēs varējām precīzi paredzēt iepriekš. Turpinot koncentrēties uz uzticamu mērogošanu, mēs vēlamies pilnveidot savu metodoloģiju, lai palīdzētu prognozēt un sagatavoties nākotnes iespējām arvien agrāk – ko mēs uzskatām par ļoti būtisku drošībai.

Mēs izlaižam GPT‑4 teksta ievades iespējas, izmantojot ChatGPT un API (ar gaidītāju sarakstu⁠). Lai sagatavotu attēla Ievades iespēju plašākai pieejamībai, mēs sākotnēji cieši sadarbojamies ar vienu partneri⁠(atveras jaunā logā). Mēs arī atveram OpenAI Evals⁠(atveras jaunā logā), savu ietvaru automatizētai MI modeļu veiktspējas novērtēšanai, lai ikviens varētu ziņot par mūsu modeļu trūkumiem un palīdzēt virzīt turpmākus uzlabojumus.

Spējas

Ikdienišķā sarunā atšķirība starp GPT‑3.5 un GPT‑4 var nebūt uzreiz pamanāma. Atšķirība parādās, kad uzdevuma sarežģītība sasniedz pietiekami augstu līmeni – GPT‑4 ir uzticamāks, radošāks un spēj apstrādāt daudz niansētākas instrukcijas nekā GPT‑3.5.

Lai saprastu atšķirību starp abiem modeļiem, mēs veicām testēšanu ar dažādiem etaloniem, tostarp simulējām eksāmenus, kas sākotnēji bija paredzēti cilvēkiem. Mēs turpinājām, izmantojot jaunākos publiski pieejamos testus (olimpiāžu un AP brīvās atbildes jautājumu gadījumā) vai iegādājoties 2022.–2023. gada prakses eksāmenu izdevumus. Mēs neveicām īpašas mācības šiem eksāmeniem. Nelielu daļu eksāmenu jautājumu modelis redzēja mācību laikā, taču mēs uzskatām, ka rezultāti ir reprezentatīvi – sīkāku informāciju skatiet mūsu tehniskajā ziņojumā⁠(atveras jaunā logā).

iekšējā atsauce ¹

Notiek ielāde...

Mēs arī novērtējām GPT‑4 tradicionālajos etalonos, kas paredzēti mašīnmācīšanās modeļiem. GPT‑4 ievērojami pārspēj esošos lielos valodas modeļus, kā arī lielāko daļu vismodernāko (SOTA) modeļu, kas var ietvert etalonam specifisku pielāgošanu vai papildu mācību protokolus:

Notiek ielāde...

Daudzi esošie ML etaloni ir rakstīti angļu valodā. Lai iegūtu sākotnējo priekšstatu par spējām citās valodās, mēs iztulkojām MMLU etalonu – 14 000 vairāku izvēļu uzdevumu komplektu, kas aptver 57 priekšmetus – dažādās valodās, izmantojot Azure Translate (skatīt pielikumu⁠). 24 no 26 pārbaudītajām valodām GPT‑4 pārspēj GPT‑3.5 un citu LLM (Chinchilla, PaLM) angļu valodas sniegumu, tostarp zemu resursu valodās, piemēram, latviešu, velsiešu un svahili:

Notiek ielāde...

Mēs arī izmantojam GPT‑4 iekšēji, kas būtiski ietekmē tādas funkcijas kā atbalsts, pārdošana, satura moderācija un programmēšana. Mēs to izmantojam arī, lai palīdzētu cilvēkiem novērtēt mākslīgā intelekta izvades, uzsākot otro posmu mūsu saskaņošanas stratēģijā⁠.

Vizuālā ievade

GPT‑4 var pieņemt teksta un attēlu uzvedni, kas (paralēli tikai teksta iestatījumam) ļauj lietotājam norādīt jebkādu redzes vai valodas uzdevumu. Konkrēti tas ģenerē teksta izvades (dabiskā valoda, kods u.c.) no ievades, kas sastāv no jauktiem teksta un attēlu elementiem. Dažādos domēnos – tostarp dokumentos ar tekstu un fotogrāfijām, diagrammām vai ekrānuzņēmumiem – GPT‑4 uzrāda līdzīgas spējas kā tikai teksta ievadēs. Turklāt to var papildināt ar testēšanas laikā izmantojamām metodēm, kas tika izstrādātas tikai teksta valodas modeļiem, ietverot dažu piemēru un domu ķēdes⁠(atveras jaunā logā) uzvadnes. Attēlu ievades joprojām ir pētījuma priekšskatījums un nav publiski pieejamas.

Notiek ielāde...

Mēs veicam GPT‑4 snieguma priekšskatījumu, novērtējot to šaurā standarta akadēmisko redzes etalonu komplektā. Tomēr šie skaitļi pilnībā neatspoguļo tā spēju apjomu, jo mēs pastāvīgi atklājam jaunus un aizraujošus uzdevumus, kurus modelis spēj risināt. Mēs drīzumā plānojam publicēt papildu analīzes un novērtējuma skaitļus, kā arī veikt padziļinātu izpēti par testa laika metožu ietekmi.

iekšējā atsauce^A

Notiek ielāde...

Vadāmība

Mēs esam strādājuši pie katra plāna aspekta, kas izklāstīts mūsu rakstā par MI uzvedības definēšanu⁠, tostarp vadāmību. Atšķirībā no klasiskās ChatGPT personības ar fiksētu izteiksmi, toni un stilu, izstrādātāji (un drīz arī ChatGPT lietotāji) tagad var noteikt sava MI stilu un uzdevumu, aprakstot šos norādījumus “sistēmas” ziņojumā. Sistēmas ziņojumi ļauj API lietotājiem ievērojami pielāgot savu lietotāju pieredzi noteiktās robežās⁠(atveras jaunā logā). Mēs turpināsim veikt uzlabojumus šeit (un jo īpaši zinām, ka sistēmas ziņojumi ir vienkāršākais veids, kā "uzlauzt" pašreizējo modeli, t.i., robežu ievērošana nav ideāla), bet mēs iesakām tev to izmēģināt un pastāstīt mums savas domas.

Notiek ielāde...

Ierobežojumi.

Neskatoties uz GPT‑4 spējām, tam ir līdzīgi ierobežojumi kā iepriekšējiem GPT modeļiem. Vissvarīgākais – tas joprojām nav pilnībā uzticamas (tas “halucinē” faktus un pieļauj loģikas kļūdas). Lietojot valodas modeļu izvades, īpaši augsta riska kontekstos, ir jāievēro liela piesardzība, un precīzs protokols (piemēram, cilvēka veikta pārskatīšana, papildu konteksta nodrošināšana vai pilnīga izvairīšanās no augsta riska lietojumiem) ir jāpielāgo konkrētā lietojuma gadījuma vajadzībām.

Lai gan halucinācijas joprojām ir reāla problēma, GPT‑4 ievērojami samazina tās salīdzinājumā ar iepriekšējiem modeļiem (kas paši ir uzlabojušies ar katru iterāciju). GPT‑4 sasniedz par 40% augstāku rezultātu nekā mūsu jaunākais GPT‑3.5 mūsu iekšējos uzbrukuma scenāriju faktualitātes novērtējumos:

Notiek ielāde...

Mēs esam guvuši panākumus ārējos etalonos, piemēram, TruthfulQA, kas pārbauda modeļa spēju nošķirt faktus no tīši izvēlēta nepareizu apgalvojumu kopuma. Šie jautājumi ir savienoti ar faktuāli nepareizām atbildēm, kas ir statistiski pievilcīgas.

Notiek ielāde...

GPT‑4 pamata modelis šo uzdevumu veic tikai nedaudz labāk nekā GPT‑3.5; tomēr pēc RLHF⁠ pēcapmācības (izmantojot to pašu procesu, ko izmantojām ar GPT‑3.5⁠), ir liela atšķirība. Apskatot dažus piemērus zemāk, GPT‑4 izvairās izvēlēties izplatītus teicienus (vecam sunim nevar iemācīt jaunus trikus), tomēr tas joprojām var palaist garām smalkas detaļas (Elviss Preslijs nebija aktiera dēls).

Notiek ielāde...

Modelim var būt dažādi aizspriedumi savās izvades – mēs esam panākuši progresu šajā jomā, bet vēl ir daudz darāmā. Kā aprakstīts mūsu nesenajā bloga ierakstā⁠, mēs cenšamies panākt, lai izveidotajām MI sistēmām būtu saprātīgas noklusējuma uzvedības, kas atspoguļo plašu lietotāju vērtību diapazonu, ļauj šīs sistēmas pielāgot plašās robežās un saņemt publiskas atsauksmes par to, kādām šīm robežām vajadzētu būt.

GPT‑4 parasti trūkst zināšanas par notikumiem, kas notikuši pēc lielākās daļas tā datu pārtraukuma (2021. gada septembris), un tas nemācās no savas pieredzes. Dažreiz tas var pieļaut vienkāršas loģikas kļūdas, kas, šķiet, neatbilst kompetencei tik daudzos domēnos, vai arī būt pārāk lētticīgs, pieņemot acīmredzami nepatiesus lietotāja apgalvojumus. Un dažkārt tam var neizdoties sarežģītu problēmu risināšana tāpat kā cilvēkiem, piemēram, ieviešot drošības ievainojamības tā radītajā kodā.

GPT‑4 var arī pārliecinoši kļūdīties savās prognozēs, neuztraucoties par to, lai vēlreiz pārbaudītu savu darbu gadījumos, kad tas, iespējams, varētu kļūdīties. Interesanti, ka pamata iepriekšapmācītais modelis ir ļoti kalibrēts (tā prognozētā pārliecība par atbildi parasti atbilst pareizas atbildes varbūtībai). Tomēr, izmantojot mūsu pašreizējo pēcapmācības procesu, kalibrēšana tiek samazināta.

Notiek ielāde...

Riski un riska mazināšanas pasākumi

Mēs esam vairākkārt uzlabojuši GPT‑4, lai padarītu to drošāku un saskaņotāku jau no mācību sākuma, iekļaujot pirmsmācību datu atlasi un filtrēšanu, novērtējumus un ekspertu iesaisti, modeļa drošības uzlabojumus, kā arī uzraudzību un prasību izpildi.

GPT‑4 rada līdzīgus riskus kā iepriekšējie modeļi, piemēram, kaitīgu padomu, kļūdaina koda vai neprecīzas informācijas ģenerēšanu. Tomēr GPT‑4 papildu iespējas rada jaunas riska virsmas. Lai izprastu šo risku apmēru, mēs piesaistījām vairāk nekā 50 ekspertus no tādām jomām kā MI saskaņošanas riski, kiberdrošība, bioloģiskie riski, uzticēšanās un drošība, kā arī starptautiskā drošība, lai pārbaudītu modeli ar apzināti izaicinošiem scenārijiem. Viņu secinājumi īpaši ļāva mums pārbaudīt modeļa uzvedību augsta riska jomās, kuru novērtēšanai nepieciešamas ekspertu zināšanas. Šo ekspertu atsauksmes un dati tika iekļauti mūsu modeļa uzlabojumos un risku mazināšanas pasākumos; piemēram, mēs esam ieguvuši papildu datus, lai uzlabotu GPT‑4 spēju atteikties no pieprasījumiem par bīstamo ķīmisko vielu sintezēšanu.

GPT‑4 iekļauj papildu drošības atlīdzības signālu RLHF mācību laikā, lai samazinātu kaitīgu izvadi (kā noteikts mūsu lietošanas vadlīnijās⁠(atveras jaunā logā)), apmācot modeli noraidīt šāda satura pieprasījumus. Atalgojumu nodrošina GPT‑4 "zero-shot" klasifikators, kas vērtē drošības robežas un ar drošību saistītu uzvedņu izpildes stilu. Lai novērstu modeļa atteikšanos no atbilstošiem pieprasījumiem, mēs apkopojam daudzveidīgu datu kopu no dažādiem avotiem (piemēram, marķēti ražošanas dati, cilvēku veiktas sarkanās komandas pārbaudes, modeļa ģenerētas uzvednes) un piemērojam drošības atlīdzības signālu (ar pozitīvu vai negatīvu vērtību) gan atļautajām, gan neatļautajām kategorijām.

Mūsu risku mazināšanas pasākumi ir ievērojami uzlabojuši daudzas GPT‑4 drošības īpašības salīdzinājumā ar GPT‑3.5. Mēs esam samazinājuši modeļa tendenci atbildēt uz neatļauta satura pieprasījumiem par 82% salīdzinājumā ar GPT‑3.5, un GPT‑4 atbild uz sensitīviem pieprasījumiem (piemēram, medicīniskām konsultācijām un paškaitējumu) saskaņā ar mūsu politikām par 29% biežāk.

Notiek ielāde...

Kopumā mūsu modeļa līmeņa iejaukšanās palielina grūtības izraisīt sliktu uzvedību, bet tas joprojām ir iespējams. Turklāt joprojām pastāv “jailbreak” iespējas, lai ģenerētu saturu, kas pārkāpj mūsu lietošanas vadlīnijas⁠. Palielinoties MI sistēmu “riskam uz vienu tokenu”, kļūs kritiski svarīgi panākt ārkārtīgi augstu šo iejaukšanās uzticamības pakāpi; pagaidām ir svarīgi šos ierobežojumus papildināt ar izvēršanas laika drošības metodēm, piemēram, ļaunprātīgas izmantošanas uzraudzību.

GPT‑4 un tā pēctecības modeļiem ir potenciāls būtiski ietekmēt sabiedrību gan pozitīvā, gan negatīvā veidā. Mēs sadarbojamies ar ārējiem pētniekiem, lai uzlabotu iespējamās ietekmes izpratni un novērtēšanu, kā arī izstrādātu novērtējumus par bīstamām spējām, kas varētu parādīties nākotnes sistēmās. Drīzumā mēs dalīsimies ar savām domām par GPT‑4 un citu MI sistēmu iespējamo sociālo un ekonomisko ietekmi.

Mācību process

Tāpat kā iepriekšējie GPT modeļi, GPT‑4 pamata modelis tika apmācīts prognozēt nākamo vārdu dokumentā un tika apmācīts, izmantojot publiski pieejamus datus (piemēram, Interneta datus), kā arī datus, kurus esam licencējuši. Dati ir tīmekļa mēroga datu kopums, kas ietver pareizus un nepareizus matemātisko uzdevumu risinājumus, vāju un spēcīgu argumentāciju, pretrunīgus un konsekventus apgalvojumus, kā arī pārstāv ļoti dažādas ideoloģijas un idejas.

Tātad, kad tiek uzdota jautājuma uzvedne, pamata modelis var atbildēt visdažādākajos veidos, kas varētu būt tālu no lietotāja nodoma. Lai saskaņotu to ar lietotāja nodomu noteiktos ietvaros, mēs precīzi noregulējam modeļa uzvedību, izmantojot stimulētu mācīšanos ar cilvēku atsauksmi (RLHF⁠).

Ņem vērā, ka modeļa iespējas, šķiet, galvenokārt nāk no pirmsmācību procesa – RLHF neuzlabo sniegumu eksāmenos (bez aktīviem centieniem tas patiesībā to pasliktina). Bet modeļa virzīšana nāk no pēcmācību procesa – pamata modelim ir nepieciešama uzvedņu inženierija, lai pat saprastu, ka tam jāatbild uz jautājumiem.

Prognozējama mērogošana

Liela uzmanība GPT‑4 projektā ir pievērsta tāda dziļās mācīšanās risinājumu kopuma izveidei, kas prognozējami mērogojas. Galvenais iemesls ir tas, ka ļoti lielām mācībām, piemēram, GPT‑4 gadījumā, nav iespējams veikt plašu, konkrētajam modelim pielāgotu regulēšanu. Mēs izstrādājām infrastruktūru un optimizācijas risinājumus, kuriem ir ļoti paredzama darbība dažādos mērogos. Lai verificētu šo mērogojamību, mēs precīzi prognozējām GPT‑4 galīgo zaudējumu savā iekšējā koda bāzē (kas nav daļa no mācību kopas), ekstrapolējot no modeļiem, kas apmācīti, izmantojot to pašu metodiku, bet lietojot 10 000x mazāku skaitļošanas jaudu:

Notiek ielāde...

Tagad, kad mēs varam precīzi paredzēt metriku, ko optimizējam mācību laikā (zaudējumi), mēs sākam izstrādāt metodoloģiju, lai prognozētu vieglāk interpretējamas metrikas. Piemēram, mēs sekmīgi prognozējām caurlaides ātrumu kādai HumanEval⁠(atveras jaunā logā) datu kopas apakškopai, ekstrapolējot no modeļiem ar 1000x mazāku skaitļošanas jaudu:

Notiek ielāde...

Dažas spējas joprojām ir grūti prognozēt. Piemēram, Inverse Scaling Prize bija konkurss, lai atrastu metriku, kas pasliktinās, palielinoties modeļa skaitļošanas jaudai, un atpakaļskatīšanas nolaidība⁠(atveras jaunā logā) bija viens no uzvarētājiem. Tāpat kā ar citu neseno rezultātu, GPT‑4 maina tendenci:⁠(atveras jaunā logā)

Notiek ielāde...

Mēs uzskatām, ka precīza nākotnes mašīnmācīšanās spēju prognozēšana ir svarīga drošības sastāvdaļa, kurai netiek pievērsta pietiekama uzmanība, salīdzinot ar tās potenciālo ietekmi (lai gan mūs ir iedrošinājuši vairāku iestāžu centieni). Mēs palielinām savus centienus izstrādāt metodes, kas sabiedrībai sniegtu labākus norādījumus par to, ko gaidīt no nākotnes sistēmām, un ceram, ka tas kļūs par kopīgu mērķi šajā jomā.

OpenAI Evals

Mēs publiskojam OpenAI Evals⁠(atveras jaunā logā) pirmkodu – tas ir mūsu programmatūras ietvars, lai izveidotu un palaistu etalonus modeļu, piemēram, GPT‑4, novērtēšanai, vienlaikus pārbaudot to veiktspēju paraugu pa paraugam. Mēs izmantojam Evals, lai virzītu savu modeļu izstrādi (gan identificējot trūkumus, gan novēršot regresijas), un mūsu lietotāji to var izmantot, lai izsekotu veiktspēju dažādās modeļu versijās (kas tagad iznāks regulāri) un attīstītu produktu integrācijas. Piemēram, Stripe ir izmantojis Evals, lai papildinātu cilvēku veiktos novērtējumus un novērtētu sava GPT darbinātā dokumentācijas rīka precizitāti.

Tā kā kods ir atvērtā pirmkoda, Evals atbalsta jaunu klašu rakstīšanu, lai ieviestu pielāgotu novērtēšanas loģiku⁠(atveras jaunā logā). Tomēr pēc mūsu pašu pieredzes daudzi etaloni atbilst vienai no dažām “veidnēm”, tāpēc mēs esam iekļāvuši arī veidnes⁠(atveras jaunā logā), kas iekšēji ir bijušas visnoderīgākās (ieskaitot veidni “modeļa novērtējumiem” – esam secinājuši, ka GPT‑4 pārsteidzoši spēj pārbaudīt pats savu darbu). Parasti visefektīvākais veids, kā izveidot jaunu eval⁠(atveras jaunā logā), būs instancēt vienu no šīm veidnēm un nodrošināt datus. Mēs ar nepacietību gaidām, ko citi varēs izveidot, izmantojot šīs veidnes un Evals kopumā.

Mēs ceram, ka Evals kļūs par līdzekli, lai dalītos ar etaloniem un izmantotu pūļa resursus, pārstāvot maksimāli plašu kļūdu režīmu un sarežģītu uzdevumu kopumu. Kā piemēru, kam sekot, mēs esam izveidojuši loģikas mīklu ⁠(atveras jaunā logā) eval, kurā ir desmit uzvednes, kuras GPT‑4 neizdodas sekmīgi izpildīt. Evals ir saderīgs arī ar esošu etalonu ieviešanu; kā piemēru esam iekļāvuši vairākas piezīmju grāmatiņas⁠(atveras jaunā logā), kurās tiek ieviesti akadēmiskie etaloni, un dažas CoQA⁠(atveras jaunā logā) (mazu apakškopu) integrēšanas variācijas.

Mēs aicinām visus izmantot Evals, lai izmēģinātu mūsu modeļus, un iesniegt interesantākos piemērus. Mēs uzskatām, ka Evals būs neatņemama mūsu modeļu izmantošanas un veidošanas procesa sastāvdaļa, un mēs atzinīgi vērtējam tiešus ieguldījumus, jautājumus un atsauksmes⁠(atveras jaunā logā).

ChatGPT Plus

ChatGPT Plus abonenti saņems GPT‑4 piekļuvi vietnē chatgpt.com⁠(atveras jaunā logā) ar lietošanas ierobežojumu. Mēs pielāgosim precīzu lietošanas ierobežojumu atkarībā no pieprasījuma un sistēmas veiktspējas praksē, taču gaidām, ka mūsu jauda būs ļoti ierobežota (lai gan turpmākajos mēnešos mēs to palielināsim un optimizēsim).

Atkarībā no redzamajiem trafika modeļiem mēs varam ieviest jaunu abonementa līmeni lielākam GPT‑4 lietošanas apjomam; mēs arī ceram kādā brīdī piedāvāt noteiktu skaitu bezmaksas GPT‑4 vaicājumu, lai arī tie, kuriem nav abonementa, varētu to izmēģināt.

API

Lai piekļūtu GPT‑4 API (kas izmanto to pašu ChatCompletions API⁠(atveras jaunā logā) kā gpt-3.5-turbo), lūdzu, reģistrējies mūsu gaidītāju sarakstā⁠. Mēs sāksim uzaicināt dažus izstrādātājus jau šodien un pakāpeniski palielināsim to skaitu, lai līdzsvarotu kapacitāti ar pieprasījumu. Ja tu esi pētnieks, kas pēta MI ietekmi uz sabiedrību vai MI saskaņošanas jautājumus, tu vari arī pieteikties subsidētai piekļuvei, izmantojot mūsu Pētnieku piekļuves programmu⁠.

Kad tev ir piekļuve, tu vari veikt tikai teksta pieprasījumus GPT‑4 modelim (attēlu ievade joprojām ir ierobežotā alfa versijā), kuru mēs automātiski atjaunināsim uz mūsu ieteikto stabilo modeli, kad laika gaitā izveidosim jaunas versijas (pašreizējo versiju vari piespraust, izsaucot GPT‑4‑0314, kuru mēs atbalstīsim līdz 14. jūnijam). Izcenojums ir 0,03 $ par 1k uzvednes tokeniem un 0,06 $ par 1k pabeigšanas tokeniem. Noklusējuma ātruma ierobežojumi ir 40 000 tokenu minūtē un 200 pieprasījumi minūtē.

GPT‑4 konteksta garums ir 8192 tokeni. Mēs arī nodrošinām ierobežotu piekļuvi mūsu 32 768 konteksta (apmēram 50 teksta lappuses) versijai gpt-4-32k, kas laika gaitā tiks automātiski atjaunināta (pašreizējā versija gpt-4-32k-0314, arī atbalstīta līdz 14. jūnijam). Izcenojums ir 0,06 $ par 1K uzvednes tokeniem un 0,12 $ par 1K pabeigšanas tokeniem. Mēs joprojām uzlabojam modeļa kvalitāti garam kontekstam un labprāt vēlētos atsauksmes par to, kā tas darbojas tavā lietošanas gadījumā. Mēs apstrādājam 8K un 32K dzinēju pieprasījumus ar atšķirīgu ātrumu atkarībā no jaudas, tāpēc tu vari saņemt piekļuvi tiem dažādos laikos.

Secinājums

Mēs ceram, ka GPT‑4 kļūs par vērtīgu rīku cilvēku dzīves uzlabošanai, darbinot daudzas lietotnes. Vēl ir daudz darāmā, un mēs ceram uz šī modeļa pilnveidošanu ar kopīgiem kopienas centieniem, balstoties uz šo modeli, izpētot to un sniedzot savu ieguldījumu.

Vairāk: Lasīt rakstu⁠(atveras jaunā logā) / Skatīt sistēmas karti⁠(atveras jaunā logā) / Izmēģināt ChatGPT Plus⁠(atveras jaunā logā) / Izmēģināt Playground⁠(atveras jaunā logā) / Noskatīties demonstrācijas tiešraidi atkārtoti⁠(atveras jaunā logā) / Piedalīties OpenAI Evals⁠(atveras jaunā logā)

Pielikums

Citās valodās tulkotu MMLU jautājumu piemērs. Ņem vērā, ka mēs izmantojam konsekventus izvēles tokenus (A–D):

Notiek ielāde...

Footnotes

A
We evaluate this benchmark using Chain-Of-Thought prompting with 4 examples from the training set in-context. The specific prompt was tuned on the validation set.

References

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper⁠(atveras jaunā logā).