Marso 14, 2023

GPT‑4

Basahin ang papel.Tingnan ang card ng system Subukan sa ChatGPT Plus

Higit pang Mapagkukunan

Subukan sa Playground Panoorin muli ang demo na livestream Mag-ambag sa OpenAI Evals

Naglo-load…

Gumawa kami ng GPT‑4, ang pinakabagong milestone sa pagsisikap ng OpenAI na palawakin ang malalimang pag-aaral. Ang GPT‑4 ay isang malaking multimodal na modelo (tumatanggap ng mga input ng larawan at text naglalabas ng mga output ng text) na, bagaman mas mababa ang kakayahan kaysa sa mga tao sa maraming sitwasyon sa totoong mundo, nagpapakita ng pagganap na antas ng tao sa iba't ibang propesyonal at akademikong benchmark. Halimbawa, pumapasa ito sa isang simulated bar exam na may marka sa paligid ng nangungunang 10% ng mga kumuha ng pagsusulit; sa kabilang banda, ang GPT‑3.5 Ang iskor ay nasa bandang ibaba ng 10%. Gumugol kami ng 6 na buwan sa paulit-ulit na pag-align⁠ ng GPT‑4 gamit ang mga aral mula sa aming programa sa pagsubok ng kalaban at ChatGPT, na nagreresulta sa aming pinakamahusay na mga resulta (kahit na malayo sa perpekto) sa katotohanan, kakayahang magmaniobra, at pagtanggi na lumabas sa mga limitasyon.

Sa nakalipas na dalawang taon, itinayo namin muli ang aming buong stack ng malalimang pag-aaral at, kasama ang Azure, nagdisenyo kami ng supercomputer mula sa simula para sa aming workload. Isang taon na ang nakalipas, sinanay namin ang GPT‑3.5 bilang unang "test run" ng system. Natagpuan at naayos namin ang ilang bug at pinahusay ang aming mga teoretikal na pundasyon. Bilang resulta, ang aming pagsasanay sa GPT‑4 ay (at least para sa amin!) naging napakatatag, naging una naming malaking modelo na nahulaan namin nang tumpak nang maaga ang pagganap sa pagsasanay. Habang patuloy kaming nakatuon sa maaasahang pag-scale, nilalayon naming hasain ang aming metodolohiya para matulungan kaming mahulaan at maghanda para sa mga kakayahan sa hinaharap nang mas maaga—isang bagay na itinuturing naming mahalaga para sa kaligtasan.

Inilalabas namin ang kakayahan sa pag-input ng text ng GPT‑4 sa pamamagitan ng ChatGPT at ng API (na may waitlist⁠). Para ihanda ang kakayahan sa pag-input ng larawan para sa mas malawak na paggamit, malapit kaming nakikipagtulungan sa iisang partner⁠(magbubukas sa bagong window) para magsimula. Inilalabas din namin bilang open-source ang OpenAI Evals⁠(magbubukas sa bagong window), ang aming framework para sa naka-automate na pagsusuri ng pagganap ng mga modelo ng AI, para pahintulutan ang sinuman na i-reportt ang mga kakulangan sa aming mga modelo at makatulong sa paggabay para sa karagdagang pagpapabuti.

Mga Kakayahan

Sa isang kaswal na pag-uusap, puwedeng hindi gaanong halata ang pagkakaiba ng GPT‑3.5 at GPT‑4. Lumalabas ang pagkakaiba kapag ang kasalimuotan ng gawain ay umabot sa sapat na antas—ang GPT‑4 ay mas maaasahan, malikhain, at kayang humawak ng mas detalyadong mga tagubilin kaysa sa GPT‑3.5.

Para maintindihan ang pagkakaiba ng dalawang modelo, sinubukan namin sa iba't ibang benchmark, kabilang ang pagsasagawa ng mga pagsusulit na orihinal na idinisenyo para sa mga tao. Nagpatuloy kami sa pamamagitan ng paggamit ng pinakabagong mga pagsusulit na magagamit sa publiko (sa kaso ng mga tanong sa Olympiads at mga tanong na may libreng sagot sa AP) o sa pamamagitan ng pagbili ng 2022-2023 na edisyon ng mga pagsusulit na pagsasanay. Wala kaming partikular na pagsasanay para sa mga pagsusulit na ito. Kakaunti lang sa mga problema sa mga pagsusulit ang nakita ng modelo habang nagsasanay, pero naniniwala kaming kumakatawan ang mga resulta—tingnan ang aming teknikal na ulat⁠(magbubukas sa bagong window) para sa mga detalye.

panloob na sanggunian ¹

Naglo-load...

Sinuri rin namin ang GPT‑4 sa mga tradisyunal na benchmark na idinisenyo para sa mga modelo ng machine learning Mas mahusay ang pagganap ng GPT‑4 kaysa sa mga umiiral na malalaking modelo ng wika, kasama ang karamihan sa mga state-of-the-art (SOTA) na modelo na puwedeng may kasamang benchmark-specific crafting o karagdagang mga protocol sa pagsasanay:

Naglo-load...

Maraming umiiral na benchmark ng ML ang nakasulat sa English. Para makakuha ng paunang ideya ng kakayahan sa ibang mga wika, isinalin namin ang MMLU benchmark—isang koleksyon ng 14,000 multiple-choice na problema na sumasaklaw sa 57 na paksa—sa iba't ibang wika gamit ang Azure Translate (tingnan ang Apendiks⁠). Sa 24 sa 26 na wika na nasubok, mas mahusay ang GPT‑4 kaysa sa pagganap ng English ng GPT‑3.5 at iba pang mga LLM (Chinchilla, PaLM), kabilang ang para sa mga wikang may mababang mapagkukunan tulad ng Latvian, Welsh, at Swahili:

Naglo-load...

Ginagamit din namin ang GPT‑4 sa loob ng aming kumpanya, na may malaking epekto sa mga tungkulin tulad ng suporta, benta, pagmo-moderate ng content, at programming. Ginagamit din namin ito para tulungan ang mga tao sa pagsusuri ng mga output ng AI, simula sa ikalawang yugto ng aming diskarte sa pagkakahanay⁠.

Mga visual na input

Puwedeng tumanggap ang GPT‑4 ng prompt na binubuo ng text at mga larawan, na—katulad ng setting na text lang—ay nagpapahintulot sa user na tukuyin ang anumang vision o gawain sa wika. Sa partikular, bumubuo ito ng mga output ng text (natural na wika, code, atbp.) na ibinigay na mga input na binubuo ng magkakaugnay na text at mga larawan. Sa iba't ibang mga domain—kabilang ang mga dokumento na may text at mga larawan, diagram, o mga screenshot—ang GPT‑4 ay nagpapakita ng mga katulad na kakayahan tulad ng sa mga input na text-only. Bukod dito, puwede itong mapahusay gamit ang mga pamamaraan sa oras ng pagsubok na binuo para sa mga mga modelo ng wika na text-only, kabilang ang few-shot at chain-of-thought⁠(magbubukas sa bagong window) na pag-prompt. Ang mga input ng larawan ay nasa yugto pa rin ng pananaliksik at hindi pa available sa publiko.

Naglo-load...

Sinusuri namin ang pagganap ng GPT‑4 sa pamamagitan ng pagsusuri nito batay sa isang makitid na hanay ng mga karaniwang benchmark ng akademikong pananaw. Gayunpaman, hindi ganap na kumakatawan ang mga numerong ito sa lawak ng mga kakayahan nito dahil patuloy kaming nakakatuklas ng mga bago at kapana-panabik na gawain na kayang i-tackle ng modelo. Plano naming maglabas ng karagdagang mga pagsusuri at mga numero ng pagsusuri pati na rin ang masusing pagsisiyasat ng epekto ng mga pamamaraan sa oras ng pagsubok sa lalong madaling panahon.

panloob na talababa^A

Naglo-load...

Kakayahang magmaniobra

Nagtatrabaho kami sa bawat aspeto ng plan na nakabalangkas sa aming post tungkol sa pagtukoy sa gawi ng mga AI⁠, kabilang ang kakayahang magmaniobra. Sa halip na ang klasikong personalidad ng ChatGPT na may nakapirming verbosity, tono, at estilo, puwede na ngayong tukuyin ng mga developer (at sa lalong madaling panahon ng mga user ng ChatGPT) ang estilo at gawain ng kanilang AI sa pamamagitan ng paglalarawan ng mga tagubiling iyon sa mensahe ng “system”. Pinapayagan ng mga mensahe ng system ang mga user ng API na makabuluhang i-customize ang karanasan ng kanilang mga user sa loob ng mga limitasyon⁠(magbubukas sa bagong window). Patuloy kaming gagawa ng mga pagpapabuti dito (at alam naming ang mga mensahe ng system ang pinakamadaling paraan para i-jailbreak ang kasalukuyang modelo, ibig sabihin, hindi perpekto ang pagsunod sa mga hangganan), pero hinihikayat ka naming subukan ito at ipaalam sa amin ang iyong iniisip.

Naglo-load...

Mga limitasyon

Sa kabila ng mga kakayahan nito, ang GPT‑4 ay may mga limitasyon na katulad ng mga naunang modelo ng GPT. Higit sa lahat, hindi pa rin ito lubos na maaasahan ("ginagaya" nito ang mga katotohanan at nagkakamali sa pangangatwiran). Dapat mag-ingat nang husto kapag ginagamit ang mga output ng language model, lalo na sa mga kontekstong may mataas na panganib, kung saan ang eksaktong protocol (tulad ng pagsusuri ng tao, paglagay ng karagdagang konteksto, o pag-iwas sa paggamit na may mataas na panganib) ay tumutugma sa pangangailangan ng partikular na kaso.

Habang nananatiling isang tunay na isyu, makabuluhang binabawasan ng GPT‑4 ang mga guni-guni kumpara sa mga naunang modelo (na patuloy na nagpapabuti sa bawat pag-ulit). Mas mataas ng 40% ang marka ng GPT‑4 kumpara sa aming pinakabagong GPT‑3.5 sa aming panloob na adversarial na mga pagsusuri sa katotohanan:

Naglo-load...

Nakagawa na kami ng progreso sa mga panlabas na benchmark tulad ng TruthfulQA, na sumusubok sa kakayahan ng modelo na paghiwalayin ang katotohanan mula sa hanay ng mga maling pahayag na pinili sa mapanlaban na paraan. Ang mga tanong na ito ay sinasamahan ng mga sagot na mali pero mukhang tama sa istatistika.

Naglo-load...

Ang base na modelo ng GPT‑4 ay bahagyang mas mahusay sa gawaing ito kumpara sa GPT‑3.5; gayunpaman, pagkatapos ng RLHF⁠ pagkatapos ng pagsasanay (paglalapat ng parehong proseso na ginamit namin sa GPT‑3.5⁠) may malaking gap. Sa pagsusuri ng ilang halimbawa sa ibaba, nilalabanan ng GPT‑4 ang pagpili ng mga karaniwang kasabihan (hindi mo puwedeng turuan ng mga bagong trick ang matandang aso), pero puwede pa rin nitong makaligtaan ang mga subtle na detalye (si Elvis Presley ay hindi anak ng isang aktor).

Naglo-load...

Puwedeng magkaroon ng iba't ibang bias ang modelo sa mga output nito—nakagawa na kami ng progress sa mga ito pero marami pa ring dapat gawin. Ayon sa aming kamakailang blog post⁠, nilalayon naming gawing makatwirang default na gawi ang mga system na AI na binuo namin na sumasalamin sa malawak na hanay ng mga prinsipyo ng mga user, na payagan ang mga system na iyon na i-customize sa loob ng malawak na hangganan, at makakuha ng input ng publiko sa kung ano ang dapat na mga hangganan na iyon.

Sa pangkalahatan, ang GPT‑4 ay kulang sa kaalaman tungkol sa mga event na naganap pagkatapos ng karamihan sa data nito (Setyembre 2021), at hindi ito natututo mula sa karanasan. Minsan, puwede itong gumawa ng mga simpleng pagkakamali sa pangangatwiran na parang hindi naaayon sa kakayahan sa napakaraming domain, o labis na mapaniwalain sa pagtanggap ng malinaw na maling pahayag mula sa user. At kung minsan, puwede itong mabigo sa mga mahihirap na problema sa parehong paraan na ginagawa ng mga tao, tulad ng paglalagay ng mga kahinaan sa seguridad sa code na nililikha nito.

Puwede ring magkamali nang may kumpiyansa ang GPT‑4 sa mga hula nito, hindi nag-iingat na i-double check ang trabaho kapag malamang na magkamali. Nakakatuwa, mahusay ang kalibrasyon ng base pre-trained na modelo (ang inaasahang kumpiyansa nito sa sagot ay karaniwang tumutugma sa posibilidad na tama ito). Gayunpaman, sa pamamagitan ng aming kasalukuyang proseso pagkatapos ng pagsasanay, binawasan ang pag-calibrate.

Naglo-load...

Mga panganib at pagpapagaan

Patuloy naming pinapabuti ang GPT‑4 para maging mas ligtas at mas nakahanay mula sa simula ng pagsasanay, kasama ang mga pagsisikap tulad ng pagpili at pag-filter ng data ng paunang pagsasanay, pagsusuri at pakikipag-ugnayan ng mga eksperto, pagpapabuti ng kaligtasan ng modelo, at pagsubaybay at pagpapatupad.

Ang GPT‑4 ay nagdudulot ng mga katulad na panganib gaya ng mga naunang modelo, tulad ng pagbuo ng nakakapinsalang payo, buggy na code, o hindi tumpak na impormasyon. Gayunpaman, ang mga karagdagang kakayahan ng GPT‑4 ay nagdudulot ng mga bagong panganib. Para maintindihan ang lawak ng mga panganib na ito, nakipag-ugnayan kami sa mahigit 50 eksperto mula sa mga domain tulad ng mga panganib sa pagkakahanay ng AI, cybersecurity, biorisk, tiwala at kaligtasan, at internasyonal na seguridad para subukan nang may pagkontra ang modelo. Ang kanilang mga natuklasan ay partikular na ini-enable sa amin upang subukan ang pag-uugali ng modelo sa mga lugar na may mataas na peligro na nangangailangan ng kadalubhasaan upang masuri. Ang feedback at data mula sa mga ekspertong ito ay nag-ambag sa aming mga hakbang sa pagpapagaan at pagpapabuti para sa modelo; halimbawa, nakolekta namin ang karagdagang data upang mapabuti ang kakayahan ng GPT‑4 na tumanggi sa mga kahilingan kung paano mag-synthesize ng mga mapanganib na kemikal.

Isinasama ng GPT‑4 ang karagdagang signal ng gantimpala sa kaligtasan habang nagsasanay ng RLHF para mabawasan ang mga mapaminsalang output (ayon sa kahulugan ng aming mga alituntunin sa paggamit⁠(magbubukas sa bagong window)) sa pamamagitan ng pagsasanay sa modelo para tanggihan ang mga kahilingan para sa naturang content. Ang gantimpala ay ibinibigay ng isang GPT‑4 zero-shot classifier na sumusuri sa mga hangganan ng kaligtasan at istilo ng pagkumpleto sa mga prompt na may kaugnayan sa kaligtasan. Para maiwasan ng modelo ang pagtanggi sa mga wastong kahilingan, nangongolekta kami ng magkakaibang dataset mula sa iba't ibang pinagmulan (hal., may label na data ng produksyon, human red-teaming, mga prompt na binuo ng modelo) at inilalapat ang safety reward signal (na may positibo o negatibong halaga) sa parehong pinapayagan at hindi pinapayagang mga kategorya.

Malaki ang naitulong ng aming mga mitigation para mapabuti ang maraming aspeto ng kaligtasan ng GPT‑4 kumpara sa GPT‑3.5. Binawasan namin ng 82% ang posibilidad ng modelo na tumugon sa mga kahilingan para sa hindi pinahihintulutang content kumpara sa GPT‑3.5, at ang GPT‑4 ay mas madalas na tumutugon sa mga sensitibong kahilingan (hal., medikal na payo at pinsala sa sarili) alinsunod sa aming mga patakaran nang 29%.

Naglo-load...

Sa kabuuan, ang aming mga interbensyon sa antas ng modelo ay nagpapahirap sa paglabas ng maling gawi, pero puwede pa rin itong mangyari. Bukod pa rito, mayroon pa ring mga "jailbreak" na ginagamit para bumuo ng content na lumalabag sa aming mga alituntunin sa paggamit⁠. Habang tumataas ang "panganib sa bawat token" ng mga system ng AI, magiging kritikal na makamit ang napakataas na antas ng pagiging maaasahan sa mga interbensyong ito; sa ngayon, mahalaga na punan ang mga limitasyong ito ng mga teknik sa kaligtasan sa oras ng pag-deploy tulad ng pagsubaybay sa pang-aabuso.

Ang GPT‑4 at ang mga kahalili nitong modelo ay may potensyal na makaimpluwensya nang malaki sa lipunan sa kapaki-pakinabang at mapaminsalang paraan. Nakikipagtulungan kami sa mga panlabas na mananaliksik para mapabuti kung paano namin nauunawaan at sinusuri ang mga potensyal na epekto, pati na rin para bumuo ng mga pagsusuri sa mga mapanganib na kakayahan na puwedeng lumitaw sa mga system sa hinaharap. Malapit na naming ibabahagi ang higit pa naming mga saloobin tungkol sa mga potensyal na epekto sa lipunan at ekonomiya ng GPT‑4 at iba pang mga system ng AI.

Proseso ng pagsasanay

Tulad ng mga naunang modelo ng GPT, ang base model ng GPT‑4 ay sinanay para hulaan ang susunod na salita sa dokumento, at sinanay gamit ang pampublikong available na data (tulad ng data sa internet) pati na rin ang data na lisensyado namin. Ang data ay isang web-scale corpus na kinabibilangan ng tama at maling mga solusyon sa mga problemang pang-matematika, mahina at malakas na pangangatwiran, mga pahayag na salungat sa sarili at pare-pareho, at kumakatawan sa iba't ibang ideolohiya at ideya.

Kaya kapag na-prompt ng tanong, puwedeng tumugon ang modelo sa iba't ibang paraan na puwedeng malayo sa layunin ng user. Para iayon ito sa layunin ng user sa loob ng mga limitasyon, pina-fine-tune namin ang gawi ng modelo gamit ang pagpapatibay ng pag-aaral na may feedback mula sa tao (RLHF⁠).

Tandaan na ang mga kakayahan ng modelo ay parang nagmumula sa proseso ng paunang pagsasanay—hindi pinapabuti ng RLHF ang pagganap sa pagsusulit (kung walang aktibong pagsisikap, talagang pinapababa pa nito ito). Pero ang paggabay sa modelo ay nagmumula sa proseso pagkatapos ng pagsasanay—ang base na modelo ay nangangailangan ng agarang pag-engineer para malaman kung dapat nitong sagutin ang mga tanong.

Mahuhulaan na pag-scale

Isang malaking pokus ng proyekto ng GPT‑4 ay ang pagbuo ng stack ng malalimang pag-aaral na sumusukat nang may katiyakan. Ang pangunahing dahilan ay, para sa napakalawak na pagsasanay tulad ng GPT‑4, hindi magagawa ang malawakang pag-tune na partikular sa modelo. Bumuo kami ng imprastraktura at pag-optimize na may napaka-predictable na gawi sa iba't ibang antas. Para beripikahin ang kakayahang sumukat na ito, tumpak naming hinulaan nang maaga ang huling pagkawala ng GPT‑4 sa aming panloob na codebase (hindi bahagi ng set ng pagsasanay) sa pamamagitan ng pag-extrapolate mula sa mga modelo na sinanay gamit ang parehong pamamaraan pero gumagamit ng 10,000x na mas kaunting pagkuwenta:

Naglo-load...

Ngayong tumpak na nating mahuhulaan ang sukatan na ino-optimize natin habang nagsasanay (pagkawala), nagsisimula na tayong bumuo ng metodolohiya para mahulaan ang mas madaling maintindihang mga sukatan. Halimbawa, matagumpay naming nahulaan ang pass rate sa isang subset ng HumanEval⁠(magbubukas sa bagong window) dataset, gamit ang mga modelo na may 1,000x mas kaunting pag-compute para mag-extrapolate:

Naglo-load...

Mahirap pa ring hulaan ang ilang kakayahan. Halimbawa, ang Inverse Scaling Prize ay paligsahan para makahanap ng sukatan na lumalala habang tumataas ang pagkuwenta ng modelo, at ang pagwawalang-bahala sa nakaraan⁠(magbubukas sa bagong window) ang isa sa mga nanalo. Tulad ng isa pang kamakailang resulta,⁠(magbubukas sa bagong window) binabaligtad ng GPT‑4 ang trend:

Naglo-load...

Naniniwala kami na ang tumpak na paghula ng mga kakayahan sa machine learning sa hinaharap ay mahalagang bahagi ng kaligtasan na hindi nabibigyan ng sapat na atensyon kumpara sa potensyal na epekto nito (bagaman nahikayat kami ng mga pagsisikap sa iba't ibang institusyon). Pinapalawak namin ang aming mga pagsisikap na bumuo ng mga pamamaraan na magbibigay sa lipunan ng mas mahusay na patnubay tungkol sa kung ano ang aasahan mula sa mga system sa hinaharap, at umaasa kami na ito ay magiging karaniwang layunin sa larangan.

OpenAI Evals

Inilalabas namin bilang open-source ang OpenAI Evals⁠(magbubukas sa bagong window), ang aming software framework para sa paggawa at pagpapatakbo ng mga benchmark para suriin ang mga modelo tulad ng GPT‑4, habang tinitingnan ang kanilang performance bawat sample. Ginagamit namin ang mga Eval para gabayan ang pagbuo ng aming mga modelo (kapwa sa pagtukoy ng mga pagkukulang at pagpigil sa mga regresyon), at maia-apply ito ng aming mga user para sa pagsubaybay sa pagganap sa mga bersyon ng modelo (na regular na ilalabas ngayon) at sa pagbuo ng mga integrasyon ng produkto. Halimbawa, ginamit ng Stripe ang Evals para umakma sa kanilang mga pagsusuri ng tao para sukatin ang katumpakan ng kanilang tool sa dokumentasyon na pinapagana ng GPT.

Dahil open-source ang lahat ng code, sinusuportahan ng Evals ang pagsulat ng mga bagong klase para ipatupad ang custom na lohika ng pagsusuri⁠(magbubukas sa bagong window). Sa aming sariling karanasan, gayunpaman, maraming mga benchmark ang sumusunod sa isa sa ilang mga "template," kaya isinama rin namin ang mga template⁠(magbubukas sa bagong window) na pinaka-kapaki-pakinabang sa loob (kabilang ang template para sa "model-graded evals"—natuklasan namin na ang GPT‑4 ay nakakagulat na may kakayahang suriin ang sarili nitong gawain). Sa pangkalahatan, ang pinaka-epektibong paraan para bumuo ng bagong eval⁠(magbubukas sa bagong window) ay i-instantiate ang isa sa mga template na ito habang nagbibigay ng data. Nasasabik kaming makita kung ano ang magagawa ng iba gamit ang mga template na ito at ang Evals sa pangkalahatan.

Inaasahan namin na magiging isang paraan ang Evals para ibahagi at i-crowdsource ang mga benchmark, na kumakatawan sa pinakamalawak na hanay ng mga mode ng pagkabigo at mahihirap na gawain. Bilang halimbawa na puwedeng sundan, gumawa kami ng mga lohikong puzzle⁠(magbubukas sa bagong window) eval na naglalaman ng sampung prompt kung saan nabigo ang GPT‑4. Ang Evals ay tugma rin sa pagpapatupad ng mga umiiral na benchmark; isinama namin ang ilang notebook⁠(magbubukas sa bagong window) na nagpapatupad ng mga benchmark ng akademiko at ilang pagkakaiba-iba ng pagsasama (maliliit na subset ng) CoQA⁠(magbubukas sa bagong window) bilang halimbawa.

Inaanyayahan namin ang lahat na gamitin ang Evals para subukan ang aming mga modelo at isumite ang pinaka-kagiliw-giliw na mga halimbawa. Naniniwala kami na ang Evals ay magiging mahalagang bahagi ng proseso para sa paggamit at pagbuo sa ibabaw ng aming mga modelo, at malugod naming tinatanggap ang mga direktang kontribusyon, tanong, at feedback⁠(magbubukas sa bagong window).

ChatGPT Plus

Makakakuha ang mga subscriber ng ChatGPT Plus ng access sa GPT‑4 sa chatgpt.com⁠(magbubukas sa bagong window) na may limitasyon sa paggamit. Ia-adjust namin ang eksaktong limitasyon sa paggamit depende sa demand at aktwal na pagganap ng system, pero inaasahan naming magiging mahigpit ang limitasyon ng kapasidad (bagaman palalawakin at io-optimize namin sa mga susunod na buwan).

Depende sa mga pattern ng trapiko na nakikita namin, puwede kaming magpakilala ng bagong antas ng subscription para sa mas mataas na dami ng paggamit ng GPT‑4; umaasa rin kami na sa ilang punto ay mag-aalok kami ng ilang libreng query sa GPT‑4 para masubukan din ito ng mga walang subscription.

API

Para makakuha ng access sa GPT‑4 API (na gumagamit ng parehong ChatCompletions API⁠(magbubukas sa bagong window) tulad ng gpt-3.5-turbo), mag-sign up sa aming waitlist⁠. Sisimulan naming mag-imbita ng ilang developer ngayon, at unti-unting palakihin para mapanatili ang balanse ng kapasidad at pangangailangan. Kung isa kang mananaliksik na nag-aaral ng epekto sa lipunan ng AI o mga isyu sa pagkakahanay ng AI, puwede ka ring mag-apply para sa may suportadong access sa pamamagitan ng Programa sa Pag-access ng Mananaliksik⁠.

Kapag may access ka na, puwede kang gumawa ng mga kahilingan na text-only sa modelong GPT‑4 (ang mga Input ng larawan ay nasa limitadong alpha pa rin), na awtomatikong ia-update namin sa aming inirerekomendang matatag na modelo habang gumagawa kami ng mga bagong bersyon sa paglipas ng panahon (puwede mong i-pin ang kasalukuyang bersyon sa pamamagitan ng pagtawag sa GPT‑4‑0314, na susuportahan namin hanggang Hunyo 14). Ang pagpepresyo ay $0.03 bawat 1k na prompt token at $0.06 bawat 1k na token ng pagkumpleto. Ang mga default na limitasyon sa rate ay 40k na token bawat minuto at 200 kahilingan bawat minuto.

ang GPT‑4 ay may haba ng konteksto na 8,192 na mga token. Nagbibigay din kami ng limitadong pag-access sa aming 32,768-konteksto (mga 50 pahina ng text) na bersyon, GPT‑4‑32k, na awtomatikong maa-update sa paglipas ng panahon (kasalukuyang bersyon GPT‑4‑32k‑0314, suportado hanggang Hunyo 14). Ang pagpepresyo ay $0.06 bawat 1K na prompt token at $0.12 bawat 1K na token ng pagkumpleto. Patuloy pa rin naming pinapabuti ang kalidad ng modelo para sa mahabang konteksto at gusto naming makatanggap ng feedback kung paano ito gumaganap para sa iyong paggamit. Pinoproseso namin ang mga kahilingan para sa 8K at 32K engine sa iba't ibang bilis batay sa kapasidad, kaya puwede mong matanggap ang access sa mga ito sa iba't ibang oras.

Konklusyon

Inaasahan namin na ang GPT‑4 ay magiging mahalagang kasangkapan sa pagpapabuti ng buhay ng mga tao sa pamamagitan ng pagpapagana ng maraming application. Marami pa ring dapat gawin, at inaasahan naming mapabuti ang modelong ito sa pamamagitan ng kolektibong pagsisikap ng komunidad na bumuo, galugarin, at mag-ambag sa modelo.

Para sa higit pa: Basahin ang papel⁠(magbubukas sa bagong window) / Tingnan ang system card⁠(magbubukas sa bagong window) / Subukan sa ChatGPT Plus⁠(magbubukas sa bagong window) / Subukan sa Playground⁠(magbubukas sa bagong window) / Panoorin muli ang demo na livestream⁠(magbubukas sa bagong window) / Mag-ambag sa Mga Pagsusuri ng OpenAI⁠(magbubukas sa bagong window)

Apendise

Halimbawa ng mga tanong sa MMLU, isinalin sa ibang mga wika. Pakitandaan, gumagamit kami ng mga pare-parehong token ng pagpipilian (A-D):

Naglo-load...

Mga talababa

A
Sinusuri namin ang benchmark na ito gamit ang Chain-Of-Thought na pag-prompt na may 4 na halimbawa mula sa set ng pagsasanay sa konteksto. Ang partikular na prompt ay inangkop sa set ng pagpapatunay.

Mga Sanggunian

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). May karagdagang pagsusuri na available sa papel⁠(magbubukas sa bagong window).