14 Machi 2023

GPT‑4

Soma karatasi Tazama kadi ya mfumo Jaribu ChatGPT Plus

Rasilimali zaidi

Jaribu kwenye Playground Tazama tena mtiririko wa moja kwa moja wa onyesho Changia kwenye OpenAI Evals

Inapakia…

Tumeunda GPT‑4, hatua ya hivi karibuni katika juhudi za OpenAI za kuongeza mafunzo ya kina. GPT‑4 ni muundo mkubwa wa aina mbalimbali (unaokubali picha na maandishi kama ingizo na kutoa maandishi kama utoaji) ambao, ingawa una uwezo mdogo kuliko wanadamu katika hali nyingi za ulimwengu halisi, unaonyesha utendaji wa kiwango cha binadamu kwenye viwango mbalimbali vya kitaaluma na kielimu. Kwa mfano, inapita mtihani wa kuiga wa sheria na kupata alama 10% zaidi ya wafanya mtihani; kwa upande mwingine, alama ya GPT‑3.5 ilikuwa karibu na asilimia 10 ya chini. Tumetumia muda wa miezi 6 kuoanisha⁠ GPT‑4 mara kwa mara kwa kutumia masomo kutoka kwa mpango wetu wa majaribio ya wapinzani na ChatGPT, na hivyo kusababisha matokeo yetu bora kuwahi kutokea (ingawa si kamilifu) kuhusu ukweli, udhibiti na kukataa kwenda nje ya vituo vya ulinzi.

Katika kipindi cha miaka miwili iliyopita, tulijenga upya mfumo wetu mzima wa mafunzo ya kina na, pamoja na Azure, tulibuni kwa pamoja superkompyuta kutoka mwanzo kwa ajili ya mzigo wetu wa kazi. Mwaka mmoja uliopita, tulifundisha GPT‑3.5 kama “jaribio la kwanza” la mfumo. Tulipata na kurekebisha baadhi ya hitilafu na kuboresha misingi yetu ya kinadharia. Matokeo yake, mafunzo yetu ya GPT‑4 yalikuwa (kwetu angalau!) thabiti isiyowahi kutokea, yakawa muundo wetu mkubwa wa kwanza ambao utendaji wake wa mafunzo tuliweza kubashiri kwa usahihi kabla ya wakati. Tunapoendelea kuzingatia upanuzi wa kuaminika, tunalenga kuboresha mbinu yetu ili kutusaidia kutabiri na kujiandaa kwa uwezo wa baadaye mapema zaidi—jambo tunaloliona kuwa muhimu kwa usalama.

Tunatoa uwezo wa ingizo la maandishi la GPT‑4 kupitia ChatGPT na API (pamoja na orodha ya kusubiri⁠). Ili kuandaa uwezo wa ingizo la picha kwa upatikanaji mpana, tunashirikiana kwa karibu na mshirika mmoja⁠(fungua katika dirisha jipya) ili kuanzia. Pia tunatoa chanzo wazi OpenAI Evals⁠(fungua katika dirisha jipya), mfumo wetu wa tathmini ya kiotomatiki ya utendaji wa miundo ya AI, ili kumruhusu yeyote kuripoti mapungufu katika miundo yetu kusaidia kuongoza maboresho zaidi.

Uwezo

Katika mazungumzo ya kawaida, tofauti kati ya GPT‑3.5 na GPT‑4 inaweza kuwa ndogo. Tofauti inaonekana wakati ugumu wa shughuli unafikia kizingiti cha kutosha—GPT‑4 ni ya kuaminika zaidi, ya ubunifu na inaweza kushughulikia maagizo yenye maelezo zaidi kuliko GPT‑3.5.

Ili kuelewa tofauti kati ya miundo hiyo miwili, tulijaribu kwenye viwango mbalimbali, ikiwa ni pamoja na kuiga mitihani ambayo awali ilitengenezwa kwa ajili ya binadamu. Tuliendelea kwa kutumia vipimo vya hivi karibuni vilivyopatikana kwa umma (katika kesi ya Olympiads na maswali ya majibu ya bure ya AP) au kwa kununua matoleo ya 2022–2023 ya mitihani ya mazoezi. Hatukufanya mafunzo maalum kwa mitihani hii. Baadhi ya matatizo katika mitihani yalionekana na muundo wakati wa mafunzo, lakini tunaamini matokeo yanawakilisha—angalia ripoti yetu ya kiufundi⁠(fungua katika dirisha jipya) kwa maelezo.

rejea ya ndani ¹

Inapakia...

Pia tuliathmini GPT‑4 kwenye viwango vya jadi vilivyoundwa kwa ajili ya miundo ya ujifunzaji wa mashine. GPT‑4 inazidi sana miundo mikubwa ya lugha iliyopo, pamoja na miundo mingi ya kisasa (SOTA) ambayo inaweza kujumuisha ufundi maalum wa alama au itifaki za ziada za mafunzo:

Inapakia...

Viwango vingi vya ML vilivyopo vimeandikwa kwa lugha ya Kiingereza. Ili kupata hisia ya awali ya uwezo katika lugha zingine, tulitafsiri kiwango cha MMLU—seti ya matatizo 14,000 ya chaguo nyingi zinazojumuisha masomo 57—katika lugha mbalimbali kwa kutumia Azure Translate (tazama Kiambatisho⁠). Katika lugha 24 kati ya 26 zilizojaribiwa, GPT‑4 inazidi utendaji wa lugha ya Kiingereza wa GPT‑3.5 na LLM zingine (Chinchilla, PaLM), pamoja na lugha chache zenye rasilimali ndogo kama Kilatvia, Kiwelisi na Kiswahili:

Inapakia...

Pia tumekuwa tukitumia GPT‑4 ndani ya kampuni, yenye athari kubwa kwa utendaji kama vile usaidizi, mauzo, udhibiti wa maudhui na usanidi programu. Pia tunaitumia kuwasaidia binadamu katika kutathmini matoaji ya AI, tukianza awamu ya pili katika mkakati wetu wa usawazishaji⁠.

Ingizo za picha

GPT‑4 inaweza kukubali kidokezo cha maandishi na picha, ambacho—sambamba na mpangilio wa maandishi pekee—huruhusu mtumiaji kubainisha picha au maandishi yoyote. Hasa, hutoa matokeo ya maandishi (lugha asili, msimbo, n.k.) kutokana na ingizo zinazojumuisha maandishi na picha zilizounganishwa. Zaidi ya vikoa mbalimbali—ikiwa ni pamoja na hati zilizo na maandishi na picha, michoro, au picha za skrini—GPT‑4 huonyesha uwezo sawa na inavyofanya kwenye ingizo za maandishi pekee. Zaidi ya hayo, inaweza kuongezwa kwa mbinu za wakati wa majaribio ambazo zilitengenezwa kwa miundo ya lugha ya maandishi pekee, ikiwa ni pamoja na vidokezo vichache mnyororo wa mawazo⁠(fungua katika dirisha jipya). Ingizo za picha bado ni onyesho la kukagua utafiti na hazipatikani hadharani.

Inapakia...

Tunakagua utendaji wa GPT‑4 kwa kutathmini kwenye safu finyu ya viwango vya kawaida vya maono ya kitaaluma. Hata hivyo, nambari hizi haziwakilishi kikamilifu kiwango cha uwezo wake kwa kuwa kila wakatri tunagundua shughuli mpya na za kusisimua ambazo muundo unaweza kushughulikia. Tuna mpango wa kutoa uchanganuzi zaidi na nambari za tathmini pamoja na uchunguzi wa kina wa athari za mbinu za wakati wa majaribio hivi karibuni.

tanbihi ya ndani^A

Inapakia...

Uimara

Tumekuwa tukishughulikia kila kipengele cha mpango ulioelezewa katika chapisho letu kuhusu kufafanua tabia za AI⁠, pamoja na uwezo wa kuelekeza. Badala ya tabia ya kawaida ya ChatGPT iliyo na usemi, toni na mtindo maalum, wasanidi programu (na hivi karibuni watumiaji wa ChatGPT) wanaweza kuagiza mtindo na kazi ya AI yao kwa kuelezea maelekezo hayo katika ujumbe wa "mfumo". Ujumbe wa mfumo huruhusu watumiaji wa API kubadilisha kwa kiasi kikubwa uzoefu wa watumiaji wao ndani ya mipaka⁠(fungua katika dirisha jipya). Tutaendelea kufanya maboresho hapa (na haswa tunajua kuwa ujumbe wa mfumo ndio njia rahisi zaidi ya “kukiuka” muundo wa sasa, yaani, ufutaji wa mipaka sio kamili), lakini tunakuhimiza ujaribu na utujulishe maoni yako.

Inapakia...

Mapungufu

Licha ya uwezo wake, GPT‑4 ina mapungufu sawa na miundo ya awali ya GPT. Muhimu zaidi, bado si ya kuaminika kikamilifu (huwa “inabuni” ukweli na kufanya makosa ya uwazaji). Uangalifu mkubwa unapaswa kuchukuliwa wakati wa kutumia utoaji wa muundo wa lugha, hasa katika muktadha wa hatari kubwa na itifaki halisi (kama vile ukaguzi wa binadamu, kuthibitisha kwa muktadha wa ziada, au kuepuka matumizi katika hali za hatari kubwa kabisa) inapaswa kulingana na mahitaji ya matumizi maalum.

Ingawa bado ni suala halisi, GPT‑4 hupunguza kwa kiasi kikubwa ubunifu wa ukweli ikilinganishwa na miundo ya awali (ambayo yenyewe imekuwa ikiwa bora kwa kila toleo). GPT‑4 inapata alama 40% zaidi kuliko GPT‑3.5 yetu ya hivi karibuni kwenye tathmini zetu za ndani za ukweli wa upinzani:

Inapakia...

Tumepiga hatua kwenye viwango vya nje kama TruthfulQA, ambavyo hujaribu uwezo wa muundo kutofautisha ukweli na seti ya taarifa zisizo sahihi zilizochaguliwa kwa makusudi na upinzani. Maswali haya yameunganishwa na majibu yasiyo sahihi ambayo yanavutia kwa njia ya kitakwimu.

Inapakia...

Muundo wa msingi wa GPT‑4 ni bora kidogo tu katika shughuli hii kuliko GPT‑3.5; hata hivyo, baada ya mafunzo ya baada ya RLHF⁠ (kutumia mchakato sawa tuliotumia na GPT‑3.5⁠) Kuna pengo kubwa. Kuchunguza baadhi ya mifano hapa chini, GPT‑4 hukataa kuchagua misemo ya kawaida (huwezi kumfundisha mbwa mzee mbinu mpya), hata hivyo bado inaweza kukosa maelezo madogo (Elvis Presley hakuwa mwana wa mwigizaji).

Inapakia...

Muundo huu unaweza kuwa na upendeleo mbalimbali katika utoaji wake - tumepiga hatua katika suala huli lakini bado kuna mengi ya kufanya. Kwa mujibu wa chapisho letu la hivi karibuni la blogi⁠, tunalenga kufanya mifumo ya AI tunayounda iwe na tabia za chaguomsingi zinazofaa ambazo zinaakisi maadili ya watumiaji wengi, kuruhusu mifumo hiyo kubinafsishwa ndani ya mipaka mipana na kupata ingizo la umma kuhusu mipaka hiyo inavyopaswa kuwa.

GPT‑4 kwa ujumla haina maarifa ya matukio yaliyotokea baada ya data yake nyingi kuondolewa (Septemba 2021) na haijifunzi kutokana na uzoefu wake. Wakati mwingine inaweza kufanya makosa rahisi ya kuwaza ambayo hayaonekani kuendana na uwezo katika kikoa vingi, au kuwa rahisi kudanganyika kwa kukubali taarifa dhahiri za uwongo kutoka kwa mtumiaji. Na wakati mwingine inaweza kufeli katika matatizo magumu kama wanadamu wanavyofanya, kama vile kuanzisha udhaifu wa usalama katika msimbo inaotengeneza.

GPT‑4 pia inaweza kuwa na makosa kwa ujasiri katika ubashiri wake, bila kuchukua tahadhari ya kukagua kazi mara mbili inapowezekana kufanya makosa. Vilevile, mfano wa msingi uliofunzwa awali umeboreshwa sana (uhakika unaotarajiwa katika jibu wake kwa kawaida unalingana na uwezekano wa kuwa sahihi). Hata hivyo, kupitia mchakato wetu wa sasa baada ya mafunzo, urekebishwaji umepunguzwa.

Inapakia...

Hatari & mikakati ya kupunguza hatari

Tumekuwa tukiboresha GPT‑4 ili kuifanya iwe salama zaidi na iliyo na mwelekeo sahihi tangu mwanzo wa mafunzo, kwa juhudi zinazojumuisha uteuzi na kichujio cha data ya mafunzo ya awali, tathmini na ushirikishwaji wa wataalamu, maboresho ya usalama wa muundo na ufuatiliaji na utekelezaji.

GPT‑4 huleta hatari sawa na miundo ya awali, kama vile kutoa ushauri hatari, msimbo wa hitilafu, au maelezo yasiyo sahihi. Hata hivyo, uwezo wa ziada wa GPT‑4 husababisha maeneo mapya ya hatari. Ili kuelewa kiwango cha hatari hizi, tuliwashirikisha wataalamu zaidi ya 50 kutoka vikoa kama vile hatari za usawazishaji wa AI, usalama wa mtandao, hatari za kibaolojia, uaminifu na usalama na usalama wa kimataifa ili kujaribu muundo kwa njia hasi. Matokeo yao hasa yalituwezesha kupima tabia ya muundo katika maeneo hatarishi ambayo yanahitaji utaalamu kutathmini. Majibu na data kutoka kwa wataalamu hawa yalichangia katika hatua zetu za kupunguza na kuboresha muundo; kwa mfano, tumekusanya data ya ziada ili kuboresha uwezo wa GPT‑4 kukataa maombi ya jinsi ya kutengeneza kemikali hatari.

GPT‑4 inajumuisha ishara ya ziada ya tuzo ya usalama wakati wa mafunzo ya RLHF ili kupunguza utoaji hatari (kama ilivyofafanuliwa na miongozo yetu ya matumizi⁠(fungua katika dirisha jipya)) kwa kufundisha muundo kukataa maombi ya maudhui kama hayo. Tuzo hutolewa na kiainishaji cha GPT‑4 zero shot classifier kinachotathmini mipaka ya usalama na mtindo wa kukamilisha vidokezo vinavyohusiana na usalama. Ili kuzuia muundo kukataa maombi halali, huwa tunakusanya seti tofauti ya data kutoka kwa vyanzo mbalimbali (kwa mfano, data ya uzalishaji iliyowekwa alama, timu ya red-teaming ya kibinadamu, vidokezo vilivyozalishwa na muundo) na kutumia ishara ya tuzo ya usalama (yenye thamani chanya au hasi) kwenye kategoria zote zilizoruhusiwa na zisizoruhusiwa.

Mikakati yetu ya kupunguza hatari imeboresha sana sifa nyingi za usalama za GPT‑4 ikilinganishwa na GPT‑3.5. Tumepunguza tabia ya muundo ya kujibu maombi yamaudhui yasiyoruhusiwa kwa 82% ikilinganishwa na GPT‑3.5 na GPT‑4 inajibu maombi nyeti (kwa mfano, ushauri wa matibabu na kujidhuru) kwa mujibu wa sera zetu kwa 29% mara nyingi zaidi.

Inapakia...

Kwa ujumla, hatua zetu za kiwango cha muundo huongeza ugumu wa kuchochea tabia mbaya, lakini bado inawezekana kufanya hivyo. Zaidi ya hayo, bado kuna “ukiukaji wa mfumo” wa kuzalisha maudhui ambayo yanakiuka miongozo yetu ya matumizi⁠. Kadiri “hatari kwa kila tokeni” ya mifumo ya AI inavyoongezeka, itakuwa muhimu kufikia viwango vya juu sana vya kutegemewa katika maingiliano haya; kwa sasa ni muhimu kukamilisha mapungufu haya na mbinu za usalama za wakati wa utumaji kama vile ufuatiliaji wa unyanyasaji.

GPT‑4 na mifano inayofuata ina uwezo wa kuathiri kwa kiasi kikubwa jamii kwa njia zenye manufaa na zenye madhara. Tunashirikiana na watafiti kutoka nje ili kuboresha jinsi tunavyoelewa na kutathmini athari zinazoweza kutokea na pia kuunda tathmini za uwezo hatari ambao unaweza kujitokeza katika mifumo ya baadaye. Hivi karibuni tutashiriki mawazo yetu zaidi kuhusu athari zinazowezekana za kijamii na kiuchumi za GPT‑4 na mifumo mingine ya AI.

Mchakato wa mafunzo

Kama miundo ya awali ya GPT, muundo msingi wa GPT‑4 ulifundishwa kubashiri neno linalofuata katika hati na ulifundishwa kwa kutumia data inayopatikana hadharani (kama vile data ya mtandaoni) pamoja na data tuliyopewa leseni. Data ni mkusanyiko wa data wa wavuti ikiwa ni pamoja na suluhu sahihi na zisizo sahihi kwa hisabati, hoja dhaifu na dhabiti, kauli zinazojipinga na thabiti na kuwakilisha itikadi na mawazo mbalimbali.

Kwa hivyo, unapodokezwa swali, muundo msingi unaweza kujibu kwa njia mbalimbali ambazo zinaweza kuwa mbali na nia ya mtumiaji. Ili kuilinganisha na nia ya mtumiaji ndani ya mipaka, tunarekebisha tabia ya muundo kwa kutumia mafunzo ya uimarishaji na majibu ya binadamu (RLHF).⁠

Kumbuka kwamba uwezo wa muundo unaonekana kuja hasa kutokana na mchakato wa mafunzo ya awali—RLHF haiboresha ufaulu wa mtihani (bila jitihada amilifu, badala yake inaudhalilisha). Lakini uendeshaji wa muundo hutokana na mchakato wa baada ya mafunzo—muundo wa msingi unahitaji uhandisi wa dokezo ili hata kujua kwamba unapaswa kujibu maswali.

Upanuzi wa kubashirika

Lengo kuu la mradi wa GPT‑4 limekuwa kujenga mfumo wa mafunzo ya kina wenye ukuaji unaobashirika. Sababu kuu ni kwamba, kwa mafunzo makubwa sana kama GPT‑4, haiwezekani kufanya marekebisho makubwa maalum ya muundo. Tumeunda miundombinu na uboreshaji ambao una tabia inayobashirika sana katika viwango mbalimbali. Ili thibitisha upanuzi huu, tulibashiri kwa usahihi mapema hasara ya mwisho ya GPT‑4 kwenye msingi wetu wa ndani wa misimbo (sio sehemu ya seti ya mafunzo) kwa kutumia takwimu zilizotokana na mifano iliyofundishwa kwa kutumia mbinu ile ile lakini yenye uwezo wa kompyuta mara 10,000 chini:

Inapakia...

Sasa kwa kuwa tunaweza kubashiri kwa usahihi kipimo tunachokiboresha wakati wa mafunzo (hasara), tunaanza kuendeleza mbinu za kubashiri vipimo vinavyoweza kufasiriwa zaidi. Kwa mfano, tulifanikiwa kubashiri kiwango cha kufaulu kwenye sehemu ndogo ya seti ya data ya HumanEval⁠(fungua katika dirisha jipya), tukitumia miundo yenye uwezo wa kompyuta wa chini mara 1,000:

Inapakia...

Bado ni vigumu kubashiri baadhi ya uwezo wake. Kwa mfano, Tuzo ya Inverse Scaling ilikuwa shindano la kupata kipimo ambacho kinazidi kuwa kibaya zaidi kadri uwezo wa kompyuta ya mfumo unavyoongezeka na mfumo kutorekebisha hoja au majibu yake⁠(fungua katika dirisha jipya) ulikuwa mmoja wa washindi. Kama ilivyo kwa matokeo⁠(fungua katika dirisha jipya) mengine yoyote ya hivi karibuni, GPT‑4 inabadilisha mwenendo:

Inapakia...

Tunaamini kwamba kubashiri kwa usahihi uwezo wa baadaye wa kujifunza kwa mashine ni sehemu muhimu ya usalama ambayo haipati umakini wa kutosha ikilinganishwa na athari zake zinazowezekana (ingawa tumehimizwa na juhudi kutoka kwa taasisi kadhaa). Tunaongeza juhudi zetu za kuendeleza mbinu zinazotoa mwongozo bora kwa jamii kuhusu matarajio kutoka kwa mifumo ya baadaye, na tunatumai kuwa hili litakuwa lengo la pamoja katika sekta hii.

OpenAI Evals

Tunatoa chanzo cha OpenAI Evals⁠(fungua katika dirisha jipya), mfumo wetu wa programu wa kuunda na kuendesha viwango vya kutathmini miundo kama vile GPT‑4, huku tukikagua utendaji wao sampuli kwa sampuli. Tunatumia Evals kuongoza maendeleo ya miundo yetu (kutambua mapungufu na kuzuia kurudi nyuma) na watumiaji wetu wanaweza kuitumia kufuatilia utendaji katika matoleo ya miundo (ambayo sasa yatatoka mara kwa mara) na kuendeleza ujumuishaji wa bidhaa. Kwa mfano, Stripe imetumia Evals kukamilisha tathmini zao za kibinadamu ili kupima usahihi wa zana yao ya hati zinazoendeshwa na GPT.

Kwa sababu msimbo wote ni wa chanzo huru, Evals hutoa usaidizi wa kuandika madarasa mapya ili kutekeleza mantiki maalum ya tathmini⁠(fungua katika dirisha jipya). Hata hivyo, katika uzoefu wetu wenyewe, vigezo vingi vinafuata mojawapo ya “violezo” vichache, kwa hivyo tumejumuisha violezo⁠(fungua katika dirisha jipya) ambavyo vimekuwa muhimu sana ndani (pamoja na kiolezo cha “vigezo vya viwango vya kielelezo”—tumegundua kuwa GPT‑4 ina uwezo wa kushangaza wa kukagua kazi yake yenyewe). Kwa ujumla, njia bora zaidi ya kuunda eval mpya⁠(fungua katika dirisha jipya) itakuwa kuanzisha mojawapo ya violezo hivi pamoja na kutoa data. Tunafurahi kuona kile ambacho wengine wanaweza kujenga kwa kutumia violezo hivi na Evals kwa ujumla.

Tunatumai kuwa Evals itakuwa chombo cha kushiriki na kukusanya viwango vya majaribio, ikiwakilisha seti pana zaidi ya njia za kutofaulu na shughuli ngumu. Kama mfano wa kuigwa, tumeunda eval ya mafumbo ya mantiki⁠(fungua katika dirisha jipya) ambayo ina vidokezo kumi ambapo GPT‑4 haifaulu. Evals pia inaendana na utekelezaji wa viwango vilivyopo; tumejumuisha notebooks⁠(fungua katika dirisha jipya) kadhaa zinazotekeleza viwango vya kitaaluma na tofauti chache za kuunganisha (sehemu ndogo za) CoQA⁠(fungua katika dirisha jipya) kama mfano.

Tunaalika kila mtu kutumia Evals kupima miundo yetu na kuwasilisha mifano ya kuvutia zaidi. Tunaamini kuwa Evals itakuwa sehemu muhimu ya mchakato wa kutumia na kuendeleza miundo yetu na tunakaribisha michango ya moja kwa moja, maswali na majibu⁠(fungua katika dirisha jipya).

ChatGPT Plus

Wasajili wa ChatGPT Plus watapata ufikiaji wa GPT‑4 kwenye chatgpt.com⁠(fungua katika dirisha jipya) wakiwa na kikomo cha matumizi. Tutarekebisha kikomo halisi cha matumizi kulingana na mahitaji na utendaji wa mfumo ukiendelea kutumika, lakini tunatarajia kuwa na vizuizi vikali vya uwezo (ingawa tutaongeza na kuboresha katika miezi ijayo).

Kulingana na mifumo ya trafiki tunayoona, tunaweza kuanzisha kiwango kipya cha usajili kwa matumizi ya GPT‑4 ya kiasi kikubwa; tunatumai pia wakati fulani kutoa maswali ya GPT‑4 bila malipo ili wale wasio na usajili waweze kujaribu pia.

API

Ili kupata ufikiaji wa API ya GPT‑4 (ambayo hutumia API sawa na API ya ChatCompletions⁠(fungua katika dirisha jipya) kama gpt-3.5-turbo), tafadhali jisajili kwenye orodha yetu ya kusubiri⁠. Tutaanza kualika baadhi ya wasanidi programu leo na kuongeza hatua kwa hatua ili kusawazisha uwezo na mahitaji. Ikiwa wewe ni mtafiti anayechunguza athari za kijamii za AI au masuala ya usawazishaji wa AI, unaweza pia kuomba ufikiaji wa ruzuku kupitia Mpango wetu wa Ufikiaji wa Watafiti⁠.

Mara tu unapopata ufikiaji, unaweza kufanya maombi ya maandishi pekee kwa muundo wa GPT‑4 (maingizo ya picha bado yako katika awamu ya majaribio yenye vikomo) ambayo tutaboresha kiotomatiki hadi muundo thabiti tunaopendekeza tunapofanya matoleo mapya kadri muda unavyosonga(unaweza kuendelea kutumia toleo la sasa kwa kupiga simu kwa gpt-4-0314, ambalo tutaendelea kuunga mkono hadi Juni 14). Uwekaji bei ni $0.03 kwa kila tokeni 1k za dokezo na $0.06 kwa kila tokeni 1k za kukamilisha. Viwango vya vikomo vya chaguomsingi ni tokeni 40k kwa dakika na maombi 200 kwa kila dakika.

gpt-4 ina urefu wa muktadha wa tokeni 8,192. Pia tunatoa ufikiaji wa kiwango kidogo kwa toleo letu lenye muktadha wa maneno 32,768 (sawa na takribani kurasa 50 za maandishi), gpt-4-32k, ambalo pia litasasishwa kiotomatiki kadri muda unavyosonga (toleo la sasa ni gpt-4-32k-0314, linaloungwa mkono hadi Juni 14). Uwekaji bei ni $0.06 kwa kila tokeni 1K za dokezo na $0.12 kwa kila tokeni 1K za kukamilisha. Bado tunaboresha ubora wa muundo kwa muktadha mrefu na tungependa majibu kuhusu jinsi unavyofanya kazi kwa matumizi yako. Tunachakata maombi ya injini za 8K na 32K kwa viwango tofauti kulingana na uwezo, kwa hivyo unaweza kupokea ufikiaji wao kwa nyakati tofauti.

Hitimisho

Tunatarajia kuwa GPT‑4 itakuwa zana muhimu katika kuboresha maisha ya watu kwa kuendesha programu nyingi. Bado kuna kazi nyingi ya kufanya na tunatarajia kuboresha muundo huu kupitia juhudi za pamoja za jamii inayojenga, kugundua na kuchangia kwenye muundo huu.

Kwa maelezo zaidi: Soma karatasi⁠(fungua katika dirisha jipya) / Tazama kadi ya mfumo⁠(fungua katika dirisha jipya) / Jaribu kwenye ChatGPT Plus⁠(fungua katika dirisha jipya) / Jaribu kwenye Playground⁠(fungua katika dirisha jipya) / Tazama tena matangazo ya moja kwa moja⁠(fungua katika dirisha jipya) / Changia kwa OpenAI Evals⁠(fungua katika dirisha jipya)

Kiambatisho

Mfano wa maswali ya MMLU, yaliyotafsiriwa katika lugha nyingine. Kumbuka, huwa tunatumia tokeni za chaguo thabiti (A–D):

Inapakia...

Tanbihi

A
Tunatathmini kiwango hiki kwa kutumia Mnyororo wa Mawazo kwa kuchochea na mifano 4 kutoka kwenye seti ya mafunzo katika muktadha. Dokezo maalum lilirekebishwa kwenye seti ya uthibitishaji.

Marejeleo

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Uchanganuzi zaidi unapatikana kwenye karatasi⁠(fungua katika dirisha jipya).