14 ta’ Marzu 2023

GPT‑4

Aqra l-artiklu Ara l-kard tas-sistema Ipprova fuq ChatGPT Plus

Riżorsi oħra

Ipprova fil-Playground Erġa’ ara l-livestream tad-demo Ikkontribwixxi għal OpenAI Evals

Qed jillowdja…

Ħloqna GPT‑4, l-aħħar pass importanti fl-isforz ta’ OpenAI biex teskala l-apprendiment profond. GPT‑4 huwa mudell multimodali kbir (jaċċetta inputs ta’ immaġni u test, u joħroġ outputs ta’ test) li, għalkemm inqas kapaċi mill-bnedmin f’ħafna xenarji tad-dinja reali, juri prestazzjoni fil-livell tal-bniedem fuq diversi benchmarks professjonali u akkademiċi. Pereżempju, jgħaddi minn eżami tal-avukatura simulat b’punteġġ madwar l-ogħla 10% ta’ dawk li jagħmlu t-test; b’kuntrast, il-punteġġ ta’ GPT‑3.5 kien madwar l-inqas 10%. Għaddejna 6 xhur nallinjaw⁠ GPT‑4 b’mod iterattiv billi użajna tagħlimiet mill-programm tagħna ta’ testjar avversarju kif ukoll minn ChatGPT, u dan irriżulta fl-aqwa riżultati li qatt ksibna (għalkemm ’il bogħod mill-perfezzjoni) fuq il-fattwalità, l-isterabbiltà, u r-rifjut li joħroġ barra mill-guardrails.

Matul l-aħħar sentejn, bnejna mill-ġdid l-istack kollu tagħna tal-apprendiment profond u, flimkien ma’ Azure, ikkodesinjajna superkompjuter mill-bidu nett għall-workload tagħna. Sena ilu, ħarreġna GPT‑3.5 bħala l-ewwel “test run” tas-sistema. Sibna u rranġajna xi bugs u tejjibna l-pedamenti teoretiċi tagħna. B’riżultat ta’ dan, it-taħriġ ta’ GPT‑4 kien (għalina tal-inqas!) stabbli b’mod bla preċedent, u sar l-ewwel mudell kbir tagħna li l-prestazzjoni tat-taħriġ tiegħu stajna nbassruha b’mod preċiż minn qabel. Hekk kif inkomplu niffukaw fuq skalar affidabbli, nimmiraw li nsaħħu l-metodoloġija tagħna biex tgħinna nbassru u nippreparaw għal kapaċitajiet futuri dejjem aktar minn qabel—ħaġa li narawha bħala kritika għas-sikurezza.

Qed noħorġu l-kapaċità ta’ input ta’ test ta’ GPT‑4 permezz ta’ ChatGPT u l-API (b’waitlist⁠). Biex nippreparaw il-kapaċità tal-input ta’ immaġni għal disponibbiltà usa’, qed nikkollaboraw mill-qrib ma’ sieħeb wieħed⁠(jinfetaħ f’tieqa ġdida) biex nibdew. Qed nagħmlu wkoll open-source lil OpenAI Evals⁠(jinfetaħ f’tieqa ġdida), il-qafas tagħna għall-evalwazzjoni awtomatizzata tal-prestazzjoni ta’ mudelli tal-IA, biex inħallu lil kulħadd jirrapporta n-nuqqasijiet fil-mudelli tagħna u b’hekk jgħin jiggwida aktar titjib.

Kapaċitajiet

F’konversazzjoni każwali, id-distinzjoni bejn GPT‑3.5 u GPT‑4 tista’ tkun sottili. Id-differenza toħroġ meta l-kumplessità tal-kompitu tilħaq limitu biżżejjed għoli—GPT‑4 huwa aktar affidabbli, kreattiv, u kapaċi jimmaniġġja istruzzjonijiet ferm aktar sfumati minn GPT‑3.5.

Biex nifhmu d-differenza bejn iż-żewġ mudelli, ittestjajna fuq varjetà ta’ benchmarks, inkluż is-simulazzjoni ta’ eżamijiet li oriġinarjament kienu mfassla għall-bnedmin. Komplejna billi użajna l-aktar testijiet riċenti disponibbli pubblikament (fil-każ tal-Olimpjadi u l-mistoqsijiet AP free response) jew billi xtrajna edizzjonijiet 2022–2023 ta’ eżamijiet ta’ prattika. Ma għamilna l-ebda taħriġ speċifiku għal dawn l-eżamijiet. Minoranza tal-problemi fl-eżamijiet dehru mill-mudell waqt it-taħriġ, iżda nemmnu li r-riżultati huma rappreżentattivi—ara r-rapport tekniku⁠(jinfetaħ f’tieqa ġdida) tagħna għad-dettalji.

referenza interna ¹

Qed jillowdja...

Ivvalutajna wkoll lil GPT‑4 fuq benchmarks tradizzjonali mfassla għal mudelli ta’ apprendiment awtomatiku. GPT‑4 jaqbeż b’mod konsiderevoli l-mudelli kbar tal-lingwa eżistenti, flimkien mal-biċċa l-kbira tal-mudelli state-of-the-art (SOTA) li jistgħu jinkludu ottimizzazzjoni speċifika għall-benchmark jew protokolli ta’ taħriġ addizzjonali:

Qed jillowdja...

Ħafna benchmarks eżistenti tal-ML huma miktuba bl-Ingliż. Biex niksbu sens inizjali tal-kapaċità f’lingwi oħra, ittraduċejna l-benchmark MMLU—ġabra ta’ 14,000 problema b’għażla multipla mifruxa fuq 57 suġġett—f’varjetà ta’ lingwi bl-użu ta’ Azure Translate (ara l-Appendiċi⁠). F’24 minn 26 lingwa ttestjata, GPT‑4 jaqbeż il-prestazzjoni bl-Ingliż ta’ GPT‑3.5 u LLMs oħra (Chinchilla, PaLM), inkluż għal lingwi b’inqas riżorsi bħall-Latvjan, il-Welsh u s-Swaħili:

Qed jillowdja...

Ilna nużaw ukoll GPT‑4 internament, b’impatt kbir fuq funzjonijiet bħal appoġġ, bejgħ, moderazzjoni tal-kontenut u programmar. Qed nużawh ukoll biex jassisti lill-bnedmin fl-evalwazzjoni tal-outputs tal-IA, u b’hekk nibdew it-tieni fażi fl-istrateġija ta’ allinjament⁠ tagħna.

Inputs viżwali

GPT‑4 jista’ jaċċetta prompt ta’ test u immaġnijiet, li—b’mod parallel mal-ambjent ta’ test biss—jippermetti lill-utent jispeċifika kwalunkwe kompitu viżiv jew tal-lingwa. B’mod speċifiku, jiġġenera outputs ta’ test (lingwa naturali, kodiċi, eċċ.) mogħtija inputs magħmula minn test u immaġnijiet imħallta flimkien. F’firxa ta’ oqsma—inklużi dokumenti b’test u ritratti, dijagrammi jew screenshots—GPT‑4 juri kapaċitajiet simili għal dawk li għandu fuq inputs ta’ test biss. Barra minn hekk, jista’ jiġi msaħħaħ b’tekniki tal-ħin tat-test li ġew żviluppati għal mudelli tal-lingwa b’test biss, inkluż few-shot u prompting ta’ katina tal-ħsieb⁠(jinfetaħ f’tieqa ġdida). L-inputs tal-immaġni għadhom preview ta’ riċerka u mhumiex disponibbli pubblikament.

Qed jillowdja...

Qed nagħtu preview tal-prestazzjoni ta’ GPT‑4 billi nivvalutawh fuq ġabra ristretta ta’ benchmarks viżivi akkademiċi standard. Madankollu, dawn iċ-ċifri ma jirrappreżentawx bis-sħiħ il-firxa tal-kapaċitajiet tiegħu peress li kontinwament qed niskopru kompiti ġodda u eċċitanti li l-mudell kapaċi jindirizza. Qed nippjanaw li dalwaqt noħorġu aktar analiżijiet u ċifri ta’ evalwazzjoni kif ukoll investigazzjoni bir-reqqa tal-effett tat-tekniki fil-ħin tat-test.

nota ta’ qiegħ il-paġna interna^A

Qed jillowdja...

Isterabbiltà

Ilna naħdmu fuq kull aspett tal-pjan deskritt fil-post tagħna dwar id-definizzjoni tal-imġiba tal-IA⁠, inkluża l-isterabbiltà. Minflok il-personalità klassika ta’ ChatGPT b’verbosità, ton u stil fissi, l-iżviluppaturi (u dalwaqt l-utenti ta’ ChatGPT) issa jistgħu jippreskrivu l-istil u l-kompitu tal-IA tagħhom billi jiddeskrivu dawk id-direzzjonijiet fil-messaġġ “system”. Il-messaġġi tas-sistema jippermettu lill-utenti tal-API jippersonalizzaw b’mod sinifikanti l-esperjenza tal-utenti tagħhom fi ħdan il-limiti⁠(jinfetaħ f’tieqa ġdida). Se nkomplu nagħmlu titjib hawnhekk (u speċjalment nafu li l-messaġġi tas-sistema huma l-eħfef mod biex tagħmel “jailbreak” tal-mudell attwali, jiġifieri, l-aderenza mal-limiti mhix perfetta), iżda nħeġġuk tipprovah u tgħidilna x’taħseb.

Qed jillowdja...

Limitazzjonijiet

Minkejja l-kapaċitajiet tiegħu, GPT‑4 għandu limitazzjonijiet simili għal mudelli GPT preċedenti. L-aktar importanti, għadu mhux kompletament affidabbli (jagħmel “hallucinations” ta’ fatti u żbalji fir-raġunament). Għandha tittieħed attenzjoni kbira meta jintużaw outputs ta’ mudell tal-lingwa, partikolarment f’kuntesti ta’ riskju għoli, bil-protokoll eżatt (bħal reviżjoni umana, iggrawndjar b’kuntest addizzjonali, jew l-evitar ta’ użi ta’ riskju għoli għal kollox) jaqbel mal-ħtiġijiet ta’ każ ta’ użu speċifiku.

Għalkemm għadha problema reali, GPT‑4 inaqqas b’mod sinifikanti l-hallucinations meta mqabbel ma’ mudelli preċedenti (li huma stess ilhom jitjiebu ma’ kull iterazzjoni). GPT‑4 jikseb punteġġ 40% ogħla mill-aħħar GPT‑3.5 tagħna fuq l-evalwazzjonijiet interni avversarji tagħna tal-fattwalità:

Qed jillowdja...

Għamilna progress fuq benchmarks esterni bħal TruthfulQA, li jittestja l-kapaċità tal-mudell li jissepara l-fatt minn sett magħżul b’mod avversarju ta’ dikjarazzjonijiet żbaljati. Dawn il-mistoqsijiet huma mqabbla ma’ tweġibiet fattwalment żbaljati li huma statistikament attraenti.

Qed jillowdja...

Il-mudell bażi GPT‑4 huwa biss ftit aħjar f’dan il-kompitu minn GPT‑3.5; madankollu, wara post-training ta’ RLHF⁠ (bl-applikazzjoni tal-istess proċess li użajna ma’ GPT‑3.5⁠) hemm differenza kbira. Meta neżaminaw xi eżempji hawn taħt, GPT‑4 jirreżisti li jagħżel qwiel komuni (ma tistax tgħallem kelb qadim tricks ġodda), iżda xorta jista’ jitlef dettalji sottili (Elvis Presley ma kienx bin attur).

Qed jillowdja...

Il-mudell jista’ jkollu diversi preġudizzji fl-outputs tiegħu—għamilna progress fuq dawn iżda għad hemm aktar xi jsir. Skont il-blog post reċenti⁠ tagħna, nimmiraw li s-sistemi tal-IA li nibnu jkollhom imġibiet default raġonevoli li jirriflettu firxa wiesgħa ta’ valuri tal-utenti, jippermettu li dawk is-sistemi jiġu personalizzati fi ħdan limiti wesgħin, u niksbu input pubbliku dwar x’għandhom ikunu dawk il-limiti.

GPT‑4 ġeneralment jonqsu l-għarfien dwar avvenimenti li seħħew wara li l-maġġoranza kbira tad-data tiegħu tieqaf (Settembru 2021), u ma jitgħallimx mill-esperjenza tiegħu. Xi drabi jista’ jagħmel żbalji sempliċi fir-raġunament li ma jidhrux li jaqblu mal-kompetenza tiegħu f’tant oqsma, jew ikun wisq inġenwu meta jaċċetta dikjarazzjonijiet ovvjament foloz minn utent. U xi drabi jista’ jfalli f’problemi diffiċli bl-istess mod li jagħmlu l-bnedmin, bħalma hu l-introduzzjoni ta’ vulnerabbiltajiet ta’ sigurtà f’kodiċi li jipproduċi.

GPT‑4 jista’ wkoll ikun żbaljat b’kunfidenza fit-tbassir tiegħu, mingħajr ma joqgħod joqgħod jivverifika x-xogħol meta x’aktarx jagħmel żball. Interessanti, il-mudell bażi pre-trained huwa kalibrat ħafna (il-kunfidenza mbassra tiegħu f’tweġiba ġeneralment taqbel mal-probabbiltà li tkun korretta). Madankollu, permezz tal-proċess attwali tagħna ta’ post-training, il-kalibrazzjoni tonqos.

Qed jillowdja...

Riskji u mitigazzjonijiet

Ilna nirripetew fuq GPT‑4 biex nagħmluh aktar sigur u allinjat sa mill-bidu tat-taħriġ, bi sforzi li jinkludu l-għażla u l-iffiltrar tad-data ta’ pretraining, evalwazzjonijiet u involviment ta’ esperti, titjib fis-sikurezza tal-mudell, u monitoraġġ u infurzar.

GPT‑4 joħloq riskji simili għal mudelli preċedenti, bħall-ġenerazzjoni ta’ pariri ta’ ħsara, kodiċi b’bugs, jew informazzjoni mhux preċiża. Madankollu, il-kapaċitajiet addizzjonali ta’ GPT‑4 iwasslu għal oqsma ġodda ta’ riskju. Biex nifhmu l-firxa ta’ dawn ir-riskji, involvejna aktar minn 50 espert minn oqsma bħal riskji ta’ allinjament tal-IA, cybersecurity, biorisk, trust and safety, u sigurtà internazzjonali biex jittestjaw il-mudell b’mod avversarju. Is-sejbiet tagħhom b’mod speċifiku ppermettewlna nittestjaw l-imġiba tal-mudell f’oqsma ta’ riskju għoli li jeħtieġu għarfien espert biex jiġu evalwati. Feedback u data minn dawn l-esperti daħlu fil-mitigazzjonijiet u t-titjib tagħna għall-mudell; pereżempju, ġbarna data addizzjonali biex intejbu l-kapaċità ta’ GPT‑4 li jirrifjuta talbiet dwar kif jiġu sintetizzati kimiċi perikolużi.

GPT‑4 jinkorpora sinjal ta' premju addizzjonali għas-sikurezza waqt it-taħriġ RLHF biex inaqqas outputs ta’ ħsara (kif definiti mil-linji gwida tal-użu⁠(jinfetaħ f’tieqa ġdida) tagħna) billi jħarreġ il-mudell jirrifjuta talbiet għal tali kontenut. Il-premju jingħata minn klassifikatur GPT‑4 zero-shot li jiġġudika l-konfini tas-sikurezza u l-istil tal-kompletament fuq prompts relatati mas-sikurezza. Biex nipprevjenu lill-mudell milli jirrifjuta talbiet validi, niġbru dataset divers minn sorsi varji (eż., data ta’ produzzjoni ttikkettata, red-teaming uman, prompts iġġenerati mill-mudell) u napplikaw is-sinjal ta' premju għas-sikurezza (b’valur pożittiv jew negattiv) kemm fuq kategoriji permessi kif ukoll mhux permessi.

Il-mitigazzjonijiet tagħna tejbu b’mod sinifikanti ħafna mill-proprjetajiet ta’ sikurezza ta’ GPT‑4 meta mqabbel ma’ GPT‑3.5. Naqqasna t-tendenza tal-mudell li jwieġeb għal talbiet għal kontenut mhux permess bi 82% meta mqabbel ma’ GPT‑3.5, u GPT‑4 iwieġeb għal talbiet sensittivi (eż., pariri mediċi u self-harm) skont il-politiki tagħna 29% aktar ta’ spiss.

Qed jillowdja...

B’mod ġenerali, l-interventi tagħna fil-livell tal-mudell iżidu d-diffikultà biex jiġi mqanqal imġiba ħażina, iżda dan xorta jibqa’ possibbli. Barra minn hekk, għad hemm “jailbreaks” biex jiġi ġġenerat kontenut li jikser il-linji gwida tal-użu⁠ tagħna. Hekk kif ir-“riskju għal kull token” tas-sistemi tal-IA jiżdied, se jsir kruċjali li niksbu livelli estremament għoljin ta’ affidabbiltà f’dawn l-interventi; għalissa huwa importanti li dawn il-limitazzjonijiet jiġu kkumplimentati b’tekniki ta’ sikurezza fil-ħin tal-implimentazzjoni bħall-monitoraġġ għall-abbuż.

GPT‑4 u mudelli suċċessuri għandhom il-potenzjal li jinfluwenzaw lis-soċjetà b’mod sinifikanti kemm b’modi ta’ benefiċċju kif ukoll ta’ ħsara. Aħna qed nikkollaboraw ma’ riċerkaturi esterni biex intejbu kif nifhmu u nivvalutaw l-impatti potenzjali, kif ukoll biex nibnu evalwazzjonijiet għal kapaċitajiet perikolużi li jistgħu joħorġu f’sistemi futuri. Dalwaqt se naqsmu aktar mill-ħsieb tagħna dwar l-impatti soċjali u ekonomiċi potenzjali ta’ GPT‑4 u sistemi oħra tal-IA.

Proċess ta’ taħriġ

Bħall-mudelli GPT preċedenti, il-mudell bażi GPT‑4 ġie mħarreġ biex ibassar il-kelma li jmiss f’dokument, u ġie mħarreġ bl-użu ta’ data disponibbli pubblikament (bħal data mill-internet) kif ukoll data li aħna liċenzjajna. Id-data hija corpus fuq skala tal-web li tinkludi soluzzjonijiet korretti u żbaljati għal problemi tal-matematika, raġunament dgħajjef u qawwi, dikjarazzjonijiet li jikkontradixxu lilhom infushom u oħrajn konsistenti, u jirrappreżenta varjetà kbira ta’ ideoloġiji u ideat.

Allura meta jingħata prompt b’mistoqsija, il-mudell bażi jista’ jwieġeb b’firxa wiesgħa ta’ modi li jistgħu jkunu ’l bogħod mill-intenzjoni tal-utent. Biex nallinjawh mal-intenzjoni tal-utent fi ħdan guardrails, nirfinaw l-imġiba tal-mudell bl-użu ta’ apprendiment ta' tisħiħ b’feedback uman (RLHF⁠).

Innota li l-kapaċitajiet tal-mudell jidhru li ġejjin primarjament mill-proċess ta’ qabel it-taħriġ—RLHF ma jtejjibx il-prestazzjoni fl-eżamijiet (mingħajr sforz attiv, fil-fatt idgħajjifha). Iżda d-direzzjoni tal-mudell tiġi mill-proċess ta’ post-training—il-mudell bażi jeħtieġ inġinerija tal-prompts biex saħansitra jkun jaf li għandu jwieġeb il-mistoqsijiet.

Skalar prevedibbli

Fokus ewlieni kbir tal-proġett GPT‑4 kien il-bini ta’ stack ta’ apprendiment profond li jiskala b’mod prevedibbli. Ir-raġuni prinċipali hija li, għal taħriġiet kbar ħafna bħal GPT‑4, mhuwiex fattibbli li jsir tuning estensiv speċifiku għall-mudell. Żviluppajna infrastruttura u ottimizzazzjoni li għandhom imġiba prevedibbli ħafna fuq skali multipli. Biex nivverifikaw din l-iskalabbiltà, bassarna b’mod preċiż minn qabel il-loss finali ta’ GPT‑4 fuq il-codebase interna tagħna (mhux parti mis-sett ta’ taħriġ) billi estrapolajna minn mudelli mħarrġa bl-istess metodoloġija iżda bl-użu ta’ 10,000x inqas compute:

Qed jillowdja...

Issa li nistgħu nbassru b’mod preċiż il-metrika li nottimizzaw waqt it-taħriġ (loss), qed nibdew niżviluppaw metodoloġija biex inbassru metriċi aktar interpretabbli. Pereżempju, irnexxielna nbassru r-rata ta’ suċċess fuq sottogrupp tad-dataset HumanEval⁠(jinfetaħ f’tieqa ġdida), billi estrapolajna minn mudelli b’1,000x inqas compute:

Qed jillowdja...

Xi kapaċitajiet għadhom diffiċli biex jitbassru. Pereżempju, l-Inverse Scaling Prize kienet kompetizzjoni biex tinstab metrika li tmur għall-agħar hekk kif jiżdied il-compute tal-mudell, u negliġenza retrospettiva⁠(jinfetaħ f’tieqa ġdida) kienet waħda mir-rebbieħa. Bħal f’riżultat⁠(jinfetaħ f’tieqa ġdida) reċenti ieħor, GPT‑4 ireġġa’ lura x-xejra:

Qed jillowdja...

Nemmnu li t-tbassir preċiż tal-kapaċitajiet futuri tal-apprendiment awtomatiku huwa parti importanti mis-sikurezza li ma tingħatax kważi biżżejjed attenzjoni meta mqabbla mal-impatt potenzjali tagħha (għalkemm ġew inkuraġġiti minn sforzi f’diversi istituzzjonijiet). Qed inżidu l-isforzi tagħna biex niżviluppaw metodi li jipprovdu lis-soċjetà gwida aħjar dwar x’għandha tistenna minn sistemi futuri, u nittamaw li dan isir għan komuni fil-qasam.

OpenAI Evals

Qed nagħmlu open-source lil OpenAI Evals⁠(jinfetaħ f’tieqa ġdida), il-qafas tas-software tagħna għall-ħolqien u t-tħaddim ta’ benchmarks għall-evalwazzjoni ta’ mudelli bħal GPT‑4, waqt li ninspezzjonaw il-prestazzjoni tagħhom kampjun b’kampjun. Nużaw Evals biex niggwidaw l-iżvilupp tal-mudelli tagħna (kemm biex nidentifikaw in-nuqqasijiet kif ukoll biex nipprevjenu rigressjonijiet), u l-utenti tagħna jistgħu japplikawh biex isegwu l-prestazzjoni bejn verżjonijiet ta’ mudelli (li issa se joħorġu regolarment) u integrazzjonijiet ta’ prodotti li qed jevolvu. Pereżempju, Stripe użat Evals biex tikkumplimenta l-evalwazzjonijiet umani tagħha biex tkejjel il-preċiżjoni tal-għodda tagħha ta’ dokumentazzjoni mħaddma minn GPT.

Peress li l-kodiċi huwa kollu open-source, Evals jappoġġa l-kitba ta’ klassijiet ġodda biex jimplimentaw loġika ta’ evalwazzjoni personalizzata⁠(jinfetaħ f’tieqa ġdida). Fl-esperjenza tagħna stess, madankollu, ħafna benchmarks isegwu wieħed minn ftit “templates”, għalhekk aħna wkoll inkludejna t-templates⁠(jinfetaħ f’tieqa ġdida) li kienu l-aktar utli internament (inkluż template għal “model-graded evals”—sibna li GPT‑4 għandu kapaċità sorprendenti li jiċċekkja x-xogħol tiegħu stess). Ġeneralment l-aktar mod effettiv biex tibni eval ġdid⁠(jinfetaħ f’tieqa ġdida) se jkun li tinstanzja wieħed minn dawn it-templates flimkien mal-provvista tad-data. Aħna eċċitati naraw x’jistgħu jibnu oħrajn b’dawn it-templates u b’Evals b’mod aktar ġenerali.

Nittamaw li Evals isir mezz biex naqsmu u niġbru benchmarks mill-komunità, li jirrappreżentaw l-aktar firxa wiesgħa possibbli ta’ modi ta’ falliment u kompiti diffiċli. Bħala eżempju x’wieħed isegwi, ħloqna eval ta’ puzzles loġiċi⁠(jinfetaħ f’tieqa ġdida) li fih għaxar prompts fejn GPT‑4 ifalli. Evals huwa kompatibbli wkoll mal-implimentazzjoni ta’ benchmarks eżistenti; inkludejna diversi notebooks⁠(jinfetaħ f’tieqa ġdida) li jimplimentaw benchmarks akkademiċi u ftit varjazzjonijiet ta’ integrazzjoni ta’ (subsets żgħar ta’) CoQA⁠(jinfetaħ f’tieqa ġdida) bħala eżempju.

Nistiednu lil kulħadd juża Evals biex jittestja l-mudelli tagħna u jibgħat l-aktar eżempji interessanti. Nemmnu li Evals se jkun parti integrali mill-proċess tal-użu u l-bini fuq il-mudelli tagħna, u nilqgħu kontribuzzjonijiet diretti, mistoqsijiet u feedback⁠(jinfetaħ f’tieqa ġdida).

ChatGPT Plus

L-abbonati ta’ ChatGPT Plus se jiksbu aċċess għal GPT‑4 fuq chatgpt.com⁠(jinfetaħ f’tieqa ġdida) b’limitu ta’ użu. Aħna se naġġustaw il-limitu eżatt tal-użu skont id-domanda u l-prestazzjoni tas-sistema fil-prattika, iżda nistennew li nkunu ristretti ħafna mill-kapaċità (għalkemm se nżidu l-iskala u nottimizzaw fix-xhur li ġejjin).

Skont ix-xejriet tat-traffiku li naraw, nistgħu nintroduċu livell ġdid ta’ abbonament għal użu ta’ GPT‑4 b’volum ogħla; nittamaw ukoll li f’xi punt noffru xi ammont ta’ mistoqsijiet GPT‑4 bla ħlas sabiex dawk mingħajr abbonament ikunu jistgħu jippruvawh ukoll.

API

Biex tikseb aċċess għall-API GPT‑4 (li juża l-istess ChatCompletions API⁠(jinfetaħ f’tieqa ġdida) bħal gpt-3.5-turbo), jekk jogħġbok irreġistra fil-waitlist tagħna⁠. Se nibdew nistiednu xi żviluppaturi llum, u nżidu l-iskala gradwalment biex nibbilanċjaw il-kapaċità mad-domanda. Jekk inti riċerkatur li qed jistudja l-impatt soċjali tal-IA jew kwistjonijiet ta’ allinjament tal-IA, tista’ tapplika wkoll għal aċċess sussidjat permezz tal-Programm ta’ Aċċess għar-Riċerkaturi⁠ tagħna.

Ladarba jkollok aċċess, tista’ tagħmel talbiet b’test biss lill-mudell gpt-4 (l-inputs tal-immaġni għadhom f’alpha limitata), li aħna se naġġornaw awtomatikament għall-mudell stabbli rakkomandat tagħna hekk kif noħorġu verżjonijiet ġodda maż-żmien (tista’ tiffissa l-verżjoni attwali billi ssejjaħ gpt-4-0314, li se nappoġġaw sal-14 ta’ Ġunju). Il-prezz huwa $0.03 għal kull 1k prompt tokens u $0.06 għal kull 1k completion tokens. Il-limiti default tar-rata huma 40k tokens kull minuta u 200 talba kull minuta.

gpt-4 għandu tul ta’ kuntest ta’ 8,192 tokens. Qed nipprovdu wkoll aċċess limitat għall-verżjoni tagħna b’kuntest ta’ 32,768 (madwar 50 paġna test), gpt-4-32k, li wkoll se tiġi aġġornata awtomatikament maż-żmien (verżjoni attwali gpt-4-32k-0314, appoġġata wkoll sal-14 ta’ Ġunju). Il-prezz huwa $0.06 għal kull 1K prompt tokens u $0.12 għal kull 1k completion tokens. Għadna qed intejbu l-kwalità tal-mudell għal kuntest twil u nixtiequ ħafna feedback dwar kif jaħdem għall-użu speċifiku tiegħek. Aħna qed nipproċessaw talbiet għall-magni 8K u 32K b’rati differenti skont il-kapaċità, għalhekk tista’ tirċievi aċċess għalihom f’ħinijiet differenti.

Konklużjoni

Nistennew bil-ħerqa li GPT‑4 isir għodda siewja fit-titjib tal-ħajja tan-nies billi jħaddem ħafna applikazzjonijiet. Għad hemm ħafna xogħol xi jsir, u nistennew bil-ħerqa li ntejbu dan il-mudell permezz tal-isforzi kollettivi tal-komunità li tibni fuqu, tesplorah, u tikkontribwixxi għalih.

Għal aktar: Aqra l-artiklu⁠(jinfetaħ f’tieqa ġdida) / Ara l-kard tas-sistema⁠(jinfetaħ f’tieqa ġdida) / Ipprova fuq ChatGPT Plus⁠(jinfetaħ f’tieqa ġdida) / Ipprova fil-Playground⁠(jinfetaħ f’tieqa ġdida) / Erġa’ ara l-livestream tad-demo⁠(jinfetaħ f’tieqa ġdida) / Ikkontribwixxi għal OpenAI Evals⁠(jinfetaħ f’tieqa ġdida)

Appendiċi

Eżempju ta’ mistoqsijiet MMLU, tradotti f’lingwi oħra. Innota li nużaw tokens tal-għażla konsistenti (A–D):

Qed jillowdja...

Noti ta’ qiegħ il-paġna

A
Nivvalutaw dan il-benchmark billi nużaw prompting Chain-Of-Thought b’4 eżempji mis-sett ta’ taħriġ fil-kuntest. Il-prompt speċifiku ġie ottimizzat fuq is-sett ta’ validazzjoni.

References

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper⁠(jinfetaħ f’tieqa ġdida).