Waxaan abuurnay GPT‑4, oo ah heerkii ugu dambeeyay ee dadaalka OpenAI ee ballaarinta waxbarashada qotada dheer. GPT‑4 waa nooc weyn oo multimodal ah (aqbalaya gelinno sawir iyo qoraal, soo saaraya natiijooyin qoraal ah) kaas oo, inkastoo uu ka awood yar yahay aadanaha xaalado badan oo dunida dhabta ah, muujinaya waxqabad heer-bini’aadan ah benchmark-yo xirfadeed iyo tacliimeed oo kala duwan. Tusaale ahaan, wuxuu gudbaa imtixaan bar ah oo la jilay isagoo helaya dhibco ku dhow 10%-ka ugu sarreeya ee imtixaan-galayaasha; halka dhibcaha GPT‑3.5 ay ku dhowaayeen 10%-ka ugu hooseeya. Waxaan ku bixinay 6 bilood annagoo si wareegsan u waafajinayna GPT‑4 annagoo adeegsanayna casharro ka yimid barnaamijkeenna tijaabinta iska-hor-imaadka ah iyo sidoo kale ChatGPT, taas oo keentay natiijooyinkeennii ugu fiicnaa abid (inkastoo ay ka fog yihiin qummanaanta) ee xaqiiqo ahaanshaha, steerability, iyo diidmada ka bixitaanka xayndaabyada.
Labadii sano ee la soo dhaafay, waxaan dib u dhisnay dhammaan kaydkayaga waxbarashada qotada dheer, waxaana si wadajir ah ula naqshadaynay Azure supercomputer laga bilaabo salka hoose si uu ugu habboonaado culayskayaga shaqo. Hal sano ka hor, waxaan GPT‑3.5 u tababarnay sidii “tijaabo-socod” koowaad ee nidaamka. Waxaan helnay oo saxnay qaar ka mid ah cilladaha, sidoo kalena waan hagaajinnay aasaasyadeenna aragtiyeed. Sidaas darteed, orodkayaga tababarka GPT‑4 wuxuu ahaa (ugu yaraan annaga!) mid aan hore loo arag oo deggan, isagoo noqday noockeennii weynaa ee ugu horreeyay ee aan awoodnay inaan si sax ah u saadaalino waxqabadkiisa tababar ka hor waqtiga. Intaan sii wadno diiradda saarista ballaarin lagu kalsoonaan karo, waxaan hiigsanaynaa inaan afeyno habraaceenna si uu nooga caawiyo saadaalinta iyo isu-diyaarinta awoodaha mustaqbalka waqti sii fog ka hor—arrin aan u aragno mid aad muhiim ugu ah badbaadada.
Waxaan ku sii daynaynaa awoodda gelinta qoraalka ee GPT‑4 iyada oo loo marayo ChatGPT iyo API-ga (oo leh liis sugitaan). Si aan awoodda gelinta sawirka ugu diyaarinno helitaan ballaaran, waxaan si dhow ula shaqaynaynaa hal lammaane(ku furmaa daaqad cusub) marka hore. Waxaan sidoo kale si il-furan u daabacaynaa OpenAI Evals(ku furmaa daaqad cusub), oo ah qaab-dhismeedkayaga qiimeynta otomaatiga ah ee waxqabadka noocyada AI, si qof walba loogu oggolaado inuu soo sheego meelaha gaaban ee noocyadayada si ay nooga caawiyaan hagidda hagaajinno dheeraad ah.
Wadahadal caadi ah dhexdiisa, farqiga u dhexeeya GPT‑3.5 iyo GPT‑4 wuxuu noqon karaa mid aan si weyn u muuqan. Kala duwanaanshuhu wuu soo baxaa marka kakanaanta hawshu gaarto heer ku filan—GPT‑4 waa ka lagu-kalsoonaan badan, hal-abuur badan, kana karti badan maaraynta tilmaamo aad uga sii xeeldheer marka loo eego GPT‑3.5.
Si aan u fahanno farqiga u dhexeeya labada nooc, waxaan ku tijaabinnay noocyo kala duwan oo benchmark-yo ah, oo ay ku jiraan ku dayashada imtixaano markii hore loogu talagalay aadanaha. Waxaan u soconnay annagoo adeegsanayna imtixaanadii ugu dambeeyay ee dadweynaha u furnaa (marka ay timaaddo Olympiads-ka iyo su’aalaha AP free response) ama annagoo iibsanayna daabacaadaha 2022–2023 ee imtixaanada tababarka. Tababar gaar ah uma aynaan samayn imtixaanadan. Qayb yar oo ka mid ah dhibaatooyinka imtixaanada waxaa arkay noocgu intii lagu jiray tababarka, laakiin waxaan aaminsanahay in natiijooyinku ay matalaan xaqiiqda—faahfaahin ka eeg warbixinteena farsamo(ku furmaa daaqad cusub).
tixraac gudaha 1
Waxaan sidoo kale ku qiimeynay GPT‑4 benchmark-yo dhaqameed loo qorsheeyay noocyada waxbarashada mashiinka. GPT‑4 si weyn ayuu uga sarreeyaa noocyada waaweyn ee luqadda ee jira, iyo sidoo kale inta badan noocyada hormuudka u ah farsamada (SOTA) kuwaas oo laga yaabo inay ku jiraan farsamayn u gaar ah benchmark-ga ama habraacyo tababar oo dheeraad ah:
Benchmark-yo badan oo ML ah oo jira waxaa lagu qoraa Ingiriisi. Si aan u helno dareen bilow ah oo ku saabsan awoodda luqadaha kale, waxaan u turjunnay benchmark-ga MMLU—oo ah xidhmo ka kooban 14,000 dhibaatooyin xulasho badan leh oo daboolaya 57 maaddo—luqado kala duwan annagoo adeegsanayna Azure Translate (eeg Lifaaqa). 24 ka mid ah 26-ka luqadood ee la tijaabiyay, GPT‑4 wuxuu ka fiicnaaday waxqabadka luqadda Ingiriisiga ee GPT‑3.5 iyo LLM-yada kale (Chinchilla, PaLM), oo ay ku jiraan luqadaha agabkoodu yar yahay sida Latvian, Welsh, iyo Swahili:
Waxaan sidoo kale GPT‑4 gudaha ugu adeegsanaynay, isagoo saameyn weyn ku yeeshay hawlo sida taageero, iib, xakameynta nuxurka, iyo barnaamij-samaynta. Waxaan sidoo kale u adeegsanaynaa inuu ka caawiyo aadanaha qiimeynta wax-soo-saarka AI, annagoo bilaabayna wejiga labaad ee istaraatiijiyaddeenna la jaanqaadidda.
GPT‑4 wuxuu qaadan karaa weydiin ka kooban qoraal iyo sawirro, taas oo—si la mid ah qaabka qoraal-keliya—u oggolaanaysa isticmaalaha inuu qeexo hawl muuqaal ama luqadeed kasta. Gaar ahaan, wuxuu soo saaraa natiijooyin qoraal ah (luqad dabiici ah, koodh, iwm.) iyadoo la siinayo gelinno ka kooban qoraal iyo sawirro is dhex yaal. Gudaha qaybo badan—oo ay ku jiraan dukumeenti leh qoraal iyo sawirro, jaantusyo, ama screenshots—GPT‑4 wuxuu muujiyaa awoodo la mid ah kuwa uu ku leeyahay gelinnada qoraal-keliya. Intaas waxaa dheer, waxaa lagu xoojin karaa farsamooyin wakhtiga tijaabada ah oo loo sameeyay noocyada luqadda qoraal-keliya, oo ay ku jiraan few-shot iyo weydiinta silsilada fikirka(ku furmaa daaqad cusub). Gelinnada sawirku wali waa horudhac cilmi-baaris ah mana aha kuwo dadweynaha loo heli karo.
Waxaan horudhac ahaan u soo bandhigaynaa waxqabadka GPT‑4 annagoo ku qiimeynayna xidhmo kooban oo benchmark-yo aragti tacliimeed ah oo caadi ah. Si kastaba ha ahaatee, tirooyinkani si buuxda uma metelaan baaxadda awoodihiisa maadaama aan si joogto ah u ogaaneyno hawlo cusub oo xiiso leh oo noocgu awood u leeyahay inuu qabto. Waxaan qorshaynaynaa inaan si dhow u sii deyno falanqayno dheeraad ah iyo tirooyinka qiimeynta iyo sidoo kale baaritaan qoto dheer oo ku saabsan saameynta farsamooyinka wakhtiga tijaabada.
qoraal-hoosaad gudahaA
Waxaan ka shaqaynaynay dhinac kasta oo qorshaha lagu qeexay qoraalkeenna ku saabsan qeexidda hab-dhaqanka AI-yada, oo ay ku jirto steerability. Halkii laga ahaan lahaa shakhsiyadda caadiga ah ee ChatGPT oo leh hadal-badnaan, cod, iyo qaab go’an, horumariyayaashu (iyo dhawaan isticmaalayaasha ChatGPT) hadda waxay qori karaan qaabka iyo hawsha AI-gooda iyagoo ku sharxaya tilmaamahaas fariinta “system”. Fariimaha system-ku waxay u oggolaanayaan isticmaalayaasha API inay si weyn u habeeyaan khibradda isticmaalayaashooda xuduudo gudahood(ku furmaa daaqad cusub). Waxaan sii wadi doonnaa hagaajinta halkan (gaar ahaan annagoo og in fariimaha system-ku ay yihiin habka ugu sahlan ee lagu sameeyo “jailbreak” nooca hadda jira, taas oo ah in ku-dhaqanka xuduuduhu aanu qummanayn), laakiin waxaan kugu dhiirrigelinaynaa inaad tijaabiso oo aad noo sheegto waxa aad u malaynayso.
In kasta oo uu awood badan yahay, GPT‑4 wuxuu leeyahay xaddidaado la mid ah kuwii noocyadii GPT ee hore. Tan ugu muhiimsan, wali si buuxda looguma kalsoonaan karo (wuxuu “male-awaalaa” xaqiiqooyin wuxuuna sameeyaa khaladaad caqliyeyn). Waa in taxaddar weyn la muujiyaa marka la isticmaalayo wax-soo-saarka noocyada luqadda, gaar ahaan xaaladaha khatarta sare leh, iyadoo habraaca saxda ah (sida dib-u-eegista bini’aadanka, xog ku saleynta xaqiijinta oo leh macne dheeraad ah, ama gebi ahaanba ka fogaanshaha isticmaalka khatarta sare leh) uu la jaanqaadayo baahida kiis gaar ah oo isticmaal.
Inkasta oo ay wali tahay arrin dhab ah, GPT‑4 wuxuu si weyn u yareeyaa male-awaalka marka loo eego noocyadii hore (kuwaas oo iyaguna ku soo hagaagayay iteration kasta). GPT‑4 wuxuu ka helaa dhibco 40% ka sarreeya GPT‑3.5‑keennii ugu dambeeyay qiimeynteena gudaha ee xaqiiqada iska-hor-imaadka ah:
Waxaan horumar ka sameynay benchmark-yo dibadeed sida TruthfulQA, oo tijaabiya awoodda noocga ee kala saarista xaqiiqda iyo xulasho si iska horimaad leh loo doortay oo ka kooban weedho khaldan. Su’aalahan waxaa lala lammaaniyaa jawaabo xaqiiqo ahaan khaldan balse tirakoob ahaan soo jiidasho leh.
Nooca aasaasiga ah ee GPT‑4 kaliya wax yar ayuu kaga fiican yahay GPT‑3.5 hawshan; hase yeeshee, ka dib tababarka ka dambeeya ee RLHF (annagoo adeegsanayna isla geeddi-socodkii aan ku isticmaalnay GPT‑3.5) waxaa jira farqi weyn. Markaan eegno tusaalooyinka hoose, GPT‑4 wuxuu iska caabiyaa xulashada oraaho caadi ah (duq ey khiyaamo cusub laguma baro), hase yeeshee wali wuu seegi karaa faahfaahin xeel dheer (Elvis Presley ma ahayn wiilka jile).
Noocgu wuxuu yeelan karaa eexyo kala duwan oo ku jira wax-soo-saarkiisa—waxaan horumar ka samaynay arrimahan balse wali wax badan ayaa harsan. Sida ku cad qoraalkeennii dhowaa, waxaan hiigsanaynaa in nidaamyada AI ee aan dhisno ay yeeshaan hab-dhaqanno caadi ah oo macquul ah kuwaas oo ka tarjumaya qiyamka qayb ballaaran oo isticmaaleyaal ah, u oggolaada nidaamyadaas in la habeeyo xuduudo waaweyn gudahood, ayna helaan talo dadweyne oo ku saabsan waxa xuduudahaasi noqonayaan.
GPT‑4 guud ahaan ma laha aqoon ku saabsan dhacdooyinka dhacay ka dib markii inta badan xogtiisa la jaray (Sebtembar 2021), mana wax ka barto waayo-aragnimadiisa. Mararka qaar wuxuu samayn karaa khaladaad caqliyeyn fudud oo aan u muuqan kuwo la jaanqaadaya kartida uu ku leeyahay qaybo badan oo sidaas u faro badan, ama wuxuu noqon karaa mid si xad-dhaaf ah u rumaysta isagoo aqbalaya weedho si cad u been ah oo ka yimaada isticmaalaha. Mararka qaarna wuxuu ku fashilmi karaa dhibaatooyin adag si la mid ah sida aadanuhu u fashilmaan, sida inuu geliyo nuglaanshooyin amni koodhka uu soo saaro.
GPT‑4 sidoo kale si kalsooni leh ayuu u khaldami karaa saadaalihiisa, isaga oo aan ka taxaddarin inuu laba-jeer hubiyo shaqada marka ay u badan tahay inuu khalad sameeyo. Waxa xiiso leh, nooca aasaasiga ah ee wejiga hore ee tabbabarka maray si heer sare ah ayuu u cabbiran yahay (kalsoonida uu saadaaliyo ee jawaabtu guud ahaan waxay la jaanqaaddaa suurtagalnimada inuu sax yahay). Si kastaba ha ahaatee, geeddi-socodkeenna hadda ee tababarka ka dambeeya, cabbirkaas wuu yaraadaa.
Waxaan ku celcelinaynay GPT‑4 si aan uga dhigno mid ammaan badan oo si fiican ula jaanqaada laga bilaabo bilowgii tababarka, iyadoo dadaalladaas ay ka mid yihiin xulashada iyo shaandhaynta xogta wejiga hore ee tabbabarka, qiimeynno iyo la-tashiyo khubaro, hagaajinno badbaado oo noocga ah, iyo la socod iyo dhaqan-gelin.
GPT‑4 wuxuu keenaa haliso la mid ah kuwii noocyadii hore, sida soo saarista talo waxyeello leh, koodh cilladaysan, ama macluumaad aan sax ahayn. Hase yeeshee, awoodaha dheeraadka ah ee GPT‑4 waxay horseedaan dusho halis oo cusub. Si aan u fahamno baaxadda halisahan, waxaan ka qaybgelinnay in ka badan 50 khabiir oo ka kala socda qaybo sida halisaha la jaanqaadidda AI, amniga internetka, halista bayooloji, kalsooni iyo badbaado, iyo amniga caalamiga ah si ay noocga ugu tijaabiyaan hab iska-hor-imaad ah. Natiijooyinkoodu waxay si gaar ah noogu suurtageliyeen inaan tijaabino hab-dhaqanka noocga ee aagagga khatarta sare leh ee u baahan khibrad lagu qiimeeyo. Jawaabcelinta iyo xogta ka timid khubaradan waxay quudiyeen yarayntayada iyo hagaajinnadayada noocga; tusaale ahaan, waxaan ururinnay xog dheeraad ah si aan u hagaajinno awoodda GPT‑4 ee uu ku diido codsiyada ku saabsan sida loo sameeyo kiimikooyin khatar ah.
GPT‑4 wuxuu ku daraa tilmaan wanaagsan oo badbaado oo dheeraad ah inta lagu jiro tababarka RLHF si loo yareeyo wax-soo-saarka waxyeellada leh (sida ku qeexan hagitaannada isticmaalka(ku furmaa daaqad cusub)) iyadoo noocga loo tababarayo inuu diido codsiyada nuxurka noocaas ah. Abaalmarinta waxaa bixiya kala-soocaha zero-shot ee GPT‑4 oo qiimeeya xuduudaha badbaadada iyo qaabka completion-ka ee weydiimaha la xiriira badbaadada. Si looga hortago in noocgu diido codsiyo sax ah, waxaan ka ururinnay xog kala duwan ilo kala geddisan (tusaale, xog wax-soo-saar ah oo la calaamadeeyay, human red-teaming, weydiimo uu noocgu sameeyay) waxaana ku dabaqnaa tilmaan wanaagsan ee badbaadada (oo leh qiime togan ama taban) labada qaybood ee la oggol yahay iyo kuwa aan la oggolayn.
Yarayntayadu si weyn ayay u hagaajisay sifooyin badan oo badbaado ee GPT‑4 marka loo eego GPT‑3.5. Waxaan hoos u dhignay u janjeeridda noocga ee ka jawaabista codsiyada nuxurka aan la oggolayn 82% marka loo eego GPT‑3.5, GPT‑4‑na wuxuu uga jawaabaa codsiyada xasaasiga ah (tusaale, talo caafimaad iyo is-dhaawicin) si waafaqsan siyaasadeenna 29% marar badan oo dheeraad ah.
Guud ahaan, faragelinnadayada heerka nooc waxay kordhiyaan adkaanta lagu soo saarayo dhaqan xun, balse weli waa suurtagal in taas la sameeyo. Intaa waxaa dheer, weli waxaa jira “jailbreaks” lagu abuuri karo nuxur jebiya hagitaannada isticmaalka. Maaddaama “halista token-kiiba” ee nidaamyada AI ay kordhayso, waxay noqon doontaa arrin aad muhiim u ah in la gaaro heerar aad u sarreeya oo lagu kalsoonaan karo oo ku saabsan faragelinnadan; hadda waxaa muhiim ah in xaddidaadahan lagu kabo farsamooyin badbaado oo wakhtiga hawlgelinta ah sida la socodka xadgudubka.
GPT‑4 iyo noocyada ka dambeeya waxay awood u leeyihiin inay si weyn u saameeyaan bulshada, si faa’iido leh iyo si waxyeello lehba. Waxaan la shaqaynaynaa cilmi-baarayaal dibadeed si aan u horumarino sida aan u fahamno una qiimeyno saameynaha iman kara, sidoo kalena u dhisno qiimeynno loogu talagalay awoodaha khatarta leh ee laga yaabo inay ka soo baxaan nidaamyada mustaqbalka. Dhawaan waxaan wadaagi doonnaa wax badan oo ka mid ah fikirkeena ku saabsan saameynta bulsho iyo dhaqaale ee iman karta ee GPT‑4 iyo nidaamyada kale ee AI.
Sida noocyadii GPT ee hore, nooca aasaasiga ah ee GPT‑4 waxaa loo tababaray inuu saadaaliyo erayga xiga ee dukumeenti, waxaana lagu tababaray xog dadweynaha loo heli karo (sida xogta internetka) iyo sidoo kale xog aan ruqsad u haysanno. Xogtu waa corpus heer-web ah oo ay ku jiraan xalal sax ah iyo kuwo khaldan oo dhibaatooyinka xisaabta ah, caqliyeyn daciif ah iyo mid xooggan, weedho is-burinaya iyo kuwo is-waafaqsan, isla markaana matalaya ideologies iyo fikrado aad u kala duwan.
Marka la siiyo weydiin su’aal ah, nooca aasaasiga ah wuxuu uga jawaabi karaa siyaabo aad u kala duwan kuwaas oo ka fogaan kara ujeeddada isticmaalaha. Si loogu waafajiyo ujeeddada isticmaalaha xayndaabyo gudahood, waxaan hagaajinnaa hab-dhaqanka noocga annagoo adeegsanayna waxbarashadda xoojinta ah ee ka timaadda jawaabcelinta aadanaha (RLHF).
Ogow in awoodaha noocgu ay u muuqdaan inay ugu horrayn ka yimaadaan geeddi-socodka wejiga hore ee tabbabarka—RLHF ma hagaajiyo waxqabadka imtixaannada (iyada oo aan dadaal firfircoon la gelin, dhab ahaantii wuu dhaawacaa). Laakiin hagista noocga waxay ka timaaddaa geeddi-socodka tababarka ka dambeeya—nooca aasaasiga ahi wuxuu u baahan yahay injineeriyadda weydiinta si uu xitaa u ogaado inay tahay inuu ka jawaabo su’aalaha.
Diiradda weyn ee mashruuca GPT‑4 waxay ahayd dhisidda kayd waxbarasho qoto dheer ah oo si la saadaalin karo u ballaarma. Sababta ugu weyn waa in, orodyada tababarka aadka u waaweyn sida GPT‑4, aanay suurtagal ahayn in la sameeyo hagaajin badan oo gaar u ah noocga. Waxaan horumarinay kaabayaal iyo hagaajin leh dabeecad si weyn loo saadaalin karo oo ka gudubta miisaanno badan. Si aan u xaqiijino ballaarintan, waxaan si sax ah horay ugu saadalinay loss-kii ugu dambeeyay ee GPT‑4 ee saldhiggayaga koodhka gudaha (aan ka mid ahayn xogta tababarka) annagoo ka sii qiyaasnay noocyo lagu tababaray isla habraaca laakiin isticmaalaya xisaabin 10,000x ka yar:
Hadda oo aan si sax ah u saadaalin karno cabbirka aan ku hagaajino inta lagu jiro tababarka (loss), waxaan bilaabaynaa inaan horumarino habab lagu saadaaliyo cabbirro si fudud loo fasiri karo. Tusaale ahaan, waxaan si guul leh u saadalinay heerka gudbidda ee qayb ka mid ah xog-ururinta HumanEval(ku furmaa daaqad cusub), annagoo ka sii qiyaasay noocyo leh xisaabin 1,000x ka yar:
Awoodaha qaarkood wali way adag tahay in la sii saadaaliyo. Tusaale ahaan, Inverse Scaling Prize wuxuu ahaa tartan lagu raadinayay cabbir ka sii xumaada marka xisaabinta noocgu kordho, waxaana dayacaadda hindsight(ku furmaa daaqad cusub) ka mid ahayd kuwii guulaystay. Sida natiijo kale oo dhowaan ah natiijada,(ku furmaa daaqad cusub) GPT‑4 wuxuu rogaa jihadaas:
Waxaan aaminsanahay in si sax ah loo saadaaliyo awoodaha mustaqbalka ee waxbarashada mashiinka ay tahay qayb muhiim ah oo badbaadada ka mid ah oo aan helin ku dhowaad fiiro ku filan marka loo eego saameynteeda iman karta (inkastoo aan ku dhiirrigelnay dadaallada ka socda dhowr hay’adood). Waxaan kordhinaynaa dadaalladeenna si aan u horumarino habab bulshada siinaya hagid wanaagsan oo ku saabsan waxa laga filan karo nidaamyada mustaqbalka, waxaana rajaynaynaa in tani ay noqoto yool guud oo goobtan ka dhex jira.
Waxaan si il-furan u daabacaynaa OpenAI Evals(ku furmaa daaqad cusub), oo ah qaab-dhismeedkayaga software-ka ee lagu abuuro laguna socodsiiyo benchmark-yo lagu qiimeeyo noocyo sida GPT‑4, iyadoo waxqabadkooda loo eegayo muunad kasta. Waxaan u isticmaalnaa Evals si uu u hago horumarinta noocyadayada (labadaba aqoonsiga meelaha gaaban iyo ka hortagga dib-u-dhaca), isticmaalayaasheenuna waxay u adeegsan karaan dabagalka waxqabadka noocyada kala duwan ee noocga (kuwaas oo hadda si joogto ah u soo bixi doona) iyo isdhexgalka alaabooyinka ee isbeddelaya. Tusaale ahaan, Stripe waxay isticmaashay Evals si ay ugu kabto qiimeyntooda bini’aadanka si ay u cabbirto saxnaanta qalabkooda dukumeentiyada ee ku shaqeeya GPT.
Maadaama koodhku gebi ahaanba yahay open-source, Evals wuxuu taageeraa qorista fasallo cusub si loo hirgeliyo caqliyad qiimeyn oo gaar ah(ku furmaa daaqad cusub). Khibraddeena gudaheeda, si kastaba ha ahaatee, benchmark-yo badan waxay raacaan mid ka mid ah dhowr “template,” sidaas darteed waxaan sidoo kale ku darnay template-yada(ku furmaa daaqad cusub) noogu faa’iidada badnaa gudaha (oo ay ku jirto template loogu talagalay “model-graded evals”—waxaan ogaanay in GPT‑4 si la yaab leh u karti u leeyahay hubinta shaqadiisa gaarka ah). Guud ahaan habka ugu wax-ku-oolsan ee loo dhiso eval cusub(ku furmaa daaqad cusub) wuxuu noqon doonaa in la sameeyo instance mid ka mid ah template-yadan iyadoo lala bixinayo xog. Waxaan ku faraxsanahay inaan aragno waxa dadka kale ku dhisi karaan template-yadan iyo Evals guud ahaan.
Waxaan rajaynaynaa in Evals uu noqdo gaadiid lagu wadaago laguna soo ururiyo benchmark-yo, oo metelaya noocyada guuldarrooyinka ugu ballaaran iyo hawlaha adag. Tusaale loo raaco ahaan, waxaan abuurnay eval ah xujooyinka caqliga(ku furmaa daaqad cusub) oo ka kooban toban weydiin oo GPT‑4 ku fashilmo. Evals sidoo kale wuxuu la jaanqaadaa hirgelinta benchmark-yo jira; waxaan ku darnay dhowr notebook(ku furmaa daaqad cusub) oo hirgelinaya benchmark-yo tacliimeed iyo dhowr nooc oo isdhexgal ah oo (qaybo yaryar oo ka mid ah) CoQA(ku furmaa daaqad cusub) ah tusaale ahaan.
Waxaan ku martiqaadaynaa qof walba inuu isticmaalo Evals si uu u tijaabiyo noocyadayada una soo gudbiyo tusaalooyinka ugu xiisaha badan. Waxaan aaminsanahay in Evals uu noqon doono qayb muhiim ah oo ka mid ah geeddi-socodka isticmaalka iyo ku dhisidda dusha noocyadayada, waxaana soo dhoweynaynaa tabarrucaad toos ah, su’aalo, iyo jawaabcelin(ku furmaa daaqad cusub).
Macaamiisha ChatGPT Plus waxay heli doonaan gelitaanka GPT‑4 ee chatgpt.com(ku furmaa daaqad cusub) iyadoo uu jiro xad isticmaal. Waxaan hagaajin doonnaa xadka saxda ah ee isticmaalka iyadoo ku xiran baahida iyo waxqabadka nidaamka marka la eego dhaqanka, balse waxaan filaynaa inaan si aad ah ugu xaddidnaanno awoodda (inkastoo aan kordhin doonno oo aan hagaajin doonno bilaha soo socda).
Iyada oo ku xiran qaababka taraafikada aan aragno, waxaa laga yaabaa inaan soo bandhigno heer rukumasho cusub oo loogu talagalay isticmaalka GPT‑4 ee mugga sare leh; sidoo kale waxaan rajaynaynaa in mar uun aan bixinno qaddar ka mid ah weydiimaha GPT‑4 ee bilaashka ah si kuwa aan rukumashada lahayn ay iyaguna u tijaabiyaan.
Si aad u hesho gelitaanka GPT‑4 API-ga (kaas oo adeegsada isla ChatCompletions API(ku furmaa daaqad cusub) sida gpt-3.5-turbo), fadlan iska diiwaangeli liiskayaga sugitaanka. Waxaan bilaabi doonnaa inaan maanta casuuno qaar ka mid ah horumariyayaasha, waxaana si tartiib ah u ballaarin doonnaa si loo dheellitiro awoodda iyo baahida. Haddii aad tahay cilmi-baare daraaseeya saameynta bulsho ee AI ama arrimaha la jaanqaadidda AI, waxaad sidoo kale codsan kartaa gelitaan la kabay adigoo maraya Barnaamijkeenna Gelitaanka Cilmi-baaraha.
Markaad hesho gelitaanka, waxaad samayn kartaa codsiyo qoraal-keliya ah oo ku socda nooca gpt-4 (gelinnada sawirku wali waxay ku jiraan alpha xaddidan), kaas oo aan si toos ah ugu cusboonaysiin doonno noocayaga xasilloon ee aan ku talinno marka aan sii deyno noocyo cusub waqti ka dib (waxaad ku qabsan kartaa nooca hadda jira adigoo wacaya gpt-4-0314, kaas oo aan taageeri doonno ilaa Juun 14). Qiimuhu waa $0.03 halkii 1k prompt tokens iyo $0.06 halkii 1k completion tokens. Xuduudaha heerka ee caadiga ah waa 40k tokens daqiiqaddii iyo 200 codsi daqiiqaddii.
gpt-4 wuxuu leeyahay dherer context ah oo ah 8,192 tokens. Waxaan sidoo kale bixinaynaa gelitaan xaddidan noocayaga 32,768–context (qiyaastii 50 bog oo qoraal ah), gpt-4-32k, kaas oo sidoo kale si toos ah loo cusboonaysiin doono waqti ka dib (nooca hadda jira gpt-4-32k-0314, kaas oo sidoo kale la taageerayo ilaa Juun 14). Qiimuhu waa $0.06 halkii 1K prompt tokens iyo $0.12 halkii 1k completion tokens. Weli waxaan hagaajinaynaa tayada noocga ee context-ka dheer, waxaana jeclaan lahayn jawaabcelin ku saabsan sida uu ugu shaqeeyo isticmaalkaaga. Waxaan ku socodsiinaynaa codsiyada mishiinnada 8K iyo 32K heerar kala duwan oo ku saleysan awoodda, sidaas darteed waxaa laga yaabaa inaad gelitaanka hesho waqtiyo kala duwan.
Waxaan rajaynaynaa in GPT‑4 uu noqdo qalab qiimo leh oo hagaajiya nolosha dadka isagoo awood siinaya codsiyo badan. Weli shaqo badan ayaa noo taalla, waxaana rajaynaynaa inaan hagaajinno noocan iyada oo loo marayo dadaallada wadajirka ah ee bulshada ku dhisaysa dushiisa, sahaminaysa, kana qayb qaadanaysa noocga.
Wixii dheeraad ah: Akhri maqaalka(ku furmaa daaqad cusub) / Eeg kaarka siistamka(ku furmaa daaqad cusub) / Ku tijaabi ChatGPT Plus(ku furmaa daaqad cusub) / Ku tijaabi Playground(ku furmaa daaqad cusub) / Dib u daawo livestream-ka demo-ga(ku furmaa daaqad cusub) / Ka qayb qaado OpenAI Evals(ku furmaa daaqad cusub)
Tusaale su’aalaha MMLU ah, oo loo turjumay luqado kale. Ogow, waxaan isticmaalnaa token-yo xulasho oo joogto ah (A–D):
Qoraallo-hoosaadyo
- A
Waxaan benchmark-gan ku qiimeynaa annagoo adeegsanayna weydiinta Chain-Of-Thought oo leh 4 tusaale oo ka socda xogta tababarka gudaha context-ka. Weydiinta gaarka ah waxaa lagu hagaajiyay set-ka validation-ka.
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(ku furmaa daaqad cusub).


