Ka-soo-saarista fikradaha GPT‑4
Waxaan adeegsanay habab cusub oo la ballaarin karo si aan ugu kala jabinno matalaadaha gudaha ee GPT‑4 16 milyan oo qaabab ah oo badanaa la fasiri karo.
Hadda si wanaagsan uma fahamsanin sida loo macneeyo firfircoonida neerfaha ee ku dhex jirta noocyada luuqadda. Maanta, waxaan wadaagaynaa habab la hagaajiyay oo lagu helo tiro badan oo “sifooyin” ah—qaabab firfircooni oo aan rajaynayno inay dadku fasiri karaan. Hababkayagu way ka sii fiican yihiin shaqadii hore marka la ballaarinayo, waxaanan u adeegsannay inaan ku helno 16 milyan oo sifooyin ah GPT‑4. Waxaan la wadaagaynaa bulshada cilmi-baarista waraaq(ku furmaa daaqad cusub), kood(ku furmaa daaqad cusub), iyo muuqaalaynno sifooyin(ku furmaa daaqad cusub) si loo dhiirrigeliyo sahamin dheeraad ah.
Si ka duwan inta badan waxyaabaha aadamuhu sameeyo, dhab ahaantii ma fahamsanin sida ay u shaqeeyaan gudaha shabakadaha neerfaha. Tusaale ahaan, injineerradu si toos ah ayay u naqshadayn karaan, u qiimeyn karaan, una sixi karaan baabuurta iyagoo ku salaynaya tilmaamaha qaybaha ay ka kooban yihiin, si loo hubiyo badbaado iyo waxqabad. Si kastaba ha ahaatee, shabakadaha neerfaha si toos ah looma naqshadeeyo; taa beddelkeeda waxaan naqshadeynaa algoriimyada tababara. Shabakadaha ka dhasha si fiican looma fahmin, mana sahlana in loo kala jabiyo qaybo la aqoonsan karo. Tani waxay ka dhigan tahay in aannaan uga caqliyeyn karin badbaadada AI si la mid ah sida aan uga caqliyeyno wax la mid ah badbaadada baabuurta.
Si aan u fahamno oo u fasirno shabakadaha neerfaha, marka hore waa inaan helnaa unugyo dhismeed waxtar leh oo loogu talagalay xisaabaha neerfaha. Nasiib darro, firfircoonaanada neerfaha ee gudaha nooca luuqadda waxay ku hawlgalaan qaabab aan la saadaalin karin, iyagoo u muuqda inay matalayaan fikrado badan isku mar. Waxay sidoo kale si cufan u hawlgalaan, taasoo la micno ah in hawlgelin kastaa ay mar walba shaqaynayso gelin kasta. Laakiin fikradaha dunida dhabta ahi aad bay u sparse yihiin—in xaalad kasta oo gaar ah, qayb yar oo keliya oo ka mid ah fikradaha oo dhan ayaa khusaysa. Tani waxay dhiirrigelinaysaa isticmaalka sparse autoencoders, hab lagu aqoonsado tiro yar oo ah “sifooyin” ku jira shabakadda neerfaha kuwaas oo muhiim u ah soo saarista natiijo kasta oo la siiyo, kuwaas oo la mid ah tiro yar oo fikrado ah oo qof maskaxda ku hayo marka uu xaalad ka caqliyeynayo. Sifooyinkoodu waxay muujiyaan qaabab hawlgelin oo sparse ah oo si dabiici ah ula jaanqaadaya fikrado ay dadku si fudud u fahmi karaan, xitaa iyada oo aan si toos ah loogu dhiirrigelin fasiraad-sahlanaanta.

Si kastaba ha ahaatee, weli waxaa jira caqabado culus oo ku xeeran tababarka sparse autoencoders. Noocyada luuqadda ballaaran waxay matalaan tiro aad u badan oo fikrado ah, autoencoders-keennuna waxaa laga yaabaa inay u baahdaan inay sidaas oo kale aad u waaweynaadaan si ay ugu dhowaadaan daboolista buuxda ee fikradaha ku jira nooc AI ugu casriyeysan. Barashada tiro badan oo sifooyin sparse ah waa adag tahay, shaqadii horena laguma muujin inay si wanaagsan u ballaarin karto.
Waxaan samaynay habab cusub oo heerka ugu sarreeya ah kuwaas oo noo oggolaanaya inaan sparse autoencoders-keenna ku ballaarinno tobannaan milyan oo sifooyin ah oo ku jira noocyada AI ee ugu casriyeysan. Waxaan ogaanay in habkayagu muujinayo ballaarin siman oo la saadaalin karo, isla markaana uu ka soo celin fiican leeyahay ballaarinta marka loo eego farsamooyinkii hore. Waxaan sidoo kale soo bandhignay cabbirro cusub oo dhowr ah oo lagu qiimeeyo tayada sifada.
Waxaan adeegsanay habkayaga si aan u tababarno autoencoders kala duwan oo ku saabsan firfircoonaanta GPT‑2 small iyo GPT‑4, oo ay ku jirto autoencoder leh 16 milyan oo sifooyin ah oo ku socda GPT‑4. Si aan u hubinno sida sifooyinka loo fasiri karo, waxaan sawir ahaan u muujinnaa sifo gaar ah annagoo tusayna dukumentiyada ay ka hawlgasho. Waa kuwan qaar ka mid ah sifooyinka la fasiri karo ee aan helnay:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Eeg muuqaalkan oo dhan(ku furmaa daaqad cusub)Waxaan helnay sifooyin kale oo badan oo xiiso leh, kuwaas oo aad halkan ka daalacan karto(ku furmaa daaqad cusub).
Waxaan ku faraxsanahay in fasiraaddu ay ugu dambayn kordhin doonto kalsoonida nooca iyo hagitaankiisa. Hase yeeshee, tani weli waa shaqo hore oo leh xaddidaado badan:
- Sida shaqooyinkii hore, qaar badan oo ka mid ah sifooyinka la helay weli way adag tahay in la fasirto, iyadoo kuwo badani hawlgalaan iyada oo aan lahayn qaab cad ama ay muujiyaan hawlgelinno marin-habaabin ah oo aan la xiriirin fikradda ay sida caadiga ah u xafidaan. Intaa waxaa dheer, ma hayno habab wanaagsan oo lagu hubiyo saxnimada fasiraadaha.
- Sparse autoencoder-ku ma qabto dhammaan hab-dhaqanka nooca asalka ah. Hadda, marka firfircoonaanada GPT‑4 la mariyo sparse autoencoder-ka, waxay keentaa waxqabad u dhigma nooc lagu tababaray qiyaastii 10x xisaabin ka yar. Si si buuxda loo khariideeyo fikradaha ku jira LLM-yada ugu casrisan, waxaa laga yaabaa inaan u baahanno inaan gaarsiino balaayiin ama tiriliyan sifooyin ah, taas oo adkaan lahayd xitaa iyadoo la adeegsanayo farsamooyinkeenna la hagaajiyay ee ballaarinta.
- Sparse autoencoders waxay heli karaan sifooyin hal meel oo ka mid ah nooca, laakiin taasi waa hal tallaabo oo keliya oo loo qaaday dhanka fasiraadda nooca. Shaqo aad uga badan ayaa loo baahan yahay si loo fahmo sida noocu u xisaabiyo sifooyinkaas iyo sida sifooyinkaas looga isticmaalo qaybaha dambe ee nooca intiisa kale.
In kasta oo cilmi-baarista sparse autoencoder ay xiiso leedahay, haddana waxaa hor yaal waddo dheer oo leh caqabado badan oo aan weli xal loo helin. Muddada dhow, waxaan rajaynaynaa in sifooyinka aan helnay ay si wax ku ool ah ugu anfici karaan la socodka iyo hagista dabeecadaha nooca luuqadda, waxaana qorshaynaynaa inaan tan ku tijaabino noocyadayada AI ee ugu casriyeysan. Ugu dambayn, waxaan rajaynaynaa in maalin uun fasiraaddu ay na siin karto habab cusub oo aan uga caqliyeyno badbaadada nooca iyo adkaysigiisa, isla markaana ay si weyn u kordhiso kalsoonida aan ku qabno noocyada AI ee awoodda badan iyadoo na siinaysa dammaanado xooggan oo ku saabsan hab-dhaqankooda.
Maanta, waxaan wadaagaynaa waraaq(ku furmaa daaqad cusub) si faahfaahsan uga hadlaysa tijaabooyinkayaga iyo hababkayaga, taas oo aan rajaynayno inay u fududayn doonto cilmi-baarayaasha inay ku tababaraan autoencoders cabbir weyn. Waxaan sii deynaynaa xirmo dhammaystiran oo autoencoders ah oo loogu talagalay GPT‑2 small, oo ay la socoto kood(ku furmaa daaqad cusub) lagu isticmaalo, iyo muujiyaha sifada(ku furmaa daaqad cusub) si loo helo dareen ku saabsan waxa ay sifooyinka GPT‑2 iyo GPT‑4 u dhigmaan.
Qorayaal
Mahadcelin
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman