L-estratt ta’ kunċetti minn GPT‑4
Użajna metodi ġodda skalabbli biex niddikomponu r-rappreżentazzjonijiet interni ta’ GPT‑4 f’16-il miljun xejra spiss interpretabbli.
Bħalissa għadna ma nifhmux kif nagħmlu sens mill-attività newrali ġewwa l-mudelli tal-lingwa. Illum, qed naqsmu metodi mtejba biex insibu numru kbir ta’ “karatteristiċi”—xejriet ta’ attività li nittamaw li jistgħu jinftiehmu mill-bnedmin. Il-metodi tagħna jiskalaw aħjar mix-xogħol eżistenti, u nużawhom biex insibu 16-il miljun karatteristika f’GPT‑4. Qed naqsmu paper(jinfetaħ f’tieqa ġdida), kodiċi(jinfetaħ f’tieqa ġdida), u viżwalizzazzjonijiet tal-karatteristiċi(jinfetaħ f’tieqa ġdida) mal-komunità tar-riċerka biex inħeġġu aktar esplorazzjoni.
B’differenza mill-biċċa l-kbira tal-ħolqien tal-bniedem, fil-fatt ma nifhmux sew il-ħidma interna tan-networks newrali. Pereżempju, l-inġiniera jistgħu jiddisinjaw, jevalwaw u jsewwu karozzi direttament abbażi tal-ispeċifikazzjonijiet tal-komponenti tagħhom, u b’hekk jiżguraw is-sigurtà u l-prestazzjoni. Madankollu, in-networks newrali ma jiġux iddisinjati direttament; minflok niddisinjaw l-algoritmi li jħarrġuhom. In-networks li jirriżultaw mhumiex mifhuma sew u ma jistgħux jinqasmu faċilment f’partijiet identifikabbli. Dan ifisser li ma nistgħux nirraġunaw dwar is-sigurtà tal-AI bl-istess mod kif nirraġunaw dwar xi ħaġa bħas-sigurtà tal-karozzi.
Sabiex nifhmu u ninterpretaw in-networks newrali, l-ewwel irridu nsibu blokki bażiċi utli għall-kalkoli newrali. Sfortunatament, l-attivazzjonijiet newrali ġewwa mudell tal-lingwa jattivaw b’xejriet imprevedibbli, qishom jirrappreżentaw ħafna kunċetti fl-istess ħin. Jattivaw ukoll b’mod dens, jiġifieri kull attivazzjoni tkun dejjem qed tispara fuq kull input. Iżda l-kunċetti tad-dinja reali huma skarsi ħafna—f’kuntest partikolari, biss frazzjoni żgħira tal-kunċetti kollha tkun rilevanti. Dan jimmotiva l-użu ta’ sparse autoencoders, metodu biex jiġu identifikati numru żgħir ta’ “karatteristiċi” fin-network newrali li huma importanti biex jiġi prodott output partikolari, simili għas-sett żgħir ta’ kunċetti li persuna jista’ jkollha f’moħħha meta tirraġuna dwar sitwazzjoni. Il-karatteristiċi tagħhom juru xejriet ta’ attivazzjoni skarsa li jallinjaw b’mod naturali ma’ kunċetti faċli biex il-bnedmin jifhmuhom, anke mingħajr inċentivi diretti għall-interpretabbiltà.

Madankollu, għad hemm sfidi serji għat-taħriġ ta’ sparse autoencoders. Mudelli kbar tal-lingwa jirrappreżentaw għadd enormi ta’ kunċetti, u l-autoencoders tagħna jaf ikollhom bżonn ikunu enormi b’mod korrispondenti biex jersqu lejn kopertura kważi sħiħa tal-kunċetti f’mudell fruntiera. It-tagħlim ta’ numru kbir ta’ karatteristiċi skarsi huwa ta’ sfida, u xogħol preċedenti ma weriex li jiskala tajjeb.
Żviluppajna metodoloġiji ġodda mill-aqwa li jippermettulna niskalaw l-isparse autoencoders tagħna għal għexieren ta’ miljuni ta’ karatteristiċi fuq mudelli ta’ AI fruntiera. Sibna li l-metodoloġija tagħna turi skalar bla xkiel u prevedibbli, b’qligħ aħjar mill-iskala minn tekniki preċedenti. Nintroduċu wkoll diversi metriċi ġodda biex nevalwaw il-kwalità tal-karatteristiċi.
Użajna r-riċetta tagħna biex inħarrġu varjetà ta’ autoencoders fuq attivazzjonijiet ta’ GPT‑2 small u GPT‑4, inkluż autoencoder b’16-il miljun karatteristika fuq GPT‑4. Biex nivverifikaw l-interpretabbiltà tal-karatteristiċi, nivviżwalizzaw karatteristika partikolari billi nuru dokumenti fejn tattiva. Hawn xi karatteristiċi interpretabbli li sibna:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Ara l-viżwalizzazzjoni sħiħa(jinfetaħ f’tieqa ġdida)Sibna ħafna karatteristiċi interessanti oħra, li tista’ tara hawn(jinfetaħ f’tieqa ġdida).
Aħna eċċitati li l-interpretabbiltà eventwalment iżżid l-affidabbiltà u l-kontrollabbiltà tal-mudell. Madankollu, dan għadu xogħol bikri b’ħafna limitazzjonijiet:
- Bħal xogħlijiet preċedenti, ħafna mill-karatteristiċi skoperti għadhom diffiċli biex jiġu interpretati, b’ħafna jattivaw mingħajr xejra ċara jew juru attivazzjonijiet spurji mhux relatati mal-kunċett li jidher li normalment jikkodifikaw. Barra minn hekk, m’għandniex modi tajbin biex nivverifikaw il-validità tal-interpretazzjonijiet.
- Is-sparse autoencoder ma jaqbadx l-imġiba kollha tal-mudell oriġinali. Bħalissa, li tgħaddi l-attivazzjonijiet ta’ GPT‑4 mis-sparse autoencoder twassal għal prestazzjoni ekwivalenti għal mudell imħarreġ b’madwar 10x inqas compute. Biex immappjaw bis-sħiħ il-kunċetti fil-LLMs fruntiera, jista’ jkollna bżonn niskalaw għal biljuni jew triljuni ta’ karatteristiċi, li jkun ta’ sfida anke bit-tekniki mtejba tagħna tal-iskalar.
- Sparse autoencoders jistgħu jsibu karatteristiċi f’punt wieħed fil-mudell, iżda dak hu biss pass wieħed lejn l-interpretazzjoni tal-mudell. Jeħtieġ ħafna aktar xogħol biex nifhmu kif il-mudell jikkalkula dawk il-karatteristiċi u kif dawk il-karatteristiċi jintużaw aktar ’il quddiem fil-bqija tal-mudell.
Għalkemm ir-riċerka fuq sparse autoencoders hija eċċitanti, għad hemm triq twila quddiemna b’ħafna sfidi mhux solvuti. Fuq terminu qasir, nittamaw li l-karatteristiċi li sibna jistgħu jkunu utli fil-prattika għall-monitoraġġ u d-direzzjoni tal-imġibiet tal-mudelli tal-lingwa u qed nippjanaw li nittestjaw dan fil-mudelli fruntiera tagħna. Fl-aħħar mill-aħħar, nittamaw li xi darba l-interpretabbiltà tista’ tagħtina modi ġodda kif nirraġunaw dwar is-sigurtà u r-robustezza tal-mudell, u żżid b’mod sinifikanti l-fiduċja tagħna f’mudelli qawwija ta’ AI billi tipprovdi assigurazzjonijiet b’saħħithom dwar l-imġiba tagħhom.
Illum, qed naqsmu paper(jinfetaħ f’tieqa ġdida) li jiddettalja l-esperimenti u l-metodi tagħna, li nittamaw jagħmilha aktar faċli għar-riċerkaturi biex iħarrġu autoencoders fuq skala kbira. Qed noħorġu suite sħiħa ta’ autoencoders għal GPT‑2 small, flimkien ma’ kodiċi(jinfetaħ f’tieqa ġdida) għall-użu tagħhom, u il-viżwalizzatur tal-karatteristiċi(jinfetaħ f’tieqa ġdida) biex tingħata idea ta’ ma’ xiex jistgħu jikkorrispondu l-karatteristiċi ta’ GPT‑2 u GPT‑4.
Awturi
Ringrazzjamenti
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman