6 ta’ Ġunju 2024

L-estratt ta’ kunċetti minn GPT‑4

Użajna metodi ġodda skalabbli biex niddikomponu r-rappreżentazzjonijiet interni ta’ GPT‑4 f’16-il miljun xejra spiss interpretabbli.

Aqra l-paper Aqra l-kodiċi Ara l-karatteristiċi

Qed jillowdja…

Bħalissa għadna ma nifhmux kif nagħmlu sens mill-attività newrali ġewwa l-mudelli tal-lingwa. Illum, qed naqsmu metodi mtejba biex insibu numru kbir ta’ “karatteristiċi”—xejriet ta’ attività li nittamaw li jistgħu jinftiehmu mill-bnedmin. Il-metodi tagħna jiskalaw aħjar mix-xogħol eżistenti, u nużawhom biex insibu 16-il miljun karatteristika f’GPT‑4. Qed naqsmu paper⁠(jinfetaħ f’tieqa ġdida), kodiċi⁠(jinfetaħ f’tieqa ġdida), u viżwalizzazzjonijiet tal-karatteristiċi⁠(jinfetaħ f’tieqa ġdida) mal-komunità tar-riċerka biex inħeġġu aktar esplorazzjoni.

L-isfida tal-interpretazzjoni tan-networks newrali

B’differenza mill-biċċa l-kbira tal-ħolqien tal-bniedem, fil-fatt ma nifhmux sew il-ħidma interna tan-networks newrali. Pereżempju, l-inġiniera jistgħu jiddisinjaw, jevalwaw u jsewwu karozzi direttament abbażi tal-ispeċifikazzjonijiet tal-komponenti tagħhom, u b’hekk jiżguraw is-sigurtà u l-prestazzjoni. Madankollu, in-networks newrali ma jiġux iddisinjati direttament; minflok niddisinjaw l-algoritmi li jħarrġuhom. In-networks li jirriżultaw mhumiex mifhuma sew u ma jistgħux jinqasmu faċilment f’partijiet identifikabbli. Dan ifisser li ma nistgħux nirraġunaw dwar is-sigurtà tal-AI bl-istess mod kif nirraġunaw dwar xi ħaġa bħas-sigurtà tal-karozzi.

Sabiex nifhmu u ninterpretaw in-networks newrali, l-ewwel irridu nsibu blokki bażiċi utli għall-kalkoli newrali. Sfortunatament, l-attivazzjonijiet newrali ġewwa mudell tal-lingwa jattivaw b’xejriet imprevedibbli, qishom jirrappreżentaw ħafna kunċetti fl-istess ħin. Jattivaw ukoll b’mod dens, jiġifieri kull attivazzjoni tkun dejjem qed tispara fuq kull input. Iżda l-kunċetti tad-dinja reali huma skarsi ħafna—f’kuntest partikolari, biss frazzjoni żgħira tal-kunċetti kollha tkun rilevanti. Dan jimmotiva l-użu ta’ sparse autoencoders, metodu biex jiġu identifikati numru żgħir ta’ “karatteristiċi” fin-network newrali li huma importanti biex jiġi prodott output partikolari, simili għas-sett żgħir ta’ kunċetti li persuna jista’ jkollha f’moħħha meta tirraġuna dwar sitwazzjoni. Il-karatteristiċi tagħhom juru xejriet ta’ attivazzjoni skarsa li jallinjaw b’mod naturali ma’ kunċetti faċli biex il-bnedmin jifhmuhom, anke mingħajr inċentivi diretti għall-interpretabbiltà.

Dijagramma li turi l-Sparse autoencoder jikkodifika u jiddekodifika attivazzjonijiet newrali densi f’karatteristiċi skarsi.

Madankollu, għad hemm sfidi serji għat-taħriġ ta’ sparse autoencoders. Mudelli kbar tal-lingwa jirrappreżentaw għadd enormi ta’ kunċetti, u l-autoencoders tagħna jaf ikollhom bżonn ikunu enormi b’mod korrispondenti biex jersqu lejn kopertura kważi sħiħa tal-kunċetti f’mudell fruntiera. It-tagħlim ta’ numru kbir ta’ karatteristiċi skarsi huwa ta’ sfida, u xogħol preċedenti ma weriex li jiskala tajjeb.

Il-progress tar-riċerka tagħna: taħriġ ta’ autoencoder fuq skala kbira

Żviluppajna metodoloġiji ġodda mill-aqwa li jippermettulna niskalaw l-isparse autoencoders tagħna għal għexieren ta’ miljuni ta’ karatteristiċi fuq mudelli ta’ AI fruntiera. Sibna li l-metodoloġija tagħna turi skalar bla xkiel u prevedibbli, b’qligħ aħjar mill-iskala minn tekniki preċedenti. Nintroduċu wkoll diversi metriċi ġodda biex nevalwaw il-kwalità tal-karatteristiċi.

Użajna r-riċetta tagħna biex inħarrġu varjetà ta’ autoencoders fuq attivazzjonijiet ta’ GPT‑2 small u GPT‑4, inkluż autoencoder b’16-il miljun karatteristika fuq GPT‑4. Biex nivverifikaw l-interpretabbiltà tal-karatteristiċi, nivviżwalizzaw karatteristika partikolari billi nuru dokumenti fejn tattiva. Hawn xi karatteristiċi interpretabbli li sibna:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Ara l-viżwalizzazzjoni sħiħa

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Sibna ħafna karatteristiċi interessanti oħra, li tista’ tara hawn⁠(jinfetaħ f’tieqa ġdida).

Limitazzjonijiet

Aħna eċċitati li l-interpretabbiltà eventwalment iżżid l-affidabbiltà u l-kontrollabbiltà tal-mudell. Madankollu, dan għadu xogħol bikri b’ħafna limitazzjonijiet:

Bħal xogħlijiet preċedenti, ħafna mill-karatteristiċi skoperti għadhom diffiċli biex jiġu interpretati, b’ħafna jattivaw mingħajr xejra ċara jew juru attivazzjonijiet spurji mhux relatati mal-kunċett li jidher li normalment jikkodifikaw. Barra minn hekk, m’għandniex modi tajbin biex nivverifikaw il-validità tal-interpretazzjonijiet.
Is-sparse autoencoder ma jaqbadx l-imġiba kollha tal-mudell oriġinali. Bħalissa, li tgħaddi l-attivazzjonijiet ta’ GPT‑4 mis-sparse autoencoder twassal għal prestazzjoni ekwivalenti għal mudell imħarreġ b’madwar 10x inqas compute. Biex immappjaw bis-sħiħ il-kunċetti fil-LLMs fruntiera, jista’ jkollna bżonn niskalaw għal biljuni jew triljuni ta’ karatteristiċi, li jkun ta’ sfida anke bit-tekniki mtejba tagħna tal-iskalar.
Sparse autoencoders jistgħu jsibu karatteristiċi f’punt wieħed fil-mudell, iżda dak hu biss pass wieħed lejn l-interpretazzjoni tal-mudell. Jeħtieġ ħafna aktar xogħol biex nifhmu kif il-mudell jikkalkula dawk il-karatteristiċi u kif dawk il-karatteristiċi jintużaw aktar ’il quddiem fil-bqija tal-mudell.

Ħarsa ’l quddiem, u nagħmlu r-riċerka tagħna open source

Għalkemm ir-riċerka fuq sparse autoencoders hija eċċitanti, għad hemm triq twila quddiemna b’ħafna sfidi mhux solvuti. Fuq terminu qasir, nittamaw li l-karatteristiċi li sibna jistgħu jkunu utli fil-prattika għall-monitoraġġ u d-direzzjoni tal-imġibiet tal-mudelli tal-lingwa u qed nippjanaw li nittestjaw dan fil-mudelli fruntiera tagħna. Fl-aħħar mill-aħħar, nittamaw li xi darba l-interpretabbiltà tista’ tagħtina modi ġodda kif nirraġunaw dwar is-sigurtà u r-robustezza tal-mudell, u żżid b’mod sinifikanti l-fiduċja tagħna f’mudelli qawwija ta’ AI billi tipprovdi assigurazzjonijiet b’saħħithom dwar l-imġiba tagħhom.

Illum, qed naqsmu paper⁠(jinfetaħ f’tieqa ġdida) li jiddettalja l-esperimenti u l-metodi tagħna, li nittamaw jagħmilha aktar faċli għar-riċerkaturi biex iħarrġu autoencoders fuq skala kbira. Qed noħorġu suite sħiħa ta’ autoencoders għal GPT‑2 small, flimkien ma’ kodiċi⁠(jinfetaħ f’tieqa ġdida) għall-użu tagħhom, u il-viżwalizzatur tal-karatteristiċi⁠(jinfetaħ f’tieqa ġdida) biex tingħata idea ta’ ma’ xiex jistgħu jikkorrispondu l-karatteristiċi ta’ GPT‑2 u GPT‑4.

Awturi

Jeffrey Wu, Leo Gao, Tom Dupré la Tour, u Henk Tillman

Ringrazzjamenti

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman