Издвајање концепата из GPT‑4
Користили смо нове скалабилне методе да разложимо унутрашње репрезентације GPT‑4 на 16 милиона често интерпретабилних образаца.
Тренутно не разумемо како да протумачимо неуронску активност унутар језичких модела. Данас делимо унапређене методе за проналажење великог броја „карактеристика“ — образаца активности за које се надамо да су разумљиви људима. Наше методе се боље скалирају од постојећих радова, и користимо их да пронађемо 16 милиона карактеристика у GPT‑4. Са истраживачком заједницом делимо рад(отвара се у новом прозору), код(отвара се у новом прозору) и визуелизације карактеристика(отвара се у новом прозору) како бисмо подстакли даље истраживање.
За разлику од већине људских творевина, ми заправо не разумемо унутрашњи рад неуронских мрежа. На пример, инжењери могу директно да пројектују, процене и поправе аутомобиле на основу спецификација њихових компоненти, обезбеђујући безбедност и перформансе. Међутим, неуронске мреже се не пројектују директно; уместо тога, ми пројектујемо алгоритме који их обучавају. Настале мреже нису добро схваћене и не могу се лако рашчланити на препознатљиве делове. То значи да не можемо да расуђујемо о безбедности AI на исти начин као што расуђујемо о нечему попут безбедности аутомобила.
Да бисмо разумели и интерпретирали неуронске мреже, прво морамо да пронађемо корисне градивне елементе за неуронске прорачуне. Нажалост, неуронске активације унутар језичког модела активирају се по непредвидивим обрасцима, наизглед представљајући много концепата истовремено. Оне се такође активирају густо, што значи да се свака активација увек окида на сваком улазу. Али концепти из стварног света су веома ретки — у било ком датом контексту, само је мали део свих концепата релевантан. То мотивише употребу ретких аутоенкодера, методе за идентификовање неколицине „карактеристика“ у неуронској мрежи које су важне за производњу било ког датог излаза, слично малом скупу концепата које би особа могла имати на уму док резонује о некој ситуацији. Њихове карактеристике показују ретке обрасце активације који се природно усклађују са концептима које је људима лако да разумеју, чак и без директних подстицаја за интерпретабилност.

Међутим, и даље постоје озбиљни изазови у обучавању ретких аутоенкодера. Велики језички модели представљају огроман број концепата, а наши аутоенкодери ће можда морати да буду сразмерно огромни да би се приближили потпуној покривености концепата у граничном моделу. Учење великог броја ретких карактеристика је изазовно, а није показано да се претходни радови добро скалирају.
Развили смо нове, најсавременије методологије које нам омогућавају да наше ретке аутоенкодере скалирамо на десетине милиона карактеристика на граничним AI моделима. Утврдили смо да наша методологија показује глатко и предвидиво скалирање, са бољим ефектима повећања обима него претходне технике. Уводимо и неколико нових метрика за процену квалитета карактеристика.
Користили смо наш приступ да обучимо различите аутоенкодере на активацијама GPT‑2 small и GPT‑4, укључујући аутоенкодер са 16 милиона карактеристика на GPT‑4. Да бисмо проверили интерпретабилност карактеристика, визуализујемо дату карактеристику приказивањем докумената у којима се она активира. Ево неких интерпретабилних карактеристика које смо пронашли:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Погледајте цео визуелни приказ(отвара се у новом прозору)Пронашли смо и многе друге занимљиве карактеристике, које можете прегледати овде(отвара се у новом прозору).
Узбуђени смо што би интерпретабилност временом могла да повећа поузданост модела и могућност њиховог усмеравања. Међутим, ово је и даље рани рад са многим ограничењима:
- Као и у претходним радовима, многе откривене карактеристике су и даље тешке за интерпретацију, при чему се многе активирају без јасног обрасца или показују лажне активације које нису повезане са концептом који изгледа да обично кодирају. Поред тога, немамо добре начине да проверимо валидност интерпретација.
- Ретки аутоенкодер не обухвата целокупно понашање оригиналног модела. Тренутно, пропуштање активација GPT‑4 кроз ретки аутоенкодер даје перформансе еквивалентне моделу обученом са отприлике 10x мање рачунарских ресурса. Да бисмо у потпуности мапирали концепте у граничним великим језичким моделима (LLM), можда ћемо морати да скалирамо на милијарде или билионе карактеристика, што би било изазовно чак и уз наше побољшане технике скалирања.
- Ретки аутоенкодери могу да пронађу карактеристике у једној тачки модела, али то је само један корак ка интерпретацији модела. Потребно је још много рада да би се разумело како модел израчунава те карактеристике и како се те карактеристике даље користе у остатку модела.
Иако је истраживање ретких аутоенкодера узбудљиво, пред нама је дуг пут са многим нерешеним изазовима. Краткорочно, надамо се да карактеристике које смо пронашли могу бити практично корисне за праћење и усмеравање понашања језичких модела и планирамо да то тестирамо на нашим граничним моделима. На крају, надамо се да интерпретабилност једног дана може да нам пружи нове начине да расуђујемо о безбедности и робусности модела и значајно повећа наше поверење у моћне AI моделе пружајући снажне гаранције о њиховом понашању.
Данас делимо рад(отвара се у новом прозору) који детаљно описује наше експерименте и методе, за који се надамо да ће истраживачима олакшати обучавање аутоенкодера у великом обиму. Објављујемо комплетан скуп аутоенкодера за GPT‑2 small, заједно са кодом(отвара се у новом прозору) за њихово коришћење и визуелизатором карактеристика(отвара се у новом прозору) да би се стекао утисак о томе чему карактеристике GPT‑2 и GPT‑4 могу одговарати.
Аутори
Захвалнице
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman