6. јун 2024.

Издвајање концепата из GPT‑4

Користили смо нове скалабилне методе да разложимо унутрашње репрезентације GPT‑4 на 16 милиона често интерпретабилних образаца.

Прочитајте рад Прочитајте код Прегледајте карактеристике

Учитавање…

Тренутно не разумемо како да протумачимо неуронску активност унутар језичких модела. Данас делимо унапређене методе за проналажење великог броја „карактеристика“ — образаца активности за које се надамо да су разумљиви људима. Наше методе се боље скалирају од постојећих радова, и користимо их да пронађемо 16 милиона карактеристика у GPT‑4. Са истраживачком заједницом делимо рад⁠(отвара се у новом прозору), код⁠(отвара се у новом прозору) и визуелизације карактеристика⁠(отвара се у новом прозору) како бисмо подстакли даље истраживање.

Изазов интерпретације неуронских мрежа

За разлику од већине људских творевина, ми заправо не разумемо унутрашњи рад неуронских мрежа. На пример, инжењери могу директно да пројектују, процене и поправе аутомобиле на основу спецификација њихових компоненти, обезбеђујући безбедност и перформансе. Међутим, неуронске мреже се не пројектују директно; уместо тога, ми пројектујемо алгоритме који их обучавају. Настале мреже нису добро схваћене и не могу се лако рашчланити на препознатљиве делове. То значи да не можемо да расуђујемо о безбедности AI на исти начин као што расуђујемо о нечему попут безбедности аутомобила.

Да бисмо разумели и интерпретирали неуронске мреже, прво морамо да пронађемо корисне градивне елементе за неуронске прорачуне. Нажалост, неуронске активације унутар језичког модела активирају се по непредвидивим обрасцима, наизглед представљајући много концепата истовремено. Оне се такође активирају густо, што значи да се свака активација увек окида на сваком улазу. Али концепти из стварног света су веома ретки — у било ком датом контексту, само је мали део свих концепата релевантан. То мотивише употребу ретких аутоенкодера, методе за идентификовање неколицине „карактеристика“ у неуронској мрежи које су важне за производњу било ког датог излаза, слично малом скупу концепата које би особа могла имати на уму док резонује о некој ситуацији. Њихове карактеристике показују ретке обрасце активације који се природно усклађују са концептима које је људима лако да разумеју, чак и без директних подстицаја за интерпретабилност.

Дијаграм који приказује како ретки аутоенкодер кодира и декодира густе неуронске активације у ретке карактеристике.

Међутим, и даље постоје озбиљни изазови у обучавању ретких аутоенкодера. Велики језички модели представљају огроман број концепата, а наши аутоенкодери ће можда морати да буду сразмерно огромни да би се приближили потпуној покривености концепата у граничном моделу. Учење великог броја ретких карактеристика је изазовно, а није показано да се претходни радови добро скалирају.

Наш истраживачки напредак: обучавање аутоенкодера у великом обиму

Развили смо нове, најсавременије методологије које нам омогућавају да наше ретке аутоенкодере скалирамо на десетине милиона карактеристика на граничним AI моделима. Утврдили смо да наша методологија показује глатко и предвидиво скалирање, са бољим ефектима повећања обима него претходне технике. Уводимо и неколико нових метрика за процену квалитета карактеристика.

Користили смо наш приступ да обучимо различите аутоенкодере на активацијама GPT‑2 small и GPT‑4, укључујући аутоенкодер са 16 милиона карактеристика на GPT‑4. Да бисмо проверили интерпретабилност карактеристика, визуализујемо дату карактеристику приказивањем докумената у којима се она активира. Ево неких интерпретабилних карактеристика које смо пронашли:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Погледајте цео визуелни приказ

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Пронашли смо и многе друге занимљиве карактеристике, које можете прегледати овде⁠(отвара се у новом прозору).

Ограничења

Узбуђени смо што би интерпретабилност временом могла да повећа поузданост модела и могућност њиховог усмеравања. Међутим, ово је и даље рани рад са многим ограничењима:

Као и у претходним радовима, многе откривене карактеристике су и даље тешке за интерпретацију, при чему се многе активирају без јасног обрасца или показују лажне активације које нису повезане са концептом који изгледа да обично кодирају. Поред тога, немамо добре начине да проверимо валидност интерпретација.
Ретки аутоенкодер не обухвата целокупно понашање оригиналног модела. Тренутно, пропуштање активација GPT‑4 кроз ретки аутоенкодер даје перформансе еквивалентне моделу обученом са отприлике 10x мање рачунарских ресурса. Да бисмо у потпуности мапирали концепте у граничним великим језичким моделима (LLM), можда ћемо морати да скалирамо на милијарде или билионе карактеристика, што би било изазовно чак и уз наше побољшане технике скалирања.
Ретки аутоенкодери могу да пронађу карактеристике у једној тачки модела, али то је само један корак ка интерпретацији модела. Потребно је још много рада да би се разумело како модел израчунава те карактеристике и како се те карактеристике даље користе у остатку модела.

Поглед унапред и отворено објављивање нашег истраживања

Иако је истраживање ретких аутоенкодера узбудљиво, пред нама је дуг пут са многим нерешеним изазовима. Краткорочно, надамо се да карактеристике које смо пронашли могу бити практично корисне за праћење и усмеравање понашања језичких модела и планирамо да то тестирамо на нашим граничним моделима. На крају, надамо се да интерпретабилност једног дана може да нам пружи нове начине да расуђујемо о безбедности и робусности модела и значајно повећа наше поверење у моћне AI моделе пружајући снажне гаранције о њиховом понашању.

Данас делимо рад⁠(отвара се у новом прозору) који детаљно описује наше експерименте и методе, за који се надамо да ће истраживачима олакшати обучавање аутоенкодера у великом обиму. Објављујемо комплетан скуп аутоенкодера за GPT‑2 small, заједно са кодом⁠(отвара се у новом прозору) за њихово коришћење и визуелизатором карактеристика⁠(отвара се у новом прозору) да би се стекао утисак о томе чему карактеристике GPT‑2 и GPT‑4 могу одговарати.

Аутори

Jeffrey Wu, Leo Gao, Tom Dupré la Tour и Henk Tillman

Захвалнице

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman