Разбирање на невронски мрежи преку ретки кола
Ги обучивме моделите да размислуваат во поедноставни и полесно следливи чекори—за да можеме подобро да разбереме како функционираат.
Невронските мрежи ги напојуваат денешните најспособни системи за вештачка интелигенција, но сепак остануваат тешки за разбирање. Ние не ги пишуваме овие модели со јасни, чекор-по-чекор инструкции. Наместо тоа, тие учат со прилагодување на милијарди внатрешни врски, или „тежини“, додека не совладаат задача. Ние ги дизајнираме правилата за обука, но не и специфичните однесувања што се појавуваат, и резултатот е густа мрежа на врски што ниту еден човек не може лесно да ги дешифрира.
Како што системите за вештачка интелигенција стануваат поспособни и имаат реално влијание врз одлуките во науката, образованието и здравството, разбирањето на нивното функционирање е од суштинско значење. Разбирливост се однесува на методи што ни помагаат да разбереме зошто моделот произвел одреден резултат. Постојат многу начини на кои можеме да го постигнеме ова.
На пример, моделите за расудување се поттикнуваат да го објаснуваат своето работење на патот до конечниот одговор. Синџирот на разбирливост ги користи овие објаснувања за да го следи однесувањето на моделот. Ова е веднаш корисно: синџирите на размислување на тековните модели на расудување изгледа дека се информативни во однос на загрижувачки однесувања како измама. Сепак, целосно потпирање на оваа сопственост е кршлива стратегија, и ова може да се распадне со текот на времето.
Од друга страна, механистичката разбирливост, која е во фокусот на оваа работа, се обидува целосно да ги реконструира пресметките на моделот. Досега не беше веднаш корисно, но во принцип, би можело да понуди поцелосно објаснување на однесувањето на моделот. Со обид да се објасни однесувањето на моделот на најгрануларно ниво, механистичката разбирливост може да направи помалку претпоставки и да ни даде поголема доверба. Но патот од детали на ниско ниво до објаснувања на сложени однесувања е многу подолг и потежок.
Разбирливоста поддржува неколку клучни цели, на пример овозможување подобар надзор и обезбедување рани предупредувачки знаци за небезбедно или стратешки неусогласено однесување. Исто така ги надополнува нашите други напори за безбедност, како што се скалабилен надзор, противничка обука и red-teaming.
Во оваа работа покажуваме дека често можеме да обучуваме модели на начини кои ги прават полесни за толкување.. Ние ја гледаме нашата работа како ветувачко дополнување на пост-хок анализата на густите мрежи.
Ова е многу амбициозен облог; ни претстои уште долг пат во нашата работа додека постигнеме целосно разбирање на сложените однесувања на нашите најмоќни модели. Сепак, за едноставни однесувања, откриваме дека ретките модели обучени со нашиот метод содржат мали, одвоени кола кои се и разбирливи и доволни за извршување на однесувањето. Ова сугерира дека може да постои остварлив пат кон обука на поголеми системи чии механизми можеме да ги разбереме.
Претходната работа на механистичка разбирливост започна од густи, заплеткани мрежи и се обиде да ги расплете. Во овие мрежи, секој поединечен неврон е поврзан со илјадници други неврони. Повеќето неврони изгледа дека вршат многу различни функции, што го прави навидум невозможно да се разбере.
Но, што ако обучевме незаплеткани невронски мрежи, со многу повеќе неврони, но каде што секој неврон би имал само неколку десетици врски? Тогаш можеби добиената мрежа ќе биде поедноставна и полесна за разбирање. Ова е централната истражувачка хипотеза на нашата работа.
Имајќи го предвид овој принцип, обучивме јазични модели со многу слична архитектура на постојните јазични модели како GPT‑2, со една мала модификација: принудивме огромното мнозинство од тежините на моделот да бидат нули. Ова го ограничи моделот да користи само многу малку од можните врски помеѓу неговите неврони. Ова е едноставна промена за која ние тврдиме дека значително ги поедноставува внатрешните пресметки на моделот.
Во нормалните густи невронски мрежи, секој неврон е поврзан со секој неврон во следно слој. Во нашите ретки модели, секој неврон се поврзува само со неколку неврони во следниот слој. Се надеваме дека ова ќе ги направи невроните и мрежата како целина полесни за разбирање.
Сакаме да измериме до кој степен пресметките на нашите ретки модели се расплеткани. Разгледавме различни едноставни однесувања на моделот и проверивме дали можеме да ги изолираме деловите од моделот одговорни за секое однесување – кои ги нарекуваме кола.
Рачно избравме збирка од едноставни алгоритамски задачи. За секој, го скративме моделот на најмалото коло што сè уште може да ја изврши задачата, и испитавме колку е едноставно тоа коло. (За повеќе информации, види го нашиот труд(се отвора во нов прозорец).) Откривме дека со обука на поголеми и поретки модели, можеме да произведеме сè посложени модели со сè поедноставни кола.
Ја прикажуваме разбирливоста наспроти способноста низ моделите (долу лево е подобро). За фиксна големина на реткиот модел, зголемувањето на реткоста - поставување повеќе тежини на нула - ја намалува способноста, но ја зголемува разбирливоста. Зголемувањето на големината на моделот ја поместува оваа граница нанадвор, што сугерира дека можеме да изградиме поголеми модели кои се и способни и разбирливи.
За да го направите ова конкретно, размислете за задача каде што модел обучен на код на Python треба да заврши низа со точниот тип на наводници. Во Python, 'hello' мора да заврши со еден наводник, а “hello” мора да заврши со двоен наводник. Моделот може да го реши ова со тоа што ќе се сети кој тип на наводници ја отвори низата и ќе го репродуцира на крајот.
Нашите најдобри модели изгледа дека содржат раздвоени кола кои го имплементираат токму тој алгоритам.

Пример коло во редок трансформер што предвидува дали да се заврши низа со единечен или двоен наводник. Ова коло користи само пет резидуални канали (вертикални сиви линии), два MLP неврони во слојот 0, и еден канал за пребарување на внимание и еден канал за вредност во слојот 10. Моделот (1) кодира единечни наводници во еден резидуален канал и двојни наводници во друг; (2) користи MLP слој за да го претвори ова во еден канал што детектира кој било наводник и друг што класифицира помеѓу единечни и двојни наводници; (3) користи операција на внимание за да ги игнорира посредните tokenи, да го пронајде претходниот наводник и да го копира неговиот тип на конечниот token; и (4) предвидува соодветен затворање на наводникот.
Во нашата дефиниција, точните врски прикажани погоре се доволни за извршување на задачата - ако го отстраниме остатокот од моделот, ова мало коло сè уште ќе работи. Тие се исто така неопходни – избришувањето на овие неколку рабови предизвикува моделот да пропадне.
Исто така, разгледавме некои посложени однесувања. Нашите кола за овие однесувања (на пример, варијабилно врзување прикажано подолу) се потешки за целосно објаснување. Дури и тогаш, сè уште можеме да постигнеме релативно едноставни делумни објаснувања кои го предвидуваат однесувањето на моделот.
Уште еден пример за коло, со помалку детали. За да се одреди типот на променлива наречена current, една операција на внимание го копира името на променливата во set() токенот кога е дефинирана, а друга подоцнежна операција го копира типот од set() токенот во последователна употреба на променливата, дозволувајќи му на моделот да го заклучи точниот следен токен.
Оваа работа е рана фаза кон поголема цел: да се направат пресметките на модели полесни за разбирање. Но, сè уште има долг пат пред нас. Нашите ретки модели се многу помали од напредните модели, а големи делови од нивното пресметување остануваат непротолкувани.
Следно, се надеваме дека ќе ги прошириме нашите техники на поголеми модели и да објасниме повеќе од однесувањето на моделите. Со набројување на мотивите на колата кои лежат во основата на посложеното размислување во способни ретки модели, би можеле да развиеме разбирање кое ќе ни помогне подобро да ги насочиме истражувањата на најсовремените модели.
За да ја надминеме неефикасноста на обуката на ретки модели, гледаме две насоки напред. Една опција е да се екстрахираат ретки кола од постојните густи модели, наместо да се врши обука на ретки модели од почеток. Густите модели се фундаментално поефикасни за примена од ретките модели. Другиот пат е да се развијат поефикасни техники за обучување на модели за разбирливост кои можеби ќе бидат полесни за примена во производство.
Имајте на ум дека нашите наоди овде не се гаранција дека овој пристап ќе се прошири и на поспособни системи, но овие рани резултати се ветувачки. Нашата цел е постепено да го прошириме колкав дел од моделот можеме сигурно да го протолкуваме и да изградиме алатки кои ќе ги олеснат идните системи за анализа, отстранува грешки и евалуација.
Автори
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker и Dan Mossing


