Przejdź do treści głównej
OpenAI

13 listopada 2025

BadaniaPublikacja

Zrozumieć sieci neuronowe dzięki „rzadkim obwodom”

Wyszkoliliśmy modele tak, aby „myślały” w prostszych, łatwiejszych do prześledzenia krokach – dzięki temu możemy lepiej zrozumieć ich działanie.

Ładowanie…

​​Sieci neuronowe napędzają dziś najbardziej zaawansowane systemy AI, ale wciąż trudno je przejrzyście wyjaśniać. Nie tworzymy ich jako zestawu jasnych, zapisanych instrukcji. Zamiast tego uczą się, dostosowując miliardy wewnętrznych połączeń – tzw. wag – aż zaczną dobrze wykonywać dane zadanie. To my ustalamy zasady treningu, lecz nie projektujemy konkretnych zachowań, które pojawiają się w wyniku uczenia; efektem jest bardzo złożona sieć powiązań, której człowiek nie jest w stanie po prostu „przeczytać”. 

Jak rozumiemy interpretowalność

W miarę jak systemy AI stają się coraz bardziej zaawansowane i zaczynają wpływać na decyzje w nauce, edukacji czy ochronie zdrowia, zrozumienie ich działania staje się kluczowe. Interpretowalność to zestaw metod, które pomagają wyjaśnić, dlaczego model wygenerował konkretny wynik. Istnieje wiele podejść do tego zagadnienia. 

Na przykład modele ukierunkowane na rozumowanie są zachęcane do tego, by „wyjaśniały” kolejne kroki prowadzące do odpowiedzi. Interpretowalność oparta na łańcuchu rozumowania wykorzystuje te wyjaśnienia, aby obserwować zachowanie modelu. To już teraz dostarcza wartościowych informacji – łańcuchy rozumowania potrafią ujawniać niepokojące tendencje, takie jak skłonność do manipulacji. Oparcie się wyłącznie na tym mechanizmie byłoby jednak nietrwałe; takie podejście może z czasem przestać działać.

Z drugiej strony mechanistyczna interpretowalność – główny temat tej pracy – dąży do pełnego „odtworzenia” sposobu, w jaki model wykonuje swoje obliczenia. Jak dotąd przynosi mniej bezpośrednich, natychmiastowych korzyści, ale w teorii może zapewnić znacznie pełniejsze wyjaśnienie zachowania modelu. Ponieważ próbuje wyjaśniać działanie modelu na najniższym możliwym poziomie, wymaga mniej założeń, a tym samym może budzić większe zaufanie. Jednocześnie przejście od bardzo niskopoziomowych szczegółów do objaśnienia złożonych zachowań jest dłuższe i znacznie trudniejsze.

Interpretowalność wspiera kilka kluczowych celów, na przykład pozwala na lepszy nadzór nad modelem oraz umożliwia wcześniejsze wykrywanie niebezpiecznych lub strategicznie niepożądanych zachowań. Uzupełnia także inne działania związane z bezpieczeństwem, takie jak nadzór skalowalny, trening odporny na ataki czy testy typu red-teaming (czyli próby celowego „atakowania” modelu w kontrolowanych warunkach). 

W tej pracy pokazujemy, że modele można trenować w sposób, który sprawia, że stają się one łatwiejsze do interpretacji. Traktujemy nasze podejście jako obiecujące uzupełnienie analiz typu post-hoc stosowanych do gęstych sieci. 

To bardzo ambitne przedsięwzięcie – przed nami daleka droga, zanim będziemy w stanie w pełni zrozumieć złożone zachowania najbardziej zaawansowanych modeli. Mimo to w przypadku prostszych zadań widzimy, że rzadkie modele trenowane naszą metodą zawierają niewielkie, wyraźnie wyodrębnione „obwody”, które są z jednej strony zrozumiałe, a z drugiej – wystarczające do wykonania danego zadania. Sugeruje to, że może istnieć realistyczna ścieżka prowadząca do trenowania większych systemów, których działanie również da się wyjaśniać.

Nowe podejście: trenowanie modeli rzadkich

Dotychczasowa praca nad mechanistyczną interpretowalnością zwykle zaczynała się od gęstych, silnie splątanych sieci i próbowała je „rozplątać”. W takich sieciach każdy pojedynczy neuron jest połączony z tysiącami innych. Większość neuronów pełni różne funkcje jednocześnie, co praktycznie uniemożliwia ich zrozumienie. 

A gdyby zamiast tego trenować sieci, które od początku nie są splątane – które mają znacznie więcej neuronów, ale każdy neuron jest połączony tylko z kilkudziesięcioma innymi? Wtedy gotowa sieć mogłaby być prostsza i bardziej przejrzysta. To właśnie centralne założenie naszego podejścia badawczego.

Kierując się tą zasadą, wytrenowaliśmy modele językowe o bardzo podobnej architekturze do istniejących modeli, takich jak GPT‑2 – z jednym drobnym dodatkiem: wymusiliśmy, aby ogromna większość wag w modelu miała wartość zero. W praktyce ograniczyło to model do korzystania jedynie z niewielkiej liczby możliwych połączeń między neuronami. To prosta modyfikacja, ale według nas znacząco „rozplątuje” wewnętrzne obliczenia modelu.

Schemat porównujący obwody gęste i obwody rzadkie. Wersja gęsta pokazuje dwa rzędy węzłów z wieloma liniami łączącymi, podczas gdy wersja rzadka pokazuje ten sam układ, lecz z mniejszą liczbą bardziej selektywnych połączeń.

W normalnych gęstych sieciach neuronowych każdy neuron jest połączony ze wszystkimi neuronami w kolejnej warstwie. W naszych rzadkich modelach każdy neuron łączy tylko z kilkoma neuronami w kolejnej warstwie. Mamy nadzieję, że dzięki temu neurony i sieć jako całość będą łatwiejsze do zrozumienia.

Ocena interpretowalności

Chcemy zmierzyć, w jakim stopniu obliczenia w naszych rzadkich modelach są rozdzielone na wyraźne, samodzielne elementy. Analizujemy różne proste zachowania modelu i sprawdzamy, czy możemy wyodrębnić część odpowiedzialną za każde z nich – element, który nazywamy obwodem.

Przygotowaliśmy ręcznie zestaw prostych zadań algorytmicznych. Dla każdego zadania „przycinaliśmy” model do najmniejszego obwodu, który wciąż potrafi je wykonać, a następnie ocenialiśmy, jak bardzo ten obwód jest przejrzysty. (Szczegóły znajdują się w naszym artykule(otwiera nowe okno)). Zauważyliśmy, że trenowanie większych i bardziej rzadkich modeli pozwala uzyskać coraz bardziej inteligentne systemy o coraz prostszych obwodach.

Wykres punktowy przedstawiający zależność między możliwościami modelu (strata pretrenowania – oś X) a interpretowalnością (rozmiar przyciętego obwodu – oś Y). Punkty odpowiadają modelom o różnych rozmiarach i stopniach rzadkości; kolor oznacza liczbę wszystkich parametrów, a wielkość znacznika – liczbę parametrów niezerowych. Strzałki wskazują kierunek „lepiej” w prawym górnym rogu.

Pokazujemy interpretowalność w zestawieniu ze skutecznością dla różnych modeli (lewy dolny róg jest najlepszy). Przy ustalonej wielkości modelu rzadkiego zwiększanie rzadkości – czyli ustawianie większej liczby wag na zero – zmniejsza skuteczność, ale poprawia interpretowalność. Skalowanie modelu zwiększa możliwości i przesuwa tę granicę w korzystnym kierunku, co sugeruje, że można budować większe modele, które są jednocześnie skuteczne i interpretowalne.

Aby pokazać to na przykładzie, rozważ zadanie, w którym model wytrenowany na kodzie w Pythonie ma uzupełnić ciąg znaków właściwym typem cudzysłowu. W Pythonie zapis 'hello' musi kończyć się pojedynczym cudzysłowem, a "hello" – podwójnym. Model może rozwiązać to zadanie, „zapamiętując”, który typ cudzysłowu otworzył tekst, i powtarzając go na końcu.

W naszych najbardziej interpretablelnych modelach znajdujemy wyraźnie oddzielone obwody, które dokładnie w ten sposób realizują to zadanie.

Diagram przedstawia przykład obwodu w rzadkim transformatorze. Pokazuje, w jaki sposób konkretne neurony i głowice uwagi reagują na tokeny wejściowe, takie jak „(” lub „circuits”. Zaznaczono ścieżki wag dodatnich i ujemnych, operacje mnożenia, nieliniowości oraz połączenia między warstwami MLP i warstwami uwagi, które prowadzą do obliczenia prawdopodobieństwa tokenu wyjściowego.

Przykładowy obwód w rzadkim transformatorze, który przewiduje, czy ciąg znaków powinien kończyć się pojedynczym, czy podwójnym cudzysłowem. Ten obwód wykorzystuje zaledwie pięć kanałów rezydualnych (pionowe szare linie), dwa neurony MLP w warstwie 0 oraz jeden kanał zapytanie–klucz i jeden kanał wartości w warstwie 10. Model (1) koduje pojedyncze cudzysłowy w jednym kanale rezydualnym, a podwójne w innym; (2) używa warstwy MLP, aby przekształcić te sygnały w kanał wykrywający „jakikolwiek” cudzysłów oraz w kanał klasyfikujący między pojedynczym a podwójnym; (3) używa operacji uwagi, aby ignorować tokeny znajdujące się pomiędzy nimi, odnaleźć poprzedni cudzysłów i skopiować jego typ do końcowego tokenu; (4) przewiduje właściwy zamykający cudzysłów.

W naszym ujęciu połączenia przedstawione powyżej są wystarczające do wykonania zadania – jeśli usuniemy resztę modelu, ten niewielki obwód nadal działa. Są one również konieczne – usunięcie tylko kilku z tych połączeń powoduje, że model zaczyna popełniać błędy.

Przeanalizowaliśmy także bardziej złożone zachowania. Obwody odpowiedzialne za takie działania – na przykład za powiązywanie zmiennych – trudniej jest w pełni opisać. Mimo to w wielu przypadkach udaje się nam stworzyć stosunkowo proste, częściowe wyjaśnienia, które dobrze przewidują zachowanie modelu.

Diagram podkreślający przykład obwodu rzadkiego transformatora w funkcji Pythona get_neighbors. Dwie instrukcje current = set() są wyróżnione, a kolorowe strzałki pokazują, które głowice uwagi (oznaczone indeksami Q/K/V) aktywują się, aby powiązać każdą z tych definicji zmiennej current z jej użyciem w pętli.

Kolejny przykład obwodu, przedstawiony w mniejszym stopniu szczegółowości. Aby określić typ zmiennej o nazwie current, jedna operacja uwagi kopiuje nazwę zmiennej do tokenu set() w momencie jej deklaracji, a kolejna operacja kopiuje typ z tokenu set() do późniejszego użycia zmiennej, dzięki czemu model może poprawnie przewidzieć następny token.

Co dalej

Nasza praca jest wczesnym krokiem w stronę większego celu: uproszczenia sposobu, w jaki można rozumieć obliczenia modeli. Wciąż jednak przed nami długa droga. Nasze rzadkie modele są znacznie mniejsze od czołowych modeli dostępnych obecnie, a duża część ich działania nadal pozostaje nieinterpretowalna. 

Chcemy teraz skalować nasze techniki na większe modele i próbować wyjaśnić większą część ich zachowania. Jeśli uda się nam zidentyfikować powtarzalne „motywy obwodów”, które odpowiadają za bardziej złożone rozumowanie w zaawansowanych rzadkich modelach, może to pomóc lepiej ukierunkować analizy czołowych systemów.

Aby przezwyciężyć małą efektywność trenowania modeli rzadkich, widzimy dwie możliwe drogi. Pierwsza to wyodrębnianie rzadkich obwodów z istniejących, gęstych modeli zamiast trenowania wszystkiego od podstaw. Modele gęste są z natury bardziej wydajne w działaniu. Druga to rozwijanie bardziej efektywnych metod trenowania modeli z myślą o interpretowalności – co mogłoby znacznie ułatwić ich wykorzystanie w praktyce.

Warto podkreślić, że nasze dotychczasowe wyniki nie gwarantują, że to podejście sprawdzi się w systemach dużo bardziej zaawansowanych. Wczesne efekty są jednak obiecujące. Naszym celem jest stopniowe poszerzanie zakresu modelu, który da się wiarygodnie interpretować, oraz budowanie narzędzi, które ułatwią analizowanie, diagnozowanie i ocenianie przyszłych systemów.

Autorzy

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker i Dan Mossing