Ana içeriğe atla
OpenAI

13 Kasım 2025

AraştırmaYayın

Seyrek devreler aracılığıyla sinir ağlarını anlama

Modelleri daha basit ve izlenebilir adımlarla düşünmeleri için eğittik, böylece onların nasıl çalıştığını daha iyi anlayabiliriz.

Yükleniyor...

​​Sinir ağları, günümüzün en yetenekli yapay zeka sistemlerine güç sağlasa da anlaşılması hala zor. Bu modelleri açık ve adım adım talimatlarla yazmıyoruz. Bunun yerine, bir görevi ustalıkla yerine getirene kadar milyarlarca iç bağlantıyı veya "ağırlığı" ayarlayarak öğrenirler. Eğitim kurallarını biz tasarlamamıza rağmen ortaya çıkan belirli davranışlara karışmıyoruz ve bunun sonucunda hiçbir insanın kolayca çözemeyeceği karmaşık bir bağlantı ağ ortaya çıkıyor. 

Yorumlanabilirliği nasıl değerlendiriyoruz?

Yapay zeka sistemleri daha yetenekli hale geldikçe ve bilim, eğitim ve sağlık alanındaki kararlar üzerinde gerçek dünyada etki yarattıkça, nasıl çalıştıklarını anlamak önemli bir husus oluyor. Yorumlanabilirlik, bir modelin neden belirli bir çıktı ürettiğini anlamamıza yardımcı olan yöntemleri ifade eder. Bunu başarmanın birçok yolu olabilir. 

Örneğin, akıl yürütme modelleri, nihai bir cevaba ulaşırken çalışmalarını açıklamaları için teşvik edilir. Düşünce zinciri yorumlanabilirliği, modelin davranışını gözlemlemek amacıyla bu açıklamalardan faydalanır. Bu hemen fayda sağlar: Mevcut akıl yürütme modellerinin düşünce zincirleri, aldatma gibi endişe verici davranışlar hakkında bilgilendirici görünmektedir. Ancak, bu özelliğe tamamen güvenmek kırılgan bir yöntem olup zamanla bu durum bozulabilir.

Öte yandan, bu çalışmanın odak noktası olan mekanik yorumlanabilirlik, bir modelin hesaplamalarını tamamen tersine mühendislik ile çözmeyi amaçlamaktadır. Şu ana kadar pek kullanışlı olmamıştı ancak prensipte modelin davranışını daha eksiksiz bir şekilde açıklayabilir. Model davranışını en ayrıntılı şekilde açıklamaya çalışıp, mekanik yorumlanabilirlik daha az varsayımda bulunarak bize daha fazla güven sağlayabilir. Ancak düşük seviyeli ayrıntılardan karmaşık davranışların açıklamalarına giden yol çok daha uzun ve zorlu bir süreçtir.

Yorumlanabilirlik, daha iyi gözetim sağlamak ve güvenli olmayan veya stratejik olarak yanlış hizalanmış davranışlara ilişkin erken uyarı işaretleri vermek gibi birkaç temel hedefi destekler. Ayrıca ölçeklenebilir gözetim, düşmanca eğitim ve kırmızı takım testleri gibi diğer YZ güvenliği ve sistem güvenliği çabalarımızı da tamamlar. 

Bu çalışmada, modelleri genellikle daha kolay yorumlanabilir hale getirecek şekilde eğitebileceğimizi gösteriyoruz. Çalışmamızı, yoğun ağların sonradan yapılan analizine umut verici bir tamamlayıcı olarak görüyoruz. 

Bu çok iddialı bir iddia; çalışmalarımızdan en güçlü modellerimizin karmaşık davranışlarını tam olarak anlamaya kadar uzanan bir yol var. Yine de, basit davranışlar için, yöntemimizle eğitilen seyrek modellerin, hem anlaşılabilir hem de davranışı gerçekleştirmek için yeterli olan küçük ve ayrık devreler barındırdığını görüyoruz. Bu durum, mekanizmalarını anlayabildiğimiz daha büyük sistemlerin eğitimine yönelik yönetilebilir bir yol olabileceğini düşündürmektedir.

Yeni bir yaklaşım: Seyrek modeller öğrenmek

Önceki mekanik yorumlanabilirlik çalışmalarında yoğun ve karmaşık ağlardan yola çıkarak bunları çözmeye çalışılmıştır. Bu ağlarda, her bir nöron binlerce diğer nörona bağlıdır. Çoğu nöron birçok farklı işlevi yerine getiriyor gibi görünmektedir, bu da onları anlaşılmasını imkansız kılıyor. 

Peki ya çok daha fazla nörona sahip, ancak her bir nöronun yalnızca birkaç düzine bağlantıya sahip olduğu, karışmamış sinir ağlarını eğitirsek ne olur? Bu durumda belki de ortaya çıkan ağ daha basit ve anlaşılması daha kolay olacaktır. Bu, çalışmamızın temel araştırma konusudur.

Bu prensibi göz önünde bulundurarak, GPT‑2 gibi mevcut dil modellerine çok benzer bir mimariye sahip dil modellerini küçük bir değişiklikle eğittik: modelin ağırlıklarının büyük çoğunluğunu sıfır olacak şekilde belirledik. Böylelikle, modeli nöronları arasındaki olası bağlantıların sadece çok azını kullanmakla sınırladı. Bunun modelin iç hesaplamalarını önemli ölçüde basitleştiren basit bir değişiklik olduğunu düşünüyoruz.

Yoğun devreler ve seyrek devreler karşılaştırması diyagramı. Yoğun versiyon, birçok birbirine bağlanan çizgiye sahip iki düğüm sırasını gösterirken, seyrek sürüm aynı düzeni ancak daha az ve daha seçici bağlantılarla gösterir.

Normal yoğun sinir ağlarında, her bir nöron bir sonraki katmandaki her bir nörona bağlanır. Seyrek modellerimizde, her bir nöron yalnızca bir sonraki katmandaki birkaç nöronla bağlanır. Bunun, nöronları ve ağın tamamını daha kolay anlaşılır hale getirmesini umuyoruz.

Yorumlanabilirliği değerlendirmek

Seyrek modellerimizin hesaplamalarının ne ölçüde ayrıştırıldığını ölçmek istiyoruz. Çeşitli basit model davranışlarını değerlendirdik ve her bir davranıştan sorumlu olan model parçalarını (biz buna devreler diyoruz) izole edip edemeyeceğimizi kontrol ettik.

Bir dizi basit algoritmik görevi özenle seçtik. Her biri için, modeli görevi yerine getirebilecek en küçük devreye kadar budadık ve bu devrenin ne kadar basit olduğunu inceledik. (Ayrıntılar için makalemize(yeni bir pencerede açılır) bakın.) Daha büyük ve daha seyrek modelleri eğiterek, giderek daha basit devrelerle giderek daha yetenekli modeller üretebileceğimizi fark ettik.

X ekseninde model kapasitesini (ön eğitim kaybı) ve y ekseninde yorumlanabilirliği (budanmış devre boyutu) gösteren dağılım grafiği. Noktalar, farklı boyut ve seyreklik seviyelerindeki modelleri temsil eder; renk, toplam parametreleri gösterirken, işaretleyici boyutu sıfır olmayan parametrelerin sayısını gösterir. Oklar sağ üst yönü "daha iyi" olarak etiketler.

Modeller arasında yorumlanabilirlik ve yetenek karşılaştırması yapıyoruz (sol alt köşe daha iyi demektir). Sabit bir seyrek model boyutu için, seyrekliği artırmak (daha fazla ağırlığı sıfıra ayarlamak) kapasiteyi azaltır ancak yorumlanabilirliği artırır. Model boyutunu artırmak bu sınırı dışa doğru kaydırır, bu da hem becerikli hem de yorumlanabilir daha büyük modeller oluşturabileceğimizi gösterir.

Bunu somutlaştırmak için, Python koduyla eğitilmiş bir modelin doğru tırnak işaretiyle bir dizgiyi tamamlaması gereken bir görevi düşünün. Python'da 'hello' tek tırnakla, "hello" ise çift tırnakla bitmelidir. Model, hangi alıntı türünün dizeyi açtığını hatırlayarak ve sonunda onu yeniden üreterek bu sorunu çözebilir.

En yorumlanabilir modellerimiz, tam olarak bu algoritmayı uygulayan ayrıştırılmış devreler içeriyor gibi görünmektedir.

Seyrek bir transformer'da örnek bir devreyi gösteren diyagram. Pozitif ve negatif ağırlıklar, çarpmalar, doğrusal olmayanlıklar ve MLP ile dikkat katmanları arasındaki bağlantılar için etiketli yollarla “(” ve "devreler" gibi girdi tokenlerine yanıt olarak belirli nöronların ve dikkat başlıklarının nasıl etkinleştirildiğini gösterir ve çıktı tokeni olasılıklarıyla sonuçlanır.

Bir dizginin tek mi yoksa çift tırnakla mı sonlandırılacağını tahmin eden seyrek bir transformer'daki örnek devre. Bu devre yalnızca beş artık kanal (dikey gri çizgiler), katman 0'da iki MLP nöronu ve katman 10'da bir dikkat sorgu-anahtar kanalı ve bir değer kanalı kullanır. Model (1) tek tırnak işaretlerini bir artık kanalda ve çift tırnak işaretlerini başka bir kanalda kodlar; (2) bunu herhangi bir tırnak işaretini algılayan bir kanala ve tek ile çift tırnak işaretleri arasında sınıflandırma yapan başka bir kanala dönüştürmek için bir MLP katmanı kullanır; (3) araya giren tokenleri yok saymak, önceki tırnak işaretini bulmak ve türünü son tokene kopyalamak için bir dikkat işlemi kullanır; ve (4) eşleşen kapanış tırnak işaretini tahmin eder.

Tanımımıza göre, yukarıda gösterilen bağlantılar görevi yerine getirmek için yeterlidir. Modelin geri kalanını kaldırsak bile bu küçük devre hala çalışır. Bunlar da gereklidir - bu birkaç kenarı kaldırmak modelin başarısız olmasına neden olur.

Daha karmaşık davranışları da inceledik. Bu davranışlar için devrelerimizi (örneğin, aşağıda gösterilen değişken bağlama) tamamen açıklamak daha zor. O zaman bile, model davranışını öngören nispeten basit kısmi açıklamalar elde edebiliriz.

Python fonksiyonu get_neighbors içinde bir örnek seyrek-transformer devresini vurgulayan diyagram. current = set() ifadesine yapılan iki atama, değişken current'ın döngüdeki kullanımına bağlanmak için hangi dikkat başlıklarının (Q/K/V indeksleriyle etiketlenmiş) etkinleştirildiğini gösteren renkli oklarla kutulanmıştır.

Daha az detayla başka bir örnek devre. current adlı bir değişkenin türünü belirlemek için, bir dikkat işlemi, değişken adını tanımlandığında set() token'ına kopyalar ve daha sonra başka bir işlem, türü set() token'ından değişkenin sonraki kullanımına kopyalayarak modelin doğru sonraki token'ı çıkarmasına olanak tanır.

Önümüzdeki yol

Bu çalışma, model hesaplamalarını daha anlaşılır hale getirmek gibi daha büyük bir hedefe yönelik erken bir adım niteliği taşır. Ancak, yine de kat edilmesi gereken uzun bir yol var. Seyrek modellerimiz öncü modellerden çok daha küçüktür ve hesaplamalarının büyük bir kısmı yorumlanmadan kalmaktadır. 

Bir sonraki aşamada tekniklerimizi daha büyük modellere ölçeklendirmeyi ve modellerin davranışlarını daha fazla açıklamayı umuyoruz. Yetenekli seyrek modellerde daha karmaşık akıl yürütmelerin altında yatan devre motiflerini sıralayarak, öncü modellerin araştırılmasını daha iyi hedeflememize yardımcı olacak bir anlayış geliştirebiliriz.

Seyrek modellerin eğitiminin verimsizliğini aşmak için iki yol görüyoruz. Birincisi, seyrek modelleri sıfırdan eğitmek yerine, mevcut yoğun modellerden seyrek devreler ayıklamaktır. Yoğun modellerin dağıtımı temelde seyrek modellerden daha verimlidir. Diğer bir yol, yorumlanabilirlik için modelleri eğitmek amacıyla daha verimli teknikler geliştirmektir; bu tekniklerin üretime alınması daha kolay olabilir.

Buradaki bulgularımızın bu yaklaşımın daha yetenekli sistemlere yayılacağının garantisi etmediğini ancak bu ilk sonuçların umut verici olduğunu unutmayın. Amacımız, bir modelin ne kadarını güvenilir bir şekilde yorumlayabileceğimizi kademeli olarak genişletmek ve gelecekteki sistemleri analiz etmeyi, hata ayıkla ve değerlendirmeyi kolaylaştıracak araçlar geliştirmektir.

Yazarlar

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing