Memahami jaringan saraf melalui sirkuit sparse
Kami melatih model untuk berpikir dalam langkah-langkah yang lebih sederhana dan lebih mudah dilacak—agar kami dapat lebih memahami cara kerjanya.
Jaringan saraf menggerakkan sistem AI yang paling canggih saat ini, tetapi tetap sulit untuk dipahami. Kami tidak menulis model ini dengan instruksi yang eksplisit dan langkah demi langkah. Sebaliknya, mereka belajar dengan menyesuaikan miliaran koneksi internal, atau “bobot,” hingga mereka menguasai suatu tugas. Kami merancang aturan pelatihan, tetapi bukan perilaku spesifik yang muncul, dan hasilnya adalah jaringan koneksi padat yang tidak dapat dengan mudah diuraikan oleh manusia.
Seiring dengan meningkatnya kemampuan sistem AI dan dampaknya terhadap keputusan di bidang sains, pendidikan, dan kesehatan, pemahaman tentang cara kerjanya menjadi sangat penting. Interpretabilitas mengacu pada metode yang membantu kita memahami mengapa sebuah model menghasilkan keluaran tertentu. Ada banyak cara yang dapat kita tempuh untuk mencapai hal ini.
Misalnya, model penalaran diberi insentif untuk menjelaskan pekerjaan mereka dalam proses menuju jawaban akhir. Interpretabilitas rantai pemikiran memanfaatkan penjelasan ini untuk memantau perilaku model. Hal ini langsung berguna: rantai pemikiran model penalaran saat ini tampaknya informatif terkait dengan perilaku yang mengkhawatirkan seperti penipuan. Namun, sepenuhnya mengandalkan properti ini adalah strategi yang rapuh, dan ini mungkin akan gagal seiring waktu.
Di sisi lain, interpretabilitas mekanistik, yang menjadi fokus dari pekerjaan ini, berusaha untuk sepenuhnya merekayasa balik perhitungan model. Sejauh ini, hal ini belum terlalu berguna, tetapi pada prinsipnya, dapat menawarkan penjelasan yang lebih lengkap tentang perilaku model. Dengan berupaya menjelaskan perilaku model pada tingkat yang paling terperinci, interpretabilitas mekanistik dapat membuat lebih sedikit asumsi dan memberikan kita lebih banyak keyakinan. Namun, jalur dari detail tingkat rendah ke penjelasan perilaku kompleks jauh lebih panjang dan lebih sulit.
Interpretabilitas memberikan dukungan pada beberapa tujuan utama, misalnya memungkinkan pengawasan yang lebih baik dan memberikan tanda-tanda peringatan dini terhadap perilaku yang tidak aman atau tidak selaras secara strategis. Hal ini juga melengkapi upaya keselamatan kami yang lain, seperti pengawasan yang dapat diskalakan, pelatihan advesarial, dan red-teaming.
Dalam pekerjaan ini, kami menunjukkan bahwa kami sering dapat melatih model dengan cara yang membuatnya lebih mudah untuk ditafsirkan. Kami melihat pekerjaan kami sebagai pelengkap yang menjanjikan untuk analisis post-hoc jaringan padat.
Ini adalah pertaruhan yang sangat ambisius; masih ada jalan panjang dari pekerjaan kita hingga benar-benar memahami perilaku kompleks dari model-model kita yang paling canggih. Namun, untuk perilaku sederhana, kami menemukan bahwa model sparse yang dilatih dengan metode kami mengandung sirkuit kecil yang terpisah dan dapat dimengerti serta cukup untuk melakukan perilaku tersebut. Ini menunjukkan mungkin ada jalur yang dapat dipecahkan menuju pelatihan sistem yang lebih besar yang mekanismenya dapat kita pahami.
Pekerjaan interpretabilitas mekanistik sebelumnya dimulai dari jaringan yang padat dan kusut, dan berusaha untuk mengurainya. Dalam jaringan ini, setiap neuron individu terhubung dengan ribuan neuron lainnya. Sebagian besar neuron tampaknya menjalankan banyak fungsi yang berbeda, sehingga tampaknya mustahil untuk dipahami.
Namun, bagaimana jika kita melatih jaringan saraf yang tidak terhubung, dengan jumlah neuron yang jauh lebih banyak, tetapi setiap neuron hanya memiliki beberapa lusin koneksi? Maka mungkin jaringan yang dihasilkan akan lebih sederhana dan lebih mudah dipahami. Ini adalah pertaruhan utama penelitian kami.
Dengan prinsip ini, kami melatih model bahasa dengan arsitektur yang sangat mirip dengan model bahasa yang sudah ada seperti GPT‑2, dengan satu modifikasi kecil: kami memaksa sebagian besar bobot model menjadi nol. Ini membatasi model untuk hanya menggunakan sangat sedikit dari kemungkinan koneksi antara neuron-neuronnya. Ini adalah perubahan sederhana yang kami yakini secara substansial memisahkan komputasi internal model.
Dalam jaringan saraf padat normal, setiap neuron terhubung ke setiap neuron di lapisan selanjutnya. Dalam model sparse kami, setiap neuron hanya hubungkan ke beberapa neuron di lapisan selanjutnya. Kami berharap ini membuat neuron, dan jaringan secara keseluruhan, lebih mudah dipahami.
Kami ingin mengukur sejauh mana perhitungan model sparse kami tidak saling terkait. Kami mempertimbangkan berbagai perilaku model sederhana, dan memeriksa apakah kami dapat mengisolasi bagian-bagian model yang bertanggung jawab untuk setiap perilaku—yang kami sebut sebagai sirkuit.
Kami dengan cermat menyusun serangkaian tugas algoritmik sederhana. Untuk setiap model, kami memangkasnya menjadi sirkuit terkecil yang masih dapat melakukan tugas tersebut, dan memeriksa seberapa sederhana sirkuit itu. (Untuk detail lebih lanjut, silakan lihat makalah(terbuka di jendela baru) kami.) Kami menemukan bahwa dengan pelatihan model yang lebih besar dan sparse, kami dapat menghasilkan model yang makin mampu dengan sirkuit yang makin sederhana.
Kami memplot interpretabilitas versus kapabilitas di berbagai model (kiri bawah lebih baik). Untuk ukuran model sparse yang tetap, meningkatkan sparsity—dengan menetapkan lebih banyak bobot menjadi nol—mengurangi kemampuan tetapi meningkatkan interpretabilitas. Menskalakan ukuran model memindahkan batas ini ke luar, menunjukkan bahwa kita dapat membangun model yang lebih besar yang baik mampu maupun dapat diinterpretasikan.
Untuk membuat ini konkret, pertimbangkanlah sebuah tugas di mana model yang dilatih pada kode Python harus menyelesaikan string dengan jenis tanda kutip yang benar. Dalam Python, 'hello' harus diakhiri dengan tanda kutip tunggal, dan "hello" harus diakhiri dengan tanda kutip ganda. Model dapat menyelesaikan ini dengan mengingat jenis tanda kutip yang membuka string dan mereproduksinya di akhir.
Model-model kami yang paling mudah diinterpretasikan tampaknya mengandung sirkuit yang terpisah yang mengimplementasikan algoritma tersebut secara tepat.

Contoh sirkuit dalam transformer sparse yang memprediksi apakah akan mengakhiri string dengan tanda kutip tunggal atau ganda. Sirkuit ini hanya menggunakan lima saluran residual (garis abu-abu vertikal), dua neuron MLP di lapisan 0, dan satu saluran kueri-kunci perhatian dan satu saluran nilai di lapisan 10. Model (1) mengkodekan tanda kutip tunggal dalam satu saluran residual dan tanda kutip ganda di saluran lain; (2) menggunakan lapisan MLP untuk mengubah ini menjadi satu saluran yang mendeteksi kutipan apa pun dan saluran lain yang mengklasifikasikan antara tanda kutip tunggal dan ganda; (3) menggunakan operasi perhatian untuk mengabaikan token yang mengganggu, menemukan kutipan sebelumnya, dan menyalin jenisnya ke token akhir; dan (4) memprediksi kutipan penutup yang sesuai.
Dalam definisi kami, koneksi yang tepat yang ditunjukkan di atas sudah cukup untuk melakukan tugas—jika kami menghapus sisa model, sirkuit kecil ini masih berfungsi. Mereka juga diperlukan—menghapus beberapa tepi ini menyebabkan model gagal.
Kami juga meneliti beberapa perilaku yang lebih rumit. Sirkuti kami untuk perilaku ini (misalnya pengikatan variabel yang ditunjukkan di bawah) lebih sulit untuk dijelaskan sepenuhnya. Bahkan saat itu, kita masih dapat mencapai penjelasan parsial yang relatif sederhana yang dapat memprediksi perilaku model.
Contoh sirkuti lainnya, kurang detail. Untuk menentukan tipe dari variabel bernama current, satu operasi perhatian menyalin nama variabel ke dalam token set() saat didefinisikan, dan operasi lain kemudian menyalin tipe dari token set() ke penggunaan variabel selanjutnya, memungkinkan model untuk menyimpulkan token selanjutnya yang tepat.
Pekerjaan ini adalah langkah awal menuju tujuan yang lebih besar: membuat perhitungan model lebih mudah dipahami. Namun, masih banyak yang harus dilakukan. Model sparse kami jauh lebih kecil daripada model-model batas, dan sebagian besar komputasinya tetap tidak dapat diinterpretasikan.
Selanjutnya, kami berharap dapat meningkatkan skala teknik kami ke model yang lebih besar, dan menjelaskan lebih lanjut tentang perilaku model. Dengan menguraikan motif sirkuit yang mendasari penalaran yang lebih kompleks dalam model sparse yang canggih, kami dapat mengembangkan pemahaman yang membantu kami lebih baik menargetkan penyelidikan model-model terdepan.
Untuk mengatasi inefisiensi pelatihan model sparse, kami melihat dua jalur ke depan. Salah satu caranya adalah dengan mengekstrak sirkuit sparse dari model padat yang sudah ada, daripada pelatihan model sparse dari awal. Model padat pada dasarnya lebih efisien untuk diterapkan daripada model sparse. Jalan lain adalah mengembangkan teknik yang lebih efisien untuk melatih model agar dapat diinterpretasikan, yang mungkin lebih mudah untuk diterapkan dalam produksi.
Perlu dicatat bahwa temuan kami di sini bukanlah jaminan bahwa pendekatan ini akan diperluas ke sistem yang lebih canggih, tetapi hasil awal ini menjanjikan. Tujuan kami adalah secara bertahap memperluas seberapa banyak dari model yang dapat kami interpretasikan dengan andal, dan membangun alat yang membuat sistem masa depan lebih mudah untuk dianalisis, dirunut, dan dievaluasi.
Penulis
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


