Κατανόηση των νευρωνικών δικτύων μέσω αραιών κυκλωμάτων
Εκπαιδεύσαμε τα μοντέλα να σκέφτονται με απλούστερα, πιο ανιχνεύσιμα βήματα,—ώστε να μπορούμε να κατανοούμε καλύτερα πώς λειτουργούν.
Τα νευρωνικά δίκτυα σήμερα είναι η βάση για τα πιο ικανά συστήματα τεχνητής νοημοσύνης, αλλά η κατανόησή της παραμένει δύσκολη. Δεν γράφουμε αυτά τα μοντέλα με ρητές, βήμα προς βήμα οδηγίες. Αντίθετα, μαθαίνουν προσαρμόζοντας δισεκατομμύρια εσωτερικές συνδέσεις, ή "σταθμίσεις", μέχρι να ολοκληρώσουν μια εργασία. Σχεδιάζουμε τους κανόνες της εκπαίδευσης, αλλά όχι τις συγκεκριμένες συμπεριφορές που προκύπτουν, και το αποτέλεσμα είναι ένας πυκνός ιστός συνδέσεων που κανένας άνθρωπος δεν μπορεί εύκολα να αποκρυπτογραφήσει.
Καθώς τα συστήματα τεχνητής νοημοσύνης γίνονται πιο ικανά και υπό πραγματικές συνθήκες επηρεάζουν τις αποφάσεις στην επιστήμη, την εκπαίδευση και την υγεία, είναι απαραίτητο να κατανοήσουμε πώς λειτουργούν. Η ερμηνευσιμότητα αναφέρεται σε μεθόδους που μας βοηθούν να καταλάβουμε γιατί ένα μοντέλο παρήγαγε ένα συγκεκριμένο αποτέλεσμα. Υπάρχουν πολλοί τρόποι με τους οποίους μπορούμε να το πετύχουμε αυτό.
Για παράδειγμα, στα μοντέλα συλλογισμού δίνεται κίνητρο να εξηγούν τη δουλειά τους καθ' οδόν προς την τελική απάντηση. Η ερμηνευσιμότητα της αλληλουχίας σκέψεων αξιοποιεί αυτές τις εξηγήσεις για να παρακολουθεί τη συμπεριφορά του μοντέλου. Αυτό είναι άμεσα χρήσιμο: οι αλληλουχίες σκέψεων των υφιστάμενων μοντέλων συλλογιστικής φαίνεται να παρέχουν πληροφορίες σχετικά με ανησυχητικές συμπεριφορές όπως η εξαπάτηση. Ωστόσο, η πλήρης στήριξη σε αυτή την ιδιότητα αποτελεί σαθρή στρατηγική, και υπάρχει ενδεχόμενο αποτυχίας σε βάθος χρόνου.
Από την άλλη πλευρά, η μηχανιστική ερμηνευσιμότητα, που είναι το επίκεντρο αυτού του έργου, επιδιώκει την πλήρη αποσυμπίληση των υπολογισμών ενός μοντέλου. Μέχρι στιγμής, δεν ήταν τόσο άμεσα χρήσιμο, αλλά κατ' αρχήν, θα μπορούσε να προσφέρει μια πιο ολοκληρωμένη εξήγηση της συμπεριφοράς του μοντέλου. Στην προσπάθεια να εξηγηθεί η συμπεριφορά του μοντέλου στο πλέον αναλυτικό επίπεδο, η μηχανιστική ερμηνευσιμότητα μπορεί να κάνει λιγότερες υποθέσεις και να μας προσφέρει μεγαλύτερη εμπιστοσύνη. Ωστόσο, η πορεία από τις λεπτομέρειες χαμηλού επιπέδου προς τις εξηγήσεις σύνθετων συμπεριφορών είναι πολύ πιο μακρά και δύσκολη.
Η ερμηνευσιμότητα υποστηρίζει διάφορους βασικούς στόχους, όπως η επίτευξη καλύτερης εποπτείας και η παροχή έγκαιρων προειδοποιητικών σημάτων για μη ασφαλή ή στρατηγικά μη ευθυγραμμισμένη συμπεριφορά. Συμπληρώνει επίσης τις υπόλοιπες προσπάθειές μας για την ασφάλεια, όπως η κλιμακούμενη εποπτεία, η αντιπαραθετική εκπαίδευση και οι ασκήσεις red teaming.
Σε αυτό το έργο, δείχνουμε ότι μπορούμε συχνά να εκπαιδεύουμε μοντέλα με τρόπους που διευκολύνουν την ερμηνεία τους. Βλέπουμε το έργο μας ως ένα πολλά υποσχόμενο συμπλήρωμα στην post-hoc ανάλυση των πυκνών δικτύων.
Αυτό είναι ένα πολύ φιλόδοξο στοίχημα· ο δρόμος είναι μακρύς από το έργο μας μέχρι την πλήρη κατανόηση των πολύπλοκων συμπεριφορών των πιο ισχυρών μοντέλων μας. Ωστόσο, για τις απλές συμπεριφορές, διαπιστώνουμε ότι τα αραιά μοντέλα που εκπαιδεύονται με τη μέθοδό μας περιέχουν μικρά, απεμπλεγμένα κυκλώματα που είναι κατανοητά και επαρκή για την εκτέλεση της συμπεριφοράς. Αυτό υποδηλώνει ότι μπορεί να υπάρχει μια διαχειρίσιμη διαδρομή προς την εκπαίδευση μεγαλύτερων συστημάτων με μηχανισμούς που μπορούμε να κατανοήσουμε.
Προηγούμενα έργα στη μηχανιστική ερμηνευσιμότητα ξεκίνησαν από πυκνά και εμπλεγμένα δίκτυα, προσπαθώντας να τα απεμπλέξουν. Σε αυτά τα δίκτυα, κάθε επιμέρους νευρώνας συνδέεται με χιλιάδες άλλους νευρώνες. Οι περισσότεροι νευρώνες φαίνεται να εκτελούν πολλές ξεχωριστές λειτουργίες, και αυτό καθιστά φαινομενικά αδύνατη κάθε κατανόηση.
Αλλά τι θα γινόταν αν εκπαιδεύαμε απεμπλεγμένα νευρωνικά δίκτυα, με πολύ περισσότερους νευρώνες, όπου κάθε νευρώνας, ωστόσο, έχει μόνο μερικές δεκάδες συνδέσεις; Ίσως τότε το δίκτυο που θα προκύψει να είναι πιο απλό και πιο εύκολο να κατανοηθεί. Αυτό είναι το κεντρικό ερευνητικό στοίχημα του έργου μας.
Έχοντας κατά νου αυτή την αρχή, εκπαιδεύσαμε γλωσσικά μοντέλα με αρχιτεκτονική πολύ παρόμοια με αυτή στα υπάρχοντα γλωσσικά μοντέλα όπως το GPT‑2, με μια μικρή τροποποίηση: αναγκάζουμε τη συντριπτική πλειοψηφία των σταθμίσεων του μοντέλου να είναι μηδενικά. Αυτό περιόρισε το μοντέλο να χρησιμοποιεί μόνο ελάχιστες από τις πιθανές συνδέσεις μεταξύ των νευρώνων του. Αυτή είναι μια απλή αλλαγή που, όπως υποστηρίζουμε, απεμπλέκει ουσιαστικά τους εσωτερικούς υπολογισμούς του μοντέλου.
Στα κανονικά πυκνά νευρωνικά δίκτυα, κάθε νευρώνας συνδέεται με κάθε νευρώνα στο επόμενο επίπεδο. Στα αραιά μοντέλα μας, κάθε νευρώνας συνδέεται μόνο με λίγους νευρώνες στο επόμενο επίπεδο. Ελπίζουμε ότι αυτό διευκολύνει την κατανόηση των νευρώνων και του δικτύου στο σύνολό του.
Θέλουμε να μετρήσουμε τον βαθμό στον οποίο οι υπολογισμοί των αραιών μοντέλων μας είναι απεμπλεγμένοι. Εξετάσαμε διάφορες απλές συμπεριφορές του μοντέλου και ελέγξαμε αν μπορούσαμε να απομονώσουμε τα τμήματα του μοντέλου που είναι υπεύθυνα για κάθε συμπεριφορά—τα οποία ονομάζουμε κυκλώματα.
Επιμεληθήκαμε προσεκτικά μια σειρά από απλές αλγοριθμικές εργασίες. Για κάθε μία, περικόψαμε το μοντέλο στο μικρότερο κύκλωμα που μπορεί ακόμα να εκτελέσει την εργασία και εξετάσαμε πόσο απλό είναι το κύκλωμα. (Για λεπτομέρειες, δείτε την εργασία(ανοίγει σε νέο παράθυρο) μας.) Διαπιστώσαμε ότι με την εκπαίδευση μεγαλύτερων και αραιότερων μοντέλων, μπορούσαμε να δημιουργήσουμε όλο και πιο ικανά μοντέλα με όλο και πιο απλά κυκλώματα.
Απεικονίζουμε την ερμηνευσιμότητα σε σχέση με την ικανότητα σε όλα τα μοντέλα (το κάτω αριστερά είναι καλύτερο). Για ένα σταθερό μέγεθος αραιού μοντέλου, η αύξηση της αραιότητας—ο ορισμός περισσότερων σταθμίσεων στο μηδέν—μειώνει την ικανότητα αλλά αυξάνει την ερμηνευσιμότητα. Η αύξηση του μεγέθους του μοντέλου μετατοπίζει αυτό το όριο προς τα έξω, υποδηλώνοντας ότι μπορούμε να δημιουργήσουμε μεγαλύτερα μοντέλα που είναι τόσο ικανά όσο και ερμηνεύσιμα.
Για να το κάνουμε πιο σαφές, σκέψου μια εργασία όπου ένα μοντέλο εκπαιδευμένο σε κώδικα Python πρέπει να ολοκληρώνει μια συμβολοσειρά με τον σωστό τύπο εισαγωγικών. Στην Python, το 'hello' πρέπει να τελειώνει με απλό εισαγωγικό και το "hello" πρέπει να τελειώνει με διπλό εισαγωγικό. Το μοντέλο μπορεί να δώσει λύση εφόσον θυμάται ποιος τύπος εισαγωγικών άνοιξε τη συμβολοσειρά και τον αναπαραγάγει στο τέλος.
Τα πλέον ερμηνεύσιμα μοντέλα μας φαίνεται να περιέχουν απεμπλεγμένα κυκλώματα που υλοποιούν ακριβώς αυτόν τον αλγόριθμο.

Παράδειγμα κυκλώματος σε αραιό μετασχηματιστή που προβλέπει αν πρέπει να ολοκληρώσει μια συμβολοσειρά με μόνο ή διπλό εισαγωγικό. Αυτό το κύκλωμα χρησιμοποιεί μόνο πέντε υπολειμματικά κανάλια (κάθετες γκρίζες γραμμές), δύο νευρώνες MLP στο επίπεδο 0 και ένα κανάλι ερώτησης-κλειδιού προσοχής και ένα κανάλι τιμής στο επίπεδο 10. Το μοντέλο (1) κωδικοποιεί τα μονά εισαγωγικά σε ένα υπολειμματικό κανάλι και τα διπλά εισαγωγικά σε άλλο, (2) χρησιμοποιεί ένα επίπεδο MLP για να το μετατρέψει σε ένα κανάλι που ανιχνεύει οποιοδήποτε εισαγωγικό και ένα άλλο που διακρίνει μεταξύ μονών και διπλών εισαγωγικών, (3) χρησιμοποιεί μια πράξη προσοχής για να αγνοήσει τα παρεμβαλλόμενα token, να βρει το προηγούμενο εισαγωγικό και να αντιγράψει τον τύπο του στο τελικό token και (4) προβλέπει το αντίστοιχο εισαγωγικό κλεισίματος.
Στον ορισμό μας, οι ακριβείς συνδέσεις που εμφανίζονται παραπάνω είναι επαρκείς για την εκτέλεση της εργασίας—αν καταργήσουμε το υπόλοιπο του μοντέλου, αυτό το μικρό κύκλωμα εξακολουθεί να λειτουργεί. Είναι και αυτές απαραίτητες–η διαγραφή αυτών των λίγων ακμών προκαλεί την αποτυχία του μοντέλου.
Εξετάσαμε επίσης μερικές πιο περίπλοκες συμπεριφορές. Τα κυκλώματά μας για αυτές τις συμπεριφορές (για παράδειγμα η δέσμευση μεταβλητής που παρουσιάζεται παρακάτω) είναι πιο δύσκολο να εξηγηθούν πλήρως. Ακόμα και τότε, μπορούμε να επιτύχουμε σχετικά απλές τμηματικές εξηγήσεις που είναι προβλεπτικές της συμπεριφοράς του μοντέλου.
Ένα ακόμη παράδειγμα κυκλώματος, με λιγότερες λεπτομέρειες. Για να καθοριστεί ο τύπος μιας μεταβλητής που ονομάζεται current, μια πράξη προσοχής αντιγράφει το όνομα της μεταβλητής στο token set() όταν ορίζεται, και μια άλλη μεταγενέστερη πράξη αντιγράφει τον τύπο από το token set() σε μια επακόλουθη χρήση της μεταβλητής, επιτρέποντας στο μοντέλο να συμπεράνει το σωστό επόμενο token.
Αυτό το έργο είναι ένα πρώτο βήμα προς την επίτευξη ενός μεγαλύτερου στόχου: να γίνει πιο εύκολη η κατανόηση των υπολογισμών των μοντέλων. Αλλά, έχουμε ακόμα πολύ δρόμο μπροστά μας. Τα αραιά μοντέλα μας είναι πολύ μικρότερα από τα πρωτοποριακά μοντέλα ενώ μεγάλα μέρη του υπολογισμού τους παραμένουν ανερμήνευτα.
Στη συνέχεια, ελπίζουμε να κλιμακώσουμε τις τεχνικές μας σε μεγαλύτερα μοντέλα και να εξηγήσουμε περισσότερα για τη συμπεριφορά των μοντέλων. Με την απαρίθμηση μοτίβων κυκλώματος που υποστηρίζουν πιο περίπλοκο συλλογισμό σε ικανά αραιά μοντέλα, θα μπορούσαμε να αναπτύξουμε μια κατανόηση που μας βοηθά να στοχεύσουμε καλύτερα τις έρευνες σε πρωτοποριακά μοντέλα.
Για να ξεπεράσουμε την αναποτελεσματικότητα της εκπαίδευσης αραιών μοντέλων, βλέπουμε ότι υπάρχουν δύο δρόμοι. Ο ένας είναι να εξάγονται αραιά κυκλώματα από υπάρχοντα πυκνά μοντέλα, αντί να γίνεται εκπαίδευση αραιών μοντέλων από την αρχή. Η ανάπτυξη των πυκνών μοντέλων είναι θεμελιωδώς πιο αποδοτική σε σχέση με αυτή των αραιών μοντέλων. Ο άλλος δρόμος είναι να αναπτύξουμε πιο αποδοτικές τεχνικές για να εκπαιδεύουμε μοντέλα με στόχο την ερμηνευσιμότητα, οι οποίες μπορεί να είναι πιο εύκολο να τεθούν σε φάση παραγωγής.
Σημείωσε ότι τα ευρήματά μας εδώ δεν αποτελούν εγγύηση ότι αυτή η προσέγγιση θα επεκταθεί σε πιο ικανά συστήματα, αλλά αυτά τα πρώτα αποτελέσματα είναι ενθαρρυντικά. Στόχος μας είναι να επεκτείνουμε σταδιακά το ποσοστό ενός μοντέλου που μπορούμε να ερμηνεύσουμε αξιόπιστα και να δημιουργήσουμε εργαλεία που κάνουν την ανάλυση, τον εντοπισμό σφαλμάτων και την αξιολόγηση μελλοντικών συστημάτων πιο εύκολη.
Συντάκτες
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


