Comprendre les réseaux neuronaux à travers des circuits clairsemés
Nous avons formé les modèles à réfléchir en étapes plus simples et plus traçables, afin que nous puissions mieux comprendre leur fonctionnement.
Les réseaux neuronaux alimentent les systèmes d'intelligence artificielle les plus performants d'aujourd'hui, mais ils demeurent difficiles à comprendre. Nous n'écrivons pas ces modèles avec des instructions explicites, étape par étape. Au lieu de cela, ils apprennent en ajustant des milliards de connexions internes, ou « poids », jusqu’à ce qu’ils maîtrisent une tâche. Nous concevons les règles de formation, mais pas les comportements spécifiques qui en émergent, et le résultat est un réseau dense de connexions qu'aucun humain ne peut facilement déchiffrer.
À mesure que les systèmes d'IA deviennent plus performants et ont un impact concret sur les décisions dans les domaines de la science, de l'éducation et des soins de santé, il est essentiel de comprendre leur fonctionnement. L'interprétabilité désigne les méthodes qui nous aident à comprendre pourquoi un modèle a produit une sortie donnée. Il y a de nombreuses façons dont nous pourrions y parvenir.
Par exemple, les modèles de raisonnement sont encouragés à expliquer leur processus en route vers une réponse finale. L'interprétabilité de la chaîne de réflexion utilise ces explications pour surveiller le comportement du modèle. Ceci est immédiatement utile : les chaînes de pensée des modèles de raisonnement actuels semblent être informatives en ce qui concerne les comportements préoccupants tels que la tromperie. Cependant, s'appuyer entièrement sur cette propriété est une stratégie fragile, et cela pourrait s'effondrer avec le temps.
D'autre part, l'interprétabilité mécaniste, qui est l'objet de ce travail, cherche à reconstituer complètement les calculs d'un modèle. Jusqu'à présent, cela s'est révélé moins immédiatement utile, mais pourrait en principe offrir une explication plus complète du comportement du modèle. En cherchant à expliquer le comportement du modèle au niveau le plus fin, l’interprétabilité mécaniste peut faire moins d’hypothèses et nous donner plus de confiance. Cependant, le chemin allant des détails de bas niveau aux explications des comportements complexes est bien plus long et ardu.
Le soutien à l'interprétabilité appuie plusieurs objectifs clés, par exemple en permettant une meilleure surveillance et en fournissant des signes avant-coureurs de comportements dangereux ou stratégiquement mal alignés. Elle complète aussi nos autres efforts en matière de sécurité, comme la supervision évolutive, la formation des adversaires et le recrutement en équipe rouge.
Dans ce travail, nous montrons qu'il est souvent possible de former des modèles de manière à les rendre plus faciles à interpréter. Nous voyons notre travail comme un complément prometteur à l'analyse post-hoc des réseaux denses.
C'est un pari très ambitieux; il y a un long chemin à parcourir entre nos travaux et la compréhension complète des comportements complexes de nos modèles les plus puissants. Néanmoins, pour les comportements simples, nous constatons que les modèles clairsemés formés avec notre méthode contiennent de petits circuits désenchevêtrés qui sont à la fois compréhensibles et suffisants pour exécuter le comportement. Cela suggère qu'il pourrait y avoir une voie praticable pour la formation de systèmes plus grands dont nous pouvons comprendre les mécanismes.
Les travaux antérieurs sur l'interprétabilité mécaniste ont commencé par des réseaux denses et emmêlés, et ont essayé de les démêler. Dans ces réseaux, chaque neurone individuel est connecté à des milliers d’autres neurones. La plupart des neurones semblent accomplir de nombreuses fonctions distinctes, rendant leur compréhension apparemment impossible.
Mais que se passerait-il si nous formions des réseaux neuronaux non enchevêtrés, avec beaucoup plus de neurones, mais où chaque neurone n'a que quelques dizaines de connexions? Peut-être que le réseau résultant sera alors plus simple et plus facile à comprendre. Il s'agit du principal pari de recherche de nos travaux.
En gardant ce principe à l'esprit, nous avons formé des modèles de langage avec une architecture très similaire à celle des modèles de langage existants comme GPT‑2, avec une petite modification : nous forçons la grande majorité des poids du modèle à être nuls. Cela a contraint le modèle à n'utiliser qu'un très petit nombre de connexions possibles entre ses neurones. Il s'agit d'un changement simple qui, selon nous, démêle substantiellement les calculs internes du modèle.
Dans les réseaux neuronaux denses normaux, chaque neurone est connecté à chaque neurone de la couche suivante. Dans nos modèles clairsemés, chaque neurone ne se connecte qu’à quelques neurones de la couche suivante. Nous espérons que cela facilitera la compréhension des neurones et du réseau dans son ensemble.
Nous souhaitons mesurer dans quelle mesure les calculs de nos modèles clairsemés sont détachés. Nous avons examiné divers comportements simples du modèle et vérifié si nous pouvions isoler les parties du modèle responsables de chaque comportement, que nous appelons circuits.
Nous avons soigneusement sélectionné un ensemble de tâches algorithmiques simples. Pour chacun, nous avons réduit le modèle au plus petit circuit capable d'effectuer la tâche, et nous avons examiné la simplicité de ce circuit. (Pour plus de détails, voir notre article(s'ouvre dans une nouvelle fenêtre).) Nous avons constaté qu'avec la formation de modèles plus grands et plus clairsemés, nous pouvions produire des modèles de plus en plus performants avec des circuits de plus en plus simples.
Nous traçons l'interprétabilité par rapport à la capacité à travers les modèles (le coin inférieur gauche est le meilleur). Pour une taille de modèle clairsemée fixe, augmenter la parcimonie—en mettant plus de poids à zéro—réduit la capacité mais augmente l'interprétabilité. L'augmentation de la taille du modèle repousse cette frontière, ce qui suggère que nous pouvons créer des modèles plus grands qui sont à la fois performants et interprétables.
Pour rendre cela concret, considérez une tâche où un modèle formé sur du code Python doit compléter une chaîne avec le bon type de guillemet. En Python, 'hello' doit se terminer par un guillemet simple, et "hello" par un guillemet double. Le modèle peut résoudre ce problème en se rappelant du type de guillemet qui a ouvert la chaîne et en le reproduisant à la fin.
Nos modèles les plus interprétables semblent contenir des circuits désentrelacés qui mettent en œuvre exactement cet algorithme.

Exemple de circuit dans un transformeur clairsemé qui prédit si une chaîne de caractères doit se terminer par un guillemet simple ou double. Ce circuit utilise seulement cinq canaux résiduels (lignes verticales grises), deux neurones MLP dans la couche 0, ainsi qu'un canal de requête-clé d'attention et un canal de valeur dans la couche 10. Le modèle (1) encode les guillemets simples dans un canal résiduel et les guillemets doubles dans un autre; (2) utilise une couche MLP pour convertir cela en un canal qui détecte tout guillemet et un autre qui classe entre guillemets simples et doubles; (3) utilise une opération d'attention pour ignorer les tokens intermédiaires, trouver le guillemet précédent et copier son type sur le token final; et (4) prédit le guillemet fermant correspondant.
Dans notre définition, les connexions exactes montrées ci-dessus suffisent pour accomplir la tâche — si nous retirons le reste du modèle, ce petit circuit fonctionne toujours. Elles sont également nécessaires – supprimer ces quelques arêtes entraîne l'échec du modèle.
Nous avons également examiné des comportements plus complexes. Nos circuits pour ces comportements (par exemple, la liaison de variables illustrée ci-dessous) sont plus difficiles à expliquer complètement. Même dans ce cas, nous pouvons encore obtenir des explications partielles relativement simples qui prédisent le comportement du modèle.
Un autre exemple de circuit, en moins de détails. Pour déterminer le type d’une variable appelée current, une opération d’attention copie le nom de la variable dans le token set() lorsqu’il est défini, et une autre opération ultérieure copie le type du token set() dans une utilisation ultérieure de la variable, permettant au modèle d’inférer le bon token suivant.
Ce travail est une première étape vers un objectif plus large : rendre les calculs des modèles plus faciles à comprendre. Mais il reste encore beaucoup à faire. Nos modèles clairsemés sont beaucoup plus petits que les modèles de pointe, et une grande partie de leur calcul reste non interprétée.
Ensuite, nous espérons adapter nos techniques à des modèles plus grands et expliquer davantage le comportement de ces modèles. En énumérant des motifs de circuit sous-jacents à un raisonnement plus complexe dans des modèles clairsemés performants, nous pourrions développer une compréhension qui nous aide à mieux cibler les enquêtes sur les modèles de pointe.
Pour surmonter l’inefficacité de la formation de modèles clairsemés, nous voyons deux voies. L'une des approches consiste à extraire des circuits clairsemés à partir de modèles denses existants, plutôt que de faire la formation de modèles clairsemés à partir de zéro. Les modèles denses sont fondamentalement plus efficaces à déployer que les modèles clairsemés. L'autre voie consiste à développer des techniques plus efficaces pour former des modèles en vue de leur interprétabilité, ce qui pourrait être plus facile à mettre en production.
Veuillez noter que nos résultats ici ne garantissent pas que cette approche s'étendra à des systèmes plus performants, mais ces premiers résultats sont prometteurs. Notre objectif est d'étendre progressivement la part d'un modèle que nous pouvons interpréter de manière fiable et de créer des outils qui facilitent l'analyse, le déboguer et l'évaluation des futurs systèmes.
Auteurs
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


