6 de juny del 2024

Extracció de conceptes de GPT‑4

Hem utilitzat nous mètodes escalables per descompondre les representacions internes de GPT‑4 en 16 milions de patrons sovint interpretables.

Llegeix l'article Llegeix el codi Explora les característiques

S'està carregant…

Actualment no entenem com donar sentit a l’activitat neuronal dins dels models de llenguatge. Avui compartim mètodes millorats per trobar un gran nombre de "característiques" —patrons d’activitat que esperem que siguin interpretables per als humans. Els nostres mètodes escalen millor que els treballs existents, i els fem servir per trobar 16 milions de característiques a GPT‑4. Compartim un article⁠(s'obre en una finestra nova), codi⁠(s'obre en una finestra nova) i visualitzacions de característiques⁠(s'obre en una finestra nova) amb la comunitat de recerca per fomentar una exploració més profunda.

El repte d’interpretar les xarxes neuronals

A diferència del que passa amb la majoria de creacions humanes, en realitat no entenem el funcionament intern de les xarxes neuronals. Per exemple, els enginyers poden dissenyar, avaluar i arreglar cotxes directament a partir de les especificacions dels seus components, garantint-ne la seguretat i el rendiment. Tanmateix, les xarxes neuronals no es dissenyen directament; en canvi, dissenyem els algorismes que les entrenen. Les xarxes resultants no s’entenen bé i no es poden descompondre fàcilment en parts identificables. Això vol dir que no podem raonar sobre la seguretat de la IA de la mateixa manera que raonem, per exemple, sobre la seguretat dels cotxes.

Per entendre i interpretar les xarxes neuronals, primer hem de trobar blocs constructius útils per als càlculs neuronals. Malauradament, les activacions neuronals dins d’un model de llenguatge s’activen amb patrons imprevisibles i sembla que representin molts conceptes simultàniament. També s’activen densament, és a dir, cada activació sempre es dispara amb cada entrada. Però els conceptes del món real són molt dispersos: en qualsevol context donat, només una petita fracció de tots els conceptes és rellevant. Això motiva l’ús d’autoencoders dispersos, un mètode per identificar un grapat de "característiques" a la xarxa neuronal que són importants per produir qualsevol sortida donada, semblant al petit conjunt de conceptes que una persona podria tenir presents quan raona sobre una situació. Les seves característiques mostren patrons d’activació dispersos que s’alineen de manera natural amb conceptes fàcils d’entendre per als humans, fins i tot sense incentius directes per a la interpretabilitat.

Un diagrama que mostra com l’autoencoder dispers codifica i descodifica activacions neuronals denses en característiques disperses.

Tanmateix, encara hi ha reptes importants per entrenar autoencoders dispersos. Els models lingüístics grans representen un nombre enorme de conceptes, i és possible que els nostres autoencoders hagin de ser igualment enormes per apropar-se a una cobertura completa dels conceptes d’un model d'avantguarda. Aprendre un gran nombre de característiques disperses és difícil, i els treballs anteriors no han demostrat escalar bé.

El nostre progrés en la recerca: entrenament d’autoencoders a gran escala

Hem desenvolupat noves metodologies d’última generació que ens permeten escalar els nostres autoencoders dispersos fins a desenes de milions de característiques en models d’IA d'avantguarda. Hem vist que la nostra metodologia mostra una escalabilitat suau i predictible, amb millors rendiments d’escala que les tècniques anteriors. També presentem diverses mètriques noves per avaluar la qualitat de les característiques.

Hem utilitzat la nostra recepta per entrenar una varietat d’autoencoders amb activacions de GPT‑2 small i GPT‑4, inclòs un autoencoder de 16 milions de característiques a GPT‑4. Per comprovar la interpretabilitat de les característiques, visualitzem una característica concreta mostrant documents on s’activa. Aquestes són algunes característiques interpretables que hem trobat:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Veure la visualització completa

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Hem trobat moltes altres característiques interessants, que podeu explorar aquí⁠(s'obre en una finestra nova).

Limitacions

Ens fa il·lusió que, amb el temps, la interpretabilitat augmenti la fiabilitat i la capacitat de control dels models. Tanmateix, aquesta feina encara és primerenca i té moltes limitacions:

Com en treballs anteriors, moltes de les característiques descobertes continuen sent difícils d’interpretar; moltes s’activen sense un patró clar o mostren activacions espúries no relacionades amb el concepte que aparentment solen codificar. A més, no tenim bones maneres de comprovar la validesa de les interpretacions.
L’autoencoder dispers no captura tot el comportament del model original. Actualment, fer passar les activacions de GPT‑4 per l’autoencoder dispers dona com a resultat un rendiment equivalent al d’un model entrenat amb aproximadament 10 vegades menys còmput. Per mapejar completament els conceptes en LLM d'avantguarda, potser haurem d’escalar fins a milers de milions o bilions de característiques, cosa que seria complicada fins i tot amb les nostres tècniques d’escalat millorades.
Els autoencoders dispersos poden trobar característiques en un punt del model, però això és només un pas cap a la interpretació del model. Cal molta més feina per entendre com el model calcula aquestes característiques i com s’utilitzen posteriorment a la resta del model.

Mirant cap al futur i publicant la nostra recerca en obert

Tot i que la recerca sobre autoencoders dispersos és apassionant, encara queda un llarg camí per recórrer i molts reptes per resoldre. A curt termini, esperem que les característiques que hem trobat puguin ser útils a la pràctica per monitorar i orientar els comportaments dels models de llenguatge, i tenim previst provar-ho en els nostres models d'avantguarda. En última instància, esperem que algun dia la interpretabilitat ens ofereixi noves maneres de raonar sobre la seguretat i la robustesa del model, i augmenti significativament la nostra confiança en els models d’IA potents en donar-nos garanties sòlides sobre el seu comportament.

Avui compartim un article⁠(s'obre en una finestra nova) que detalla els nostres experiments i mètodes, i que esperem que faciliti als investigadors l’entrenament d’autoencoders a gran escala. Publiquem un conjunt complet d’autoencoders per a GPT‑2 small, juntament amb el codi⁠(s'obre en una finestra nova) per fer-los servir, i el visualitzador de característiques⁠(s'obre en una finestra nova) per fer-se una idea del que poden representar les característiques de GPT‑2 i GPT‑4.

Autors

Jeffrey Wu, Leo Gao, Tom Dupré la Tour i Henk Tillman

Agraïments

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman