Extracció de conceptes de GPT‑4
Hem utilitzat nous mètodes escalables per descompondre les representacions internes de GPT‑4 en 16 milions de patrons sovint interpretables.
Actualment no entenem com donar sentit a l’activitat neuronal dins dels models de llenguatge. Avui compartim mètodes millorats per trobar un gran nombre de "característiques" —patrons d’activitat que esperem que siguin interpretables per als humans. Els nostres mètodes escalen millor que els treballs existents, i els fem servir per trobar 16 milions de característiques a GPT‑4. Compartim un article(s'obre en una finestra nova), codi(s'obre en una finestra nova) i visualitzacions de característiques(s'obre en una finestra nova) amb la comunitat de recerca per fomentar una exploració més profunda.
A diferència del que passa amb la majoria de creacions humanes, en realitat no entenem el funcionament intern de les xarxes neuronals. Per exemple, els enginyers poden dissenyar, avaluar i arreglar cotxes directament a partir de les especificacions dels seus components, garantint-ne la seguretat i el rendiment. Tanmateix, les xarxes neuronals no es dissenyen directament; en canvi, dissenyem els algorismes que les entrenen. Les xarxes resultants no s’entenen bé i no es poden descompondre fàcilment en parts identificables. Això vol dir que no podem raonar sobre la seguretat de la IA de la mateixa manera que raonem, per exemple, sobre la seguretat dels cotxes.
Per entendre i interpretar les xarxes neuronals, primer hem de trobar blocs constructius útils per als càlculs neuronals. Malauradament, les activacions neuronals dins d’un model de llenguatge s’activen amb patrons imprevisibles i sembla que representin molts conceptes simultàniament. També s’activen densament, és a dir, cada activació sempre es dispara amb cada entrada. Però els conceptes del món real són molt dispersos: en qualsevol context donat, només una petita fracció de tots els conceptes és rellevant. Això motiva l’ús d’autoencoders dispersos, un mètode per identificar un grapat de "característiques" a la xarxa neuronal que són importants per produir qualsevol sortida donada, semblant al petit conjunt de conceptes que una persona podria tenir presents quan raona sobre una situació. Les seves característiques mostren patrons d’activació dispersos que s’alineen de manera natural amb conceptes fàcils d’entendre per als humans, fins i tot sense incentius directes per a la interpretabilitat.

Tanmateix, encara hi ha reptes importants per entrenar autoencoders dispersos. Els models lingüístics grans representen un nombre enorme de conceptes, i és possible que els nostres autoencoders hagin de ser igualment enormes per apropar-se a una cobertura completa dels conceptes d’un model d'avantguarda. Aprendre un gran nombre de característiques disperses és difícil, i els treballs anteriors no han demostrat escalar bé.
Hem desenvolupat noves metodologies d’última generació que ens permeten escalar els nostres autoencoders dispersos fins a desenes de milions de característiques en models d’IA d'avantguarda. Hem vist que la nostra metodologia mostra una escalabilitat suau i predictible, amb millors rendiments d’escala que les tècniques anteriors. També presentem diverses mètriques noves per avaluar la qualitat de les característiques.
Hem utilitzat la nostra recepta per entrenar una varietat d’autoencoders amb activacions de GPT‑2 small i GPT‑4, inclòs un autoencoder de 16 milions de característiques a GPT‑4. Per comprovar la interpretabilitat de les característiques, visualitzem una característica concreta mostrant documents on s’activa. Aquestes són algunes característiques interpretables que hem trobat:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Veure la visualització completa(s'obre en una finestra nova)Hem trobat moltes altres característiques interessants, que podeu explorar aquí(s'obre en una finestra nova).
Ens fa il·lusió que, amb el temps, la interpretabilitat augmenti la fiabilitat i la capacitat de control dels models. Tanmateix, aquesta feina encara és primerenca i té moltes limitacions:
- Com en treballs anteriors, moltes de les característiques descobertes continuen sent difícils d’interpretar; moltes s’activen sense un patró clar o mostren activacions espúries no relacionades amb el concepte que aparentment solen codificar. A més, no tenim bones maneres de comprovar la validesa de les interpretacions.
- L’autoencoder dispers no captura tot el comportament del model original. Actualment, fer passar les activacions de GPT‑4 per l’autoencoder dispers dona com a resultat un rendiment equivalent al d’un model entrenat amb aproximadament 10 vegades menys còmput. Per mapejar completament els conceptes en LLM d'avantguarda, potser haurem d’escalar fins a milers de milions o bilions de característiques, cosa que seria complicada fins i tot amb les nostres tècniques d’escalat millorades.
- Els autoencoders dispersos poden trobar característiques en un punt del model, però això és només un pas cap a la interpretació del model. Cal molta més feina per entendre com el model calcula aquestes característiques i com s’utilitzen posteriorment a la resta del model.
Tot i que la recerca sobre autoencoders dispersos és apassionant, encara queda un llarg camí per recórrer i molts reptes per resoldre. A curt termini, esperem que les característiques que hem trobat puguin ser útils a la pràctica per monitorar i orientar els comportaments dels models de llenguatge, i tenim previst provar-ho en els nostres models d'avantguarda. En última instància, esperem que algun dia la interpretabilitat ens ofereixi noves maneres de raonar sobre la seguretat i la robustesa del model, i augmenti significativament la nostra confiança en els models d’IA potents en donar-nos garanties sòlides sobre el seu comportament.
Avui compartim un article(s'obre en una finestra nova) que detalla els nostres experiments i mètodes, i que esperem que faciliti als investigadors l’entrenament d’autoencoders a gran escala. Publiquem un conjunt complet d’autoencoders per a GPT‑2 small, juntament amb el codi(s'obre en una finestra nova) per fer-los servir, i el visualitzador de característiques(s'obre en una finestra nova) per fer-se una idea del que poden representar les característiques de GPT‑2 i GPT‑4.
Autors
Agraïments
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman