Interpretación de los conceptos de GPT‑4
Usamos nuevos métodos ampliables para descomponer las representaciones internas de GPT‑4 en 16 millones de esquemas que, por lo general, son interpretables.
En la actualidad, no tenemos forma de darle sentido a la actividad neuronal de los modelos de lenguaje. En este artículo, presentamos métodos optimizados para identificar una gran cantidad de “funciones”, es decir, patrones de actividad que, según creemos, pueden ser interpretados por los humanos. Nuestros métodos se adaptan mejor que los actuales y, con ellos, encontramos 16 millones de funciones en GPT‑4. Vamos a poner a disposición de la comunidad científica un artículo(se abre en una nueva ventana), código(se abre en una nueva ventana) y visualizaciones de las funciones(se abre en una nueva ventana) para promover un análisis a fondo.
A diferencia de lo que sucede con la mayoría de las creaciones humanas, no conocemos bien los procesos internos de las redes neuronales de los modelos de lenguaje. Por ejemplo, los ingenieros diseñan, evalúan y reparan automóviles basándose directamente en las especificaciones de los componentes y, de esa forma, garantizan su seguridad y rendimiento. En cambio, las redes neuronales de la IA no tienen un diseño evidente, dado que desarrollamos algoritmos que las entrenan. Como consecuencia, no comprendemos estas redes del todo y no podemos descomponerlas en piezas identificables. Esto implica que no somos capaces de razonar sobre la seguridad de la inteligencia artificial de la misma manera en que lo hacemos, por ejemplo, sobre la de los automóviles.
Para poder comprender e interpretar las redes neuronales, primero debemos determinar las unidades estructurales con las que se hacen los cómputos. Infortunadamente, en los modelos de lenguaje las activaciones neuronales se dan a partir de configuraciones impredecibles, aparentemente diversos conceptos en simultáneo. Estas activaciones son expansivas, es decir, cada una de ellas desencadena otra a partir de las entradas hechas. Pero los conceptos del mundo real son muy dispersos: en cualquier contexto dado, solo una pequeña parte de todos ellos resulta oportuna. Esto explica el uso de codificadores automáticos dispersos, un método para detectar varias de las “funciones” de la red neuronal imprescindibles para generar un resultado determinado. Se podría comparar con el conjunto limitado de conceptos que se le podrían venir a la mente a una persona al pensar en una situación. Sus funciones ponen de manifiesto patrones de activación dispersos que se corresponden de forma inherente con conceptos fáciles de entender para los humanos, aun cuando su interpretabilidad no haya sido una característica incorporada a los modelos.

No obstante, entrenar codificadores automáticos dispersos sigue planteando problemas importantes. Los grandes modelos de lenguaje tienen acceso a una cantidad de conceptos descomunal y la capacidad de los codificadores automáticos debe ser igualmente descomunal para poder siquiera llegar a abarcar por completo los conceptos de un modelo avanzado. Aprender una gran cantidad de funciones dispersas es difícil y los intentos anteriores no han logrado adaptarse.
Desarrollamos metodologías de punta que nos permiten ampliar nuestros codificadores automáticos dispersos a decenas de millones de funciones en los modelos de IA más avanzados. Nuestro procedimiento ha demostrado tener una capacidad de adaptación eficaz y predecible, con un rendimiento mejor que el de las técnicas anteriores. También incorporamos varias métricas nuevas para evaluar la calidad de las funciones.
Usamos la fórmula para entrenar varios codificadores automáticos con las activaciones de GPT‑2 small y de GPT‑4, incluso un codificador automático de 16 millones de funciones basándonos en los datos de GPT‑4. Para comprobar la interpretabilidad de las funciones, visualizamos una función determinada mostrando documentos cuando se activa. Estas son algunas de las funciones interpretables que encontramos:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Ver la visualización completa(se abre en una nueva ventana)Descubrimos muchas otras funciones interesantes, que se pueden consultar aquí(se abre en una nueva ventana).
Nos entusiasma que la interpretabilidad de los modelos a la larga pueda mejorar la confiabilidad y orientación de la IA. Sin embargo, este proyecto aún está en sus primeras fases y tiene muchas limitaciones:
- Al igual que en trabajos anteriores, muchas de las funciones detectadas siguen siendo difíciles de interpretar, y muchas se activan sin un esquema evidente o ponen de manifiesto activaciones engañosas que no guardan relación alguna con el concepto que aparentemente codifica. Además, no tenemos métodos fiables para corroborar la validez de las interpretaciones.
- El codificador automático disperso no registra todos los comportamientos del modelo original. Actualmente, al analizar las activaciones de GPT‑4 con el codificador automático disperso, se obtiene un rendimiento similar al de un modelo entrenado con aproximadamente 10 veces menos datos de cómputo. Para cubrir todos los conceptos de los modelos de lenguaje más avanzados, puede que necesitemos miles de millones o billones de funciones, lo que representaría un desafío incluso con nuestras técnicas de ampliación optimizadas.
- Los codificadores automáticos dispersos detectan funciones en una etapa específica de los modelos, pero ese es el primer paso para poder interpretarlos. Aún nos queda muchísimo trabajo por delante para comprender cómo procesan las funciones y cómo estas influencian las decisiones de los modelos.
Investigar sobre los codificadores automáticos dispersos es fascinante, pero queda un largo camino por recorrer y muchos problemas por resolver. A corto plazo, esperamos que las funciones que identificamos puedan implementarse a fin de supervisar y orientar los comportamientos de los modelos de lenguaje, algo que queremos probar en nuestros modelos más avanzados. En última instancia, deseamos que algún día la interpretabilidad nos permita evaluar la seguridad y la consistencia de los modelos desde otras perspectivas y que nos ofrezca garantías sobre su comportamiento para poder depositar toda nuestra confianza en la eficacia de los modelos de IA.
Presentamos un artículo(se abre en una nueva ventana) en el que se detallan nuestros experimentos y métodos. Esperamos que este les facilite a investigadores la labor de entrenar codificadores automáticos a gran escala. Asimismo, vamos a poner a disposición un conjunto completo de codificadores automáticos para GPT‑2 small, junto con código(se abre en una nueva ventana) para usarlos y el visualizador de funciones(se abre en una nueva ventana) para dar una idea de a lo que pueden corresponder las funciones de GPT- 2 y GPT‑4.
Autores
Agradecimientos
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson y Greg Brockman