6 de junio de 2024

Interpretación de los conceptos de GPT‑4

Usamos nuevos métodos ampliables para descomponer las representaciones internas de GPT‑4 en 16 millones de esquemas que, por lo general, son interpretables.

Leer documento Leer el código Ver funciones

Cargando...

En la actualidad, no tenemos forma de darle sentido a la actividad neuronal de los modelos de lenguaje. En este artículo, presentamos métodos optimizados para identificar una gran cantidad de “funciones”, es decir, patrones de actividad que, según creemos, pueden ser interpretados por los humanos. Nuestros métodos se adaptan mejor que los actuales y, con ellos, encontramos 16 millones de funciones en GPT‑4. Vamos a poner a disposición de la comunidad científica un artículo⁠(se abre en una nueva ventana), código⁠(se abre en una nueva ventana) y visualizaciones de las funciones⁠(se abre en una nueva ventana) para promover un análisis a fondo.

Cómo interpretar las redes neuronales

A diferencia de lo que sucede con la mayoría de las creaciones humanas, no conocemos bien los procesos internos de las redes neuronales de los modelos de lenguaje. Por ejemplo, los ingenieros diseñan, evalúan y reparan automóviles basándose directamente en las especificaciones de los componentes y, de esa forma, garantizan su seguridad y rendimiento. En cambio, las redes neuronales de la IA no tienen un diseño evidente, dado que desarrollamos algoritmos que las entrenan. Como consecuencia, no comprendemos estas redes del todo y no podemos descomponerlas en piezas identificables. Esto implica que no somos capaces de razonar sobre la seguridad de la inteligencia artificial de la misma manera en que lo hacemos, por ejemplo, sobre la de los automóviles.

Para poder comprender e interpretar las redes neuronales, primero debemos determinar las unidades estructurales con las que se hacen los cómputos. Infortunadamente, en los modelos de lenguaje las activaciones neuronales se dan a partir de configuraciones impredecibles, aparentemente diversos conceptos en simultáneo. Estas activaciones son expansivas, es decir, cada una de ellas desencadena otra a partir de las entradas hechas. Pero los conceptos del mundo real son muy dispersos: en cualquier contexto dado, solo una pequeña parte de todos ellos resulta oportuna. Esto explica el uso de codificadores automáticos dispersos, un método para detectar varias de las “funciones” de la red neuronal imprescindibles para generar un resultado determinado. Se podría comparar con el conjunto limitado de conceptos que se le podrían venir a la mente a una persona al pensar en una situación. Sus funciones ponen de manifiesto patrones de activación dispersos que se corresponden de forma inherente con conceptos fáciles de entender para los humanos, aun cuando su interpretabilidad no haya sido una característica incorporada a los modelos.

Diagrama que muestra cómo el codificador automático disperso codifica y decodifica activaciones neuronales expansivas mediante funciones dispersas.

No obstante, entrenar codificadores automáticos dispersos sigue planteando problemas importantes. Los grandes modelos de lenguaje tienen acceso a una cantidad de conceptos descomunal y la capacidad de los codificadores automáticos debe ser igualmente descomunal para poder siquiera llegar a abarcar por completo los conceptos de un modelo avanzado. Aprender una gran cantidad de funciones dispersas es difícil y los intentos anteriores no han logrado adaptarse.

Avances de la investigación: entrenamiento de codificadores automáticos a gran escala

Desarrollamos metodologías de punta que nos permiten ampliar nuestros codificadores automáticos dispersos a decenas de millones de funciones en los modelos de IA más avanzados. Nuestro procedimiento ha demostrado tener una capacidad de adaptación eficaz y predecible, con un rendimiento mejor que el de las técnicas anteriores. También incorporamos varias métricas nuevas para evaluar la calidad de las funciones.

Usamos la fórmula para entrenar varios codificadores automáticos con las activaciones de GPT‑2 small y de GPT‑4, incluso un codificador automático de 16 millones de funciones basándonos en los datos de GPT‑4. Para comprobar la interpretabilidad de las funciones, visualizamos una función determinada mostrando documentos cuando se activa. Estas son algunas de las funciones interpretables que encontramos:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Ver la visualización completa

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Descubrimos muchas otras funciones interesantes, que se pueden consultar aquí⁠(se abre en una nueva ventana).

Limitaciones

Nos entusiasma que la interpretabilidad de los modelos a la larga pueda mejorar la confiabilidad y orientación de la IA. Sin embargo, este proyecto aún está en sus primeras fases y tiene muchas limitaciones:

Al igual que en trabajos anteriores, muchas de las funciones detectadas siguen siendo difíciles de interpretar, y muchas se activan sin un esquema evidente o ponen de manifiesto activaciones engañosas que no guardan relación alguna con el concepto que aparentemente codifica. Además, no tenemos métodos fiables para corroborar la validez de las interpretaciones.
El codificador automático disperso no registra todos los comportamientos del modelo original. Actualmente, al analizar las activaciones de GPT‑4 con el codificador automático disperso, se obtiene un rendimiento similar al de un modelo entrenado con aproximadamente 10 veces menos datos de cómputo. Para cubrir todos los conceptos de los modelos de lenguaje más avanzados, puede que necesitemos miles de millones o billones de funciones, lo que representaría un desafío incluso con nuestras técnicas de ampliación optimizadas.
Los codificadores automáticos dispersos detectan funciones en una etapa específica de los modelos, pero ese es el primer paso para poder interpretarlos. Aún nos queda muchísimo trabajo por delante para comprender cómo procesan las funciones y cómo estas influencian las decisiones de los modelos.

De cara al futuro: publicar el código fuente de nuestras investigaciones

Investigar sobre los codificadores automáticos dispersos es fascinante, pero queda un largo camino por recorrer y muchos problemas por resolver. A corto plazo, esperamos que las funciones que identificamos puedan implementarse a fin de supervisar y orientar los comportamientos de los modelos de lenguaje, algo que queremos probar en nuestros modelos más avanzados. En última instancia, deseamos que algún día la interpretabilidad nos permita evaluar la seguridad y la consistencia de los modelos desde otras perspectivas y que nos ofrezca garantías sobre su comportamiento para poder depositar toda nuestra confianza en la eficacia de los modelos de IA.

Presentamos un artículo⁠(se abre en una nueva ventana) en el que se detallan nuestros experimentos y métodos. Esperamos que este les facilite a investigadores la labor de entrenar codificadores automáticos a gran escala. Asimismo, vamos a poner a disposición un conjunto completo de codificadores automáticos para GPT‑2 small, junto con código⁠(se abre en una nueva ventana) para usarlos y el visualizador de funciones⁠(se abre en una nueva ventana) para dar una idea de a lo que pueden corresponder las funciones de GPT- 2 y GPT‑4.

Autores

Jeffrey Wu, Leo Gao, Tom Dupré la Tour y Henk Tillman

Agradecimientos

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson y Greg Brockman