Extracción de conceptos de GPT‑4
Hemos utilizado nuevos métodos escalables para descomponer las representaciones internas de GPT‑4 en 16 millones de patrones que a menudo son interpretables.
En la actualidad, no sabemos cómo darle sentido a la actividad neuronal de los modelos de lenguaje. En este artículo, compartimos métodos mejorados para encontrar una gran cantidad de «funciones», es decir, patrones de actividad que esperamos que sean interpretables por humanos. Nuestros métodos son más escalables que el trabajo existente y los utilizamos para encontrar 16 millones de funciones en GPT‑4. Asimismo, con este otro artículo(se abre en una ventana nueva), este código(se abre en una ventana nueva) y las visualizaciones de funciones(se abre en una ventana nueva), esperamos fomentar un mayor análisis entre la comunidad investigadora.
A diferencia de la mayoría de las creaciones humanas, no comprendemos bien el funcionamiento interno de las redes neuronales. Por ejemplo, los ingenieros son capaces de diseñar, evaluar y reparar automóviles directamente en función de las especificaciones de sus componentes y garantizar su seguridad y rendimiento. Sin embargo, las redes neuronales no se diseñan de manera directa; en su lugar, diseñamos los algoritmos que las entrenan. Al no comprenderlas bien, es difícil descomponer las redes resultantes en partes identificables. Por eso, no es posible razonar sobre la seguridad de la IA de la misma manera que sobre la seguridad de los automóviles.
Para comprender e interpretar las redes neuronales, primero debemos encontrar los componentes básicos de los cálculos neuronales. Desafortunadamente, las activaciones neuronales de un modelo de lenguaje adoptan patrones impredecibles, que al parecer representan muchos conceptos simultáneamente. Además, son densas, lo que significa que la activación se produce siempre con cada entrada que recibe. Sin embargo, los conceptos del mundo real son muy dispersos: en cualquier contexto dado, solo una pequeña parte de todos los conceptos son pertinentes. Esto motiva el uso de autocodificadores dispersos, un método para identificar unas cuantas «funciones» de la red neuronal que son importantes para producir cualquier resultado determinado, similar al pequeño conjunto de conceptos que una persona podría tener en mente al razonar sobre una situación. Sus funciones muestran patrones de activación dispersos que se corresponden de manera natural con conceptos fáciles de entender para los humanos, incluso sin incentivos directos para la interpretabilidad.

Sin embargo, el entrenamiento de autocodificadores dispersos sigue planteando importantes desafíos. Los modelos de lenguaje de gran tamaño representan una cantidad enorme de conceptos, y es posible que los autocodificadores deban tener una capacidad acorde para poder siquiera acercarse a abarcar por completo los conceptos de un modelo avanzado. Aprender una gran cantidad de funciones dispersas es difícil y el trabajo anterior no es muy escalable.
Hemos desarrollado nuevas metodologías pioneras que nos permiten escalar nuestros autocodificadores dispersos a decenas de millones de funciones en modelos de IA avanzados. Hemos observado que nuestra metodología es escalable de manera fluida y predecible, y logra un mejor rendimiento que las técnicas anteriores. También hemos introducido varias métricas nuevas para evaluar la calidad de las funciones.
Hemos utilizado nuestra fórmula para entrenar varios autocodificadores en activaciones de GPT‑2 small y de GPT‑4, incluido un autocodificador de 16 millones de funciones en GPT‑4. Para comprobar la interpretabilidad de las funciones, visualizamos una función determinada mostrando documentos cuando se activa. Estas son algunas de las funciones interpretables que encontramos:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Visualización completa(se abre en una ventana nueva)Hemos encontrado muchas otras funciones interesantes, que se pueden consultar aquí(se abre en una ventana nueva).
Estamos entusiasmados con que la interpretabilidad pueda llegar a mejorar la fiabilidad y la dirección que tomará el modelo. Sin embargo, todavía nos encontramos en las fases iniciales del proyecto y existen muchas limitaciones:
- Al igual que en trabajos anteriores, muchas de las funciones descubiertas son difíciles de interpretar, y muchas se activan sin un patrón claro o exhiben activaciones falsas no relacionadas con el concepto que normalmente parecen codificar. Además, no tenemos buenos métodos para comprobar la validez de las interpretaciones.
- El autocodificador disperso no recoge todo el comportamiento del modelo original. En la actualidad, pasar las activaciones de GPT‑4 a través del autocodificador disperso da como resultado un rendimiento equivalente a un modelo entrenado con aproximadamente 10 veces menos computación. Para asignar completamente los conceptos en los LLM avanzados, es posible que necesitemos escalar a miles de millones o billones de funciones, lo que sería un desafío incluso con nuestras técnicas de escalado mejoradas.
- Los autocodificadores dispersos pueden encontrar funciones en un punto del modelo, pero eso solo es un paso hacia la interpretación del modelo. Se requiere mucho más trabajo para comprender cómo el modelo calcula las funciones y cómo estas se utilizan en el resto del modelo.
Si bien la investigación sobre autocodificadores dispersos es interesante, quedan un largo camino por recorrer y muchos desafíos por resolver. A corto plazo, esperamos que las funciones que hemos encontrado puedan ser útiles en la práctica para supervisar y dirigir los comportamientos de los modelos de lenguaje, algo que prevemos probar en nuestros modelos avanzados. En última instancia, esperamos que algún día la interpretabilidad pueda proporcionarnos nuevas formas de razonar sobre la seguridad y la solidez de los modelos, así como aumentar significativamente nuestra confianza en modelos de IA potentes al brindar buenas garantías sobre su comportamiento.
Este artículo(se abre en una ventana nueva) detalla nuestros experimentos y métodos, y esperamos que facilite a los investigadores el entrenamiento de autocodificadores a gran escala. Asimismo, vamos a lanzar un conjunto completo de autocodificadores para GPT‑2 small, junto con código(se abre en una ventana nueva) para usarlos y el visualizador de funciones(se abre en una ventana nueva) para tener una idea de a lo que pueden corresponder las funciones de GPT- 2 y GPT‑4.
Autores
Agradecimientos
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson y Greg Brockman