6 de junio de 2024

Extracción de conceptos de GPT‑4

Hemos utilizado nuevos métodos escalables para descomponer las representaciones internas de GPT‑4 en 16 millones de patrones que a menudo son interpretables.

Leer el artículo Leer el código Ver funciones

Cargando…

En la actualidad, no sabemos cómo darle sentido a la actividad neuronal de los modelos de lenguaje. En este artículo, compartimos métodos mejorados para encontrar una gran cantidad de «funciones», es decir, patrones de actividad que esperamos que sean interpretables por humanos. Nuestros métodos son más escalables que el trabajo existente y los utilizamos para encontrar 16 millones de funciones en GPT‑4. Asimismo, con este otro artículo⁠(se abre en una ventana nueva), este código⁠(se abre en una ventana nueva) y las visualizaciones de funciones⁠(se abre en una ventana nueva), esperamos fomentar un mayor análisis entre la comunidad investigadora.

El desafío de interpretar las redes neuronales

A diferencia de la mayoría de las creaciones humanas, no comprendemos bien el funcionamiento interno de las redes neuronales. Por ejemplo, los ingenieros son capaces de diseñar, evaluar y reparar automóviles directamente en función de las especificaciones de sus componentes y garantizar su seguridad y rendimiento. Sin embargo, las redes neuronales no se diseñan de manera directa; en su lugar, diseñamos los algoritmos que las entrenan. Al no comprenderlas bien, es difícil descomponer las redes resultantes en partes identificables. Por eso, no es posible razonar sobre la seguridad de la IA de la misma manera que sobre la seguridad de los automóviles.

Para comprender e interpretar las redes neuronales, primero debemos encontrar los componentes básicos de los cálculos neuronales. Desafortunadamente, las activaciones neuronales de un modelo de lenguaje adoptan patrones impredecibles, que al parecer representan muchos conceptos simultáneamente. Además, son densas, lo que significa que la activación se produce siempre con cada entrada que recibe. Sin embargo, los conceptos del mundo real son muy dispersos: en cualquier contexto dado, solo una pequeña parte de todos los conceptos son pertinentes. Esto motiva el uso de autocodificadores dispersos, un método para identificar unas cuantas «funciones» de la red neuronal que son importantes para producir cualquier resultado determinado, similar al pequeño conjunto de conceptos que una persona podría tener en mente al razonar sobre una situación. Sus funciones muestran patrones de activación dispersos que se corresponden de manera natural con conceptos fáciles de entender para los humanos, incluso sin incentivos directos para la interpretabilidad.

Un diagrama que muestra el autocodificador disperso que codifica y descodifica activaciones neuronales densas con funciones dispersas.

Sin embargo, el entrenamiento de autocodificadores dispersos sigue planteando importantes desafíos. Los modelos de lenguaje de gran tamaño representan una cantidad enorme de conceptos, y es posible que los autocodificadores deban tener una capacidad acorde para poder siquiera acercarse a abarcar por completo los conceptos de un modelo avanzado. Aprender una gran cantidad de funciones dispersas es difícil y el trabajo anterior no es muy escalable.

El progreso de nuestra investigación: entrenamiento de autocodificadores a gran escala

Hemos desarrollado nuevas metodologías pioneras que nos permiten escalar nuestros autocodificadores dispersos a decenas de millones de funciones en modelos de IA avanzados. Hemos observado que nuestra metodología es escalable de manera fluida y predecible, y logra un mejor rendimiento que las técnicas anteriores. También hemos introducido varias métricas nuevas para evaluar la calidad de las funciones.

Hemos utilizado nuestra fórmula para entrenar varios autocodificadores en activaciones de GPT‑2 small y de GPT‑4, incluido un autocodificador de 16 millones de funciones en GPT‑4. Para comprobar la interpretabilidad de las funciones, visualizamos una función determinada mostrando documentos cuando se activa. Estas son algunas de las funciones interpretables que encontramos:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Visualización completa

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Hemos encontrado muchas otras funciones interesantes, que se pueden consultar aquí⁠(se abre en una ventana nueva).

Limitaciones

Estamos entusiasmados con que la interpretabilidad pueda llegar a mejorar la fiabilidad y la dirección que tomará el modelo. Sin embargo, todavía nos encontramos en las fases iniciales del proyecto y existen muchas limitaciones:

Al igual que en trabajos anteriores, muchas de las funciones descubiertas son difíciles de interpretar, y muchas se activan sin un patrón claro o exhiben activaciones falsas no relacionadas con el concepto que normalmente parecen codificar. Además, no tenemos buenos métodos para comprobar la validez de las interpretaciones.
El autocodificador disperso no recoge todo el comportamiento del modelo original. En la actualidad, pasar las activaciones de GPT‑4 a través del autocodificador disperso da como resultado un rendimiento equivalente a un modelo entrenado con aproximadamente 10 veces menos computación. Para asignar completamente los conceptos en los LLM avanzados, es posible que necesitemos escalar a miles de millones o billones de funciones, lo que sería un desafío incluso con nuestras técnicas de escalado mejoradas.
Los autocodificadores dispersos pueden encontrar funciones en un punto del modelo, pero eso solo es un paso hacia la interpretación del modelo. Se requiere mucho más trabajo para comprender cómo el modelo calcula las funciones y cómo estas se utilizan en el resto del modelo.

Qué nos depara el futuro y la publicación del código fuente de nuestra investigación

Si bien la investigación sobre autocodificadores dispersos es interesante, quedan un largo camino por recorrer y muchos desafíos por resolver. A corto plazo, esperamos que las funciones que hemos encontrado puedan ser útiles en la práctica para supervisar y dirigir los comportamientos de los modelos de lenguaje, algo que prevemos probar en nuestros modelos avanzados. En última instancia, esperamos que algún día la interpretabilidad pueda proporcionarnos nuevas formas de razonar sobre la seguridad y la solidez de los modelos, así como aumentar significativamente nuestra confianza en modelos de IA potentes al brindar buenas garantías sobre su comportamiento.

Este artículo⁠(se abre en una ventana nueva) detalla nuestros experimentos y métodos, y esperamos que facilite a los investigadores el entrenamiento de autocodificadores a gran escala. Asimismo, vamos a lanzar un conjunto completo de autocodificadores para GPT‑2 small, junto con código⁠(se abre en una ventana nueva) para usarlos y el visualizador de funciones⁠(se abre en una ventana nueva) para tener una idea de a lo que pueden corresponder las funciones de GPT- 2 y GPT‑4.

Autores

Jeffrey Wu, Leo Gao, Tom Dupré la Tour y Henk Tillman

Agradecimientos

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson y Greg Brockman