Ir al contenido principal
OpenAI

13 de noviembre de 2025

InvestigaciónPublicación

Entender las redes neuronales a través de circuitos dispersos

Entrenamos modelos para pensar en pasos más simples y rastreables, para que podamos comprender mejor cómo funcionan.

Cargando…

​​Las redes neuronales impulsan los sistemas de IA más avanzados de hoy en día, pero siguen siendo difíciles de entender. No escribimos estos modelos con instrucciones explícitas y detalladas paso a paso. En su lugar, aprenden ajustando miles de millones de conexiones internas, o «pesos», hasta que dominan una tarea. Diseñamos las reglas de entrenamiento, pero no los comportamientos específicos que emergen, y el resultado es una densa red de conexiones que ningún humano puede descifrar fácilmente. 

Cómo vemos la interpretabilidad

A medida que los sistemas de IA se vuelven más capaces y tienen un impacto real en las decisiones de ciencia, educación y salud, es fundamental comprender cómo funcionan. La interpretabilidad se refiere a métodos que nos ayudan a entender por qué un modelo ha generado una salida determinada. Hay muchas formas de lograrlo. 

Por ejemplo, los modelos razonadores están incentivados para explicar su trabajo mientras avanzan hacia una respuesta final. La interpretabilidad de la cadena de pensamiento utiliza estas explicaciones para monitorizar el comportamiento del modelo. Esto es útil de inmediato: las cadenas de pensamiento de los modelos razonadores actuales parecen ser informativas respecto a comportamientos preocupantes como el engaño. Sin embargo, depender completamente de esta propiedad no es una estrategia sólida, y puede fallar con el tiempo.

Por otro lado, la interpretabilidad mecanicista, que es el enfoque de este trabajo, busca descomponer por completo los cálculos de un modelo. Hasta ahora ha sido menos útil de forma inmediata, pero en principio podría ofrecer una explicación más completa del comportamiento del modelo. Al buscar explicar el comportamiento del modelo a nivel detallado, la interpretabilidad mecanicista puede hacer menos suposiciones y darnos más confianza. Sin embargo, el camino desde los detalles de bajo nivel hasta las explicaciones de comportamientos complejos es mucho más largo y más difícil.

La interpretabilidad respalda varios objetivos clave, por ejemplo, permitir una mejor supervisión y proporcionar señales de alerta temprana de un comportamiento inseguro o estratégicamente desalineado. Además, complementa nuestros otros esfuerzos de seguridad, como la supervisión escalable, el entrenamiento adversarial y el equipo rojo. 

En este trabajo, demostramos que a menudo podemos entrenar modelos de modo que sean más fáciles de interpretar. Consideramos que nuestro trabajo es un complemento prometedor para el análisis post-hoc de redes densas. 

Esta es una apuesta muy ambiciosa; hay que recorrer un largo camino desde nuestro trabajo hasta comprender completamente los comportamientos complejos de nuestros modelos más potentes. Aun así, en el caso de comportamientos simples, encontramos que los modelos dispersos entrenados con nuestro método contienen circuitos pequeños y desenredados que son comprensibles y suficientes para llevar a cabo el comportamiento. Esto sugiere que puede haber un camino viable hacia el entrenamiento de sistemas más grandes cuyos mecanismos podamos entender.

Un nuevo enfoque: aprender modelos dispersos

El trabajo previo sobre la interpretabilidad mecanicista comenzó con redes densas y enredadas, y se intentó desenredarlas. En estas redes, cada neurona individual está conectada a miles de otras neuronas. La mayoría de las neuronas parecen llevar a cabo muchas funciones distintas, lo que hace que parezca imposible entenderlas. 

Pero ¿y si entrenáramos redes neuronales desenredadas, con muchas más neuronas, donde cada neurona tuviera solo unas pocas decenas de conexiones? Tal vez la red resultante sea más simple y fácil de entender. Esta es la apuesta central de investigación de nuestro trabajo.

Con este principio en mente, entrenamos modelos de lenguaje con una arquitectura muy parecida a modelos de lenguaje existentes como GPT‑2, con una pequeña modificación: obligamos a que la gran mayoría de los pesos del modelo sean cero. Así se restringió el modelo para que usara solo unas pocas de las posibles conexiones entre sus neuronas. Es un cambio simple que, según argumentamos, desenreda sustancialmente los cálculos internos del modelo.

Diagrama que compara circuitos densos y circuitos dispersos. La versión densa muestra dos filas de nodos con muchas líneas interconectadas, mientras que la versión dispersa muestra el mismo diseño, pero con menos conexiones, más selectivas.

En las redes neuronales densas normales, cada neurona está conectada a cada neurona de la siguiente capa. En nuestros modelos dispersos, cada neurona solo se conecta a unas pocas neuronas en la siguiente capa. Esperamos que de este modo las neuronas y la red en su conjunto sean más fáciles de entender.

Evaluación de la interpretabilidad

Queremos medir hasta qué punto los cálculos de nuestros modelos dispersos están desenredados. Consideramos varios comportamientos de modelos simples y verificamos si podíamos aislar las partes del modelo responsables de cada comportamiento, a los que llamamos circuitos.

Seleccionamos manualmente un conjunto de tareas algorítmicas simples. Para cada una, redujimos el modelo al circuito más pequeño que aún puede llevar a cabo la tarea y examinamos cómo de simple es ese circuito (para obtener más detalles, consulta nuestro artículo(se abre en una ventana nueva)). Descubrimos que, al entrenar modelos más grandes y dispersos, podíamos producir modelos cada vez más capaces con circuitos cada vez más simples.

Gráfico de dispersión que muestra la capacidad del modelo (pérdida de preentrenamiento) en el eje x con respecto a la interpretabilidad (tamaño del circuito podado) en el eje y. Los puntos representan modelos de diferentes tamaños y niveles de dispersión, el color indica el número total de parámetros y el tamaño del marcador indica el número de parámetros no nulos. Las flechas etiquetan la dirección superior derecha como «mejor».

Trazamos la interpretabilidad frente a la capacidad en los modelos (cuanto más abajo a la izquierda, mejor). En el caso de un tamaño de modelo fijo y disperso, aumentar la dispersión —estableciendo más pesos en cero— reduce la capacidad, pero aumenta la interpretabilidad. Al incrementar el tamaño del modelo, esta frontera se expande, lo que indica que es posible crear modelos más grandes que sean a la vez potentes e interpretables.

Para concretarlo, considera una tarea en la que un modelo entrenado en código Python debe completar una cadena con el tipo correcto de comillas. En Python, ‘hello’ debe terminar con una comilla simple, y “hello” debe terminar con una comilla doble. El modelo puede resolverlo por medio de recordar qué tipo de comillas abre la cadena y añadir las mismas al final.

Nuestros modelos más interpretables parecen contener circuitos desenredados que implementan exactamente ese algoritmo.

Diagrama que ilustra un circuito de ejemplo en un transformador disperso. Muestra cómo neuronas específicas y cabezas de atención se activan en respuesta a tokens de entrada como «(» y «circuitos», con rutas etiquetadas para pesos positivos y negativos, multiplicaciones, no linealidades y conexiones entre las capas MLP y de atención, lo que culmina en las probabilidades de los tokens de salida.

Ejemplo de circuito en un transformador disperso que predice si se debe cerrar una cadena con comillas simples o dobles. Este circuito usa solo cinco canales residuales (líneas grises verticales), dos neuronas MLP en la capa 0, y un canal de consulta-clave de atención y un canal de valor en la capa 10. El modelo (1) codifica las comillas simples en un canal residual y las comillas dobles en otro; (2) usa una capa MLP para convertirlo en un canal que detecta cualquier comilla y otro que clasifica entre comillas simples y dobles; (3) usa una operación de atención para ignorar los tokens intermedios, encontrar la comilla anterior y copiar su tipo en el token final; y (4) predice la comilla de cierre correspondiente.

En nuestra definición, las conexiones exactas que se muestran arriba son suficientes para llevar a cabo la tarea; si eliminamos el resto del modelo, este pequeño circuito aún funciona. También son necesarias, ya que eliminar estas pocas aristas hace que el modelo falle.

Además, vimos algunos comportamientos más complejos. Nuestros circuitos para estos comportamientos (por ejemplo, la vinculación de variables que se muestra a continuación) son más difíciles de explicar en su totalidad. Aun así, podemos lograr explicaciones parciales relativamente simples que predicen el comportamiento del modelo.

Diagrama que destaca un ejemplo de circuito de transformador disperso dentro de la función de Python get_neighbors. Dos asignaciones a current = set() están resaltadas con un recuadro, y flechas de colores muestran qué cabezas de atención (etiquetadas con los índices Q/K/V) se activan para conectar cada aparición de la variable «current» con su uso en el bucle.

Otro ejemplo de circuito, con menos detalle. Para determinar el tipo de una variable llamada current, una operación de atención copia el nombre de la variable en el token set() cuando se define, y otra operación posterior copia el tipo de token set() en un uso posterior de la variable, lo que permite que el modelo infiera el siguiente token correcto.

El camino futuro

Este trabajo es un primer paso hacia un objetivo mayor: conseguir que los cálculos de modelos sean más fáciles de comprender, pero queda un largo camino por recorrer. Nuestros modelos dispersos son mucho más pequeños que los modelos de vanguardia, y gran parte de su cálculo permanece sin interpretar. 

A continuación, esperamos escalar nuestras técnicas a modelos más grandes y explicar más del comportamiento de los modelos. Al enumerar los motivos de circuitos que subyacen al razonamiento más complejo en modelos dispersos capaces, podríamos desarrollar una comprensión que nos ayude a enfocar mejor las investigaciones sobre modelos de vanguardia.

Para superar la ineficiencia del entrenamiento de modelos dispersos, vemos dos caminos futuros. Una opción es extraer circuitos dispersos de modelos densos existentes, en lugar de entrenar modelos dispersos desde cero. La implementación de los modelos densos es fundamentalmente más eficiente que la de los modelos dispersos. La otra opción es desarrollar técnicas más eficientes para entrenar modelos que sean más interpretables, lo que podría facilitar su implementación en producción.

Ten en cuenta que nuestros hallazgos aquí no garantizan que este enfoque se extienda a sistemas más capaces, si bien estos primeros resultados son prometedores. Nuestro objetivo es expandir poco a poco la proporción de un modelo que podemos interpretar de forma fiable y crear herramientas que permitan que los futuros sistemas sean más fáciles de analizar, depurar y evaluar.

Autores

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker y Dan Mossing