13 de noviembre de 2025

Entender las redes neuronales a través de circuitos dispersos

Entrenamos modelos para pensar en pasos más simples y rastreables, para que podamos comprender mejor cómo funcionan.

Cargando...

Las redes neuronales impulsan los sistemas de IA más avanzados de hoy en día, pero siguen siendo difíciles de entender. No escribimos estos modelos con instrucciones explícitas y detalladas paso a paso. En cambio, aprenden mientras se ajustan miles de millones de conexiones internas, o “pesos”, hasta que dominan una tarea. Diseñamos las reglas de entrenamiento, pero no los comportamientos específicos que emergen, y el resultado es una densa red de conexiones que ningún humano puede descifrar fácilmente.

Cómo vemos la interpretabilidad

A medida que los sistemas de IA se vuelven más capaces y tienen un impacto real en las decisiones de ciencia, educación y salud, es fundamental comprender cómo funcionan. La interpretabilidad se refiere a métodos que nos ayudan a entender por qué un modelo generó una salida determinada. Hay muchas formas de lograrlo.

Por ejemplo, los modelos de razonamiento están incentivados a explicar su trabajo mientras avanzan hacia una respuesta final. La interpretabilidad de la cadena de pensamiento utiliza estas explicaciones para monitorear el comportamiento del modelo. Esto es inmediatamente útil: las cadenas de pensamiento de los modelos de razonamiento actuales parecen ser informativas respecto a comportamientos preocupantes como el engaño. Sin embargo, depender completamente de esta propiedad no es una estrategia sólida, y puede fallar con el tiempo.

Por otro lado, la interpretabilidad mecanicista, que es el enfoque de este trabajo, busca descomponer completamente los cálculos de un modelo. Hasta ahora ha sido menos útil de forma inmediata, pero en principio podría ofrecer una explicación más completa del comportamiento del modelo. Al buscar explicar el comportamiento del modelo a un nivel detallado, la interpretabilidad mecanicista puede hacer menos suposiciones y darnos más confianza. Sin embargo, el camino desde los detalles de bajo nivel hasta las explicaciones de comportamientos complejos es mucho más largo y más difícil.

La interpretabilidad respalda varios objetivos clave, por ejemplo, permitir una mejor supervisión y proporcionar señales de alerta temprana de un comportamiento inseguro o estratégicamente desalineado. Además, complementa nuestros otros esfuerzos de seguridad, como la supervisión escalable, el entrenamiento adversarial y el equipo rojo.

En este trabajo, demostramos que a menudo podemos entrenar modelos de modo que sean más fáciles de interpretar. Consideramos que nuestro trabajo es un complemento prometedor para el análisis post-hoc de redes densas.

Esta es una apuesta muy ambiciosa; hay que recorrer un largo camino desde nuestro trabajo hasta comprender completamente los comportamientos complejos de nuestros modelos más poderosos. Aun así, en el caso de comportamientos simples, encontramos que los modelos dispersos entrenados con nuestro método contienen circuitos pequeños y desenredados que son comprensibles y suficientes para realizar el comportamiento. Esto sugiere que puede haber un camino viable hacia el entrenamiento de sistemas más grandes cuyos mecanismos podamos entender.

Un nuevo enfoque: aprender modelos dispersos

El trabajo previo sobre la interpretabilidad mecanicista comenzó con redes densas y enredadas, y se intentó desenredarlas. En estas redes, cada neurona individual está conectada a miles de otras neuronas. La mayoría de las neuronas parecen realizar muchas funciones distintas, lo que hace que parezca imposible entenderlas.

Pero, ¿y si entrenáramos redes neuronales desenredadas, con muchas más neuronas, pero en las que cada neurona tuviera solo unas pocas docenas de conexiones? Entonces, tal vez la red resultante sea más simple y más fácil de entender. Esta es la apuesta central de investigación de nuestro trabajo.

Con este principio en mente, entrenamos modelos de lenguaje con una arquitectura muy parecida a los modelos de lenguaje existentes como GPT‑2, con una pequeña modificación: obligamos a que la gran mayoría de los pesos del modelo sean ceros. Esto restringió al modelo a usar solo unas pocas de las posibles conexiones entre sus neuronas. Este es un cambio simple que, según argumentamos, desenreda sustancialmente los cálculos internos del modelo.

Diagrama que compara circuitos densos y circuitos dispersos. La versión densa muestra dos filas de nodos con muchas líneas interconectadas, mientras que la versión dispersa muestra el mismo diseño, pero con menos conexiones, más selectivas.

En las redes neuronales densas normales, cada neurona está conectada a cada neurona de la siguiente capa. En nuestros modelos dispersos, cada neurona solo se conecta a unas pocas neuronas en la siguiente capa. Esperamos que esto haga que las neuronas y la red en su conjunto sean más fáciles de entender.

Evaluación de la interpretabilidad

Queremos medir hasta qué punto los cálculos de nuestros modelos dispersos están desenredados. Consideramos varios comportamientos de modelos simples y verificamos si podíamos aislar las partes del modelo responsables de cada comportamiento, a los que llamamos circuitos.

Seleccionamos manualmente un conjunto de tareas algorítmicas simples. Para cada uno, redujimos el modelo al circuito más pequeño que aún puede realizar la tarea y examinamos cuán simple es ese circuito. (Para obtener más detalles, consulta nuestro artículo⁠(se abre en una nueva ventana)). Descubrimos que al realizar el entrenamiento de modelos más grandes y dispersos, podíamos producir modelos cada vez más capaces con circuitos cada vez más simples.

Gráfico de dispersión que muestra la capacidad del modelo (pérdida de preentrenamiento) en el eje x contra la interpretabilidad (tamaño del circuito podado) en el eje y. Los puntos representan modelos de diferentes tamaños y niveles de dispersión, el color indica el número total de parámetros y el tamaño del marcador indica el número de parámetros no nulos. Las flechas etiquetan la dirección superior derecha como “mejor”.

Trazamos la interpretabilidad frente a la capacidad en los modelos (cuanto más abajo a la izquierda, mejor). En el caso de un tamaño de modelo fijo y disperso, aumentar la dispersión, estableciendo más pesos en cero, reduce la capacidad, pero aumenta la interpretabilidad. Al incrementar el tamaño del modelo, esta frontera se expande, lo que indica que es posible crear modelos más grandes que sean a la vez potentes e interpretables.

Para concretar esto, considera una tarea en la que un modelo entrenado en código Python debe completar una cadena con el tipo correcto de comillas. En Python, hello’ debe terminar con una comilla simple, y “hello” debe terminar con una comilla doble. El modelo puede resolver esto al recordar qué tipo de comillas abrió la cadena y al reproducirlas al final.

Nuestros modelos más interpretables parecen contener circuitos desenredados que implementan exactamente ese algoritmo.

Diagrama que ilustra un circuito de ejemplo en un transformador disperso. Muestra cómo neuronas específicas y cabezas de atención se activan en respuesta a tokens de entrada como “(” y “circuits”, con rutas etiquetadas para pesos positivos y negativos, multiplicaciones, no linealidades y conexiones entre las capas MLP y de atención, lo que culmina en las probabilidades de los tokens de salida.

Ejemplo de circuito en un transformador disperso que predice si se debe terminar una cadena con comillas simples o dobles. Este circuito usa solo cinco canales residuales (líneas grises verticales), dos neuronas MLP en la capa 0, y un canal de consulta-clave de atención y un canal de valor en la capa 10. El modelo (1) codifica las comillas simples en un canal residual y las comillas dobles en otro; (2) usa una capa MLP para convertir esto en un canal que detecta cualquier comilla y otro que clasifica entre comillas simples y dobles; (3) usa una operación de atención para ignorar los tokens intermedios, encontrar la comilla anterior y copiar su tipo en el token final; y (4) predice la comilla de cierre correspondiente.

En nuestra definición, las conexiones exactas que se muestran arriba son suficientes para realizar la tarea; si eliminamos el resto del modelo, este pequeño circuito aún funciona. También son necesarias, ya que eliminar estas pocas aristas hace que el modelo falle.

Además, vimos algunos comportamientos más complejos. Nuestros circuitos para estos comportamientos (por ejemplo, la vinculación de variables que se muestra a continuación) son más difíciles de explicar completamente. Aun así, podemos lograr explicaciones parciales relativamente simples que predicen el comportamiento del modelo.

Diagrama que destaca un ejemplo de circuito de transformador disperso dentro de la función de Python get_neighbors. Dos asignaciones a current = set() están resaltadas con un recuadro, y flechas de colores muestran qué cabezas de atención (etiquetadas con los índices Q/K/V) se activan para conectar cada aparición de la variable current con su uso en el bucle.

Otro ejemplo de circuito, con menos detalle. Para determinar un tipo de variable llamada current, una operación de atención copia el nombre de la variable en el token set() cuando se define, y otra operación posterior copia el tipo de token set() en un uso posterior de la variable, lo que permite que el modelo infiera el siguiente token correcto.

El camino a seguir

Este trabajo es un primer paso hacia un objetivo mayor: hacer que los cálculos de modelos sean más fáciles de comprender. Pero todavía queda un largo camino por recorrer. Nuestros modelos dispersos son mucho más pequeños que los modelos de vanguardia, y gran parte de su cálculo permanece sin interpretar.

A continuación, esperamos escalar nuestras técnicas a modelos más grandes y explicar más del comportamiento de los modelos. Al enumerar los motivos de circuitos que subyacen al razonamiento más complejo en modelos dispersos capaces, podríamos desarrollar una comprensión que nos ayude a enfocar mejor las investigaciones sobre modelos de vanguardia.

Para superar la ineficiencia del entrenamiento de modelos dispersos, vemos dos caminos a seguir. Una opción es extraer circuitos dispersos de modelos densos existentes, en lugar de realizar el entrenamiento de modelos dispersos desde cero. Los modelos densos son fundamentalmente más eficientes de implementar que los modelos dispersos. La otra opción es desarrollar técnicas más eficientes para entrenar modelos que sean más interpretables, lo que podría facilitar su implementación en producción.

Ten en cuenta que nuestros hallazgos aquí no garantizan que este enfoque se extienda a sistemas más capaces, pero estos primeros resultados son prometedores. Nuestro objetivo es expandir gradualmente cuánto de un modelo podemos interpretar de forma confiable y crear herramientas que hagan que los futuros sistemas sean más fáciles de analizar, depurar y evaluar.

Autores

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker y Dan Mossing

Sigue leyendo

Ver todos

GPT-Red: activar la automejora para mayor robustez

Seguridad15 jul 2026

Separar señal de ruido en evaluaciones de codificación

Investigación8 jul 2026

Presentamos GeneBench-Pro

Investigación30 jun 2026