Pular para o conteúdo principal
OpenAI

13 de novembro de 2025

PesquisaPublicação

Compreendendo redes neurais através de circuitos esparsos

Treinamos os modelos para pensarem em etapas mais simples e rastreáveis, para que possamos entender melhor como eles funcionam.

Carregando…

​​As redes neurais são a base dos sistemas de IA mais avançados da atualidade, mas continuam sendo difíceis de compreender. Não escrevemos esses modelos com instruções explícitas, passo a passo. Em vez disso, eles aprendem ajustando bilhões de conexões internas, ou “pesos”, até dominarem uma tarefa. Nós definimos as regras do treinamento, mas não os comportamentos específicos que emergem, e o resultado é uma complexa rede de conexões que nenhum ser humano consegue decifrar facilmente. 

Como encaramos a interpretabilidade

À medida que os sistemas de IA se tornam mais capazes e têm um impacto real nas decisões em ciência, educação e saúde, compreender como funcionam torna-se essencial. Interpretabilidade refere-se aos métodos que nos ajudam a entender por que um modelo produziu um determinado resultado. Existem muitas maneiras de conseguirmos isso. 

Por exemplo, os modelos de raciocínio são incentivados a explicar seu funcionamento no processo que leva à resposta final. A interpretabilidade da cadeia de raciocínio aproveita essas explicações para monitorar o comportamento do modelo. Isso é imediatamente útil: as linhas de raciocínio dos modelos atuais parecem ser informativas em relação a comportamentos preocupantes como o engano. No entanto, depender totalmente dessa propriedade é uma estratégia frágil, que pode ruir com o tempo.

Por outro lado, a interpretabilidade mecanicista, que é o foco deste trabalho, busca realizar a engenharia reversa completa dos cálculos de um modelo. Até o momento, sua utilidade tem sido menor de forma imediata, mas, em princípio, poderia oferecer uma explicação mais completa do comportamento do modelo. Ao procurar explicar o comportamento do modelo no nível mais granular, a interpretabilidade mecanicista pode fazer menos suposições e nos dar mais confiança. Mas o caminho que leva dos detalhes básicos às explicações de comportamentos complexos é muito mais longo e difícil.

A interpretabilidade apoia vários objetivos fundamentais, como, por exemplo, permitir uma melhor supervisão e fornecer sinais de alerta precoce de comportamentos inseguros ou estrategicamente desalinhados. Isso também complementa nossos outros esforços de segurança, como supervisão escalável, treinamento em situações adversas e simulações de ataque (red teaming). 

Neste trabalho, mostramos que muitas vezes podemos treinar modelos de maneiras que os tornam mais fáceis de interpretar. Consideramos nosso trabalho um complemento promissor para a análise post-hoc de redes densas. 

Essa é uma aposta muito ambiciosa; há um longo caminho a percorrer entre o nosso trabalho e a compreensão completa dos comportamentos complexos dos nossos modelos mais poderosos. Ainda assim, para comportamentos simples, descobrimos que modelos esparsos treinados com nosso método contêm circuitos pequenos e independentes que são compreensíveis e suficientes para executar o comportamento. Isso sugere que pode haver um caminho viável para treinar sistemas maiores cujos mecanismos possamos compreender.

Uma nova abordagem: aprendendo modelos esparsos

Trabalhos anteriores sobre interpretabilidade mecanicista partiram de redes densas e emaranhadas, buscando desembaraçá-las. Nessas redes, cada neurônio individual está conectado a milhares de outros neurônios. A maioria dos neurônios parece desempenhar muitas funções distintas, tornando aparentemente impossível compreendê-los. 

Mas e se treinássemos redes neurais não emaranhadas, com muito mais neurônios, mas onde cada neurônio tivesse apenas algumas dezenas de conexões? Então, talvez a rede resultante seja mais simples e fácil de entender. Esta é a principal linha de pesquisa do nosso trabalho.

Com esse princípio em mente, treinamos modelos de linguagem com uma arquitetura muito semelhante à de modelos de linguagem existentes, como o GPT‑2, com uma pequena modificação: forçamos a grande maioria dos pesos do modelo a serem zero. Isso restringiu o modelo a usar apenas algumas das possíveis conexões entre seus neurônios. Esta é uma mudança simples que, argumentamos, desvincula substancialmente os cálculos internos do modelo.

Diagrama comparativo entre circuitos densos e circuitos esparsos. A versão densa mostra duas linhas de nós com muitas linhas de interconexão, enquanto a versão esparsa mostra o mesmo layout, mas com menos conexões, e estas são mais seletivas.

Em redes neurais densas normais, cada neurônio está conectado a todos os neurônios da camada seguinte. Em nossos modelos esparsos, cada neurônio se conecta apenas a alguns neurônios na camada seguinte. Esperamos que isso torne os neurônios, e a rede como um todo, mais fáceis de entender.

Avaliando a interpretabilidade

Desejamos medir até que ponto os cálculos de nossos modelos esparsos são independentes. Consideramos vários comportamentos de modelos simples e verificamos se conseguíamos isolar as partes do modelo responsáveis por cada comportamento — que denominamos circuitos.

Selecionamos cuidadosamente um conjunto de tarefas algorítmicas simples. Para cada um, reduzimos o modelo ao menor circuito que ainda consegue executar a tarefa e examinamos a simplicidade desse circuito. (Para mais detalhes, consulte nosso artigo(abre em uma nova janela).) Descobrimos que, ao treinar modelos maiores e mais esparsos, conseguíamos produzir modelos cada vez mais capazes com circuitos cada vez mais simples.

Gráfico de dispersão mostrando a capacidade do modelo (perda de pré-treinamento) no eixo x em relação à interpretabilidade (tamanho do circuito podado) no eixo y. Os pontos representam modelos de diferentes tamanhos e níveis de esparsidade, com a cor indicando o número total de parâmetros e o tamanho do marcador indicando o número de parâmetros diferentes de zero. As setas indicam a direção superior direita como "melhor".

Representamos graficamente a interpretabilidade versus a capacidade em diferentes modelos (o canto inferior esquerdo indica melhor desempenho). Para um tamanho de modelo esparso fixo, aumentar a esparsidade — definir mais pesos como zero — reduz a capacidade, mas aumenta a interpretabilidade. Aumentar a escala do modelo desloca essa fronteira para fora, sugerindo que podemos construir modelos maiores que sejam simultaneamente capazes e interpretáveis.

Para tornar isso concreto, considere uma tarefa em que um modelo treinado em código Python precisa completar uma string com o tipo correto de citação. Em Python, 'hello' deve terminar com uma aspa simples, e "hello" deve terminar com uma aspa dupla. O modelo consegue resolver isso memorizando qual tipo de aspa abriu a string e reproduzindo-a no final.

Nossos modelos mais interpretáveis parecem conter circuitos independentes que implementam exatamente esse algoritmo.

Diagrama ilustrando um exemplo de circuito em um transformador esparso. Ele mostra como neurônios específicos e cabeças de atenção são ativados em resposta a tokens de entrada como “(” e “circuitos”, com caminhos rotulados para pesos positivos e negativos, multiplicações, não linearidades e conexões entre camadas MLP e de atenção, culminando nas probabilidades dos tokens de saída.

Circuito de exemplo em um transformador esparso que prevê se uma string deve terminar com aspas simples ou duplas. Este circuito utiliza apenas cinco canais residuais (linhas verticais cinzentas), dois neurônios MLP na camada 0, e um canal de atenção para a chave de consulta e um canal de valor na camada 10. O modelo (1) codifica aspas simples em um canal residual e aspas duplas em outro; (2) usa uma camada MLP para converter isso em um canal que detecta qualquer aspa e outro que classifica entre aspas simples e duplas; (3) usa uma operação de atenção para ignorar tokens intermediários, encontrar a aspa anterior e copiar seu tipo para o token final; e (4) prevê a aspa de fechamento correspondente.

Em nossa definição, as conexões exatas mostradas acima são suficientes para realizar a tarefa — se removermos o restante do modelo, este pequeno circuito ainda funcionará. Elas também são necessárias – excluir essas poucas arestas faz com que o modelo falhe.

Também analisamos alguns comportamentos mais complexos. Nossos circuitos para esses comportamentos (por exemplo, a vinculação de variáveis mostrada abaixo) são mais difíceis de explicar completamente. Mesmo assim, ainda conseguimos obter explicações parciais relativamente simples que preveem o comportamento do modelo.

Diagrama que destaca um exemplo de circuito de transformador esparso dentro da função get_neighbors do Python. Duas atribuições a `current = set()` são destacadas, com setas coloridas mostrando quais cabeças de atenção (rotuladas com índices Q/K/V) são ativadas para conectar cada ocorrência da variável `current` ao seu uso no loop.

Outro exemplo de circuito, com menos detalhes. Para determinar o tipo de uma variável chamada current, uma operação de atenção copia o nome da variável para o token set() quando ela é definida, e outra operação posterior copia o tipo do token set() para um uso subsequente da variável, permitindo que o modelo infira o próximo token correto.

O caminho a seguir

Este trabalho é um primeiro passo rumo a um objetivo maior: tornar os cálculos dos modelos mais fáceis de entender. Porém, ainda há um longo caminho a percorrer. Nossos modelos esparsos são muito menores do que os modelos de fronteira, e grande parte de seus cálculos permanece sem interpretação. 

Em seguida, esperamos ampliar nossas técnicas para modelos maiores e explicar melhor o comportamento desses modelos. Ao enumerar os padrões de circuitos subjacentes ao raciocínio mais complexo em modelos esparsos capazes, poderíamos desenvolver uma compreensão que nos ajudasse a direcionar melhor as investigações de modelos de fronteira.

Para superar a ineficiência do treinamento de modelos esparsos, vislumbramos dois caminhos a seguir. Uma opção é extrair circuitos esparsos de modelos densos existentes, em vez de treinar modelos esparsos do zero. Modelos densos são fundamentalmente mais eficientes de implementar do que modelos esparsos. O outro caminho é desenvolver técnicas mais eficientes para treinar modelos para interpretabilidade, que podem ser mais fáceis de colocar em produção.

Observe que nossas descobertas aqui não são garantia de que essa abordagem se estenderá a sistemas mais capazes, mas esses resultados iniciais são promissores. Nosso objetivo é expandir gradualmente o quanto de um modelo conseguimos interpretar de forma confiável e criar ferramentas que tornem os sistemas futuros mais fáceis de analisar, depurar e avaliar.

Autores

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing