2025년 11월 13일

희소 회로를 통해 인공 신경망을 이해하기

OpenAI는 더 간단하고 추적하기 쉬운 단계로 사고하도록 모델을 훈련시켜 모델의 작동 방식을 더 잘 이해할 수 있게 되었습니다.

로딩 중...

인공 신경망은 오늘날 가장 강력한 AI 시스템을 구동하지만 여전히 이해하기 어렵습니다. OpenAI는 명시적인 단계별 지침을 통해 이러한 모델을 작성하지 않습니다. 대신 수십억 개의 내부 연결, 즉 '가중치'를 조정하여 작업을 숙달할 때까지 학습합니다. OpenAI는 훈련의 규칙을 설계하지만, 구체적인 행동이 어떻게 나타날지는 설계하지 않으며, 그 결과는 인간이 쉽게 해독할 수 없는 복잡한 연결망입니다.

해석 가능성을 확인하는 방법

AI 시스템이 더 강력해지고 과학, 교육, 의료 분야의 의사 결정에 실제로 영향을 미치면서, 그 작동 방식을 이해하는 것은 필수적입니다. 해석 가능성이란 모델이 특정 출력을 생성한 이유를 이해하는 데 도움이 되는 방법을 의미합니다. 이를 달성할 수 있는 방법은 여러 가지가 있습니다.

예를 들어, 추론 모델은 최종 답을 얻기 위해 자신의 작업을 설명하도록 장려됩니다. 사고의 사슬 해석 가능성은 이러한 설명을 활용하여 모델의 행동을 모니터링합니다. 이는 즉각적으로 유용합니다. 현재 추론 모델들의 사고의 사슬은 기만과 같은 우려되는 행동과 관련하여 유익한 정보를 제공하는 것으로 보입니다. 그러나 이러한 속성에 전적으로 의존하는 것은 취약한 전략이며, 시간이 지나면서 실패할 수 있습니다.

반면, 이 연구의 초점인 기계론적 해석 가능성은 모델의 계산을 완전히 리버스 엔지니어링하는 것을 목표로 합니다. 지금까지는 즉각적인 유용성은 떨어졌지만, 원칙적으로 모델의 행동에 대한 보다 완전한 설명을 제공할 수 있습니다. 모델의 행동을 가장 세부적인 수준에서 설명하려고 함으로써, 기계론적 해석 가능성은 가정을 줄이고 더 큰 확신을 줄 수 있습니다. 하지만 하위 수준의 세부 사항에서 복잡한 행동을 설명하는 데 이르는 과정은 훨씬 더 길고 어렵습니다.

해석 가능성은 더 나은 감독을 가능하게 하고, 안전하지 않거나 전략적으로 오정렬된 행동에 대한 조기 경고 신호를 제공하는 등 여러 주요 목표를 지원합니다. 또한 확장 가능한 감독, 적대적 훈련, 레드팀 구성과 같은 다른 안전에 대한 노력을 보완합니다.

본 연구는 모델을 더 쉽게 해석할 수 있는 방식으로 모델을 훈련할 수 있음을 보여줍니다. OpenAI는 본 연구가 밀집 네트워크의 사후 분석을 유망하게 보완할 수 있을 것으로 기대하고 있습니다.

이는 매우 야심찬 포부입니다. 가장 강력한 모델의 복잡한 행동을 완전히 이해하려면 아직 갈 길이 멀기 때문입니다. 하지만 간단한 행동의 경우, OpenAI의 방법으로 훈련된 희소 모델에는 간단한 행동을 수행하기에 충분하면서도 이해할 수 있는 분리된 작은 회로가 포함되어 있습니다. 이는 우리가 이해할 수 있는 메커니즘을 가진 더 큰 시스템을 훈련할 수 있는 실질적인 경로가 있을 수 있음을 시사합니다.

새로운 접근법: 희소 모델 학습

이전의 기계론적 해석 가능성 연구는 복잡하고 얽힌 네트워크에서 시작하여 이를 풀기 위해 노력했습니다. 이러한 네트워크에서 각 개별 뉴런은 수천 개의 다른 뉴런에 연결됩니다. 대부분의 뉴런은 여러 가지 뚜렷한 기능을 수행하는 것처럼 보이기 때문에 이해하기가 불가능해 보입니다.

하지만 더 많은 뉴런이 있지만 각 뉴런의 연결이 수십 개에 불과한 얽히지 않은 인공 신경망을 훈련시킨다면 어떻게 될까요? 그 결과 네트워크는 더 단순해지고 이해하기 쉬워질 것입니다. 이것이 OpenAI 연구의 핵심 연구 과제입니다.

이 원칙을 염두에 두고, GPT‑2와 같은 기존 언어 모델과 매우 유사한 아키텍처로 언어 모델을 훈련했습니다. 단, 한 가지 작은 수정이 있었는데, 그것은 모델의 가중치 대부분을 0으로 강제 설정한 것입니다. 이로 인해 모델은 뉴런 간의 가능한 연결 중 극히 일부만 사용하도록 제한되었습니다. 이는 바로 모델의 내부 계산의 얽힘을 대폭 분리하는 간단한 변화입니다.

밀집 회로와 희소 회로를 비교하는 다이어그램입니다. 고밀도 버전은 많은 상호 연결 선이 있는 두 줄의 노드를 보여주고, 희소 버전은 동일한 레이아웃을 보여주지만 더 적고 선택적인 연결을 보여줍니다.

일반적인 밀집 인공 신경망에서 각 뉴런은 다음 계층의 모든 뉴런에 연결됩니다. OpenAI 희소 모델에서 각 뉴런은 다음 계층의 몇 개의 뉴런에만 연결됩니다. 이 연구를 통해 뉴런과 네트워크 전체를 더 쉽게 이해할 수 있기를 바랍니다.

해석 가능성 평가

OpenAI는 희소 모델의 계산이 얼마나 분리되어 있는지를 측정하고자 합니다. 또한 다양한 간단한 모델 행동을 고려하고, 각 행동을 담당하는 모델의 부분을 회로라고 부르며, 이 회로의 분리 가능 여부를 확인했습니다.

OpenAI는 간단한 알고리즘 작업 모음을 직접 선별했습니다. 각 작업에 대해 여전히 작업을 수행할 수 있는 가장 작은 회로로 모델을 축소하고 그 회로가 얼마나 단순한지 살펴보았습니다. (자세한 내용은 논문⁠(새 창에서 열기)을 참조하세요.) 더 크고 희소한 모델을 훈련시킴으로써 점점 더 단순한 회로로 점점 더 뛰어난 성능의 모델을 생산할 수 있음을 발견했습니다.

모델 성능(사전 훈련 손실)을 x축에, 해석 가능성(정리된 회로 크기)을 y축에 나타내는 산점도입니다. 점은 다양한 크기와 희소성 수준의 모델을 나타내며, 색상은 총 매개변수를 나타내고, 마커 크기는 0이 아닌 매개변수의 수를 나타냅니다. 화살표는 오른쪽 위 방향을 '더 좋음'으로 표시합니다.

모델의 해석 가능성 대비 성능을 표시한 그래프입니다(왼쪽 하단이 더 좋습니다). 고정된 희소 모델 크기의 경우, 가중치를 더 많이 0으로 설정하여 희소성을 높이면 성능은 감소하지만 해석 가능성은 증가합니다. 모델 크기를 확장하면 이 경계가 바깥쪽으로 이동하여, 성능과 해석 가능성을 모두 갖춘 더 큰 모델을 구축할 수 있음을 시사합니다.

구체적으로 설명하자면, Python 코드로 훈련된 모델이 올바른 유형의 따옴표로 문자열을 완성해야 하는 작업을 생각해 보세요. Python에서 'hello'는 작은따옴표로 끝나야 하고, "hello"는 큰따옴표로 끝나야 합니다. 모델은 문자열을 연 따옴표 유형을 기억하고 끝에서 이를 재현하여 문제를 해결할 수 있습니다.

가장 해석하기 쉬운 모델에는 해당 알고리즘을 정확히 구현하는 분리된 회로가 포함되어 있는 것으로 보입니다.

희소 트랜스포머의 예시 회로를 보여주는 다이어그램입니다. '(' 및 '회로'와 같은 입력 토큰에 반응하여 특정 뉴런과 어텐션 헤드가 어떻게 활성화되는지를 보여주며, 양수 및 음수 가중치, 곱셈, 비선형성, MLP와 어텐션 계층 간의 연결에 대한 라벨이 지정된 경로를 통해 출력 토큰 확률로 이어집니다.

문자열의 끝을 작은따옴표로 할지 큰따옴표로 할지를 예측하는 희소 트랜스포머의 회로 예시입니다. 이 회로는 5개의 잔여 채널(세로 회색 선), 레이어 0의 MLP 뉴런 2개, 레이어 10의 어텐션 쿼리 키 채널 1개와 값 채널 1개만 사용합니다. 모델은 (1) 하나의 잔여 채널에 작은따옴표를, 다른 채널에 큰따옴표를 인코딩하고, (2) MLP 계층을 사용하여 이를 모든 따옴표를 감지하는 채널과 작은따옴표와 큰따옴표를 분류하는 채널로 변환하며, (3) 어텐션 연산을 통해 중간 토큰을 무시하고 이전 따옴표를 찾아 해당 유형을 최종 토큰에 복사하며, (4) 일치하는 닫는 따옴표를 예측합니다.

OpenAI의 정의에 따르면, 위에 제시된 정확한 연결만으로도 작업을 수행하기에 충분합니다. 나머지 모델을 제거해도 이 작은 회로는 여전히 작동합니다. 이러한 연결은 필수적입니다. 몇 개의 가장자리를 삭제하면 모델이 실패하게 되기 때문입니다.

더 복잡한 행동 몇 가지도 살펴보았습니다. 이러한 행동에 대한 회로(예: 아래에 보이는 변수 바인딩)는 완전히 설명하기가 더 어렵습니다. 그럼에도 불구하고, OpenAI는 모델 행동을 예측할 수 있는 비교적 간단한 부분 설명은 여전히 가능합니다.

Python 함수 get_neighbors 내의 희소 트랜스포머 회로 예시를 강조 표시한 다이어그램입니다. current = set()에 대한 두 가지 할당이 박스 안에 표시되어 있으며, 색상 화살표는 변수 current를 루프 내 사용과 각각 연결하기 위해 활성화되는 어텐션 헤드(Q/K/V 인덱스로 라벨이 지정됨)를 나타냅니다.

또 다른 예시 회로는 좀 더 자세히 설명합니다. 변수 current의 유형을 결정하기 위해, 어텐션 연산 중 하나는 변수 이름을 정의할 때 set() 토큰에 변수 이름을 복사하고, 이후의 다른 연산은 set() 토큰에서 유형을 변수의 후속 사용에 복사하여 모델이 올바른 다음 토큰을 추론할 수 있도록 합니다.

앞으로의 여정

본 연구는 모델 계산을 더 쉽게 이해하도록 만들려는 더 큰 목표를 향한 초기 단계입니다. 하지만 아직 갈 길이 멉니다. 희소 모델은 프론티어 모델보다 훨씬 작으며, 계산의 많은 부분이 아직 해석되지 않았습니다.

다음으로, 더 큰 모델로 기술을 확장하고 모델의 행동을 더 자세히 설명하고자 합니다. 유능한 희소 모델에서 더 복잡한 추론을 뒷받침하는 회로 모티프를 열거함으로써, 프론티어 모델에 대한 조사를 더 효과적으로 수행하는 데 도움이 되는 이해를 발전시킬 수 있습니다.

희소 모델 훈련의 비효율성을 극복하기 위해 두 가지 방안을 모색하고 있습니다. 하나는 희소 모델을 처음부터 학습시키는 것이 아니라, 기존의 밀집 모델에서 희소 회로를 추출하는 것입니다. 밀집 모델은 희소 모델보다 배포 효율성이 훨씬 높습니다. 다른 방법은 해석 가능성을 위해 모델을 학습하는 더 효율적인 기술을 개발하는 것입니다. 이는 프로덕션 환경에 적용하기 더 쉬울 수 있습니다.

이러한 접근 방식이 더 강력한 시스템으로 확장될 것이라는 보장은 없지만, 초기 결과는 유망합니다. OpenAI의 목표는 모델을 신뢰성 있는 해석 범위를 점진적으로 확장하고, 미래 시스템을 더 쉽게 분석, 디버그, 평가할 수 있게 만드는 도구를 구축하는 것입니다.

작성자

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker 및 Dan Mossing

더 읽어보기

모두 보기

GPT-Red: 자기 개선을 통한 견고성 강화

안전2026년 7월 15일

코딩 평가에서 유의미한 신호와 노이즈 구분하기

리서치2026년 7월 8일

GeneBench-Pro 소개

리서치2026년 6월 30일