Introduction
- LLM의 Theory of Mind(ToM) 능력이 어떻게 내부적으로 인코딩되는지를 mechanistic 관점에서 연구
- 극소수(0.001%)의 ToM-sensitive 파라미터가 ToM 성능에 결정적 역할을 함을 발견
- AI 해석 가능성(interpretability)과 인지과학(cognitive science)을 연결하는 연구
- LLM의 ToM 능력에 대한 행동적(behavioral) 평가는 다수 존재하나, 내부 메커니즘 분석은 부족
- Mechanistic interpretability 연구들
Methods
- ToM-sensitive 파라미터 식별: 새로운 방법으로 ToM에 민감한 파라미터를 탐지
- 해당 파라미터의 0.001%만 perturbation해도 ToM 성능이 크게 저하됨을 확인
- Positional Encoding과의 관계 분석: ToM-sensitive 파라미터가 특히 Rotary Position Embedding(RoPE) 모듈과 밀접하게 연결
- Perturbation이 dominant-frequency activation을 교란하여 contextual processing에 영향
- Attention 메커니즘 분석: positional encoding 하에서 query-key 간 angle을 조절하여 attention에 영향
Results
- 0.001%의 파라미터 perturbation만으로도 ToM 성능, contextual localization, 언어 이해 능력이 동시에 저하
- ToM-sensitive 파라미터와 RoPE 모듈 간의 강한 연결 관계 확인
- 위치 인코딩 기반 contextual processing이 ToM 능력의 핵심 메커니즘임을 시사
Discussion
- LLM의 사회적 추론 능력이 극소수 파라미터에 의존한다는 발견은 모델 정렬(alignment), 편향 완화, 인간-AI 상호작용 시스템 개선에 중요한 함의
- Mechanistic interpretability와 cognitive science의 접점을 개척
- 향후 다른 사회 인지 능력에 대한 유사 분석으로 확장 가능