Introduction
- LLM 내부 상태에서 “의식”을 관찰할 수 있는지에 대한 근본적 질문
- Integrated Information Theory (IIT) 3.0 및 4.0을 LLM representation에 적용
- Theory of Mind 테스트 결과에서 얻은 LLM representation을 분석
- Integrated Information Theory (Tononi et al.)
- Theory of Mind 벤치마크 연구
- Span Representation Analysis
Methods
- Theory of Mind 테스트에서 LLM의 내부 representation 추출
- IIT 기반 의식 지표(Φ^max, conceptual information) 계산
- Span Representation Analysis와의 비교
- Spatio-permutational 분석
Results
- 현대 Transformer 기반 LLM representation에서 통계적으로 유의미한 의식 지표 부재
- 그러나 spatio-permutational 분석에서 흥미로운 패턴 관찰
- ToM 수행 능력 차이가 IIT 기반 지표에 반영되지 않음
Discussion
- IIT 프레임워크로는 현재 LLM에서 의식을 관찰할 수 없음
- 그러나 흥미로운 패턴의 존재는 추가 연구의 여지를 남김
- 의식 이론의 적용 가능성과 한계에 대한 논의 필요