Re-evaluating Theory of Mind Evaluation in Large Language Models
5분 분량
Introduction
LLM의 ToM 보유 여부에 대한 증거가 혼재되고 수렴하지 않음
근본 원인: “LLM이 ToM을 가진다”는 것이 무엇을 의미하는지 정의 불명확
행동 일치(behavior-matching) vs. 계산 일치(computation-matching) 구분 제안
현재 벤치마크의 타당성 위협(validity threats) 체계화
Related Papers
AGENT (inverse planning), BigToM (causal graphs), EWOK — 이론 기반 벤치마크
Rational Speech Acts(RSA) 프레임워크
기존 ToM 벤치마크 (Sally-Anne, Unexpected Contents 등)
Methods
메타 분석적 서베이: 기존 ToM 평가 연구를 인지과학 관점에서 재검토
핵심 구분
Q1: 행동 일치 (Behavior-Matching): 모델이 동일 입력에 인간과 같은 출력을 내는가? (M = M’)
Q2: 계산 일치 (Computation-Matching): 모델이 인간과 같은 알고리즘을 사용하는가? (f = f’)
비유: lookup table은 곱셈 정답을 내지만 곱셈 알고리즘을 학습하지 않음
타당성 위협 (Validity Threats)
Right for Wrong Reasons
Training Away: 폐쇄형 API 모델의 지속적 테스트 항목 노출
Shallow Heuristics: 표면적 패턴/통계적 규칙성 활용
Wrong for Wrong Reasons
Adversarial Complexity: adversarial robustness 추구가 보조 능력 요구 증가
Pragmatic Artifacts: 텍스트 변환 시 언어적 편향 도입 (“yet”, “confusingly” 등)
방법론 다이어그램
graph TD
A[ToM 평가 질문] --> B{평가 정의}
B --> C[Q1: 행동 일치<br/>M = M']
B --> D[Q2: 계산 일치<br/>f = f']
C --> C1[많은 긍정적 증거]
D --> D1[많은 부정적 증거]
C1 --> E[Validity 위협]
E --> E1[Training Away]
E --> E2[Shallow Heuristics]
E --> E3[Adversarial Complexity]
E --> E4[Pragmatic Artifacts]
D1 --> F[이론 기반 평가]
F --> F1[Inverse Planning]
F --> F2[Causal Graphs]
F --> F3[RSA Framework]
Results
GPT-4: 표준 Sally-Anne 통과하지만 투명 봉지 변형에서 실패
인간도 동일 adversarial 변형에서 성능 저하 → 모델 실패가 ToM 결핍이 아닐 수 있음
Training away 현상: 폐쇄형 모델의 실제 계산 전략 개선 없는 성능 향상 착시
실험 논문이 아닌 리뷰 논문으로 정량적 수치 미제시
Discussion
긍정적 증거는 주로 행동 일치, 부정적 증거는 계산 일치를 가정하여 충돌 발생
“Pure” ToM 측정을 위한 원칙: competence vs. performance 구분, frozen model 사용, auxiliary demands 통제
Insights
주목할 점: “Whac-a-Model with changing hammers” 메타포 — 모델과 평가 정의가 모두 변화하여 수렴 불가
연결 고리: Self-consciousness 벤치마크에도 동일 프레임워크 적용 가능 — 행동 일치 vs. 내부 모니터링 메커니즘 존재 구분
시사점: Frozen, open-source 모델의 필수성, adversarial robustness가 타겟 능력 측정을 오염
질문: Computation-matching을 검증할 gold standard는? 인간의 계산 과정도 완전히 이해되지 않음
비판적 코멘트: Computation-matching의 operationalize 방법이 아직 추상적. Closed API 모델 배제 시 실제 사용 시스템 평가 불가능 딜레마
Discussion Points
논쟁점: 행동 일치만으로 충분한가? 인간도 heuristics 사용 → LLM의 shallow heuristics를 “ToM 보유”로 인정할 수 있는가?
검증 필요 가정: 인간의 ToM 계산 과정 자체가 논쟁 중. 어떤 인지 모델을 기준으로 삼을 것인가?
후속 연구: Pragmatics-ToM 공진화 연구, 자발적(spontaneous) mentalizing 연구, mechanistic interpretability와 ToM의 결합