Introduction


  • LLM의 ToM 보유 여부에 대한 증거가 혼재되고 수렴하지 않음
  • 근본 원인: “LLM이 ToM을 가진다”는 것이 무엇을 의미하는지 정의 불명확
  • 행동 일치(behavior-matching) vs. 계산 일치(computation-matching) 구분 제안
  • 현재 벤치마크의 타당성 위협(validity threats) 체계화

Related Papers


  • AGENT (inverse planning), BigToM (causal graphs), EWOK — 이론 기반 벤치마크
  • Rational Speech Acts(RSA) 프레임워크
  • 기존 ToM 벤치마크 (Sally-Anne, Unexpected Contents 등)

Methods


  • 메타 분석적 서베이: 기존 ToM 평가 연구를 인지과학 관점에서 재검토

핵심 구분

  • Q1: 행동 일치 (Behavior-Matching): 모델이 동일 입력에 인간과 같은 출력을 내는가? (M = M’)
  • Q2: 계산 일치 (Computation-Matching): 모델이 인간과 같은 알고리즘을 사용하는가? (f = f’)
  • 비유: lookup table은 곱셈 정답을 내지만 곱셈 알고리즘을 학습하지 않음

타당성 위협 (Validity Threats)

  1. Right for Wrong Reasons
    • Training Away: 폐쇄형 API 모델의 지속적 테스트 항목 노출
    • Shallow Heuristics: 표면적 패턴/통계적 규칙성 활용
  2. Wrong for Wrong Reasons
    • Adversarial Complexity: adversarial robustness 추구가 보조 능력 요구 증가
    • Pragmatic Artifacts: 텍스트 변환 시 언어적 편향 도입 (“yet”, “confusingly” 등)

방법론 다이어그램

graph TD
    A[ToM 평가 질문] --> B{평가 정의}
    B --> C[Q1: 행동 일치<br/>M = M']
    B --> D[Q2: 계산 일치<br/>f = f']
    C --> C1[많은 긍정적 증거]
    D --> D1[많은 부정적 증거]
    C1 --> E[Validity 위협]
    E --> E1[Training Away]
    E --> E2[Shallow Heuristics]
    E --> E3[Adversarial Complexity]
    E --> E4[Pragmatic Artifacts]
    D1 --> F[이론 기반 평가]
    F --> F1[Inverse Planning]
    F --> F2[Causal Graphs]
    F --> F3[RSA Framework]

Results


  • GPT-4: 표준 Sally-Anne 통과하지만 투명 봉지 변형에서 실패
  • 인간도 동일 adversarial 변형에서 성능 저하 → 모델 실패가 ToM 결핍이 아닐 수 있음
  • Training away 현상: 폐쇄형 모델의 실제 계산 전략 개선 없는 성능 향상 착시
  • 실험 논문이 아닌 리뷰 논문으로 정량적 수치 미제시

Discussion


  • 긍정적 증거는 주로 행동 일치, 부정적 증거는 계산 일치를 가정하여 충돌 발생
  • “Pure” ToM 측정을 위한 원칙: competence vs. performance 구분, frozen model 사용, auxiliary demands 통제

Insights


  • 주목할 점: “Whac-a-Model with changing hammers” 메타포 — 모델과 평가 정의가 모두 변화하여 수렴 불가
  • 연결 고리: Self-consciousness 벤치마크에도 동일 프레임워크 적용 가능 — 행동 일치 vs. 내부 모니터링 메커니즘 존재 구분
  • 시사점: Frozen, open-source 모델의 필수성, adversarial robustness가 타겟 능력 측정을 오염
  • 질문: Computation-matching을 검증할 gold standard는? 인간의 계산 과정도 완전히 이해되지 않음
  • 비판적 코멘트: Computation-matching의 operationalize 방법이 아직 추상적. Closed API 모델 배제 시 실제 사용 시스템 평가 불가능 딜레마

Discussion Points


  • 논쟁점: 행동 일치만으로 충분한가? 인간도 heuristics 사용 → LLM의 shallow heuristics를 “ToM 보유”로 인정할 수 있는가?
  • 검증 필요 가정: 인간의 ToM 계산 과정 자체가 논쟁 중. 어떤 인지 모델을 기준으로 삼을 것인가?
  • 후속 연구: Pragmatics-ToM 공진화 연구, 자발적(spontaneous) mentalizing 연구, mechanistic interpretability와 ToM의 결합