Introduction


  • 인간 대상 ToM 과제를 LLM 벤치마킹에 그대로 차용하는 연구 급증
  • 원래 심리학 연구의 한계가 LLM 평가에 이식되면서 증폭
  • Position paper: 이론적·방법론적·평가적 한계를 체계적으로 진단
  • HCI 관점에서 User-Centered ToM 평가 패러다임 제안

Related Papers


  • 220개 인간 ToM 측정도구 분석 (Milligan et al.)
  • FANToM, ToMBench, SOTOPIA 등 LLM ToM 벤치마크
  • Sally-Anne, Strange Stories, Faux Pas 등 고전 과제

Methods


삼중 한계 진단

1. 이론적 한계

  • 220개 ToM 측정도구 중 75.5%가 belief만 측정
  • 감정, 욕구, 의도는 과소대표
  • ToM의 다면적 본질을 무시

2. 방법론적 한계

  • 20.2%만 심리측정학적 문서화 제공
  • LLM이 shortcut, heuristics, spurious correlation으로 통과 가능
  • 훈련 데이터 오염 가능성

3. 평가적 한계

  • 17/23 고전 ToM 과제가 수동적 관찰자 관점만 채택
  • 정적, 제3자, 일회성 정답 맞히기에 국한
  • 실제 대화의 동적/상호작용적 맥락 반영 부족

User-Centered 대안 프레임워크

  • 질문 전환: “LLM이 인간처럼 생각하는가?” → “사용자가 필요로 하는 ToM 행동은 무엇인가?”
  • Empirical grounding: HCI 연구를 통한 실제 사용자 요구 파악
  • Context specificity: 도메인별 상이한 ToM 요구사항 인정
  • Normative flexibility: 인간 ToM의 모든 측면이 AI에 바람직한 것은 아님
  • Mutual ToM: 사용자와 AI의 쌍방향 이해 업데이트

방법론 다이어그램

graph TD
    A[인간 ToM 과제] --> B{LLM 벤치마크로 이식}
    B --> C[이론적 한계: 75.5% Belief 편중]
    B --> D[방법론적 한계: 20.2%만 문서화]
    B --> E[평가적 한계: 수동적/정적]
    C --> F[문제 증폭]
    D --> F
    E --> F
    F --> G[User-Centered 대안]
    G --> H[실제 사용자 요구 조사]
    G --> I[동적 상호작용 평가]
    G --> J[문화적 다양성]
    G --> K[Mutual ToM]

Results


  • Position paper로 새로운 실험 미수행
  • 인용된 핵심 통계:
    • 220개 ToM 측정도구 중 75.5%가 belief만 측정
    • 20.2%만 psychometric 정보 제공
    • 23개 고전 과제 중 74%가 passive observer 관점만

Discussion


  • LLM의 “창발적 ToM” 주장은 방법론적 제약과 데이터 오염으로 검증 불가
  • 기존 벤치마크로는 모델 순위 매기기만 가능, 실제 사용자 경험 개선 지침은 부재

Insights


  • 주목할 점: “과도하게 정확한 의도 예측은 침해적으로 느껴질 수 있다” — AI ToM이 인간 ToM과 동일하지 않아야 할 수 있음
  • 연결 고리: SOTOPIA(동적 에이전트 시뮬레이션), user modeling, explainable AI 연구
  • 시사점: 벤치마크가 “무엇을 측정하는가”만큼 “왜 그것이 중요한가”를 명확히 해야 함
  • 질문: 사용자가 자신의 ToM 요구를 정확히 표현할 수 있는가? 사용자 선호가 장기적 안전성과 일치하는가?
  • 비판적 코멘트: 비전 제시에 강력하지만 구체적 대안 벤치마크 설계 미제시. Operationalize 가능한 프로토콜/메트릭 부재

Discussion Points


  • 논쟁점: 기능적 유사성 vs. 메커니즘적 유사성 중 벤치마크가 무엇을 추구해야 하는가?
  • 검증 필요 가정: 사용자가 ToM 요구를 articulate할 수 있는지, 사용자 선호가 manipulation 위험과 어떻게 균형되는지
  • 후속 연구: 도메인별 user-centered ToM 벤치마크 프로토타입, 대화형 human-in-the-loop annotation 프로토콜, 문화적으로 다양한 ToM 시나리오 데이터셋