Introduction


  • 기존 ToM 평가는 수동적 내러티브에 초점 → 상호작용성 부족
  • 실제 대화에서 참가자 간 정보 비대칭(information asymmetry) 이 자연스럽게 발생
  • LLM이 다자간 대화에서 타인의 믿음과 지식 상태를 추론할 수 있는지 엄격하게 평가
  • 핵심 혁신: “착시적 ToM(illusory ToM)” 탐지 메커니즘

Related Papers


  • Sally-Anne Test, false belief task의 대화 맥락 확장
  • Epistemic logic, common ground 연구
  • 심리학의 ToM 이론적 요구사항 + LLM 평가의 경험적 고려사항 결합

Methods


  • 256개 다자간 대화 (GPT-4 생성, 인간 검증), 10,000개 질문
  • 대화 중 특정 인물이 자리를 비우고 → 부재 중 정보 공유 → 재합류 시 정보 비대칭 발생
  • 3가지 질문 유형 (동일한 기본 ToM 추론 요구):
    1. BeliefQ: 특정 인물의 믿음 상태 직접 질문 (선택형 + 자유 응답)
    2. AnswerabilityQ: 누가 특정 질문에 답할 수 있는지 (목록형 + 이진형)
    3. InfoAccessQ: 누가 특정 정보에 접근 가능한지 (목록형 + 이진형)
  • 일관성 검증: 모든 질문 유형에서 동시에 정답해야 “진정한 ToM”으로 인정

방법론 다이어그램

graph TD
    A[다자간 대화 시작] --> B[인물이 대화에서 이탈]
    B --> C[나머지 참여자가 정보 공유<br/>정보 비대칭 발생]
    C --> D[인물 재합류]
    D --> E1[BeliefQ: 인물의 믿음은?]
    D --> E2[AnswerabilityQ: 누가 답할 수 있나?]
    D --> E3[InfoAccessQ: 누가 정보를 아는가?]
    E1 --> F[일관성 검증]
    E2 --> F
    E3 --> F
    F -->|모두 정답| G[진정한 ToM]
    F -->|일부만 정답| H[착시적 ToM]

Results


  • 인간: All Question Types 87.5%
  • GPT-4 (No CoT): 8.2% → GPT-4 (CoT): 26.6% (인간 대비 60%+ 격차)
  • 일관성 평가 시 성능이 급격히 하락 → 성공적 ToM의 상당 부분이 착시적
  • Fine-tuning (Flan-T5 XL): 개별 질문 유형은 개선되나 일관된 ToM 추론은 미나타남

실험 결과 상세

Model/MethodAll Question Types비고
Human87.5%-
GPT-4 (No CoT)8.2%60%+ 격차
GPT-4 (CoT)26.6%CoT 사용 시 개선
Flan-T5 XL (fine-tuned)개별 유형 개선일관된 ToM 미달성

Discussion


  • CoT, fine-tuning 모두 일관된 ToM을 달성하지 못함
  • BeliefQ에서 비교적 높은 성능을 보이나 AnswerabilityQ/InfoAccessQ에서 급락
  • 대화가 GPT-4로 생성된 점의 장단점 (대규모 생성 가능 vs. 편향 내포)

Insights


  • 주목할 점: “착시적 ToM” 개념 — 표면적으로 다른 형태의 질문으로 모델이 진정한 이해를 갖추었는지 vs. 패턴 학습인지 구별
  • 연결 고리: HI-TOM(고차 ToM), DynToM(동적 추적), NegotiationToM(협상)과 상호보완적
  • 시사점: GPT-4조차 인간 대비 60%+ 격차 → ToM이 단순 패턴 인식 이상을 요구함
  • 질문: BeliefQ와 AnswerabilityQ가 심리학적으로 동일한 ToM 메커니즘을 사용하는지 검증 필요
  • 비판적 코멘트: “All Question Types” 메트릭이 매우 엄격하여 부분적 ToM 능력을 과소평가할 가능성

Discussion Points


  • 논쟁점: “착시적 ToM”이라는 개념 자체가 논쟁적 — ToM이 단일 능력인가 여러 하위 능력의 집합인가?
  • 검증 필요 가정: 세 질문 유형이 “동일한 기본 추론”을 요구한다는 가정의 심리학적 검증 필요
  • 후속 연구: Multimodal FANToM, Dynamic(실시간) FANToM, Adversarial(거짓말/숨김) FANToM 확장