FANToM - A Benchmark for Stress-testing Machine Theory of Mind in Interactions
5분 분량
Introduction
기존 ToM 평가는 수동적 내러티브에 초점 → 상호작용성 부족
실제 대화에서 참가자 간 정보 비대칭(information asymmetry) 이 자연스럽게 발생
LLM이 다자간 대화에서 타인의 믿음과 지식 상태를 추론할 수 있는지 엄격하게 평가
핵심 혁신: “착시적 ToM(illusory ToM)” 탐지 메커니즘
Related Papers
Sally-Anne Test, false belief task의 대화 맥락 확장
Epistemic logic, common ground 연구
심리학의 ToM 이론적 요구사항 + LLM 평가의 경험적 고려사항 결합
Methods
256개 다자간 대화 (GPT-4 생성, 인간 검증), 10,000개 질문
대화 중 특정 인물이 자리를 비우고 → 부재 중 정보 공유 → 재합류 시 정보 비대칭 발생
3가지 질문 유형 (동일한 기본 ToM 추론 요구):
BeliefQ: 특정 인물의 믿음 상태 직접 질문 (선택형 + 자유 응답)
AnswerabilityQ: 누가 특정 질문에 답할 수 있는지 (목록형 + 이진형)
InfoAccessQ: 누가 특정 정보에 접근 가능한지 (목록형 + 이진형)
일관성 검증: 모든 질문 유형에서 동시에 정답해야 “진정한 ToM”으로 인정
방법론 다이어그램
graph TD
A[다자간 대화 시작] --> B[인물이 대화에서 이탈]
B --> C[나머지 참여자가 정보 공유<br/>정보 비대칭 발생]
C --> D[인물 재합류]
D --> E1[BeliefQ: 인물의 믿음은?]
D --> E2[AnswerabilityQ: 누가 답할 수 있나?]
D --> E3[InfoAccessQ: 누가 정보를 아는가?]
E1 --> F[일관성 검증]
E2 --> F
E3 --> F
F -->|모두 정답| G[진정한 ToM]
F -->|일부만 정답| H[착시적 ToM]
Results
인간: All Question Types 87.5%
GPT-4 (No CoT): 8.2% → GPT-4 (CoT): 26.6% (인간 대비 60%+ 격차)
일관성 평가 시 성능이 급격히 하락 → 성공적 ToM의 상당 부분이 착시적
Fine-tuning (Flan-T5 XL): 개별 질문 유형은 개선되나 일관된 ToM 추론은 미나타남
실험 결과 상세
Model/Method
All Question Types
비고
Human
87.5%
-
GPT-4 (No CoT)
8.2%
60%+ 격차
GPT-4 (CoT)
26.6%
CoT 사용 시 개선
Flan-T5 XL (fine-tuned)
개별 유형 개선
일관된 ToM 미달성
Discussion
CoT, fine-tuning 모두 일관된 ToM을 달성하지 못함
BeliefQ에서 비교적 높은 성능을 보이나 AnswerabilityQ/InfoAccessQ에서 급락
대화가 GPT-4로 생성된 점의 장단점 (대규모 생성 가능 vs. 편향 내포)
Insights
주목할 점: “착시적 ToM” 개념 — 표면적으로 다른 형태의 질문으로 모델이 진정한 이해를 갖추었는지 vs. 패턴 학습인지 구별
연결 고리: HI-TOM(고차 ToM), DynToM(동적 추적), NegotiationToM(협상)과 상호보완적
시사점: GPT-4조차 인간 대비 60%+ 격차 → ToM이 단순 패턴 인식 이상을 요구함
질문: BeliefQ와 AnswerabilityQ가 심리학적으로 동일한 ToM 메커니즘을 사용하는지 검증 필요
비판적 코멘트: “All Question Types” 메트릭이 매우 엄격하여 부분적 ToM 능력을 과소평가할 가능성
Discussion Points
논쟁점: “착시적 ToM”이라는 개념 자체가 논쟁적 — ToM이 단일 능력인가 여러 하위 능력의 집합인가?
검증 필요 가정: 세 질문 유형이 “동일한 기본 추론”을 요구한다는 가정의 심리학적 검증 필요
후속 연구: Multimodal FANToM, Dynamic(실시간) FANToM, Adversarial(거짓말/숨김) FANToM 확장