FANToM - A Benchmark for Stress-testing Machine Theory of Mind in Interactions
11분 분량
Introduction
FANToM(Fine-grained Asymmetric Natural Theory of Mind)은 대화형 상호작용에서 기계의 마음이론(Theory of Mind) 능력을 스트레스 테스트하기 위한 벤치마크
기존 ToM 평가 방법들이 수동적 서사(passive narratives)를 사용하여 상호작용성이 결여된 문제를 해결
**정보 비대칭(information asymmetry)**을 특징으로 하는 다자간 대화 맥락에서 QA 형식으로 ToM을 평가
256개의 대화와 10,000개의 질문으로 구성 — GPT-4를 사용하여 자동 생성 후 인간 검증
핵심 발견: GPT-4를 포함한 최신 LLM들이 chain-of-thought 추론이나 fine-tuning을 적용해도 인간보다 현저히 낮은 성능을 보이며, 일관된 ToM 능력의 징후를 보이지 않음
주요 기여: (1) 대화형 정보 비대칭 기반 ToM 벤치마크, (2) 6가지 질문 유형으로 동일 추론의 일관성 검증, (3) “환상적 ToM(illusory ToM)” 현상 발견
Related Papers
Sally-Anne Test 및 전통적 false-belief 과제들: 수동적 서사 형식 사용 — 상호작용성 부족
ToMi, BigToM: 기존 벤치마크는 물리적 상태에 초점, 대화형 맥락 미반영
Ai2 블로그 (GPT-4 ToM 분석): GPT-4의 ToM 능력 초기 분석 — 표면적 성능과 실제 능력의 괴리 지적
한계: 기존 연구들은 단일 질문 형식으로 평가하여 일관성 검증 불가, 대화형 상호작용 미반영
Methods
데이터셋 구성
대화 생성 메커니즘
정보 비대칭 시나리오 설정: 다자간 대화 중 한 명의 캐릭터가 일시적으로 자리를 비움
정보 공유 단계: 부재한 동안 나머지 참여자들 사이에서 대화가 계속되고 정보가 공유됨
재합류 단계: 부재했던 캐릭터가 대화에 (재)합류하지만, 그동안 공유된 정보를 알지 못함
질문 생성: 정보 비대칭 상황을 기반으로 다양한 유형의 질문 생성
질문 유형 (6가지)
모든 질문 유형은 동일한 핵심 ToM 추론을 요구: “대화에서 누가 어떤 정보를 알고 있는가?”
BeliefQ[CHOICE] (선택형 믿음 질문): 특정 캐릭터가 특정 정보에 대해 어떻게 응답할지 선택
BeliefQ[DIST.] (자유 응답형 믿음 질문): 캐릭터의 믿음 상태를 자유 형식으로 설명
AnswerabilityQ[LIST] (목록형 답변가능성 질문): 특정 질문에 답할 수 있는 모든 캐릭터를 나열
AnswerabilityQ[BIN.] (이진형 답변가능성 질문): 특정 캐릭터가 질문에 답할 수 있는지 예/아니오
InfoAccessQ[LIST] (목록형 정보접근 질문): 특정 정보를 알고 있는 모든 캐릭터를 나열
InfoAccessQ[BIN.] (이진형 정보접근 질문): 특정 캐릭터가 특정 정보를 알고 있는지 예/아니오
벤치마크 통계
총 대화 수: 256개
총 질문 수: 10,000개
대화 생성: GPT-4 자동 생성 + 인간 검증
평가 컨텍스트: Short conversation inputs (주요 평가), Full conversation inputs (더 어려운 버전)
데이터 형식: BeliefQ[CHOICE]는 multiple-choice, 나머지는 list/binary 형식
Train/Eval Split: 명시적 split 미제공 — 벤치마크는 주로 평가 목적으로 설계되었으며, 일부 fine-tuning 실험에서 훈련 데이터로 사용
평가 메트릭
All Question Types: 6가지 질문 유형 모두에서 일관되게 정확한 응답을 한 경우만 정답 (가장 엄격)
개별 질문 유형 정확도: 각 유형별 성능
Token F1 (BeliefQ[DIST.]): 자유 응답형 질문의 토큰 수준 F1 스코어
방법론 다이어그램
graph TD
A[다자간 대화 시작] --> B[캐릭터 A 부재]
B --> C[나머지 캐릭터들 간<br/>정보 공유]
C --> D[정보 비대칭 상태 생성]
D --> E[캐릭터 A 재합류]
E --> F{질문 생성}
F --> G1[BeliefQ<br/>선택형/자유응답형]
F --> G2[AnswerabilityQ<br/>목록형/이진형]
F --> G3[InfoAccessQ<br/>목록형/이진형]
G1 --> H[ToM 추론:<br/>누가 무엇을 아는가?]
G2 --> H
G3 --> H
H --> I[모델 응답 평가]
I --> J[일관성 검증:<br/>All Question Types]
style A fill:#e1f5fe
style J fill:#e8f5e9
데이터 형식: BeliefQ[CHOICE]는 multiple-choice, 나머지는 open-ended list/binary. Train/eval split 명시적 미제공
핵심 발견: 인간 87.5% vs GPT-4+CoT 26.6% — 최고 모델도 인간의 약 1/3 수준
실험 결과 상세
All Question Types 정확도 (가장 엄격한 메트릭)
Model/Method
All Types
AnswerabilityQ
InfoAccessQ
비고
Human
87.5%
90.6%
90.6%
기준선
GPT-4 0613 (June) w/o CoT
8.2%
-
-
CoT 미적용
GPT-4 0613 (June) + CoT
26.6%
40.2%
57.7%
최고 모델
ChatGPT 0613 + CoT
3.7%
20.7%
17.1%
Llama-2 Chat + CoT
0.4%
6.0%
7.8%
Falcon Instruct + CoT
0.0%
1.7%
2.3%
Mistral Instruct + CoT
0.1%
2.4%
9.1%
질문 유형별 성능 격차 (GPT-4 0613 June + CoT)
질문 유형
정확도
비고
BeliefQ[CHOICE]
73.3%
선택형에서 비교적 높음
InfoAccessQ
57.7%
중간
AnswerabilityQ (전체)
40.2%
AnswerabilityQ[LIST]
28.6%
목록형에서 급격히 하락
→ 환상적 ToM: 동일 추론을 요구하는 질문인데, 형식에 따라 73.3% vs 28.6%로 극단적 차이
Fine-tuning 결과
Model
BeliefQ[DIST.] Token F1
All Types
비고
Flan-T5 XL + FT
93.4% (인간 이상)
26.5%
특정 형식 암기 vs 일관된 이해
Discussion
환상적 ToM (Illusory ToM): 질문 형식에 따른 극단적 성능 변동 → 진정한 심적 상태 추론이 아닌 표면적 패턴 매칭
한계 1: GPT-4로 생성된 벤치마크 — 평가 대상 모델로 벤치마크를 만든 것의 타당성 문제
한계 2: 영어 중심, 서구 문화적 맥락 — 다언어/다문화 ToM 평가 미포함
한계 3: Short conversation inputs 위주 평가 — 장기 대화에서의 ToM 추적 미평가
향후 방향: (1) 다언어/다문화 FANToM, (2) 멀티모달 FANToM, (3) Explicit belief tracking module 추가
Insights
주목할 점: 10,000개의 대규모 평가로 통계적 신뢰성 확보. 6가지 질문 유형으로 동일 추론의 일관성을 검증한 최초의 시도 — “환상적 ToM” 발견의 근거
연결 고리: Sally-Anne Test의 LLM 시대 확장. BigToM, ToMi 등 기존 벤치마크의 한계(수동적 서사, 단일 질문 형식)를 극복
시사점: (1) 단일 질문 형식으로 ToM을 평가하면 과대추정 위험 — 다각도 평가 필수, (2) Fine-tuning이 특정 형식 성능은 올리지만 일관된 ToM 능력은 부여하지 못함, (3) 고객 서비스, 교육, 상담 등 타인의 지식 상태 추론이 필요한 응용에서 현재 LLM은 한계
질문: Memory network나 explicit belief tracking module을 추가하면 성능이 개선될까? 더 많은 ToM 관련 대화 데이터로 사전학습하면 근본적 능력 향상이 가능한가?
비판적 코멘트: (1) GPT-4 생성 데이터의 편향 — 평가 대상 모델로 벤치마크를 생성한 순환 문제. (2) BeliefQ[CHOICE] 73.3%는 “정답 맞추기” 전략의 가능성 시사. (3) Train/test split 정보가 명확하지 않아 재현성 확인이 어려움
Discussion Points
논쟁점: “ToM이 있다”의 기준은 무엇인가? All Types 26.6%는 “전혀 없다”인가 “부분적/제한적 ToM”인가? 인간도 100%가 아닌데(87.5%), 어느 수준이 “실용적으로 충분한” ToM인가?
검증 필요 가정: (1) 6가지 질문 유형이 정말로 “동일한” 추론을 요구하는가? — 인지 과학적 검증 필요. (2) Short conversation inputs에서의 성능이 실제 장기 대화에서의 ToM 능력을 대표하는가?
후속 연구: (1) Explicit belief tracking module을 가진 아키텍처 연구, (2) ToM 특화 사전학습 데이터셋 구축, (3) 커리큘럼 학습으로 ToM 능력 발달 시뮬레이션, (4) 다언어/다문화 FANToM 확장
벤치마크 적합성 참고: Train/eval split 명시적 미제공 (evaluation-focused). BeliefQ[CHOICE]는 multiple-choice, 나머지는 list/binary 형식. 코드 및 데이터셋 공개 (https://github.com/skywalker023/fantom)