Introduction

FANToM(Fine-grained Asymmetric Natural Theory of Mind)은 대화형 상호작용에서 기계의 마음이론(Theory of Mind) 능력을 스트레스 테스트하기 위한 벤치마크
기존 ToM 평가 방법들이 수동적 서사(passive narratives)를 사용하여 상호작용성이 결여된 문제를 해결
**정보 비대칭(information asymmetry)**을 특징으로 하는 다자간 대화 맥락에서 QA 형식으로 ToM을 평가
256개의 대화와 10,000개의 질문으로 구성 — GPT-4를 사용하여 자동 생성 후 인간 검증
핵심 발견: GPT-4를 포함한 최신 LLM들이 chain-of-thought 추론이나 fine-tuning을 적용해도 인간보다 현저히 낮은 성능을 보이며, 일관된 ToM 능력의 징후를 보이지 않음
주요 기여: (1) 대화형 정보 비대칭 기반 ToM 벤치마크, (2) 6가지 질문 유형으로 동일 추론의 일관성 검증, (3) “환상적 ToM(illusory ToM)” 현상 발견

Sally-Anne Test 및 전통적 false-belief 과제들: 수동적 서사 형식 사용 — 상호작용성 부족
ToMi, BigToM: 기존 벤치마크는 물리적 상태에 초점, 대화형 맥락 미반영
Ai2 블로그 (GPT-4 ToM 분석): GPT-4의 ToM 능력 초기 분석 — 표면적 성능과 실제 능력의 괴리 지적
한계: 기존 연구들은 단일 질문 형식으로 평가하여 일관성 검증 불가, 대화형 상호작용 미반영

Methods

데이터셋 구성

대화 생성 메커니즘

정보 비대칭 시나리오 설정: 다자간 대화 중 한 명의 캐릭터가 일시적으로 자리를 비움
정보 공유 단계: 부재한 동안 나머지 참여자들 사이에서 대화가 계속되고 정보가 공유됨
재합류 단계: 부재했던 캐릭터가 대화에 (재)합류하지만, 그동안 공유된 정보를 알지 못함
질문 생성: 정보 비대칭 상황을 기반으로 다양한 유형의 질문 생성

질문 유형 (6가지)

모든 질문 유형은 동일한 핵심 ToM 추론을 요구: “대화에서 누가 어떤 정보를 알고 있는가?”

BeliefQ[CHOICE] (선택형 믿음 질문): 특정 캐릭터가 특정 정보에 대해 어떻게 응답할지 선택
BeliefQ[DIST.] (자유 응답형 믿음 질문): 캐릭터의 믿음 상태를 자유 형식으로 설명
AnswerabilityQ[LIST] (목록형 답변가능성 질문): 특정 질문에 답할 수 있는 모든 캐릭터를 나열
AnswerabilityQ[BIN.] (이진형 답변가능성 질문): 특정 캐릭터가 질문에 답할 수 있는지 예/아니오
InfoAccessQ[LIST] (목록형 정보접근 질문): 특정 정보를 알고 있는 모든 캐릭터를 나열
InfoAccessQ[BIN.] (이진형 정보접근 질문): 특정 캐릭터가 특정 정보를 알고 있는지 예/아니오

벤치마크 통계

총 대화 수: 256개
총 질문 수: 10,000개
대화 생성: GPT-4 자동 생성 + 인간 검증
평가 컨텍스트: Short conversation inputs (주요 평가), Full conversation inputs (더 어려운 버전)
데이터 형식: BeliefQ[CHOICE]는 multiple-choice, 나머지는 list/binary 형식
Train/Eval Split: 명시적 split 미제공 — 벤치마크는 주로 평가 목적으로 설계되었으며, 일부 fine-tuning 실험에서 훈련 데이터로 사용

평가 메트릭

All Question Types: 6가지 질문 유형 모두에서 일관되게 정확한 응답을 한 경우만 정답 (가장 엄격)
개별 질문 유형 정확도: 각 유형별 성능
Token F1 (BeliefQ[DIST.]): 자유 응답형 질문의 토큰 수준 F1 스코어

방법론 다이어그램

graph TD
    A[다자간 대화 시작] --> B[캐릭터 A 부재]
    B --> C[나머지 캐릭터들 간<br/>정보 공유]
    C --> D[정보 비대칭 상태 생성]
    D --> E[캐릭터 A 재합류]
    E --> F{질문 생성}
    F --> G1[BeliefQ<br/>선택형/자유응답형]
    F --> G2[AnswerabilityQ<br/>목록형/이진형]
    F --> G3[InfoAccessQ<br/>목록형/이진형]
    G1 --> H[ToM 추론:<br/>누가 무엇을 아는가?]
    G2 --> H
    G3 --> H
    H --> I[모델 응답 평가]
    I --> J[일관성 검증:<br/>All Question Types]

    style A fill:#e1f5fe
    style J fill:#e8f5e9

Results

모델: GPT-4 0613, ChatGPT 0613, Llama-2 Chat, Falcon Instruct, Mistral Instruct, Flan-T5 XL
데이터셋: FANToM (256 대화, 10K 질문)
데이터 형식: BeliefQ[CHOICE]는 multiple-choice, 나머지는 open-ended list/binary. Train/eval split 명시적 미제공
핵심 발견: 인간 87.5% vs GPT-4+CoT 26.6% — 최고 모델도 인간의 약 1/3 수준

실험 결과 상세

All Question Types 정확도 (가장 엄격한 메트릭)

Model/Method	All Types	AnswerabilityQ	InfoAccessQ	비고
Human	87.5%	90.6%	90.6%	기준선
GPT-4 0613 (June) w/o CoT	8.2%	-	-	CoT 미적용
GPT-4 0613 (June) + CoT	26.6%	40.2%	57.7%	최고 모델
ChatGPT 0613 + CoT	3.7%	20.7%	17.1%
Llama-2 Chat + CoT	0.4%	6.0%	7.8%
Falcon Instruct + CoT	0.0%	1.7%	2.3%
Mistral Instruct + CoT	0.1%	2.4%	9.1%

질문 유형별 성능 격차 (GPT-4 0613 June + CoT)

질문 유형	정확도	비고
BeliefQ[CHOICE]	73.3%	선택형에서 비교적 높음
InfoAccessQ	57.7%	중간
AnswerabilityQ (전체)	40.2%
AnswerabilityQ[LIST]	28.6%	목록형에서 급격히 하락

→ 환상적 ToM: 동일 추론을 요구하는 질문인데, 형식에 따라 73.3% vs 28.6%로 극단적 차이

Fine-tuning 결과

Model	BeliefQ[DIST.] Token F1	All Types	비고
Flan-T5 XL + FT	93.4% (인간 이상)	26.5%	특정 형식 암기 vs 일관된 이해

Discussion

환상적 ToM (Illusory ToM): 질문 형식에 따른 극단적 성능 변동 → 진정한 심적 상태 추론이 아닌 표면적 패턴 매칭
한계 1: GPT-4로 생성된 벤치마크 — 평가 대상 모델로 벤치마크를 만든 것의 타당성 문제
한계 2: 영어 중심, 서구 문화적 맥락 — 다언어/다문화 ToM 평가 미포함
한계 3: Short conversation inputs 위주 평가 — 장기 대화에서의 ToM 추적 미평가
향후 방향: (1) 다언어/다문화 FANToM, (2) 멀티모달 FANToM, (3) Explicit belief tracking module 추가

Insights

주목할 점: 10,000개의 대규모 평가로 통계적 신뢰성 확보. 6가지 질문 유형으로 동일 추론의 일관성을 검증한 최초의 시도 — “환상적 ToM” 발견의 근거
연결 고리: Sally-Anne Test의 LLM 시대 확장. BigToM, ToMi 등 기존 벤치마크의 한계(수동적 서사, 단일 질문 형식)를 극복
시사점: (1) 단일 질문 형식으로 ToM을 평가하면 과대추정 위험 — 다각도 평가 필수, (2) Fine-tuning이 특정 형식 성능은 올리지만 일관된 ToM 능력은 부여하지 못함, (3) 고객 서비스, 교육, 상담 등 타인의 지식 상태 추론이 필요한 응용에서 현재 LLM은 한계
질문: Memory network나 explicit belief tracking module을 추가하면 성능이 개선될까? 더 많은 ToM 관련 대화 데이터로 사전학습하면 근본적 능력 향상이 가능한가?
비판적 코멘트: (1) GPT-4 생성 데이터의 편향 — 평가 대상 모델로 벤치마크를 생성한 순환 문제. (2) BeliefQ[CHOICE] 73.3%는 “정답 맞추기” 전략의 가능성 시사. (3) Train/test split 정보가 명확하지 않아 재현성 확인이 어려움

Discussion Points

논쟁점: “ToM이 있다”의 기준은 무엇인가? All Types 26.6%는 “전혀 없다”인가 “부분적/제한적 ToM”인가? 인간도 100%가 아닌데(87.5%), 어느 수준이 “실용적으로 충분한” ToM인가?
검증 필요 가정: (1) 6가지 질문 유형이 정말로 “동일한” 추론을 요구하는가? — 인지 과학적 검증 필요. (2) Short conversation inputs에서의 성능이 실제 장기 대화에서의 ToM 능력을 대표하는가?
후속 연구: (1) Explicit belief tracking module을 가진 아키텍처 연구, (2) ToM 특화 사전학습 데이터셋 구축, (3) 커리큘럼 학습으로 ToM 능력 발달 시뮬레이션, (4) 다언어/다문화 FANToM 확장
벤치마크 적합성 참고: Train/eval split 명시적 미제공 (evaluation-focused). BeliefQ[CHOICE]는 multiple-choice, 나머지는 list/binary 형식. 코드 및 데이터셋 공개 (https://github.com/skywalker023/fantom)

Juhyeon's Blog

탐색기

FANToM - A Benchmark for Stress-testing Machine Theory of Mind in Interactions

Introduction

Methods

데이터셋 구성

대화 생성 메커니즘

질문 유형 (6가지)

벤치마크 통계

평가 메트릭

방법론 다이어그램

Results

실험 결과 상세

All Question Types 정확도 (가장 엄격한 메트릭)

질문 유형별 성능 격차 (GPT-4 0613 June + CoT)

Fine-tuning 결과

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

FANToM - A Benchmark for Stress-testing Machine Theory of Mind in Interactions

Introduction

Related Papers

Methods

데이터셋 구성

대화 생성 메커니즘

질문 유형 (6가지)

벤치마크 통계

평가 메트릭

방법론 다이어그램

Results

실험 결과 상세

All Question Types 정확도 (가장 엄격한 메트릭)

질문 유형별 성능 격차 (GPT-4 0613 June + CoT)

Fine-tuning 결과

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크