TimeToM - Temporal Space is the Key to Unlocking LLMs Theory-of-Mind
6분 분량
Introduction
대규모 언어 모델(LLM)은 Theory of Mind 능력이 매우 부족하며, 특히 고차(higher-order) ToM 질문에서 복잡한 논리적 추론 체인 필요
Chain of Thought와 같은 기존 추론 방법만으로는 ToM 성능 향상 불가
근본적 문제: 시간적(temporal) 맥락에서 각 캐릭터의 신념(belief) 상태를 체계적으로 추적하고 관리하는 메커니즘 부재
핵심 기여: 시간 공간(temporal space)을 구축하고 이를 기반으로 Temporal Belief State Chain(TBSC) 생성
Related Papers
ToMi, BigToM, FANToM 등 기존 ToM 벤치마크
Chain of Thought, perspective-taking 등 기존 추론 방법론
인지과학의 사회적 세계 모델(social world model) 이론
SimToM 등 ToM 특화 프롬프팅 기법
Methods
시간 공간 구성: 서사의 각 문장을 시간 포인트(t1, t2, …, tN)에 명시적으로 할당
Temporal Belief State Chain (TBSC): 각 캐릭터마다 신념 상태 체인 구축
자기-세계 신념(Self-world beliefs): 1차 ToM 질문에 대응
사회-세계 신념(Social-world beliefs): 고차 ToM 질문에 대응
Tool-Belief Solver: 시간 공간 내 신념 소통(belief communication) 기간 고려
각 캐릭터의 perceptible time set 파싱
교집합 계산으로 신념 소통 기간 식별
고차 신념 → 1차 신념 변환으로 추론 복잡도 감소
방법론 다이어그램
graph TD
A[입력: ToM 질문 + 서사] --> B[시간 공간 구성]
B --> C[각 문장에 시간 포인트 t1...tN 할당]
C --> D[캐릭터별 TBSC 생성]
D --> E{신념 유형 분리}
E --> F[자기-세계 신념<br/>Self-world Beliefs<br/>1차 ToM 대응]
E --> G[사회-세계 신념<br/>Social-world Beliefs<br/>고차 ToM 대응]
F --> H{질문 유형?}
G --> I[Tool-Belief Solver 호출]
I --> J[신념 소통 기간 계산<br/>perceptible time set 교집합]
J --> K[고차 신념 → 1차 신념 변환]
K --> H
H --> L[1차 ToM 질문]
H --> M[고차 ToM 질문]
L --> N[자기-세계 신념으로 추론]
M --> O[변환된 1차 신념으로 추론]
N --> P[최종 답변 생성]
O --> P
Results
ToMi 벤치마크: Llama2-7b-chat 0-shot 대비 +19.80%, GPT-4 baseline 대비 +29.50% 및 CoT 대비 +8.20%
BigToM 벤치마크: 0-shot 대비 평균 +13.38%, SimToM 대비 +10.81%
FANToM (대화형 시나리오): Llama2-70b-chat 0-shot 대비 평균 +44.7%, GPT-4 “All*” 점수 +33.0%
고차 ToM: GPT-4 기준 2차 질문에서 baseline 대비 +29.00%, +18.75% 절대 정확도 향상