Introduction


  • 대규모 언어 모델(LLM)은 Theory of Mind 능력이 매우 부족하며, 특히 고차(higher-order) ToM 질문에서 복잡한 논리적 추론 체인 필요
  • Chain of Thought와 같은 기존 추론 방법만으로는 ToM 성능 향상 불가
  • 근본적 문제: 시간적(temporal) 맥락에서 각 캐릭터의 신념(belief) 상태를 체계적으로 추적하고 관리하는 메커니즘 부재
  • 핵심 기여: 시간 공간(temporal space)을 구축하고 이를 기반으로 Temporal Belief State Chain(TBSC) 생성

Related Papers


  • ToMi, BigToM, FANToM 등 기존 ToM 벤치마크
  • Chain of Thought, perspective-taking 등 기존 추론 방법론
  • 인지과학의 사회적 세계 모델(social world model) 이론
  • SimToM 등 ToM 특화 프롬프팅 기법

Methods


  • 시간 공간 구성: 서사의 각 문장을 시간 포인트(t1, t2, …, tN)에 명시적으로 할당
  • Temporal Belief State Chain (TBSC): 각 캐릭터마다 신념 상태 체인 구축
    • 자기-세계 신념(Self-world beliefs): 1차 ToM 질문에 대응
    • 사회-세계 신념(Social-world beliefs): 고차 ToM 질문에 대응
  • Tool-Belief Solver: 시간 공간 내 신념 소통(belief communication) 기간 고려
    • 각 캐릭터의 perceptible time set 파싱
    • 교집합 계산으로 신념 소통 기간 식별
    • 고차 신념 → 1차 신념 변환으로 추론 복잡도 감소

방법론 다이어그램

graph TD
    A[입력: ToM 질문 + 서사] --> B[시간 공간 구성]
    B --> C[각 문장에 시간 포인트 t1...tN 할당]
    C --> D[캐릭터별 TBSC 생성]
    D --> E{신념 유형 분리}
    E --> F[자기-세계 신념<br/>Self-world Beliefs<br/>1차 ToM 대응]
    E --> G[사회-세계 신념<br/>Social-world Beliefs<br/>고차 ToM 대응]
    F --> H{질문 유형?}
    G --> I[Tool-Belief Solver 호출]
    I --> J[신념 소통 기간 계산<br/>perceptible time set 교집합]
    J --> K[고차 신념 → 1차 신념 변환]
    K --> H
    H --> L[1차 ToM 질문]
    H --> M[고차 ToM 질문]
    L --> N[자기-세계 신념으로 추론]
    M --> O[변환된 1차 신념으로 추론]
    N --> P[최종 답변 생성]
    O --> P

Results


  • ToMi 벤치마크: Llama2-7b-chat 0-shot 대비 +19.80%, GPT-4 baseline 대비 +29.50% 및 CoT 대비 +8.20%
  • BigToM 벤치마크: 0-shot 대비 평균 +13.38%, SimToM 대비 +10.81%
  • FANToM (대화형 시나리오): Llama2-70b-chat 0-shot 대비 평균 +44.7%, GPT-4 “All*” 점수 +33.0%
  • 고차 ToM: GPT-4 기준 2차 질문에서 baseline 대비 +29.00%, +18.75% 절대 정확도 향상
  • Ablation Study: 시간 공간만으로 Llama2-7b +14.30%, Belief Solver 통합으로 GPT-4 고차 질문 +16.0%

실험 결과 상세

Model/MethodDatasetMetricScorevs. Baseline
GPT-4 + TimeToMToMiAccuracy~88.5%+29.5%
GPT-4 + CoTToMiAccuracy~80.3%+21.3%
GPT-4 0-shotToMiAccuracy~59.0%-
Llama2-7b + TimeToMToMiAccuracy~47.8%+19.8%
Llama2-70b + TimeToMFANToMAvg Accuracy-+44.7%
GPT-4 + TimeToMFANToMAll* Score-+33.0%
Temporal Space OnlyToMiAccuracy-+14.30%
+ Belief Compression1st-orderAccuracy-+29.50%

Discussion


  • TBSC 구성이 “ground truth temporal space”에 의존하면 open-ended 대화나 embodied 환경에서 적용 제한
  • Tool-belief solver의 신념 소통 기간 계산이 명시적 시간 정보 있을 때만 작동 - 암묵적 시간 추론 한계
  • 7B 이하 모델에서는 TBSC 구성 오류율 높음
  • 텍스트 모달리티에만 집중, 멀티모달 추론은 미래 과제

Insights


  • 주목할 점: 기존 ToM 연구가 추론 방법론(CoT, perspective-taking)에 집중한 반면, **시간성(temporality)**이라는 근본적 차원 도입 - “고차 신념 → 1차 신념” 변환 메커니즘의 창의적 해결책
  • 연결 고리: 인지과학의 사회적 세계 모델을 LLM 추론 프레임워크에 직접 통합, MemGPT/AgentFold 등 메모리 관리 연구와도 시간적 상태 추적 공통점
  • 시사점: 시간 공간이 명시적으로 구조화되지 않으면 LLM은 복잡한 ToM 추론에서 체계적으로 실패 - 단순 프롬프트 엔지니어링을 넘어 구조적 스캐폴딩 중요
  • 질문: TBSC 구성을 외부 도구(symbolic reasoner, KB)로 보완 가능한가? 다중 모달 환경에서 시각적 정보가 신념 상태에 어떻게 통합되어야 하나?
  • 비판적 코멘트: 명시적 시간 정보 필요로 암묵적 시간 추론에 한계, 인간은 명시적 시간 마커 없이도 ToM 자연스럽게 수행

Discussion Points


  • 논쟁점: 시간 공간 구성이 필요조건인가, 현재 LLM 한계를 우회하는 충분조건에 불과한가? 더 강력한 모델에서는 불필요해질 수 있음
  • 검증 필요 가정: Tool-belief solver의 “고차→1차 변환”이 모든 고차 ToM 시나리오에서 가능한지 - 직접적 소통 없는 경우에도 작동하는지
  • 후속 연구: 비구조화된 텍스트에서 자동 시간 정보 추출 및 TBSC 구성, Multimodal TimeToM, 실시간 대화에서 동적 TBSC 업데이트 온라인 추론 시스템