Introduction


  • 기존 ToM 벤치마크는 정적 정신 상태 스냅샷에만 집중
  • 실제 사회적 상호작용의 시간적 진화(temporal evolution) 를 간과
  • LLM이 시간에 따라 변화하는 인간의 정신 상태(belief, emotion, intention, action)를 추적하고 이해하는 능력 평가
  • 4단계 체계적 프레임워크로 대규모 벤치마크 구축

Related Papers


  • ToM BENCH: 정적 ToM 능력 평가 (false belief 등) — DynToM은 시간적 추적에 집중
  • Long-context LLM 연구의 “Lost in the middle” 현상과 연결
  • Metacognition 연구: 정신 상태 변화의 메타인지적 모니터링

Methods


4단계 프레임워크

  1. 사회적 맥락 구축: 261개 장소, 2,200개 캐릭터 프로필, GPT-4-Turbo 기반 관계 생성 (검증 92%)
  2. 정신 상태 궤적 설계: 5개 연속 시나리오, Belief→Emotion→Intention→Action 인과 체인 (검증 85.4%)
  3. 시나리오 생성: 대화 기반 시나리오 (검증 88.7%)
  4. 질문 생성: 맥락당 71개 질문, 4가지 유형

질문 유형

  • Understanding: 특정 시점 정신 상태 식별
  • Transformation-1: 연속 시나리오 간 상태 변화 감지
  • Transformation-2: 변화의 인과 메커니즘 이해
  • Transformation-3: 5개 시나리오 전체 진화 추적

규모

  • 1,100 사회적 맥락 / 5,500 시나리오 / 78,100 질문

방법론 다이어그램

graph LR
    S1[시나리오 1] --> S2[시나리오 2]
    S2 --> S3[시나리오 3]
    S3 --> S4[시나리오 4]
    S4 --> S5[시나리오 5]

    S1 -.->|Understanding| Q1[상태 식별]
    S2 -.->|Transformation-1| Q2[변화 감지]
    S3 -.->|Transformation-2| Q3[인과 이해]
    S5 -.->|Transformation-3| Q4[전체 진화 추적]

Results


  • 인간: 77.7% / LLM 평균: 33.0% / 격차: 44.7%p
  • 최고 모델 GPT-4o: 64.0% (인간보다 13.7%p 낮음)
  • “Lost in the Middle” 패턴: 7-시나리오에서 중간 구간 26%까지 급락
  • CoT의 역효과: GPT-4o에서 CoT 사용 시 -2.9% 성능 하락

실험 결과 상세

정신 상태UnderstandingTransformationGap
Belief41.7%25.8%15.9%p
Emotion54.7%25.8%28.9%p
Intention45.0%24.0%21.0%p
Action51.3%23.0%28.3%p
ModelOverall (Vanilla)
GPT-4o64.0%
Llama-3.1-70B57.1%
Qwen2-72B48.5%
GPT-4-Turbo47.6%
Human77.7%

Discussion


  • Transformation 질문에서 Full errors 50-58% → 시간적 의존성 추적 실패
  • CoT가 독립적 시나리오 분석을 강제하여 시간적 의존성 포착 실패
  • Belief가 가장 어려운 정신 상태 유형 (41.7%)

Insights


  • 주목할 점: ToM을 정적 상태 추론에서 동적 시스템 모델링으로 확장한 개념적 도약
  • 연결 고리: “Lost in the middle” 현상이 단순 정보 검색을 넘어 시간적 추론에도 영향
  • 시사점: 챗봇/어시스턴트 설계 시 사용자 상태의 시간적 진화를 추적하는 메모리 메커니즘 필요
  • 질문: 5개 이상 시나리오에서 성능이 더 저하되는가? 인간의 동적 ToM 추적 한계는?
  • 비판적 코멘트: 4단계 모두 GPT-4-Turbo로 생성 → GPT-4 편향 내재 가능. 문화적 다양성 명시 부족

Discussion Points


  • 논쟁점: 44.7% 격차가 “근본적 불가능”인가 “아직 미달”인가?
  • 검증 필요 가정: Belief→Emotion→Intention→Action 선형 인과 모델의 보편성 미검증
  • 후속 연구: 메모리 증강 아키텍처(Memformer 등)의 동적 ToM 효과, 명시적 상태 추적기 모듈 통합