Introduction

기존 ToM 벤치마크는 정적 정신 상태 스냅샷에만 집중
실제 사회적 상호작용의 시간적 진화(temporal evolution) 를 간과
LLM이 시간에 따라 변화하는 인간의 정신 상태(belief, emotion, intention, action)를 추적하고 이해하는 능력 평가
4단계 체계적 프레임워크로 대규모 벤치마크 구축

ToM BENCH: 정적 ToM 능력 평가 (false belief 등) — DynToM은 시간적 추적에 집중
Long-context LLM 연구의 “Lost in the middle” 현상과 연결
Metacognition 연구: 정신 상태 변화의 메타인지적 모니터링

Methods

4단계 프레임워크

사회적 맥락 구축: 261개 장소, 2,200개 캐릭터 프로필, GPT-4-Turbo 기반 관계 생성 (검증 92%)
정신 상태 궤적 설계: 5개 연속 시나리오, Belief→Emotion→Intention→Action 인과 체인 (검증 85.4%)
시나리오 생성: 대화 기반 시나리오 (검증 88.7%)
질문 생성: 맥락당 71개 질문, 4가지 유형

질문 유형

Understanding: 특정 시점 정신 상태 식별
Transformation-1: 연속 시나리오 간 상태 변화 감지
Transformation-2: 변화의 인과 메커니즘 이해
Transformation-3: 5개 시나리오 전체 진화 추적

규모

1,100 사회적 맥락 / 5,500 시나리오 / 78,100 질문

방법론 다이어그램

graph LR
    S1[시나리오 1] --> S2[시나리오 2]
    S2 --> S3[시나리오 3]
    S3 --> S4[시나리오 4]
    S4 --> S5[시나리오 5]

    S1 -.->|Understanding| Q1[상태 식별]
    S2 -.->|Transformation-1| Q2[변화 감지]
    S3 -.->|Transformation-2| Q3[인과 이해]
    S5 -.->|Transformation-3| Q4[전체 진화 추적]

Results

인간: 77.7% / LLM 평균: 33.0% / 격차: 44.7%p
최고 모델 GPT-4o: 64.0% (인간보다 13.7%p 낮음)
“Lost in the Middle” 패턴: 7-시나리오에서 중간 구간 26%까지 급락
CoT의 역효과: GPT-4o에서 CoT 사용 시 -2.9% 성능 하락

실험 결과 상세

정신 상태	Understanding	Transformation	Gap
Belief	41.7%	25.8%	15.9%p
Emotion	54.7%	25.8%	28.9%p
Intention	45.0%	24.0%	21.0%p
Action	51.3%	23.0%	28.3%p

Model	Overall (Vanilla)
GPT-4o	64.0%
Llama-3.1-70B	57.1%
Qwen2-72B	48.5%
GPT-4-Turbo	47.6%
Human	77.7%

Discussion

Transformation 질문에서 Full errors 50-58% → 시간적 의존성 추적 실패
CoT가 독립적 시나리오 분석을 강제하여 시간적 의존성 포착 실패
Belief가 가장 어려운 정신 상태 유형 (41.7%)

Insights

주목할 점: ToM을 정적 상태 추론에서 동적 시스템 모델링으로 확장한 개념적 도약
연결 고리: “Lost in the middle” 현상이 단순 정보 검색을 넘어 시간적 추론에도 영향
시사점: 챗봇/어시스턴트 설계 시 사용자 상태의 시간적 진화를 추적하는 메모리 메커니즘 필요
질문: 5개 이상 시나리오에서 성능이 더 저하되는가? 인간의 동적 ToM 추적 한계는?
비판적 코멘트: 4단계 모두 GPT-4-Turbo로 생성 → GPT-4 편향 내재 가능. 문화적 다양성 명시 부족

Discussion Points

논쟁점: 44.7% 격차가 “근본적 불가능”인가 “아직 미달”인가?
검증 필요 가정: Belief→Emotion→Intention→Action 선형 인과 모델의 보편성 미검증
후속 연구: 메모리 증강 아키텍처(Memformer 등)의 동적 ToM 효과, 명시적 상태 추적기 모듈 통합

Juhyeon's Blog

탐색기

DynToM - Towards Dynamic Theory of Mind

Introduction

Methods

4단계 프레임워크

질문 유형

규모

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

DynToM - Towards Dynamic Theory of Mind

Introduction

Related Papers

Methods

4단계 프레임워크

질문 유형

규모

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크