Introduction


  • OpenToM은 LLM의 Theory-of-Mind 추론 능력을 평가하기 위한 종합 벤치마크
  • 기존 N-ToM 벤치마크의 한계 극복: (1) 모호하고 인위적인 내러티브, (2) 인물의 성격 특성 부재, (3) 심리적 정신 상태에 대한 불충분한 초점
  • 696개 내러티브 (596 일반 길이 + 100 긴 내러티브) × 23개 ToM 질문 = 총 16,008개 질문
  • 일반 길이 내러티브: 평균 194.3단어, 긴 내러티브: 평균 491.6단어
  • 핵심 기여: **물리적 세계(physical world)**와 **심리적 세계(psychological world)**의 정신 상태를 모두 평가
  • 주요 발견: LLM은 물리적 정신 상태(위치, 사실적 지식)는 잘 추론하지만, 심리적 정신 상태(감정, 신념, 선호도)는 현저히 부족

Related Papers


  • ToMi (Theory of Mind inference): 간결하고 모호한 시나리오, 제한적 맥락
  • FANToM (Kim et al., 2023): 대화형 정보 비대칭에 초점 — 주로 물리적 상태, 심리적 차원 부족
  • 기존 Sally-Anne Test 변형들: 단순한 위치 추론에 한정
  • 차별점: (1) 더 길고 명확한 내러티브, (2) 명시적 성격 특성, (3) 행동-의도 정렬, (4) 물리적/심리적 이중 차원 평가

Methods


데이터셋 구성

내러티브 생성

  • opentom.json: 596개 일반 길이 스토리 (평균 194.3단어)
  • opentom_long.json: 100개 긴 스토리 (평균 491.6단어)
  • 각 내러티브에 명시적 성격 특성을 가진 캐릭터 포함
  • 캐릭터의 행동이 의도와 일치하도록 설계

질문 유형 (23가지, 3개 주요 카테고리)

A. Location Questions (위치 질문)

  • Coarse-grained (거친 입도): 대략적 위치 추론
  • Fine-grained (세밀한 입도): 정확한 위치 추론
  • First-order & Second-order: 1차 및 2차 믿음 추론

B. Multihop Questions (다단계 추론 질문)

  • Fullness (충만도): 캐릭터가 인지하는 개체의 가득 찬 정도
  • Accessibility (접근 가능성): 사회적 상식을 포함한 접근 가능성 추론

C. Attitude Questions (태도 질문)

  • 심리적 세계(psychological world) 핵심 질문 유형
  • 캐릭터의 특정 이벤트에 대한 태도 이해 능력 테스트
  • 기존 N-ToM 벤치마크에서 간과되었던 영역

평가 메트릭

  • Binary 또는 Ternary Classification 태스크로 설계
  • Macro-averaged F1 Score 권장 (레이블 분포 불균등)
  • Train/Eval Split: 논문 원문에서 명시적 split 확인 필요 — GitHub 데이터셋 공개

평가 대상 모델

  • GPT-4-Turbo, GPT-3.5-Turbo, Claude, LLaMA2-Chat (다양한 크기), Mixtral-8x7B-Instruct

프롬프팅 기법

  • Zero-shot, Few-shot, Self-Ask Prompting (CoT 변형)

방법론 다이어그램

graph TD
    A[내러티브 생성] --> B[캐릭터 정의<br/>명시적 성격 특성]
    B --> C[행동-의도 정렬<br/>스토리 전개]
    C --> D[23개 ToM 질문 생성]
    D --> E[물리적 정신 상태]
    D --> F[심리적 정신 상태]
    E --> G[Location Questions<br/>Coarse/Fine]
    E --> H[Multihop Questions<br/>Fullness/Accessibility]
    F --> I[Attitude Questions<br/>감정/선호도/믿음]
    G --> J[LLM 평가]
    H --> J
    I --> J
    J --> K[Macro F1 Score<br/>물리 vs 심리 비교]

    style E fill:#e3f2fd
    style F fill:#fff3e0
    style K fill:#c8e6c9

Results


  • 모델: GPT-4-Turbo, GPT-3.5-Turbo, Claude, LLaMA2-Chat (다양한 크기), Mixtral-8x7B
  • 데이터셋: OpenToM (696 내러티브, 16,008 질문)
  • 데이터 형식: Binary/Ternary Classification. Macro F1 평가. GitHub 데이터셋 공개
  • 핵심 발견: 물리적 vs 심리적 정신 상태 간 극명한 성능 격차

실험 결과 상세

물리적 vs 심리적 정신 상태 성능 비교

CategoryGPT-4-TurboGPT-3.5-TurboOpen-sourceHuman
Physical Mental States높음 (0.8+)중간중간-낮음~0.92
Psychological Mental States중간 (0.6~0.7)낮음낮음~0.92

질문 카테고리별 성능

Question TypeGPT-4-Turbo비고
Location (Coarse)최고물리적 상태
Location (Fine)높음물리적 상태
Multihop높음물리적+추론
Attitude상대적 낮음심리적 상태 — 핵심 약점

주요 관찰

관찰세부 내용
물리적 vs 심리적 격차모든 모델에서 심리적 정신 상태 추론이 유의하게 낮음
Self-Ask 프롬프팅F1 Score 향상 있으나 인간 수준에 크게 미달
긴 내러티브 성능모든 모델 성능 하락, 특히 심리적 추론에서 더 큰 하락
Open-source vs ProprietaryProprietary 모델(GPT-4, GPT-3.5)이 현저히 높은 성능

정확한 수치는 원논문 Table 2 참조 (arXiv:2402.06044)

Discussion


  • LLM의 “Shallow ToM”: 물리적 상태는 잘 추론하지만 심리적 상태는 부족 — 패턴 매칭 vs 진정한 “마음 읽기”
  • 한계 1: 텍스트 기반 정적 평가 — 실시간 상호작용 미반영
  • 한계 2: 긴 내러티브 100개는 상대적으로 적음 — 통계적 신뢰도 문제
  • 한계 3: 다국어 지원 부재 — 영어 기반만
  • 한계 4: Dynamic ToM 미포함 — 시간에 따라 변화하는 믿음/의도 추적 없음
  • 향후 방향: (1) Multimodal OpenToM, (2) Cross-lingual OpenToM, (3) LoRA 기반 ToM-specific fine-tuning

Insights


  • 주목할 점: 물리적 vs 심리적 ToM의 명확한 분리 — 기존 연구에서 간과되었던 구분을 최초로 체계적 제시. 696개 내러티브, 16,008개 질문이라는 대규모 벤치마크. GPT-4도 심리적 ToM에서 인간에 크게 못 미침
  • 연결 고리: FANToM(대화형 ToM)과 상호보완적 — FANToM은 정보 비대칭, OpenToM은 물리/심리 분리에 초점. ToMBench의 Knowledge 차원 최저 성능(34.0%)과 OpenToM의 심리적 ToM 약점이 일맥상통
  • 시사점: (1) LLM 기반 시스템 설계 시 심리적 추론이 필요한 태스크에 주의 필요. (2) 물리적 세계 모델링(로봇 제어, 시뮬레이션)에는 LLM 활용 가능하나 심리 상담/교육에는 신중해야 함. (3) 벤치마크 설계 시 물리적/심리적 차원을 분리하여 평가하는 것이 LLM 능력 진단에 유용
  • 질문: 왜 LLM은 물리적 ToM은 잘하고 심리적 ToM은 못할까? 학습 데이터에서 물리적 사실은 명시적이지만 심리적 상태는 암시적이기 때문인가?
  • 비판적 코멘트: (1) 정확한 실험 수치가 원논문 참조 필요 — 웹 검색에서 세부 F1 추출 어려움. (2) Binary/Ternary classification이 ToM의 복잡성을 충분히 포착하는지 의문. (3) Dynamic ToM(시간에 따른 믿음 변화)이 빠져 있어 실제 상호작용 반영 부족

Discussion Points


  • 논쟁점: (1) “LLM이 ToM을 가지고 있다”고 말할 수 있는가? GPT-4의 물리적 ToM 높은 성능 vs 심리적 ToM 부족 → “proto-ToM” 또는 “functional ToM”? (2) OpenToM 데이터로 fine-tuning하는 것의 타당성 — overfitting vs 일반화
  • 검증 필요 가정: (1) 심리적 ToM이 물리적 ToM보다 본질적으로 어려운지, 아니면 학습 데이터 편향 때문인지. (2) Binary/Ternary classification이 ToM을 충분히 평가하는지 — 생성형 답변과의 비교 필요. (3) 인간 baseline (~0.92)의 정확성
  • 후속 연구: (1) LoRA/QLoRA 기반 ToM-specific fine-tuning 후 FANToM 등에서 일반화 확인, (2) Multimodal OpenToM (이미지/비디오 추가), (3) Dynamic ToM Benchmark (시간에 따른 믿음 변화), (4) ToM과 Self-Consciousness 연결성 연구 — ΔW 중첩도 측정
  • 벤치마크 적합성 참고: Binary/Ternary Classification (Multiple-choice가 아닌 분류 형식). Macro F1 평가. Train/eval split 정보 원문 확인 필요. 코드 및 데이터셋 공개 (https://github.com/seacowx/OpenToM, https://huggingface.co/datasets/SeacowX/OpenToM)