Introduction


  • 기존 N-ToM 벤치마크의 한계: 모호하고 인위적인 서사 구조, 인물 성격 특성 부재, 심리적 정신 상태 다루는 질문 부족, 제한된 질문 다양성
  • LLM이 물리적 세계와 심리적 세계에서의 정신 상태 모델링 능력을 구분하여 평가할 수 있는 체계적 벤치마크 필요
  • 핵심 기여: 명시적 성격 특성, 의도 기반 행동, 긴 서사를 통해 현실적이고 도전적인 ToM 평가 환경 제공

Related Papers


  • ToMi, BigToM, FANToM 등 기존 ToM 벤치마크
  • 물리적 세계 vs 심리적 세계 정신 상태 구분 연구
  • 인지과학의 Mental State Attribution 이론
  • False belief task와 그 한계에 관한 연구

Methods


  • 데이터셋 구성: LLM 초안 생성 + 인간 검수로 696개 서사 구축 (일반 길이 596개: 평균 194.3단어, 긴 서사 100개: 평균 491.6단어)
  • 캐릭터 설계: 명시적 성격 특성 부여, 의도 기반 행동 설정
  • 질문 설계: 각 서사당 23개 ToM 질문 → 총 16,008개 질문
  • 질문 유형: Location(위치 추론), Multihop(다단계 추론), Attitude(태도 추론)
  • 정신 상태 분류: Physical World(위치, 다단계) vs Psychological World(태도)
  • 평가 지표: Macro-averaged F1 score (레이블 분포 불균등 고려)

방법론 다이어그램

graph TD
    A[OpenToM 벤치마크 구축] --> B[서사 생성]
    B --> C[LLM 기반 초안 작성]
    C --> D[인간 검수 및 수정]
    D --> E[696개 서사 완성]
    E --> E1[일반 길이: 596개<br/>평균 194.3 단어]
    E --> E2[긴 서사: 100개<br/>평균 491.6 단어]

    A --> F[캐릭터 설계]
    F --> G[명시적 성격 특성 부여]
    G --> H[의도 기반 행동 설정]

    A --> I[질문 설계]
    I --> J[물리적 세계 질문]
    J --> J1[Location - 위치 추론]
    J --> J2[Multihop - 다단계 추론]

    I --> K[심리적 세계 질문]
    K --> K1[Attitude - 태도 추론]

    E & H & J1 & J2 & K1 --> L[각 서사당 23개 질문]
    L --> M[총 16,008개 질문]
    M --> N[LLM 평가: Macro F1 Score]

Results


  • GPT-4-Turbo: Location, Multihop, Attitude 모든 질문에서 가장 우수하나 인간에 크게 미달
  • 물리적 세계 추론: 상대적으로 높은 성능
  • 심리적 세계 추론 (Attitude): 현저히 낮은 성능 - LLM의 핵심 약점
  • 고급 프롬프팅 기법 (CoT, Simulated-ToM): 심리적 정신 상태 추적에서 뚜렷한 한계
  • Self-Ask prompt: F1 score 개선에도 인간 성능에 여전히 크게 미달

실험 결과 상세

Model/MethodQuestion TypeFinding
GPT-4-TurboLocation최고 성능, 물리적 추론에 강함
GPT-4-TurboMultihop최고 성능, 다단계 추론 우수
GPT-4-TurboAttitude최고 성능이나 인간에 크게 미달
GPT-4 + CoTPhysical State높은 성능
GPT-4 + CoTPsychological State낮은 성능 - 심리적 추론 실패
Other LLMsAll TypesGPT-4보다 낮음
HumanAll Types모든 LLM보다 상당히 높음

Discussion


  • 서사 초안을 LLM으로 생성하여 데이터 편향과 어휘 다양성 부족 가능성
  • 이진/삼진 분류 태스크로 단순화하여 실제 복잡한 ToM 추론을 충분히 포착 못할 수 있음
  • LLM이 심리적 정신 상태 추론에 취약한 근본 원인(훈련 데이터 부족 vs 아키텍처 한계) 불명확
  • 멀티모달 정보(표정, 목소리 톤 등) 통합 시 성능 개선 가능성

Insights


  • 주목할 점: 기존 ToM 벤치마크가 간과했던 심리적 정신 상태(Psychological Mental States) 평가를 체계적으로 도입 - 캐릭터의 태도, 감정, 선호도 등 내면적 상태 추론 능력 평가
  • 연결 고리: Social Intelligence, AI Agent, Embodied AI, Human-AI Interaction 연구에서 필수적인 능력
  • 시사점: GPT-4도 심리적 정신 상태 추론에서 인간에 크게 미치지 못함 - 단순 스케일링 이상의 근본적 아키텍처 혁신 필요
  • 질문: LLM의 심리적 추론 취약성이 훈련 데이터 부족인가 Transformer 아키텍처 구조적 한계인가?
  • 비판적 코멘트: LLM 생성 서사의 편향 가능성, 이진/삼진 분류의 단순화 문제

Discussion Points


  • 논쟁점: LLM이 “진짜” Theory of Mind를 가지고 있는지, 단순히 패턴 매칭으로 ToM처럼 보이는 출력 생성하는지
  • 검증 필요 가정: “긴 서사”와 “명시적 성격 특성”이 더 나은 ToM 평가를 가능하게 한다는 가정 - 인지과학적 검증 필요
  • 후속 연구: 심리적 정신 상태 추론 향상을 위한 특화된 훈련 방법론, 멀티모달 ToM 벤치마크 확장, 실시간 대화 상황의 동적 ToM 평가