Introduction


  • ToMATO(Theory of Mind Analysis Through Observable Thoughts)는 LLM의 ToM 능력을 평가하기 위한 새로운 벤치마크
  • 기존 ToM 벤치마크의 한계: (1) 신념(belief)에만 집중된 제한적 범위, (2) 거짓 신념(false belief)에 대한 포괄적 탐색 부족, (3) 캐릭터의 다양한 성격 특성 간과
  • Inner Speech Prompting: 롤플레이하는 LLM들이 대화 중 각 발화 전에 자신의 생각을 언어화(verbalize)하도록 유도
  • 5가지 정신 상태 범주: Belief, Intention, Desire, Emotion, Knowledge — 1차 및 2차 ToM 포착
  • 데이터셋: 5.4k개 질문, 753개 대화, 15가지 성격 특성 패턴 (Big Five 기반)
  • 주요 기여: (1) 5가지 정신 상태 범주 통합 평가, (2) 정보 비대칭 LLM-LLM 대화로 자연스러운 거짓 신념 유도, (3) Big Five 성격 특성 기반 강건성 평가, (4) Multiple-choice QA 형식 (4개 선택지)

Related Papers


  • 기존 ToM 벤치마크 (Sally-Anne, SmartToM, FANToM): 주로 belief 추론에 집중 — 다양한 정신 상태 평가 부족
  • LLM 롤플레이 연구: Big Five 성격 특성을 활용한 캐릭터 연기 — ToMATO는 이를 ToM 평가에 통합
  • Chain-of-Thought 및 Inner Monologue: ToMATO의 Inner Speech Prompting은 CoT와 유사하지만, 추론 과정이 아닌 캐릭터의 정신 상태 자체를 생성한다는 점에서 차별화
  • 정보 비대칭 기반 대화 생성: FANToM과 공유하는 원리이지만, LLM-LLM 대화에서 생각 숨기기로 거짓 신념을 유도하는 독창적 접근

Methods


Inner Speech Prompting

각 롤플레이 LLM은 대화 턴마다:

  • Thought (생각): 캐릭터의 내적 정신 상태를 5가지 범주(belief, intention, desire, emotion, knowledge)로 언어화
  • Utterance (발화): 실제로 상대방에게 말하는 내용

정보 비대칭 LLM-LLM 대화 생성

  • Agent AAgent B 두 LLM이 역할을 맡아 대화
  • Agent A의 생각은 Agent B에게 숨겨짐 (vice versa)
  • 각 에이전트는 상대의 발화만 보고 정신 상태를 추론 → 거짓 신념 자연 발생

성격 특성 다양화

  • Big Five 모델: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism
  • 각 차원을 High/Neutral/Low로 설정 → 15가지 성격 패턴 조합
  • 평가 시 다양한 성격에 대한 강건성(robustness) 측정

질문 및 답변 형식

  • Multiple-choice 형식: 4개 선택지
  • 정답은 해당 시점의 캐릭터 verbalized thought에서 추출
  • 1차 ToM (자신의 정신 상태) 및 2차 ToM (상대의 정신 상태 추론) 질문 포함

데이터셋 분할

  • ID (In-Distribution): 학습/검증/테스트 분할
  • OOD (Out-of-Distribution): 새로운 시나리오나 성격 조합
  • ToMATO-FB (False Belief subset): 거짓 신념 평가 전용 서브셋

방법론 다이어그램

graph TD
    A[시나리오 정의] --> B[성격 특성 할당<br/>Big Five: 15가지 패턴]
    B --> C1[Agent A: Inner Speech]
    B --> C2[Agent B: Inner Speech]
    C1 --> D1[Thought A<br/>belief, intention,<br/>desire, emotion, knowledge]
    C2 --> D2[Thought B<br/>belief, intention,<br/>desire, emotion, knowledge]
    D1 --> E1[Utterance A]
    D2 --> E2[Utterance B]
    E1 --> F[정보 비대칭 대화<br/>생각은 상대에게 숨김]
    E2 --> F
    F --> G[대화 진행 n턴]
    G --> H[질문 생성<br/>특정 시점 정신 상태]
    H --> I[Multiple-Choice QA<br/>4개 선택지]
    I --> J[1차 ToM 질문]
    I --> K[2차 ToM 질문<br/>거짓 신념 유도]
    J --> L[ToMATO 벤치마크<br/>5.4k 질문, 753 대화]
    K --> L

    style A fill:#e1f5fe
    style L fill:#e8f5e9

Results


  • 모델: 9개 최신 LLM (GPT-4o mini 포함, Claude 계열, Llama 계열 등)
  • 데이터셋: ToMATO (5.4k 질문, 753 대화, 15 성격 패턴)
  • 데이터 형식: Multiple-choice QA (4개 선택지). ID/OOD 분할 존재
  • 핵심 발견: GPT-4o mini가 최고 성능이지만 인간 성능에 미달, 특히 거짓 신념 이해에서 취약

실험 결과 상세

전반적 성능

Model/MethodToMATO (전체)ToMATO-FB (거짓 신념)비고
GPT-4o mini최고 성능하락최고 LLM
Claude 계열중상위하락
Llama 계열중위하락
Human기준선기준선모든 LLM 미달

거짓 신념 (False Belief) 성능

관찰세부 내용
ToMATO-FB 하락모든 모델에서 거짓 신념 서브셋 성능 현저히 하락
1차 vs 2차 ToM2차 정신 상태(타인 추론)에서 더 큰 어려움
정보 비대칭 한계타인의 지식/신념 상태를 정확히 모델링하지 못함

성격 특성 강건성

성격 차원특성 반영 성공률비고
Openness70-80%
Conscientiousness낮음다른 특성 대비 낮은 반영률
Extraversion70-80%
Agreeableness70-80%
Neuroticism70-80%

정신 상태 범주별 상대적 난이도

정신 상태상대적 난이도비고
Knowledge상대적 용이명시적 정보 기반
Belief상대적 용이거짓 신념에서 어려움
Intention중간맥락 추론 필요
Desire중간암묵적 선호 파악
Emotion가장 어려움미묘한 감정 상태 추론

정확한 정량적 수치는 원문 참조 필요 (arXiv:2501.08838)

Discussion


  • 한계 1: LLM 생성 데이터의 순환성 — LLM이 생성한 생각을 ground truth로 사용하여 다른 LLM을 평가하는 문제
  • 한계 2: Big Five는 서구 심리학 모델 — 문화적 편향 가능성
  • 한계 3: 753개 대화, 5.4k 질문은 대규모 LLM 벤치마크 대비 제한적
  • 한계 4: 텍스트 기반 — 실제 ToM은 비언어적 단서(표정, 어조)도 포함
  • 향후 방향: (1) Multimodal ToM 벤치마크, (2) Long-term ToM (여러 대화에 걸친 정신 상태 추적), (3) Adversarial ToM (의도적 기만 감지), (4) Cross-cultural ToM

Insights


  • 주목할 점: Inner Speech Prompting의 독창성 — 기존 CoT는 문제 해결 추론을 보여주지만, Inner Speech는 캐릭터의 정신 상태 자체를 생성하고 이를 ground truth로 활용. 정보 비대칭의 우아한 활용으로 인위적 시나리오 설계 없이 자연스러운 거짓 신념 유도. 5가지 정신 상태 범주의 포괄적 평가
  • 연결 고리: FANToM과 공유하는 정보 비대칭 원리. ToMBench의 ATOMS 프레임워크와 유사한 다차원 정신 상태 분류. OpenToM의 심리적 ToM 약점과 ToMATO의 Emotion 범주 어려움이 일맥상통. Multi-agent LLM 시스템 연구와 직접 연결
  • 시사점: (1) 현재 LLM은 거짓 신념 이해에서 근본적 한계 → 메타인지적 능력 부족. (2) 성격 특성이 ToM 성능에 영향 → 사회적 AI의 강건성 문제. (3) 교육 튜터, 정신 건강 챗봇, 게임 NPC 등에 직접적 함의. (4) LLM을 사용한 LLM 평가 데이터 생성 패러다임의 확장 가능성
  • 질문: Inner Speech로 생성된 “생각”이 실제 그 캐릭터가 가질 법한 정신 상태를 얼마나 반영하는가? Multiple-choice 4지선다가 ToM의 미묘함을 충분히 평가하는가?
  • 비판적 코멘트: (1) LLM-generated ground truth의 순환성 — LLM 편향이 벤치마크에 반영될 위험. (2) 정확한 정량적 수치 접근 제한 — 원문 PDF에서 확인 필요. (3) Emotion 추론이 텍스트만으로 제한적 — 실제 ToM은 다중 모달 정보 통합

Discussion Points


  • 논쟁점: (1) Inner Speech Prompting의 타당성 — LLM의 내적 표현을 실제로 반영하는가, 표면적 언어 생성인가? (2) Multiple-choice vs Open-ended — ToM 평가에서 어느 형식이 적절한가? (3) LLM에게 지속적이고 일관된 “성격”이 있다고 볼 수 있는가?
  • 검증 필요 가정: (1) 정보 비대칭이 항상 의미 있는 거짓 신념을 생성하는가? — 일부 대화는 너무 간단하여 거짓 신념 미발생 가능. (2) Big Five 15가지 패턴이 인간 성격 다양성을 충분히 커버하는가? (3) 성능과 성격 특성의 인과관계 vs 단순 상관
  • 후속 연구: (1) ToM-guided LLM training (ToMATO를 훈련 목표로), (2) Hierarchical ToM (3차, 4차 recursion level), (3) Dynamic ToM (실시간 인터랙티브 환경), (4) Neural mechanism 분석 (attention pattern, probing)
  • 벤치마크 적합성 참고: Multiple-choice QA (4개 선택지). ID/OOD 분할 존재. ToMATO-FB 거짓 신념 서브셋 포함. 코드 및 데이터셋 공개 (https://github.com/nttmdlab-nlp/ToMATO)