Introduction


  • 기존 ToM 평가는 기계 생성 데이터나 shortcut/spurious correlation에 취약한 게임 환경에 의존
  • 실제 인간 상호작용 시나리오에서 다차원적 정신 상태(욕구, 신념, 의도)를 추론하는 능력 평가 부족
  • Bratman의 Belief-Desire-Intention (BDI) 에이전트 모델링 이론을 LLM ToM 평가에 체계적으로 적용

Related Papers


  • Sally-Anne Test, false belief 과제 등 고전적 ToM 평가 → 단순하고 정적
  • CaSiNo 협상 대화 코퍼스 활용
  • ToM-Bench, BigToM 등 기존 벤치마크와의 차별점: 실제 전략적 의사소통 맥락

Methods


  • BDI 프레임워크:

    • Desire (욕구): 식량/물/장작에 대한 High/Medium/Low 선호도 순위
    • Belief (신념): 상대방의 선호도에 대한 추론
    • Intention (의도): 9개 협상 전략 클래스 (Build-Rapport, Elicit-Pref, Propose-Deal 등)
  • 데이터셋: CaSiNo 코퍼스 (395 대화, 2,380 라운드, 4,618 발화)

  • 주석: 5명 대학원생, Fleiss’s κ = 79.03%

  • 평가 메트릭: Exact Match (욕구/신념), Micro/Macro F1 (의도), Consistency, All Score

방법론 다이어그램

graph TD
    A[CaSiNo 협상 대화] --> B[대화 라운드별 분할]
    B --> C[5명 주석자 BDI 레이블링]
    C --> D1[Desire: 선호도 순위]
    C --> D2[Belief: 상대방 선호도 추론]
    C --> D3[Intention: 9개 전략 분류]
    D1 --> E[LLM 평가]
    D2 --> E
    D3 --> E
    E --> F1[Zero-shot]
    E --> F2[Chain-of-Thought]
    E --> F3[Few-shot]
    F1 --> G[인간 베이스라인 비교]
    F2 --> G
    F3 --> G

Results


  • 모든 차원에서 인간 대비 큰 격차

실험 결과 상세

Model/MethodTaskMetricScorevs. Human
GPT-4 CoTDesireExact Match63.29%-27.85%
GPT-4 CoTBeliefExact Match58.18%-32.96%
Claude v2.1 CoTIntentionMicro F139.93%-43.82%
GPT-4 CoTAll (D+B+I)Exact Match3.68%-40.10%
GPT-4 CoTDesire ConsistencyConsistency17.72%-57.72%
HumanDesireExact Match91.14%-
HumanBeliefExact Match91.14%-
HumanIntentionMicro F183.75%-

Discussion


  • 일관성(Consistency) 부족이 가장 치명적: 정신 상태 변화를 추적하는 능력이 극히 제한적
  • CoT 효과 제한적: 격차가 크게 좁혀지지 않음
  • “수동적(passive)” 평가로 모델이 직접 협상에 참여하지 않는 한계

Insights


  • 주목할 점: BDI 철학 이론을 LLM 평가에 적용하여 ToM을 구조화된 프레임워크로 분해
  • 연결 고리: MetaMind의 사회적 사고 연구, DynToM의 동적 정신 상태 추적과 연결
  • 시사점: LLM이 실시간 변화하는 타인의 복합적 정신 상태를 추론하는 진정한 ToM 능력은 매우 제한적
  • 질문: BDI 세 요소 간 계층적 관계를 모델이 학습할 수 있는가?
  • 비판적 코멘트: CaSiNo 코퍼스가 특정 도메인에 국한. 능동적(active) ToM 평가로 확장 필요

Discussion Points


  • 논쟁점: 낮은 LLM 성능이 진정한 ToM 결핍인가, 프롬프팅/작업 설계 문제인가? (Competence vs. Performance)
  • 검증 필요 가정: BDI 프레임워크의 문화적 보편성 미검증
  • 후속 연구: 능동적 ToM 평가 (직접 협상 참여), 멀티모달 신호 통합, 다양한 협상 도메인 확장