Introduction


  • 기존 ToM 평가 벤치마크는 기계 생성 데이터나 게임 설정에 의존하여 shortcuts과 spurious correlations에 취약
  • 실제 인간 상호작용 시나리오에서 LLM의 ToM 능력을 평가하는 현실적 벤치마크 부재
  • 협상과 같은 복잡한 사회적 상호작용에서 상대방의 욕구(desire), 믿음(belief), 의도(intention)를 추론하는 능력 측정 필요
  • 핵심 기여: BDI(Belief-Desire-Intention) 에이전트 모델링 이론을 기반으로 실제 인간 협상 대화에서 ToM을 평가하는 최초의 벤치마크

Related Papers


  • ToMBench, MuMA-ToM 등 최근 ToM 평가 연구
  • CaSiNo 캠핑장 자원 협상 데이터셋 활용
  • BDI(Belief-Desire-Intention) 에이전트 모델링 이론
  • Template 기반 벤치마크의 한계를 극복하는 방향 제시

Methods


  • BDI 프레임워크 적용: 욕구(Desire), 믿음(Belief), 의도(Intention) 세 가지 정신 상태 평가
  • 데이터 소스: CaSiNo 양자간 인간 캠핑장 자원 협상 대화 데이터셋
  • 어노테이션: 5명 대학원생이 395개 대화, 2,380개 라운드, 4,618개 발화 라벨링
  • 각 발화마다 7개 주석(desire/belief 3쌍 + intention 분류 1개)
  • 품질 검증: Fleiss’s κ = 79.03% (inter-annotator agreement 72.23%-85.25%)
  • 평가 질문 유형: Desire 질의, Belief 질의, Intention 질의
  • 테스트 모델: GPT-4, ChatGPT, Claude-v1.3, Claude-v2.1, Llama-2 Chat(13B/70B)
  • 평가 조건: Zero-shot, Chain-of-Thought (CoT), Few-shot

방법론 다이어그램

graph TD
    A[CaSiNo 협상 대화 데이터셋] --> B[대화 라운드별 절단]
    B --> C[어노테이터 주석 작업<br/>5명 대학원생]
    C --> D1[Desire 라벨링<br/>선호도 순위 high/med/low]
    C --> D2[Belief 라벨링<br/>상대방 선호도에 대한 믿음]
    C --> D3[Intention 라벨링<br/>협상 전략 분류]

    D1 --> E[품질 검증<br/>Fleiss κ = 79.03%]
    D2 --> E
    D3 --> E

    E --> F[NegotiationToM 벤치마크<br/>395 대화, 2380 라운드<br/>13,800+ QA 쌍]

    F --> G[LLM 평가]
    G --> H[Zero-shot / CoT / Few-shot]
    H --> I[성능 분석<br/>Exact Match, F1, Consistency]
    I --> J[발견: 인간 대비 27-49% 격차]

Results


  • Desire 추론: GPT-4 CoT 63.29% vs 인간 91.14% (27.85% 격차)
  • Belief 추론: GPT-4 CoT 58.18% vs 인간 91.14% (32.96% 격차)
  • Intention 분류: Claude-v2.1 CoT Macro F1 39.93% vs 인간 84.65% (44.72% 격차)
  • 일관성 추적(Consistency): 모든 모델 0점 - 다턴 대화 전반에 걸친 일관된 mental state 이해 실패
  • Downstream 가치: belief/desire 정보 추가 시 협상 전략 예측 Macro F1 7.44% 향상

실험 결과 상세

ModelConditionDesire (Acc)Belief (Acc)Intention (Macro F1)vs. Human
Human-91.14%91.14%84.65%-
GPT-4CoT63.29%58.18%--27.85%
Claude-v2.1CoT--39.93%-44.72%
ChatGPTCoT60.15%55.82%--30.99%
Llama-2-70BCoT52.67%48.91%31.72%-38.47%

Discussion


  • 모든 모델이 일관성 추적(consistency score)에서 0점 - 장기 mental state 업데이트 메커니즘 부재
  • Few-shot이 오히려 CoT보다 낮은 성능 - 서로 다른 유형의 추론 결합 어려움
  • CaSiNo 데이터셋의 특정 도메인(캠핑장 자원 협상)에 국한 - 일반화 제한
  • “passive” 평가 - 모델이 관찰자 역할만 수행, active setting 미평가

Insights


  • 주목할 점: BDI 이론을 LLM 평가에 체계적으로 적용한 최초 사례, 단순 false-belief task를 넘어 실제 협상 맥락에서 다층적 정신 상태 추론 측정
  • 연결 고리: 실제 인간 대화 기반 평가라는 점에서 template 기반 벤치마크의 한계 극복
  • 시사점: LLM이 사회적 추론(social reasoning)에서 근본적 한계 보임 - AGI 경로에서 ToM 능력 향상 필수
  • 질문: 왜 모든 모델이 일관성 추적에서 완전히 실패했는가? 컨텍스트 윈도우 문제인가, 구조적 한계인가?
  • 비판적 코멘트: CaSiNo 도메인 특수성, active negotiation setting 미평가

Discussion Points


  • 논쟁점: LLM의 ToM 능력이 진정한 “이해”인가 패턴 매칭인가? superficial한 추론에 그친다는 증거
  • 검증 필요 가정: Combined question format이 individual format보다 우수하다는 발견의 일반화 가능성
  • 후속 연구: Active negotiation setting에서 mental state reasoning과 strategy generation 결합 평가, 다양한 도메인/문화권 확장, 일관성 추적 능력 향상을 위한 memory mechanism 연구