Introduction


  • 기존 ToM 벤치마크의 세 가지 괴리: (1) 제한된 정신 상태 범위(믿음만), (2) 포괄적 false belief 탐구 부족, (3) 캐릭터 성격 특성 간과
  • 복잡한 사회적 상호작용에서 요구되는 다층적 정신 상태 추론 능력을 제대로 평가 못함
  • 핵심 기여: Inner Speech 프롬프팅 + 정보 비대칭을 통해 5가지 정신 상태 카테고리에서 1차/2차 추론 평가

Related Papers


  • ToMi, BigToM, FANToM 등 기존 ToM 벤치마크
  • False belief task의 한계에 관한 연구
  • LLM의 메타인지(metacognition) 및 자기성찰(self-reflection) 연구
  • Multi-agent 시스템에서 정보 비대칭과 협력 문제

Methods


  • Inner Speech 프롬프팅: 역할극 LLM에게 각 발화 전 생각(thoughts)을 언어화하도록 요구
  • 5가지 정신 상태 카테고리: 믿음(Belief), 의도(Intention), 욕구(Desire), 감정(Emotion), 지식(Knowledge)
  • 1차 및 2차 정신 상태 포착
  • 정보 비대칭(Information Asymmetry): 상대방에게 내적 생각 숨겨 false belief 자연 유도
  • 15가지 성격 패턴: 발화와 생각의 다양성 확보
  • 데이터셋 구성: 753개 대화, 5,400개 질문

방법론 다이어그램

graph TD
    A[ToMATO 데이터셋 생성 시작] --> B[2개 LLM 에이전트 초기화]
    B --> C[각 에이전트에 성격 특성 할당<br/>15가지 패턴 중 선택]
    C --> D[Inner Speech 프롬프팅 적용]
    D --> E[에이전트 A: 생각 생성<br/>Belief, Intention, Desire,<br/>Emotion, Knowledge]
    E --> F[에이전트 A: 발화 생성]
    F --> G{정보 비대칭 적용}
    G -->|에이전트 B에게| H[발화만 전달<br/>생각은 숨김]
    G -->|데이터셋에| I[생각 + 발화 모두 저장]
    H --> J[에이전트 B: 생각 생성<br/>A의 정신 상태 추론 포함]
    J --> K[에이전트 B: 응답 발화]
    K --> L{대화 종료?}
    L -->|아니오| E
    L -->|예| M[대화 완료: 753개 중 하나]
    M --> N[저장된 생각으로부터<br/>QA 쌍 생성]
    N --> O[1차/2차 정신 상태별<br/>다지선다 질문 생성]
    O --> P[정답: 언어화된 생각에서 추출]
    P --> Q[ToMATO 벤치마크<br/>5,400 질문 완성]
    Q --> R[9개 LLM + 인간으로 평가]

Results


  • 9개 LLM 평가: GPT-4o mini조차 인간 성능에 미치지 못함
  • 특히 False belief 이해에서 취약
  • 성격 특성 변화에 대한 강건성 부족
  • 정보 비대칭 접근법이 false belief를 빈번하게 생성하는 데 효과적
  • 성격 할당이 발화와 생각의 다양성을 성공적으로 증가

실험 결과 상세

Model/MethodOverall Accuracy1st Order (True)1st Order (False)2nd Order (True)2nd Order (False)
Human~85-90%HighHighHighHigh
GPT-4o mini<85%Medium-HighLowMediumVery Low
Other LLMs~60-80%VariableLowLowVery Low

주요 발견:

  • False belief 시나리오에서 LLM 정확도 20-30%p 급감
  • 성격 특성 변화에 따른 성능 표준편차가 LLM에서 인간보다 2-3배 높음

Discussion


  • 데이터셋이 LLM-LLM 대화로 생성되어 인간 대화의 자연스러움과 다를 수 있음
  • LLM 생성 편향이 벤치마크 자체에 반영되었을 가능성
  • 15개 성격 패턴이 인간 성격의 전체 스펙트럼을 충분히 대표하는지 의문
  • Inner Speech가 LLM의 실제 내적 표상을 반영하는지 철학적 질문

Insights


  • 주목할 점: 정신 상태를 언어화(verbalization)하는 접근법을 통해 ToM 평가의 ground truth 확보. LLM의 내적 사고 과정을 명시적으로 드러내어 평가 기준으로 삼음
  • 연결 고리: “Looking Inward” 같은 introspection 연구와 보완적 관계. Multi-agent 시스템의 정보 비대칭 연구와도 연결
  • 시사점: 현재 최고 성능 LLM도 인간 수준의 ToM에 미치지 못함, 특히 false belief와 성격 특성 변화에 취약. 사회적 AI 에이전트 개발의 중요한 한계 시사
  • 질문: Inner Speech로 생성된 “생각”이 LLM의 실제 내적 표상을 반영하는가, 단순히 프롬프트 따라 생성된 텍스트인가?
  • 비판적 코멘트: LLM이 만든 평가 기준으로 LLM을 평가하는 방법론의 순환논리 가능성

Discussion Points


  • 논쟁점: LLM이 생성한 대화와 정신 상태로 LLM의 ToM 능력을 평가하는 것이 순환논리 아닌가?
  • 검증 필요 가정: 정보 비대칭이 인간 수준의 false belief를 유도하는지, 단순히 LLM의 컨텍스트 관리 실패를 측정하는 것인지
  • 후속 연구: 인간-LLM 대화 데이터로 확장, multimodal ToM 평가, ToM 향상 특화 fine-tuning/prompting 전략 개발