Introduction


  • LLM이 다양한 NLP 과제에서 뛰어난 생성 능력을 보이지만, 의인화(anthropomorphization)와 실패 사례에 대한 관대함이 ToM emergent abilities에 대한 논쟁을 촉발
  • 본 연구는 ToM의 특수 응용인 Human-Robot Interaction(HRI) — 높은 위험도와 비가역적 결과를 가지는 영역 — 에서 ToM 능력을 탐구
  • Perceived Behavior Recognition 과제: 로봇이 LLM을 활용하여 자신의 생성된 행동을 인간 관찰자처럼 평가

Related Papers


  • LLM의 ToM 능력에 대한 false-belief test 기반 연구
  • HRI에서의 해석 가능한 로봇 행동 합성(explicable, legible, predictable, obfuscatory behavior)

Methods


  • 4가지 행동 유형 평가: explicable, legible, predictable, obfuscatory behavior
  • 인간 피험자 연구(human subject study)로 사용자의 정확한 응답 검증
  • 3가지 perturbation test 제안:
    1. Inconsistent Belief: 불일치하는 신념 도입
    2. Uninformative Context: 비정보적 맥락 제공
    3. Conviction Test: 확신 테스트
  • GPT-4 및 GPT-3.5-turbo에서 실험

Results


  • Vanilla prompt에서 LLM은 매우 높은 점수 → ToM 능력에 대한 과도한 기대 유발
  • Perturbation test에서 이 환상이 깨짐: 사소하거나 무관한 맥락 변화에 불변하지 않음
  • HRI 설정에서의 잠재적 활용 가능성은 있으나, 진정한 ToM을 가지려면 trivial perturbation에 대한 불변성 필요

Discussion


  • LLM의 높은 vanilla 점수가 진정한 ToM의 증거가 아닐 수 있음
  • HRI처럼 고위험 환경에서의 LLM ToM 활용에는 신중한 접근 필요
  • Perturbation-based 평가가 ToM robustness 측정에 효과적인 방법론