Summary

LLM의 behavioral/representational ToM 평가 서베이 및 advanced ToM에 의한 safety risk 분석

Introduction


  • Theory of Mind (ToM): 타인의 mental state를 추론하고 행동을 예측하는 능력
  • LLM에서의 behavioral ToM과 representational ToM 평가 연구 서베이
  • Advanced LLM ToM이 야기하는 safety risk 분석

Related Papers


  • ToMi, BigToM 등 ToM 벤치마크
  • LLM의 social intelligence 연구

Methods


  • Behavioral ToM 평가 (false belief, faux pas 등)
  • Representational ToM 분석 (internal representation에서의 mental state encoding)
  • Safety risk 분류 및 mitigation 방향 제시

Results


  • LLM의 ToM 능력이 빠르게 향상되고 있지만 인간과 질적으로 다름
  • Representational 수준에서의 ToM encoding 증거 존재
  • Manipulation, deception 등 safety risk 식별

Discussion


  • ToM 평가의 방법론적 과제
  • LLM의 self-awareness와 ToM의 관계에 대한 향후 연구 방향 제시