Introduction


  • LLM이 ToM(타인의 mental/emotional state 추론 능력)을 가지는지에 대한 관심 증가
  • ToM이 alignment에 미치는 영향을 개인/그룹 수준에서 분석
  • Goal specification, conversational adaptation, empathy, anthropomorphism (개인)
  • Collective alignment, cooperation/competition, moral judgement (그룹)

Related Papers


  • LLM ToM evaluation
  • AI alignment 연구

Methods


  • Human ToM 문헌의 역할과 영향에 기반한 framework
  • 개인/그룹 수준의 ToM manifestation 분류

Results


  • ToM이 alignment의 기회이자 위험 요인
  • Manipulation, persuasion 등의 위험과 better alignment의 기회 공존

Discussion


  • LLM self-awareness와 ToM의 관계에 대한 개념적 틀 제공
  • Future research 방향 제시