Introduction
- LLM이 ToM(타인의 mental/emotional state 추론 능력)을 가지는지에 대한 관심 증가
- ToM이 alignment에 미치는 영향을 개인/그룹 수준에서 분석
- Goal specification, conversational adaptation, empathy, anthropomorphism (개인)
- Collective alignment, cooperation/competition, moral judgement (그룹)
- LLM ToM evaluation
- AI alignment 연구
Methods
- Human ToM 문헌의 역할과 영향에 기반한 framework
- 개인/그룹 수준의 ToM manifestation 분류
Results
- ToM이 alignment의 기회이자 위험 요인
- Manipulation, persuasion 등의 위험과 better alignment의 기회 공존
Discussion
- LLM self-awareness와 ToM의 관계에 대한 개념적 틀 제공
- Future research 방향 제시