Introduction
- AI agent가 internal mental state를 모델링하는 것이 Theory of Mind 발전의 핵심
- Self-awareness와 other-awareness를 위한 unified system 가설
- Biological pain에서 영감받은 introspective exploration component 도입
- Theory of Mind in AI
- Intrinsic motivation in RL
Methods
- Hidden Markov Model로 online observation에서 “pain-belief” 추론
- 이 signal을 subjective reward function에 통합
- Gridworld 환경에서 normal vs chronic pain perception model 비교
Results
- Introspective agent가 standard baseline agent를 유의미하게 outperform
- Human-like behavior를 복제할 수 있음
- Self-awareness가 학습 능력에 직접적 영향
Discussion
- Self-awareness의 computational 구현과 그 학습 효과에 대한 기초 연구
- LLM이 아닌 RL setting이지만 self-awareness 정량화에 참고 가능