Summary
LLM의 behavioral/representational ToM 평가 서베이 및 advanced ToM에 의한 safety risk 분석
Introduction
- Theory of Mind (ToM): 타인의 mental state를 추론하고 행동을 예측하는 능력
- LLM에서의 behavioral ToM과 representational ToM 평가 연구 서베이
- Advanced LLM ToM이 야기하는 safety risk 분석
Related Papers
- ToMi, BigToM 등 ToM 벤치마크
- LLM의 social intelligence 연구
Methods
- Behavioral ToM 평가 (false belief, faux pas 등)
- Representational ToM 분석 (internal representation에서의 mental state encoding)
- Safety risk 분류 및 mitigation 방향 제시
Results
- LLM의 ToM 능력이 빠르게 향상되고 있지만 인간과 질적으로 다름
- Representational 수준에서의 ToM encoding 증거 존재
- Manipulation, deception 등 safety risk 식별
Discussion
- ToM 평가의 방법론적 과제
- LLM의 self-awareness와 ToM의 관계에 대한 향후 연구 방향 제시