Introduction
- LLM의 Theory of Mind(ToM) 능력 평가가 연구 커뮤니티에서 큰 관심을 받고 있음
- 분야가 빠르게 발전하면서 다양한 접근과 방법론을 탐색하기가 점점 복잡해짐
- 본 체계적 리뷰는 LLM의 ToM 과제 수행 능력 평가를 위한 현재의 노력을 종합
- 다양한 ToM 벤치마크 및 평가 과제
- LLM의 ToM 능력에 대한 긍정적/부정적 결과의 혼재
Methods
- 인지과학 기반 Taxonomy: 벤치마크와 과제를 인지과학에 뿌리를 둔 체계적 분류로 정리
- 평가 기법(evaluation techniques), 프롬프팅 전략(prompting strategies), LLM의 고유한 한계를 비판적으로 검토
- 인간과 유사한 정신 상태 추론을 복제하는 데 있어 LLM의 내재적 제한사항 분석
Results
- LLM이 ToM 과제에서 emerging competence를 보이지만, 인간 인지 능력의 에뮬레이션에는 significant gap 존재
- 이 gap은 문헌 전반에서 반복적으로 관찰되는 주제
Discussion
- ToM 평가의 표준화 필요성
- 인지과학적 토대 위에서의 평가 프레임워크 구축이 중요
- LLM의 ToM이 진정한 인지적 능력인지, 패턴 매칭의 산물인지에 대한 지속적 논쟁