본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks

A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks

2026년 2월 11일2분 분량

Introduction

LLM의 Theory of Mind(ToM) 능력 평가가 연구 커뮤니티에서 큰 관심을 받고 있음
분야가 빠르게 발전하면서 다양한 접근과 방법론을 탐색하기가 점점 복잡해짐
본 체계적 리뷰는 LLM의 ToM 과제 수행 능력 평가를 위한 현재의 노력을 종합

Related Papers

다양한 ToM 벤치마크 및 평가 과제
LLM의 ToM 능력에 대한 긍정적/부정적 결과의 혼재

Methods

인지과학 기반 Taxonomy: 벤치마크와 과제를 인지과학에 뿌리를 둔 체계적 분류로 정리
평가 기법(evaluation techniques), 프롬프팅 전략(prompting strategies), LLM의 고유한 한계를 비판적으로 검토
인간과 유사한 정신 상태 추론을 복제하는 데 있어 LLM의 내재적 제한사항 분석

Results

LLM이 ToM 과제에서 emerging competence를 보이지만, 인간 인지 능력의 에뮬레이션에는 significant gap 존재
이 gap은 문헌 전반에서 반복적으로 관찰되는 주제

Discussion

ToM 평가의 표준화 필요성
인지과학적 토대 위에서의 평가 프레임워크 구축이 중요
LLM의 ToM이 진정한 인지적 능력인지, 패턴 매칭의 산물인지에 대한 지속적 논쟁

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Saritas et al.
Comment: 인지과학 기반 taxonomy로 LLM의 ToM 평가 벤치마크와 방법론을 체계적으로 정리한 서베이
IsTargetPaper: true
Journal: arXiv
Linked Bases: [[templates.base]]
Published Year: 2025
Reading Status: Not Started
Review Date: 2026-02-04
Topic: Theory of Mind, Survey, LLM Evaluation
URL: https://www.semanticscholar.org/paper/65863c79cc99ce64e99001d327ab61847d15262c

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog