One-Line Summary
ToM task survey해서 ToM을 기능적으로 어떠한 컴포넌트들로 정의할 수 있는지 체계화할거고, 전체 3200 paper 중 필터링해서, 830개 추렸고, 실험 task 및 패러다임은 총 220여개가 정리되었으며, 이를 바탕으로 ToM을 기능적 요소들로 크게 7개의 main-component와 31개의 sub-component로 분류했음.
Overview
- 연구 배경: 이론적 마음(TOM)의 발달과 임상적 조건에서의 역할을 이해하는 데 있어 측정 도구의 한계로 인한 신뢰성 부족 문제 제기
- 핵심 방법론:
- 가짜 신념 실험(예: Sally and Ann 태스크)과 암시적 측정(예: 눈동자 추적, 예상 위반 패러다임)을 통한 TOM 발달 단계 분석
- 뇌 영상 기법을 활용한 청소년기까지의 TOM 발달 추적
- 주요 기여: TOM의 발달이 3
5세에 제한되지 않고, 1218개월부터 암시적 지식이 나타나며 청소년기까지 지속됨을 밝힘- 실험 결과: 3~5세에 가짜 신념 태스크 성공률 상승(75% 이상), 15개월 시기부터 암시적 가짜 신념 이해의 징후 확인(실험적 관찰 60% 이상)
- 한계점: 암시적 측정 도구의 신뢰도 및 타당성에 대한 논란, 복제 실험 실패로 인한 ‘재현 위기’ 발생
- 심층적 한계: TOM의 복잡성에 대한 측정 도구의 다양성 필요성과 함께, 심리측정적 기준의 미비로 인한 해석의 불확실성 지적
Question
LLM의 learning curve를 사람의 aging이랑 묶어서 비교해보는 건 어떠한가?
curve에서 어느 시점이 사람의 어느 나이대정도인지 매칭해서 발달 심리 계열 현상들로 해석해보는 것도 흥미로울 듯.
Summary
이 섹션에서는 Theory of Mind (TOM), 즉 자기와 타인의 정신 상태를 추론하는 능력에 대한 평가 도구의 체계적 검토와 정리 결과를 제시한다. TOM 능력은 발달 심리학, 사회 신경과학, 언어 치료 등 다양한 분야에서 사회적 적응의 지표로 꾸준히 연구되어 왔으나, 0–5세 어린이를 대상으로 한 적절한 평가 도구의 개발은 여전히 어려운 과제로 남아 있다. 연구팀은 1983–2019년 간 전자 데이터베이스와 9개의 검사 출판사 카탈로그를 체계적으로 검토하여 총 830건의 연구에서 220개의 TOM 평가 도구를 확인하였다. 이 도구들은 감정, 욕구, 의도, 인지, 지식, 믿음, 비직접적 의사소통 이해 등 7개 범주에 걸쳐 39가지 TOM 하위 능력을 평가하는 것으로 나타났으며, 도구의 제시 방식, 항목 수, 점수 기준, 표본 대상 등은 요약 표에 정리되었다. 또한, 이 연구는 **TOM 하위 영역의 새로운 분류 체계를 제시하는 시각적 프레임워크 ‘ATOMS (Abilities in Theory of Mind Space)‘**를 도출하였다. 그러나, 연구는 평가 도구 개발 및 선택 과정에서 하위 능력 범위의 한계, 연구 간 표준화 부족, 심리검증 정보의 부족 등의 방법론적 및 심리검증적 도전 과제가 여전히 존재함을 지적한다.
INTRODUCTION
Summary
이 섹션에서는 **Theory of Mind (TOM)**의 중요성과 사회적 적응에 대한 역할을 강조하며, 발달 심리학, 사회 신경과학, 언어 치료 등 다양한 분야에서의 연구 현황을 정리한다. TOM은 타인의 정신 상태(예: 욕구, 지식, 믿음, 의도)를 추론하여 행동을 예측하는 능력으로, 유아기부터 성인까지 지속적인 발달 과정을 거치며 사회적 기술 형성에 핵심적인 역할을 한다. 특히, TOM 능력이 뛰어난 어린이는 더 나은 의사소통 능력, 질 높은 사회 관계, 높은 학업 성취 등 사회적 적응의 지표로 나타나지만, 자폐 스펙트럼 장애, 주의력 결핍 과잉행동장애, 조현병, 뇌 손상 등 다양한 임상 조건에서 TOM 결함이 관찰되며, 이는 사회 기능 장애와 밀접하게 연관되어 있다. 현재 TOM 평가 도구는 풍부하지만, 발달 단계별로 달라지는 TOM의 표현 방식, 다양한 정의와 개념화의 혼란, 심리측정적 한계 등으로 인해 특정 임상 또는 연구 목적에 적합한 도구를 선택하는 것이 어렵다. 이에 따라 DSM-V에서 사회 인지 평가를 권장하는 등, 검증된 발달 적합 평가 도구의 필요성이 제기되며, 이는 특히 0~5세 유아 대상 TOM 평가의 부재를 해결해야 할 과제로 부상하고 있다.
Defining Theory of Mind and Distinguishing It From Other Social Constructs
Summary
이 섹션에서는 **Theory of Mind (TOM)**을 명확히 정의하고,
공감(empathy), 감정 및 상황 단서 분류(affective cue classification), 상황 이해 시스템(situation understanding system) 등과 구분하는 방법을 제시한다.이는 **Self to Other Model of Empathy (SOME)**을 기반으로 이루어졌으며, 이 모델은 TOM이 단순히 내면적 인지 과정이 아니라, 사회적 인지 요소들이 결합해 공감 행동을 결정하는 구조를 설명한다. 특히, TOM은 타인의 정신 상태를 인지적으로 표현하는 능력으로 정의되고, 공감은 타인의 감정에 대한 감정적 공명으로 구분된다. 또한, TOM은 감정 단서(예: 표정, 목소리)를 처리하는 하위 인지 시스템과, 상황 단서(예: 검은 옷을 입은 사람이 묘지에 있다 = 장례 = 슬픔)를 기반으로 타인의 감정 상태를 추론하는 상황 이해 시스템과도 구분된다. 이와 같은 구분은 TOM 평가 도구의 선별 기준을 명확히 하기 위한 핵심 기준으로 활용되었다. 또한, TOM과 밀접하게 연관된 협력 행동이나 사회 규범 준수, 거짓말 전략 등은 TOM에 의존하지만, 이들 능력은 다른 사회 인지 기능을 평가하는 도구로 더 적절히 측정될 수 있다고 강조되었다. 발달적 관점에서도, 초기 사회 능력(예: 모방, 시선 추종, 공동 주의)은 TOM의 자동적, 암시적 표현일 뿐, 이후 발달하는 명시적, 유연한 정신 상태 이해와는 구분되어야 한다는 점이 언급되었다. 이에 따라, 본 검토는 TOM의 명확한 측면을 설정하여, 공감, 감정/상황 단서 처리, 초기 비명시적 인지 표현, 복잡한 사회 능력(예: 협력, 조작 전략)과의 경계를 명확히 하였다.
The Developmental Trajectory of TOM and Associated Measurement Tools
Summary
이 섹션에서는 **Theory of Mind (TOM)**의 발달 과정과 관련된 평가 도구에 대한 종합적 분석을 진행한다. TOM은 타인의 정신 상태(예: 감정, 지식, 의도, 믿음, 욕망)를 해석하는 능력을 포함하지만, 기존 연구는 주로 가짜 믿음(false belief)을 측정하는 Sally and Ann task 같은 가짜 믿음 패러다임에 집중되어 있었으며, 이는 3~5세 어린이에서 성공적으로 수행되는 것으로 알려져 있다. 그러나 최근 비언어적, 암시적(implicit) 측정법을 활용한 연구는 12~18개월 어린이가 타인의 의도를 이해하고, 18개월이상의 어린이가 타인의 욕망을 인식하는 등 더 이른 연령대에서 TOM 능력의 일부가 나타난다는 증거를 제시하였다. 특히 가짜 믿음 이해는 15개월이상의 어린이에서도 관찰되었으나, 이와 같은 암시적 측정법의 신뢰도 및 타당성에 대한 논란이 지속되고 있으며, 실험 재현 실패 사례로 인해 복제 위기(replication crisis)가 발생하였다. 반면, 복잡한 명시적(explicit) TOM 작업을 활용한 연구는 5세 이후에도 TOM이 발달한다는 것을 보여주었으며, 2차 가짜 믿음(second-order false belief) 이해, 사기(sarcasm), 사회적 실수(faux pas), 백색 거짓말(white lie)에 대한 이해는 청소년기까지 지속되는 것으로 나타났다. 뇌 영상(neuroimaging) 연구 또한 TOM 작업 중 뇌 활성화 패턴의 장기적 변화를 보여주며, 청소년기와 성인기까지의 지속적 발달을 지지한다. 이러한 결과는 TOM을 단일 개념이 아닌 지속적인 발달 과정으로 이해해야 하며, 신뢰성과 타당성이 확보된 다양한 평가 도구의 활용이 복잡하고 빠르게 변화하는 인지 능력을 정확히 문서화하는 데 필수적임을 강조한다.
Psychometric Challenges Associated With TOM Measures
Summary
이 섹션에서는 Theory of Mind (TOM) 평가 도구의 심리검증적 한계를 분석하며, 기존 연구에서 나타난 측정 방법론의 약점을 강조한다. TOM 측정은 단일 또는 이중 항목만을 포함하는 간단한 도구에 의존하는 경향이 있으며, 가짜 믿음 이해(false belief understanding)를 유일한 측정 지표로 과도하게 강조하는 문제가 지적된다. 또한, TOM 관련 측정 도구의 심리검증적 특성(psychometric properties)이 실증적으로 검증된 사례가 극히 적어, 측정 신뢰도와 타당성에 대한 의문이 제기되고 있다. 이와 같은 약점은 Hiller et al. (2014), Hutchins et al. (2008a) 등이 지적한 바와 같이, TOM의 발달 과정과 임상적 조건에서의 역할을 명확히 규명하는 데 장애물이 되고 있으며, 현재까지 제안된 TOM 평가 도구는 대부분 비공식적이고 미흡한 기준에 따라 설계된 것으로 평가된다. 이러한 문제는 특히 유아기 TOM 평가에 있어, 기존의 Sally and Ann task와 같은 단일 패러다임에 지나치게 의존하는 경향을 반영하며, 이는 TOM의 다층적 특성을 포괄하지 못하는 한계를 드러낸다. 따라서, TOM 측정 도구의 개발은 심리검증적 표준(psychometric standards)을 충족하는 체계적인 방법론이 필요하다는 점에서 중요한 과제로 남아 있다.
Existing Sources of Information on TOM Measures
Summary
이 섹션에서는 Theory of Mind (TOM) 측정 도구에 대한 기존의 체계적 검토가 여전히 부족하다는 점을 지적하며, 비체계적 검토(non-systematic reviews)가 주로 임상 집단, 성인, 중소아 및 청소년을 대상으로 수행되었음을 설명한다. 이들 검토는 TOM이 사회적 기능 이해에 중요한 역할을 한다는 점을 강조하지만, 영아, 유아, 미취학 아동(infants, toddlers, preschoolers)을 위한 도구는 포함하지 않았다. Ziatabar Ahmadi 등(2015)의 체계적 검토는 복합적 TOM 작업(multiple TOM tasks)으로 구성된 측정 도구에 한정되었으며, 단일 작업(single task, 예: 단일 가짜 믿음 작업)을 포함하지 않았고, 심리검증 연구 외의 경험적 연구(예: 종단적 연구, 결과 예측 연구)도 제외하였다. 본 연구의 주요 목적은 6세 미만(0–5세) 아동의 TOM을 평가하는 기존 도구를 체계적으로 정리하는 것으로, 3–5세가 TOM 발달의 민감기(sensitive period)라는 점과 영아기 TOM 발현 시기(Carlson 등, 2013)에 대한 학계적 불확실성을 고려하여 0–5세 전 연령대를 대상으로 하였다. 이 인벤토리는 연구자와 임상가가 최적의 측정 도구를 선택하는 데 도움을 줄 뿐만 아니라, 기존 도구의 한계와 공백(gaps)도 식별하는 데 기여할 것으로 기대된다.
METHODS
Summary
이 섹션에서는 Theory of Mind (TOM) 관련 평가 도구에 대한 체계적 검토를 위해 PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) 지침에 기반한 검색 프로토콜을 활용한 방법론을 제시한다. Systematic review를 수행하기 위해 사전에 연구 선정 기준과 TOM 측정 도구의 적격성 기준을 설정하였으며, 이는 Table 1에 명시된 적격성 기준(eligibility criteria)과 배제 기준(exclusion criteria)에 따라 체계적으로 적용되었다. 본 검토는 주로 0–5세 어린이를 대상으로 한 TOM 측정 도구에 대한 경험적 연구를 대상으로 하였으며, PRISMA 프레임워크를 준수함으로써 연구의 투명성과 신뢰성을 확보하였다. 이 과정을 통해 기존 연구에서 주로 사용된 가짜 믿음 패러다임(false belief paradigm)과 같은 도구의 한계를 파악하고, 어린이의 TOM 능력을 정확히 평가할 수 있는 새로운 측정 방법의 필요성을 강조하였다.
RESULTS
Summary of Main Results and TOM Categories

FIGURE 2 | ATOMS framework. The ATOMS framework (Abilities in Theory of Mind Space) is a visual representation of the TOM categories and sub-abilities that emerge from the systematic review of TOM measures for young children. Theory of mind space is represented as a large area that includes seven TOM categories of mental states and social situations understanding (colored circles): Intentions, Desires, Emotions, Knowledge, Percepts, Beliefs, and mentalistic understanding of non-literal communication. Thirty-nine specific TOM sub-abilities (white circles) gravitate around the TOM category to which they pertain. When comprehensive measures exist that measure sets of abilities (multiple sub-abilities) for any one TOM categories, these are represented as gray circles. An eighth overall category “Comprehensive TOM measures” includes measures that encompass multiple TOM categories and is represented as a black circle. TOM categories (colored circles) are further represented using three different colors according to the proportion of reviewed studies that measured these types of TOM abilities: the pink circles represent TOM categories measured in <5% of studies, yellow circles represent TOM categories measured in 5–25% of studies, and the blue circle represent the only TOM category (Beliefs) measured in more than 25% of studies.
프레임워크의 핵심 구조
7가지 주요 카테고리 (색상 원): 마음 이론을 구성하는 주요 정신 상태와 사회적 상황 이해 영역을 나타냅니다.
- **Emotions (감정), Desires (욕구), Intentions (의도), Percepts (지각), Knowledge (지식), Beliefs (신념), Mentalistic understanding of non-literal communication (비문어적 의사소통 이해)**가 포함됩니다.
39가지 하위 능력 (흰색 작은 원): 각 주요 카테고리 주변을 공전하는 작은 원들은 해당 영역에서 측정되는 구체적인 심리적 능력들을 의미합니다. 예를 들어, ‘Beliefs’ 영역에는 ‘Content false beliefs(내용 틀린 신념)’, ‘Second-order beliefs(이차 신념)’ 등이 포함됩니다.
종합 측정 도구 (검은색 및 회색 원): 여러 범주를 한꺼번에 측정하는 종합적인 검사 도구(Comprehensive TOM measures)를 별도로 표시하여, 단일 능력 측정과 구분하고 있습니다.
색상에 담긴 통계적 의미 (연구 빈도)
이 그림의 색상은 단순히 구분용이 아니라, 저자들이 수행한 체계적 문헌 고찰 결과인 연구의 분포를 나타냅니다.
하늘색 (Beliefs): 전체 연구의 25% 이상에서 다뤄진 영역입니다. 마음 이론 연구가 ‘틀린 신념’ 과제에 매우 편중되어 있음을 시각적으로 보여줍니다.
노란색 (Emotions, Desires, Knowledge, Percepts): 전체 연구의 5~25% 사이에서 연구된 영역들입니다.
분홍색 (Intentions, Non-literal communication): 연구의 5% 미만에서만 다뤄진 영역으로, 향후 더 많은 연구와 측정 도구 개발이 필요한 분야임을 시사합니다.
Article Selction

Number of Items
TABLE 2 | TOM categories and sub-abilities and associated number of measures and articles.


Summary
ToM 범주별 측정 도구 현황:
신념 (Beliefs): 49개 측정 도구(전체 측정 도구의 22.3%)가 가장 많은 연구(627개, 75.5%)에서 사용되었습니다. Content false beliefs, Location false beliefs, Identity false beliefs, Second-order belief 등 7가지 하위 능력에 초점을 맞췄습니다.
정서 (Emotions): 37개 측정 도구(16.8%), 198개 연구(23.9%). 8가지 하위 능력이 포함됩니다.
욕구 (Desires): 26개 측정 도구(11.8%), 178개 연구(21.4%). 4가지 하위 능력이 포함됩니다.
지식 (Knowledge): 25개 측정 도구(11.4%), 163개 연구(19.6%). 4가지 하위 능력이 포함됩니다.
지각 (Percepts): 26개 측정 도구(11.8%), 97개 연구(11.7%). 4가지 하위 능력이 포함됩니다.
의도 (Intentions): 16개 측정 도구(7.3%), 36개 연구(4.3%). 5가지 하위 능력이 포함됩니다.
비문자적 의사소통 (Mentalistic understanding of non-literal communication): 16개 측정 도구(7.3%), 30개 연구(3.6%). 7가지 하위 능력이 포함됩니다.종합 측정 도구 (Comprehensive measures): 25개 측정 도구(11.4%), 194개 연구(23.4%)에서 사용되었습니다. 이들은 주로 아동과 직접 테스트하는 방식이었으며, 4개의 성인 보고 설문지(Everyday mindreading skills and difficulties scale, Theory of mind inventory, Supplementary social and maladaptive items/Échelle d’adaptation sociale pour enfants, Children’s social understanding scale)도 확인되었습니다.
Scoring Options
측정 도구 특성:
제시 방식: 대부분 직접 테스트 방식(인형극, 그림, 비디오, 오디오 기록)을 사용했습니다. 시각적 지원이 흔했으나, 순수 언어적(Faux pas task) 또는 비언어적(Behavioral re-enactment procedure) 방식도 있었습니다.
항목 수: 단일 범주 측정 도구는 1
54개, 종합 측정 도구는 1110개의 항목을 가졌습니다. 동일한 측정 도구(Wellman and Liu’s Theory of mind scale)도 연구마다 3~7개의 항목으로 다양하게 사용되었습니다.채점 방식: correct/incorrect 방식이 가장 흔했으며, 정교한 척도나 코딩 시스템, 그리고 eye gaze를 사용하는 implicit 방법도 있었습니다. 채점 방식은 연구마다 변형이 많았습니다.
Contributions, Challenges, and Possibilities in Relation to TOM Assessment
Diversity of TOM Abilities

Important
위의 그래프에서 축은 ToM이랑 묶어서 연구되고 잇는 흥미로운 포인트들인데,
Autism Spectrum Disorder 즉, 자폐 스펙트럼등이랑도 높은 연관이 있는 것으로 추정되어 연구가 많은 것을 볼 수 있음.흥미로운 point들 중 하나는 Language Impairments , 언어 장애랑도 연구가 많은 것으로 보아 학계에서는 언어 능력과도 ToM이 꽤 접점이 있다고 연구하는 것으로 추정됨. 이게 LLM의 LM-task랑도 묶어서 해보면 흥미로울 포인트 일듯.
SUPPLEMENTARY MATERIAL
The Supplementary Material for this article can be found online at: https://www.frontiersin.org/articles/10.3389/fpsyg. 2019.02905/full#supplementary-material