Perturbation(교랸)
“잘 작동하는 시스템을 아주 약간 건드려서 생기는 변화”를 관찰하자.
ML/딥러닝에서의 perturbation
ML/DL 문맥에서는 거의 항상:
- 입력, 파라미터, 상태 등에 작은 노이즈나 변경을 가하는 것
- 예: adversarial perturbation = 입력 이미지에 아주 작은 를 더해서 모델을 헷갈리게 하는 교란.
- representation 분석에서 activation에 작은 값 추가해서 feature의 causal effect 보는 것도 perturbation이라고 부름.
감각적으로는 “baseline 상태를 기준으로, 작게 흔들어 보면서 민감도·안정성·원인 효과를 보는 행위/그때의 변화”라고 이해하면 웬만한 문맥에 다 맞다고 한다.
Abstract
LLM의 ToM robustness를 보기 위해 false-belief task(Sally & Anne) perturbation test를 해보겠다.
또, CoT(Chain-of-Thought)가 잠재적으로 ToM performance를 강화하고, 그 과정을 잘 설명해주는지 보려고 한다.hand-crafted되고 올바른 ToM reasoning chain이 담긴 classic/perturbated false-belief task set을 제안.
결론적으로
평가 대상인 LLM들에서 perturbation test 시, 매우 급격한 성능하락을 확인함.
CoT가 대부분의 현존하는 ToM task performance에 도움이 되어 보이긴 하나, 일부 perturbation class에 대해서는 성능을 대폭하락시켜, 선택적으로 사용을 권장한다.
Figure1
과제 설명:
S1: “투명하지 않은 봉지에는 과자가 들어 있습니다.” 이 문장이 주어졌을 때, 주인공이 알 수 있는 것은 ‘unknown’(알 수 없음)입니다. 왜냐하면 봉지가 투명하지 않기 때문입니다.
S2: “봉지의 라벨은 ‘채소’입니다.” 이 문장이 추가되면, 주인공은 라벨의 내용을 ‘vegetables’(채소)라고 인식하게 됩니다.모델별 결과:
No CoT (CoT 없음): 이 모델은 중간 추론 단계 없이 직접 답변을 생성합니다. S1 이후에는 아무것도 출력하지 않고( ’—’ ), S2 이후에도 아무것도 출력하지 않습니다. 최종 출력으로는 ‘sweets’(과자)라고 잘못 판단합니다.
Incorrect CoT (잘못된 CoT): 이 모델은 CoT를 사용하지만, 추론 과정이 잘못되었습니다.
S1 이후, 봉지 내용물을 ‘sweets’(과자)라고 잘못 추론합니다.
S2 이후, 라벨은 ‘vegetables’(채소)라고 올바르게 인식합니다.
하지만 잘못된 중간 추론 때문에 최종 출력 또한 ‘vegetables’(채소)라고 잘못 판단합니다.Correct CoT (올바른 CoT): 이 모델은 CoT를 사용하여 올바른 추론 과정을 따릅니다.
S1 이후, 봉지가 투명하지 않으므로 내용물은 ‘unknown’(알 수 없음)이라고 정확하게 추론합니다.
S2 이후, 라벨은 ‘vegetables’(채소)라고 정확하게 인식합니다.
올바른 추론 과정을 통해 최종 출력 역시 ‘vegetables’(채소)라고 정확하게 판단합니다.이 예시는 LLM이 ToM 과제를 해결할 때, CoT 프롬프팅이 추론 과정의 정확성을 높여 올바른 최종 결과로 이어질 수 있음을 보여줍니다. 반대로, CoT를 사용하더라도 추론이 잘못되면 틀린 답을 도출할 수 있습니다.
Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models
Overview
- 연구 배경: 이론적 사고(Theory of Mind, ToM) 능력을 평가하기 위한 AI 에이전트의 주체 믿음 추적 능력 평가 필요성 제기
- 핵심 방법론:
- “False Belief” 패러다임 기반 7단계 시나리오 설계(예: “Unexpected Content”, “Unexpected Transfer”)
- 10개의 퍼터베이션 클래스(예: 투명 컨테이너, 감정 기반 결론 추론)를 통한 1,088개 질문 생성
- 주요 기여:
- 주체 믿음 추적을 위한 최초의 인간 설계 ToM 평가 데이터셋 제공
- 각 단계별로 주체의 믿음 상태를 수동으로 어노테이션한 정확한 추론 체인 제공
- 실험 결과: 7단계 × 최대 11개 태스크 × 16개 하위 태스크로 구성된 총 1,088개 질문 포함, 주체 믿음 추론 및 퍼터베이션 영향 분석 가능
- 한계점: 특정 유형의 ToM 시나리오에 한정되며, 다국어 지원 및 실제 에이전트 성능 평가 미포함
목차
- Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models
- Abstract
- 1 Introduction
- 2 Related Work
- 3 Dataset
- 4 Experimental Setup
- 5 Evaluation Metrics and Definitions
- 6 Results and Analysis
- 6.1 Accuracies: ToM Robustness and Impact of Perturbations
- 6.2 Effectiveness of CoT-P
- [[#63-faithfulness-of-final-answer-to-cot|6.3 Faithfulness of Final Answer to CoT]]
- 6.4 Placebo Effect
- 7 Discussion
- [[#limitations-and-future-work|Limitations and Future Work]]
- 8 Conclusion
- Ethical Considerations
- Acknowledgements
- References
- Supplementary Material
- A Approach Details
- B Perturbation Classes and Examples
- C Definitions and Evaluation Metrics
- Accuracy
- Faithfulness
- D Implementation Details
- E Data and Code Availability
- F Supplementary Tables
- F.2 ATE with Perturbations as Treatment, All-Subtasks
- F.3 ATE with Perturbations as Treatment, False Belief Tasks
- F.4 ATE with CoT-P as Treatment
- [[#g-supplementary-figures|G Supplementary Figures]]
- [[#g1-dataset-structure|G.1 Dataset Structure]]
- [[#g2-evaluation-and-analysis-pipeline|G.2 Evaluation and Analysis Pipeline]]
Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models
Summary
이 섹션에서는 대규모 언어 모델(Large Language Models, LLMs)의 인공적 이론적 사고(Artificial Theory of Mind)를 이해하기 위해 변형된 작업(Perturbed Tasks)과 논리적 추론 메커니즘을 분석하는 연구를 제시한다. 연구팀은 LLM이 외부 환경 변화에 어떻게 대응하며, 특히 의도 추론(Theory of Mind)과 같은 고차원적 추론 능력을 어떻게 유지하거나 상실하는지를 탐구한다. 이에 따라, 논리적 추론 테스트(Reasoning Benchmarks)와 변형된 입력 조건(Perturbed Inputs)을 기반으로 한 실험을 통해 LLM의 내부 표현 구조와 추론 능력의 상관관계를 분석하였다. 특히, Zero-shot 추론과 PPO 기반 최적화를 활용한 모델의 반응 패턴을 비교하며, LLM이 환경 변화에 따라 논리적 일관성(Logical Consistency)이 감소하는 현상을 확인하였다. 연구는 LLM의 이론적 사고 능력이 단순한 언어 생성에 머무르지 않고, 복잡한 사회적 상황을 이해하는 데 기여할 수 있음을 시사하며, 정교한 추론 메커니즘(Sophisticated Reasoning Mechanisms)의 설계 필요성을 제기한다.
Christian Nickel1,2,3 , Laura Schrewe1 , Florian Mai1,2 and Lucie Flek1,2
1Bonn-Aachen International Center for Information Technology (b-it), University of Bonn 2Lamarr Institute for Machine Learning and Artificial Intelligence 3Research Center Trustworthy Data Science and Security (RC-Trust), University of Duisburg-Essen
Abstract
Theory of Mind (ToM) refers to an agent’s ability to model the internal states of others. Contributing to the debate whether large language models (LLMs) exhibit genuine ToM capabilities, our study investigates their ToM robustness using perturbations on false-belief tasks and examines the potential of Chain-of-Thought prompting (CoT) to enhance performance and explain the LLM’s decision. We introduce a handcrafted, richly annotated ToM dataset, including classic and perturbed false belief tasks, the corresponding spaces of valid reasoning chains for correct task completion, subsequent reasoning faithfulness, task solutions, and propose metrics to evaluate reasoning chain correctness and to what extent final answers are faithful to reasoning traces of the generated CoT. We show a steep drop in ToM capabilities under task perturbation for all evaluated LLMs, questioning the notion of any robust form of ToM being present. While CoT prompting improves the ToM performance overall in a faithful manner, it surprisingly degrades accuracy for some perturbation classes, indicating that selective application is necessary.
1 Introduction
Summary
이 섹션에서는 Theory of Mind (ToM) 능력, 즉 대상의 믿음, 의도, 감정을 추론하는 능력이 인간의 사회적 상호작용과 인지 기능에 핵심적인 역할을 하며, AI 에이전트에 이를 구현하면 보조 의료, 공감 대화 시스템, 교육 등 다양한 분야에서 활용할 수 있다고 설명한다. 그러나 현재 Large Language Models (LLMs) 에서 ToM 능력이 실제로 존재하는지에 대한 논란이 있으며, 기존 연구는 작은 변화에 취약한 좁은 벤치마크에 의존해 일반성과 해석 가능성에 의문을 제기한다. 이를 해결하기 위해 본 연구는 시스템적으로 설계된 ToM 작업과 변형(퍼트رب레이션)을 포함한 새로운 데이터셋 을 제안하고, 각 작업에 대해 최대 10가지의 변형 버전을 생성해 다양한 퍼트رب레이션 유형의 영향을 체계적으로 분석할 수 있도록 한다. 또한 Chain-of-Thought (CoT) 프롬프팅 이 ToM 관련 추론과 안정성 향상에 효과적인지 평가하기 위해, 인간이 생성한 중간 단계의 금기 CoT 단계를 기반으로 추론 충실도 지표 를 도입한다. 실험에서는 6가지 오픈소스 LLM을 대상으로 일반적 및 변형 ToM 작업에서 Vanilla Prompting (V-P) 과 CoT Prompting (CoT-P) 의 성능을 비교한 결과, 작업 변형이 성능을 크게 저하시키지만, CoT 프롬프팅은 대부분의 작업 클래스에서 추론 안정성을 신뢰성 있게 향상시키는 반면, 일부 클래스에서는 오히려 성능을 악화시키는 것으로 나타났다. 본 연구의 기여는 LLM의 ToM 능력에 대한 현재 한계와 개선 가능성에 대한 심층적인 이해를 제공하며, 데이터셋, 소스 코드, 실험 모델 출력은 보완 자료에 포함되어 연구 커뮤니티에 공개될 예정이다.
Theory of Mind (ToM) refers to an agent’s ability to infer and track the beliefs, intentions, and emotions of others [Premack and Woodruff, 1978; Rabinowitz et al., 2018; Kosinski, 2023]. This ability to model the mental states of others is fundamental in human cognition and social interaction [Premack and Woodruff, 1978]. Hence, enabling reliable ToM abilities in AI agents could unlock a range of new applications involving human-AI interactions, e.g. in assistive healthcare [Cuzzolin et al., 2020; Langley et al., 2022], empathetic conversational agents [Wang et al., 2024], education [Asthana and Collins-Thompson, 2024] or expert support, and cyber-physical systems like autonomous driving [Montese, 2024]. Human ToM has been studied intensely in psychology and neuroscience, but the evidence of ToM in Large Language Models (LLMs) is mixed. While promising results have been reported initially [Kosinski, 2023], the underlying mechanisms remain unclear [Ullman, 2023]: Are
| S2. The bag’s label is “vegetables”. | S1. The non-transparent bag contains sweets.label | label−−−−→ unknown−−−−→ vegetables | |
|---|---|---|---|
| Model | After S1 | After S2 | Final output |
| No CoT | sweets | ||
| Incorrect CoT | sweets | vegetables vegetables | |
| Correct CoT | unknown vegetables vegetables |
Figure 1: Illustrative example of ToM task. We manually annotated every sentence with the correct current belief of a protagonist the agent has to reason about at each step. While CoT-P improves performance on some task classes, it degrades it on others. Our dataset allows to assess whether this is grounded in correct step-wise reasoning, where it fails and if models are faithful to their reasoning.
LLMs truly reasoning about mental states, or merely leveraging statistical regularities?
Prior claims of ToM in LLMs often rely on narrow benchmarks that fail under small perturbations, calling into question their generality and interpretability. Existing benchmarks lack a systematic structure for evaluating these effects, and do not provide the means to isolate the impact of specific perturbation types or prompting strategies.
Our work addresses this gap by probing ToM robustness in LLMs through a novel dataset of systematically hand-crafted tasks and perturbations. Each unperturbed task is accompanied by up to ten perturbed variants, constructed according to a diverse set of perturbation classes. This structure enables controlled comparisons and allows us to isolate the specific effects of different perturbation types, quantifying their impact on both performance and reasoning fidelity.
Additionally, we explore the effectiveness of Chain-of-Thought (CoT) prompting as a potential enhancement for ToM-related reasoning and robustness. To that end, we assess the CoTs’ faithfulness by examining whether their final outputs are truly grounded in intermediate reasoning steps. By annotating human-generated intermediate sets of valid gold CoT steps for every task instance, we introduce faithfulness metrics to evaluate whether final model predictions are grounded in intermediate gold-standard CoT steps, allowing for fine-grained evaluation of reasoning correctness. This analysis provides insight into how and when CoT prompting contributes to accurate reasoning or fails to do so. Figure 1 illustrates this.
We use this benchmark to conduct a comparative evaluation of six open-source LLMs under both Vanilla Prompting (V-P) and Chain-of-Thought Prompting (CoT-P), assessing their performance on both standard and perturbed ToM tasks. Our results show that while task perturbation degrades the performance substantially, CoT prompting improves reasoning robustness in a faithful manner for most classes, but also reduces it for others.
In sum, these contributions provide a deeper understanding of the current limitations and opportunities for enhancing ToM-related capabilities in LLMs. The dataset, source code, and the model outputs of our experiments are available in the supplementary material and will be made available publicly to the research community upon acceptance.
2 Related Work
Summary
이 섹션에서는 **Theory of Mind (ToM)**을 갖는 대규모 언어 모델(LLM)에 대한 기존 연구와 Chain-of-Thought (CoT) 프롬프팅 기법의 관련성을 다룬다. 먼저, **Kosinski (2023)**은 GPT-4와 같은 고급 모델이 인간 유사한 정확도로 전통적인 가짜 신념 작업을 해결함으로써 ToM의 징후를 보인다고 주장하지만, **Ullman (2023)**은 작은 방해가 성능을 떨어뜨리며 모델이 정신 상태를 진정으로 추론하지 않고 통계적 단서에 의존한다고 지적한다. 이에 따라 ToMBench (Chen et al., 2024), FANToM (Kim et al., 2023), OpenToM (Xu et al., 2024) 등 다양한 벤치마크가 개발되었으나, **Riemer et al. (2025)**은 대부분의 ToM 벤치마크가 리터럴 ToM(타인 행동 예측)만 측정하고 기능적 ToM(자신의 행동 조정)은 평가하지 못한다고 비판한다. 예를 들어, LLM이 상대가 항상 바위만 냈을 때 바위-보-가위 전략을 조정하지 못하는 경우를 제시하며, 이는 메모리나 단서에 의존하는 경향을 드러낸다.
또한, CoT 프롬프팅은 중간 추론 단계를 유도하는 기법으로, **Wei et al. (2022)**은 이를 통해 다양한 추론 벤치마크에서 성능 향상을 보였으나, ToM 작업에 대한 영향은 여전히 불확실하다. **Sprague et al. (2024)**의 메타분석에 따르면 CoT는 수학/논리 작업에서 효과적이지만, 다른 작업에서는 영향이 작다. 이 연구는 특히 가짜 신념 유형의 ToM 작업에 CoT의 영향을 집중적으로 조사한다. 동시에, CoT 추론의 신뢰성에 대한 논의도 포함되어 있으며, **Turpin et al. (2023)**은 생성된 CoT가 답변과 인과적으로 관련되지 않을 수 있다고 지적한다. 이에 따라, 이 연구는 실제 추론의 정확도를 기반으로 한 상관관계 분석과 ROUGE 기반 접근법을 결합해 보다 정확한 신뢰도 점수를 도출한다. 이와 유사한 접근법으로, **Jiang et al. (2025)**은 일반적인 LLM 추론의 견고성을 테스트하기 위해 방해 기법을 사용했으며, 이 연구는 ToM에 특화된 CoT 추론의 유용성과 오류를 분석하는 데 초점을 맞춘다.
Theory of Mind in LLMs The emergence of ToM in LLMs has been explored in various works. Kosinski [2023] argues that advanced models such as GPT-4 show signs of ToM, solving classical false-belief tasks at human-like accuracy levels. However, Ullman [2023] demonstrated that even minor perturbations disrupt performance, suggesting that models do not truly infer mental states but rather rely on statistical cues. To further investigate the ToM capabilities of LLMs a variety of benchmarks have been created (see Chen et al. [2025] for a recent survey): ToMBench [Chen et al., 2024] provides a structured framework to evaluate ToM in LLMs, systematically covering all tasks and abilities that are considered part of ToM [Ma et al., 2023]. They show that LLMs still struggle to comprehensively understand social scenarios and significantly lag behind human performance. Jones et al. [2023] directly compare LLM and human performance on six experiments covering diverse ToM capabilities, showing that LLMs still make systematic errors in some tasks. Many attempts have been made to broaden the scope and diversity of ToM evaluation benchmarks: FANToM [Kim et al., 2023] stresses models with dynamic multi-agent interactions, OpenToM [Xu et al., 2024] moves ToM assessment to complex social scenarios, ToMATO [Shinoda et al., 2025] is a large dataset generated from conversations between LLMs performing roleplay, and others evaluate ToM in a multimodal setting [Jin et al., 2024; Shi et al., 2025].
Riemer et al. [2025] argue that most ToM benchmarks are fundamentally broken because they only measure literal theory of mind, i.e. whether LLMs can predict the behavior of others, rather than whether the LLMs also adapt their own behavior accordingly (functional theory of mind). For example, they find that LLMs struggle to adapt their Rock, Paper, Scissors strategy to an opponent who only plays Rock, despite being able to reliably predict their next move. This behavior further supports the theory that LLMs rely to some extent on memorization or shortcuts to solve ToM tasks.
To shed further light on this issue, our work systematically explores broad perturbation classes and their differential effects on ToM reasoning performance. Unlike existing benchmarks, our dataset provides interdependent gold CoT annotations across perturbed/unperturbed task pairs, allowing for a precise analysis of how perturbation types affect both reasoning quality and final predictions.
Chain-of-Thought Chain-of-Thought prompting is a prompting technique designed to elicit intermediate reasoning steps from an LLM before it provides the final answer to a task [Wei et al., 2022]. There are various strategies to elicit intermediate reasoning: Zero-shot prompting simply instructs the LLM to do so [Kojima et al., 2023], whereas the computationally more expensive few-shot prompting [Brown et al., 2020] provides few examples of the expected reasoning structure in the context to increase reliability. The present study uses one-shot prompting for a reasonable balance between speed and reliability1 .
While Chain-of-Thought prompting improves performance on various reasoning benchmarks [Wei et al., 2022], its impact on Theory of Mind tasks remains uncertain and underexplored. Some benchmarks report performance increase or decrease varying by task type [Xu et al., 2024], while others report the performance impact to be small across all task types [Chen et al., 2024]. Recently, a meta-analysis [Sprague et al., 2024] showed that CoT yields strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks, resulting from CoT improving symbolic execution. While we also investigate the impact of CoT prompting, we focus on ToM tasks of the type of false belief.
Chain-of-Though Faithfulness In addition to the potential performance impact, CoT prompting makes the LLMs produce a step-by-step explanation of their reasoning. This opens up possibilities for not treating LLMs as just a black box, thus benchmarking only question answering performance, but also to gain insights into the internal reasoning process and mistakes. However, several results suggest that CoT reasoning traces are not faithful [Turpin et al., 2023] to the response and question the causal relevance of the produced CoT for the final answer [Lanham et al., 2023], demanding careful experimental designs to justify this attribution.
Similar in spirit to our work, Jiang et al. [2025] employs a perturbation-based approach to test the robustness of general LLM reasoning. Their findings that perturbations can induce inconsistent or nonsensical reasoning—especially on multi-step and commonsense tasks—complement our focus on measuring when CoT traces are informative versus misleading for ToM specifically.
Previous work on CoT faithfulness often relies on approximate measures such as ROUGE scores or structural similarity [Li et al., 2024].
To yield more precise faithfulness scores we use a correlation-based approach for measuring faithfulness that is based on the actual correctness of the reasoning chain and is thus more precise, while also computing several ROUGEbased approaches to model faithfulness, enabling us to com-
1 Some recent models were trained to produce intermediate reasoning via Reinforcement Learning [Guo et al., 2025]. However, the structure of the resulting CoTs is generally not controllable, which makes these models unsuitable for our experimental design.
pare the usefulness of the latter approximations to faithfulness.
3 Dataset
Summary
이 섹션에서는 Theory of Mind (ToM) 능력을 평가하기 위한 새로운 인간 기반 데이터셋을 소개하며, 이는 전통적인 가짜 신념(False Belief) 실험의 패러다임을 기반으로 구성되었다. 데이터셋은 총 7단계로 구성되며, 각 단계는 특정 시나리오를 묘사한다. 그 중 4단계는 “예상치 못한 콘텐츠”(Unexpected Content) 유형으로, Sally-Anne 테스트에 기반해 주인공이 부재할 때 세계 상태를 변경해 가짜 신념을 유도하는 방식을 채택했다. 나머지 3단계는 “예상치 못한 이전”(Unexpected Transfer) 유형으로, Smarties 테스트에 해당하며, 잘못 라벨링된 컨테이너를 통해 가짜 신념을 생성하는 방식을 사용한다. 모든 작업의 핵심 목표는 주인공의 세계관에 대한 믿음(protagonist’s belief)을 추론하는 것이다. 이 데이터셋은 기존 벤치마크의 한계를 극복하고, 모델의 ToM 능력을 보다 정확하게 평가할 수 있는 기반을 제공한다.

Figure 2: Illustrating “Conclusion from Sentiment”.
We introduce a novel, human-crafted dataset of tasks for evaluating ToM capabilities. The basic concept in these tasks follows the classic “False Belief” paradigm, testing an agent’s ability to recognize and track beliefs of the protagonist about the world, which contradict reality.
The task dataset is organized into 7 stages, which describes a scenario in which a task takes place. We newly created 4 “Unexpected Content” stages (popularized in the “Sally-Anne” test [Wimmer and Perner, 1983; Baron-Cohen et al., 1985]) and 3 “Unexpected Transfer” (popularized in the “Smarties” test [Perner et al., 1987]) stages. In the former, a false belief is induced by changing the world state while the protagonist is absent. The latter, for which an example is given in Figure 3a, induces false belief through a mislabeled container. The task is to infer the protagonist’s belief about the state of the world.
Perturbation Classes
Summary
이 섹션에서는 Perturbation Classes를 정의하고, 이를 통해 대규모 언어 모델(LLM)의 의도 추론(Theory of Mind) 능력을 평가하는 방식을 제시한다. 연구팀은 기존 작업을 기반으로 10가지 변형 작업(Perturbed Tasks)을 수작업으로 생성하며, 특히 **Ullman (2023)**이 제안한 5가지 주요 변형 클래스를 체계적으로 평가 데이터셋에 적용한다. 이 클래스들은 예를 들어 투명한 컨테이너(주인공이 내부를 볼 수 있음), 전치사 교체(공간 관계 변경, “in” vs “on”), 불명확한 라벨(주인공이 해석 불가), 후기 라벨(주인공이 스스로 컨테이너를 라벨링), 비주인공의 믿음(다른 에이전트의 믿음을 타겟) 등으로 구성된다. 예시로 제공된 테이블은 Uninformative Label과 Non-Protagonist Belief를 시각화하며, 주인공이 라벨을 읽었지만 실제 내용과 다른 정보를 포함한 상황을 보여준다. 이와 같은 변형 클래스는 LLM이 외부 환경 변화에 어떻게 반응하는지를 체계적으로 분석하고, 특히 의도 추론과 같은 고차원적 추론 능력의 일반성을 평가하는 데 기여한다.
Given an unperturbed stage as the basis (see Figure 3a for an example), we manually create a base task and up to 102 alterations of this base task by introducing perturbations. The first 5 perturbation classes were already introduced by Ullman [2023]. However, they had not been systematically included and applied to a whole evaluation dataset. These classes are:
-
- Transparent Container: The protagonist can see inside the container.
-
- Preposition Replacement: Changes spatial relations, e.g., “in” vs. “on”.
-
- Uninformative Label: Protagonist cannot interpret the label.
-
- Late Label: The protagonist labeled or filled the container themselves.
-
- Non-Protagonist Belief: The question targets another agent’s belief.
| Esther finds a non-transparent paper bagshe has never seen before.In the paper bag are sweets and no veg | {unknown}{unknown} |
|---|---|
| etables.The label on the paper bag says “vegetables” and not “sweets”. | {unknown} |
| Esther does not open the paper bag.She reads the label. | {unknown}{vegetables} |
(a) Classic false-belief task (Unexpected Content)
Summary
이 섹션에서는 False-Belief Task(예상치 못한 내용)라는 전통적인 이론적 사고(Theory of Mind, ToM) 평가 지표의 예시를 제시한다. 주인공 Esther는 선물 상자 안에 초콜릿 트러플이 있다고 믿고 있지만, 실제로는 라이시스가 들어 있어 그녀의 믿음과 실제 상태가 분리된 상황을 구성한다. 이 시나리오는 대상의 믿음과 실제 물리적 상태 간의 차이를 유발하는 고차원적 추론을 요구하며, LLM이 이러한 복잡한 인지 구조를 어떻게 인식하고 처리하는지를 평가하는 데 사용된다. 특히, Esther가 선물 카드를 읽고 부모가 선호하는 초콜릿 트러플을 언급했음에도 불구하고, 상자 안에는 그녀가 좋아하지 않는 라이시스가 담겨 있는 점이 의도와 현실의 간극을 명확히 보여준다. 이와 같은 고전적 ToM 작업은 LLM의 의도 추론 능력과 외부 환경 변화에 대한 적응력을 검증하는 핵심 테스트 케이스로 활용된다.
| Sentence | Belief |
|---|---|
| Esther finds a non-transparent giftbox in her room, with a gift card attached to it. | {unknown} |
| She does not know what is insidethe gift box. | {unknown} |
| By shaking it she realizes that itcontains small parts, like chocolatetruffles or licorice. | {unknown} |
| She reads the gift card. | {unknown} |
| The text says the present is from herparents and that they are sure shewill like the present. | {unknown} |
| Previously she mentioned to herthatshereallyenjoysparentschocolatetrufflesandnoothersweets or cookies, not even licorice. | {choc. truffles} |
| In the gift box are licorice and nochocolate truffles. | {choc. truffles} |
| Esther does not open the gift box. | {choc. truffles} |
(b) Perturbed task (Class: Conclusion from Sentiment)
Summary
이 섹션에서는 Perturbation Classes 중 감정 기반 결론 추론(Conclusion from Sentiment)이라는 새로운 변형 작업을 소개하며, 이를 통해 이론적 사고(Theory of Mind) 평가의 일반성을 확장하는 방향을 제시한다. 연구팀은 기존의 5가지 변형 클래스에 더해, 6. 자동 상태 변화, 7. 관련 없는 정보 추가, 8. 기초 패턴 기반 귀납, 9. 신뢰할 수 없는 증언, 10. 감정 단서 기반 믿음 추론이라는 5가지 새로운 변형 클래스를 정의하고, 각 클래스가 다양한 추론 모드(공간 인식, 역사적 지식 수정, 감정 해석 등)를 요구함을 강조한다. 특히 감정 기반 결론 추론은 주인공의 감정 단서를 통해 믿음을 추론하는 방식으로, 예시는 도표 3b와 도표 2에 제시되어 있으며, 이는 기존의 단순한 사실 기반 추론과는 다른 정서적 맥락 이해를 요구하는 특징을 갖는다. 또한, 모든 변형 클래스는 특정 단계에서만 적용 가능하며, 예를 들어 공간 인식(1, 2)이나 역사적 지식 변화(4, 8, 10)와 같은 요소에 따라 적용 범위가 달라진다. 이와 같은 변형 작업은 LLM이 복잡한 환경 변화에 어떻게 대응하며, 의도 추론 능력을 유지하거나 상실하는지를 체계적으로 평가하는 데 기여한다.
Figure 3: Dataset illustration with per-sentence gold belief states shown inline. The belief column encodes what Esther believes about the container contents after each sentence.
Moreover, we introduce 5 novel perturbation classes:
-
- Automatic Change Knowledge: The object changes state automatically.
-
- Add Unrelated Information: Distractor details are introduced.
-
- Induction from Baseline: The protagonist infers based on past patterns.
-
- Untrustworthy Testimony: A known trickster gives misleading info.
-
- Conclusion from Sentiment: Beliefs are inferred from sentiment cues.
We use these classes because they require different modes of reasoning to be integrated into the Theory of Mind process.
2Not every stage is amenable to every perturbation.
First, some classes require spatial reasoning and understanding of transparency to understand what is perceivable by the protagonist (1 and 2). Then there are early modifiers that alter the protagonists historic knowledge about world states (4, 8, 10), behaviors and dynamics (6, 9) or ability to perceive or understand novel information (3) about the world. Lastly, there are classes that require simple filtering of noisy information (7) or taking the correct perspective (5).
An example of Conclusion from Sentiment is given in Figure 3b and illustrated in Figure 2. Examples for other classes are given in the supplementary material.
Template-based Subtask Generation
Summary
이 섹션에서는 Template-based Subtask Generation 방식을 활용해 각 작업당 16개의 변형 작업(alterations)을 자동 생성하는 방법을 제시한다. 이 접근법은 **Kosinski (2023)**의 템플릿 기반 프레임워크를 기반으로 하며, 에이전트의 진실 세계 상태 인식, 정보를 가진 주인공의 믿음, 개방된 컨테이너를 접한 주인공의 믿음, 그리고 주인공의 실제 가짜 믿음에 대한 지식을 평가하는 데 초점을 맞춘다. 또한, 각 작업의 정답을 교환하는 방식으로 데이터셋의 다양성을 확보했다. 데이터셋은 총 7단계로 구성되며, 단계당 최대 11개의 작업이 포함되어 있고, 작업당 16개의 하위 작업이 생성되어 전체적으로 1088개의 질문을 포함한다. 이 구조는 ToM 능력의 다양한 측면을 체계적으로 평가할 수 있는 기반을 제공한다.
Finally, we automatically generate 16 alterations per task using the same template-based approach as Kosinski [2023], which comprise testing knowledge of the agent about the true world state, the belief of an informed protagonist, belief of a protagonist encountering an open container and the actual false belief of the protagonist. Moreover, the correct answers to the tasks are swapped. With 7 stages, up to 11 tasks per stage, and 16 subtasks per task, our dataset comprises a total of 1088 questions.
Valid Reasoning Chains
Summary
이 섹션에서는 ToM false belief task에서 Chain-of-Thought (CoT) 추론의 정확성을 분석하기 위해 주인공의 믿음 상태(belief state)를 단계별로 수작업으로 어노테이션한 방법을 제시한다. 각 작업의 시나리오 텍스트에서 하나의 문장(sentence)에 해당하는 단계별 현재 믿음 상태(current belief state)를 정확히 추적해야 정답을 도출할 수 있으며, 이는 CoT 추론의 타당성을 평가하는 핵심 기준이다. 다만 텍스트 해석에 따라 믿음 상태가 모호한 경우가 있어, 정답은 집합(set) 형태로 표현된다. 예시 어노테이션은 Figure 3에 제공되어 있으며, 이는 기존 데이터셋(Section 3)과 변형 작업(perturbed tasks) 평가(Section 5)에 직접적으로 연계되는 기초 작업이다.
In order to answer a task question correctly, an agent needs to track the protagonist’s belief as the scenario unfolds. To analyze the correctness of CoT reasoning in the ToM false belief tasks, we manually annotated every task with the correct current state of the protagonist’s belief at every step, where each step corresponds to one sentence in the task’s scenario text. Because sometimes the correct belief state is ambiguous based on the interpretation of the text, there can be multiple correct answers. Therefore, the correct current state is represented as a set. Example annotations are given in Figure 3.
4 Experimental Setup
Summary
이 섹션에서는 ToM false belief task 평가를 위한 실험 설계 및 프롬프팅 전략을 설명한다. 연구팀은 **Vanilla Prompting (V-P)**과 Chain-of-Thought Prompting (CoT-P) 두 가지 전략을 적용해, 각각 직접 답변을 요청하는 방식과 중간 추론 단계를 유도한 후 답변을 도출하는 방식을 비교한다. 모든 모델은 작업 내 각 문장에 따른 정신 상태 업데이트(mental state updates)를 포함한 구조화된 JSON 형식의 출력을 반환하도록 지시받았으며, 이는 최종 답변 정확도와 CoT 추론의 타당성을 자동 평가하는 데 활용된다. 일관성 향상을 위해 one-shot prompting과 형식 예시를 사용했으며, 오류 있는 JSON 출력은 제외된다. 평가 지표로는 최종 답변 정확도, CoT 추론의 정확성, 그리고 모델의 신뢰성(model faithfulness—추론 정확성과 최종 예측 간 통계적 일관성)을 포함한다. 실험의 재현성을 위해 평가 및 분석 파이프라인의 세부 사항은 Supp. [G.2.]에 제공된다.
4.1 Evaluation Pipeline and Prompting Strategy
Summary
이 섹션에서는 6개의 오픈소스 대규모 언어 모델(LLM)을 대상으로 두 가지 프롬프팅 전략(Vanilla Prompting, V-P와 Chain-of-Thought Prompting, CoT-P)을 적용한 평가 파이프라인을 제시한다. 모델은 각 작업의 문장 단위별 정신 상태 업데이트(mental state updates)를 포함한 구조화된 JSON 형식의 출력을 반환하도록 지시받으며, 이는 정답 정확도와 추론 과정의 타당성(CoT correctness)을 자동으로 평가할 수 있는 기반을 제공한다. 일회성 프롬프팅(one-shot prompting)과 포맷 예시(format demonstrations)를 활용해 출력 일관성을 높이고, 오류 있는 JSON 출력은 필터링 처리한다. 평가 지표로는 최종 정답 정확도, CoT 추론의 정확성, 그리고 모델의 신뢰성(model faithfulness—추론 정확성과 최종 예측 간 통계적 일관성)을 포함하며, 재현성을 위해 평가 및 분석 파이프라인의 세부 사항은 Supp. [G.2]에 제공된다.
We run inference with six open-source LLMs on our dataset under two prompting strategies: Vanilla Prompting (V-P), which directly requests an answer, and Chain-of-Thought Prompting (CoT-P), which elicits intermediate reasoning steps before answering. Each model is instructed to return a structured JSON output containing mental state updates after each sentence in the task, followed by a final answer. This format enables automated evaluation of both answer accuracy and reasoning correctness (CoT). We use one-shot prompting with format demonstrations to improve output consistency, with minor adjustments across models. Faulty JSON outputs are filtered out. After inference, we evaluate final answer accuracy, CoT correctness, and model faithfulness—defined as the statistical alignment between reasoning correctness and final predictions. To ensure reproducibility, details regarding our evaluation and analysis pipeline is provided in Supp. G.2.
4.2 Models
Summary
이 섹션에서는 33B에서 132B 파라미터 규모의 최신 오픈소스 대규모 언어 모델(Large Language Models, LLMs) 6가지를 평가 대상으로 삼아, Llama-2-70B-Chat, Llama-3-70B-Instruct, Vicuna-33Bv1.3, Yi-34B-Chat, Mixtral-8x7B-Instruct-v0.1, DBRX-Instruct 등이 포함된다. 모든 모델은 HuggingFace의 transformers 라이브러리를 통해 접근했으며, A100 기반 컴퓨팅 노드에서 temperature 0 설정으로 추론을 수행했다. 또한, 하드웨어 사양 및 추론 파라미터에 대한 자세한 내용은 Supp. D에 제공되어 있다. 이 평가 모델들은 앞서 소개된 변형 작업(Perturbed Tasks)과 감정 기반 결론 추론 등의 ToM 평가 프레임워크에 적용되어, 모델의 고차원적 추론 능력과 일반성을 체계적으로 분석하는 데 기여한다.
We evaluate six recent open-source LLMs ranging from 33B to 132B parameters: Llama-2-70B-Chat [Touvron et al., 2023], Llama-3-70B-Instruct [Meta AI, 2024], Vicuna-33Bv1.3 [Vic], Yi-34B-Chat [AI et al., 2024], Mixtral-8x7B-Instruct-v0.1 [AI, 2023], and DBRX-Instruct [Mosaic AI Research Team and others, 2024].
All models are accessed via HuggingFace’s transformers library. Inference is run on A100 based compute nodes with the temperature set to 0. Further details, including hardware and inference parameters, are provided in Supp. D.
5 Evaluation Metrics and Definitions
Summary
이 섹션에서는 대규모 언어 모델(LLM)의 이론적 사고(Theory of Mind, ToM) 능력을 평가하기 위한 다단계 평가 전략을 제시한다. 먼저, **Vanilla Prompting (V-P)**과 Chain-of-Thought Prompting (CoT-P) 두 가지 프롬프팅 전략 하에서 가짜 신념 작업(False-Belief Task)의 정확도를 계산하며, 이를 통해 변형 작업(Perturbation)과 프롬프팅 전략의 영향을 측정하기 위해 평균 치료 효과(Average Treatment Effect, ATE)를 사용한다. **Ostensible Theory of Mind (OToM)**을 판단하기 위해, 미변형 작업(Unperturbed Task)에서 정확도가 50%를 초과하는 모델을 기준으로 하며, **Robust Theory of Mind (RToM)**은 10개의 변형 클래스(Perturbation Classes) 모두에서 50% 이상의 정확도를 달성해야 하며, 제한된 RToM(Limited RToM)은 최소 5개의 변형 클래스에서 50% 이상의 정확도를 달성해야 한다. 또한, 변형 클래스의 난이도를 평가하기 위해 ATE 기반으로 순위를 매기고, 4/6 모델에서 공통으로 상위 5개의 악화 효과(Most Degraded Perturbations)를 포함하는 **“난이도 높은 클래스”**를 식별한다. CoT 정확도(CoT Correctness)는 생성된 추론 체인(CoT)이 기준 해답(Gold-Standard Reasoning Chain)의 제대로된 부분 순열(Proper Subsequence)인지 판단하며, 이는 최종 상태에 도달하는 중간 신념 상태의 일관성을 기준으로 한다. 또한, ROUGE-LCS_P, ROUGE-LCPS_P, Transition Overlap Precision 등 추론 체인의 품질을 측정하는 지표를 도입한다. 신뢰성(Faithfulness)은 CoT 정확도와 최종 답변 정확도 간의 상관 계수(Φ-coefficient, rpb)를 통해 평가하며, Placebo 효과는 CoT-P가 정확한 추론 없이도 정확도를 크게 향상시키는 경우로 정의한다. 이러한 분석을 통해 현재 LLM이 ToM 능력을 얼마나 신뢰성 있게 보유하고 있으며, CoT 프롬프팅이 그 능력에 어떤 영향을 미치는지, 그리고 모델 간, 작업 유형 간의 상호작용을 세부적으로 평가할 수 있다.
To evaluate the performance and reasoning capabilities of LLMs on Theory of Mind tasks, we rely on a multi-stage evaluation strategy.
Accuracy and Treatment Effects We first compute the accuracy of each model on false-belief tasks under both Vanilla Prompting (V-P) and Chain-of-Thought Prompting (CoT-P). To quantify the impact of perturbations and prompting strategies, we use Average Treatment Effect (ATE) (i.e. the absolute difference), which allows us to measure how much model accuracy shifts when specific treatments (e.g., perturbations or prompting) are applied.
Robust Theory of Mind To determine whether a model demonstrates Theory of Mind (ToM) capabilities, we define a set of evaluation criteria based on accuracy thresholds. We consider a model to exhibit an ostensible Theory of Mind (OToM) if it achieves an accuracy above 50% on unperturbed (i.e. classic) false-belief tasks. This baseline reflects performance exceeding random guessing in binary-choice scenarios. To further assess the robustness of ToM, we define two additional criteria:
- A model exhibits a Robust Theory of Mind (RToM) if it achieves > 50% accuracy on all ten perturbation classes.
- A model exhibits a Limited Robust Theory of Mind (limited RToM) if it achieves > 50% accuracy on at least five perturbation classes.
These thresholds allow us to distinguish between superficial ToM performance and more generalizable, perturbationresilient reasoning abilities.
Identifying Easy and Hard Perturbation Classes We rank perturbation classes by their Average Treatment Effect (ATE) on model performance. To ensure robustness, we identify “challenging” classes via a set intersection of the top-five most degrading perturbations per model, using a majority incidence threshold (4/6 models) to still include perturbation classes where strict intersection is empty.
CoT Correctness For tasks evaluated under CoT-P, we assess the quality of the model-generated reasoning chains. Our primary metric is whether the predicted Chain of Thought (CoT) forms a proper subsequence of one of the annotated gold-standard reasoning chains.
According to our definition a Proper Subsequence must match valid intermediate belief states step-by-step and arrive at the correct final state, while allowing for some minor omissions such as skipped repetitions. In doing this we
(a) CoT of length k = 5 is a proper subsequence of the solution. (b) CoT of length k = 3 is not a proper subsequence.
Figure 4: Examples of reasoning chains compared to the gold CoT. In (a), the model outputs a valid proper subsequence with consistent reasoning; in (b), intermediate states are inconsistent or skipped (step 3 “D” in the gold chain), leading to an invalid chain.
have to take into account path dependence as, given certain previous reasoning step states, only certain steps in the current step are allowed. In the end this yields a binary output, determining whether we see a correct reasoning chain. It is the most precise measure as it tediously checks if the given CoT can be one of the valid chains encoded in the gold rationale. We illustrate this in Figure 4. In addition to this binary metric, we also compute several continuous measures of CoT quality. They are approximative in nature, but easier to implement. The first one is Rouge-LCS (Longest Common Subsequence) based precision (ROUGE-LCSP ) [Li et al., 2024], which we adapt to our use case:
Employing (Pre-) Proper Subsequences, we define a Precision based on the Longest Common (Pre-)Proper Subsequence. We call it “pre-proper” as we have to drop the requirement that the last entries of both sequences have to match:
where LCPS(X,Y) is the length of a longest common preproper subsequence of X and Y.
Last we define our metric Transition Overlap Precision:
where GOLDSET is the set of all state transitions in the gold reasoning chain and OUTPUTSET the set of all state transitions in the LLM generated reasoning.
Measuring Faithfulness We assess the faithfulness of CoT reasoning by computing the correlation between CoT correctness and final answer correctness. A high positive correlation suggests that the reasoning steps causally contribute to the final answer. We report Φ-coefficients (for binary correctness based on proper subsequences) and point-biserial correlations (rpb, for continuous CoT scores). A model is faithful in case of a positive, at least moderate to strong, positive correlation (ϕ ≥ 0.4, rpb ≥ 0.4 and p ≤ 0.05).
Detecting Placebo Effects To distinguish meaningful CoT reasoning from superficial effects, we partition tasks and answers into two groups: those where the model generates a correct CoT, and those where it does not. If CoT-P substantially improves overall accuracy (ATE ≫ 0) even given incorrect reasoning, we attribute this to a placebo effect, indicating that the structure or style of CoT prompts or other effects external to the actual ToM reasoning may alone influence outcomes.
Together, these analyses enable a fine-grained assessment of whether current LLMs exhibit reliable ToM capabilities, whether CoT prompting enhances those capabilities, and how these factors interact across models and task variations.
6 Results and Analysis
Summary
이 섹션에서는 ToM false belief task 평가에서 변형 작업(Perturbations)이 모델 성능에 미치는 영향을 분석한 결과를 제시한다. Vanilla Prompting(V-P) 전략을 사용할 경우, 4개의 모델이 ToM 유사한 행동(ToM-like behavior)을 보였지만, 변형 작업이 도입되면 성능이 급격히 하락하며, Llama-3-70B와 DBRX만이 5개의 변형 클래스(Perturbation Classes)에서 50% 이상의 정확도(≥50% accuracy)를 유지하는 제한적 Robust ToM(limited RToM)을 보였다. 특히 공간 추론(spatial reasoning)이 필요한 변형 작업은 모든 모델에 대해 지속적인 도전 과제로 나타났다. 반면, Chain-of-Thought Prompting(CoT-P) 전략을 적용할 경우 변형 작업에 대한 내구성(robustness)이 향상되었지만, Llama-3-70B와 DBRX만이 10개의 변형 클래스 중 7개에서 동전 던지기 기준(coin-toss threshold)을 달성하는 제한적 Robust ToM을 유지하는 것으로 나타났으며, 공간 추론 관련 변형 작업은 여전히 가장 큰 영향을 미치는 요인으로 남았다.
6.1 Accuracies: ToM Robustness and Impact of Perturbations
Summary
이 섹션에서는 ToM 능력의 견고성(ToM Robustness)과 변형 작업(Perturbations)의 영향을 분석한 결과를 제시한다. Vanilla Prompting(V-P) 전략을 사용할 경우, 4개 모델이 변형 없이 ToM 유사한 행동을 보였으나, 작업 변형(Perturbations)이 적용되면 성능이 급격히 하락하며, Llama-3-70B와 DBRX만이 5개 변형 클래스에서 최소 50% 이상의 정확도(≥50% accuracy)를 유지하는 제한된 견고성(limited RToM)을 보였다. 특히, 공간 추론(spatial reasoning)이 필요한 변형은 모든 모델에서 지속적인 도전 과제로 나타났다. Chain-of-Thought Prompting(CoT-P) 전략을 적용할 경우 견고성이 향상되었으나, Llama-3와 DBRX만이 10개 변형 클래스 중 7개에서 동전 던지기 기준(coin-toss threshold)을 충족하는 제한된 ToM 견고성을 유지했다. 다만, 공간 추론 관련 변형은 여전히 모든 모델에 걸쳐 가장 큰 영향을 미치는 요인으로 남았다.
Without perturbations and using V-P, four of the evaluated models exhibited ostensible ToM-like behavior (Table 1). However, performance degrades under task perturbations, with only Llama-3-70B and DBRX maintaining limited robustness (limited RToM, ≥ 50% accuracy across five perturbation classes). Especially perturbations that introduce the necessity of spatial reasoning pose challenges across all models.
The robustness to perturbations is higher with CoT-P (see Table 1), but Llama3-and DBRX remain the only models with limited robust ToM–now meeting the coin-toss threshold in 7 out of 10 perturbation classes. Nonetheless, spatial reasoning remains a consistent challenge across models, continuing to appear among the most impactful perturbation types.
6.2 Effectiveness of CoT-P
Summary
이 섹션에서는 Chain-of-Thought (CoT) 방식이 기존 Vanilla prompting (V-P) 대비 일부 퍼터베이션 클래스에서는 성능 향상을, 다른 클래스에서는 악화를 초래하는 혼합된 결과를 보여준다. 예를 들어, Add Unrelated Information 클래스에서는 V-P의 66.7%에서 CoT가 78.6%로 증가했으며, Untrustworthy Testimony에서도 V-P의 36.1%에서 CoT가 61.1%로 크게 향상된 반면, Conclusion From Sentiment에서는 V-P의 50.0%가 CoT에 의해 25.5%로 감소하는 등 극단적인 변화를 보였다. 전체적으로 CoT는 평균 정확도를 약 3.9% 향상시키는 것으로 나타났으나, Automatic Change Knowledge나 Preposition Replacement처럼 특정 클래스에서는 정확도가 20% 이상 감소하는 경우도 있었다. 특히 Untrustworthy Testimony와 Add Unrelated Information에서 CoT의 효과가 두드러졌으며, 이는 추론 과정의 구조적 명확성을 높이는 방식이 허위 정보나 불필요한 정보에 대한 저항력을 강화시킨 것으로 해석될 수 있다. 반면, Conclusion From Sentiment와 같은 감정 기반 추론에서는 CoT가 오히려 정확도를 떨어뜨리는 것으로 보여, 추론 흐름의 복잡성이 오히려 오류를 유발하는 가능성을 시사한다. 이러한 결과는 CoT의 적용이 특정 유형의 퍼터베이션에 따라 극단적으로 달라질 수 있음을 강조하며, 추후 연구에서 퍼터베이션의 성격에 따른 최적의 방식 탐구가 필요함을 시사한다.
CoT-P slightly improved accuracy for unperturbed tasks and for all perturbation classes overall, but particularly Untrustworthy Testimony and Add Unrelated Information, as Table 1 shows. Surprisingly, we even observe reduced performance in several perturbed tasks, especially Conclusion from Sentiment and Automatic Change Knowledge. Furthermore, we see decreases in accuracy for many sanity check tasks, which have a similar structure as false belief tasks, but do not test the Theory of Mind capabilities. This suggests that CoT-P introduces helpful structure, but if early details - like modifiers to the reasoning process or perceptive abilities of the protagonist (e.g. they cannot read) - are crucial for arriving at the correct reasoning steps and answer, the task becomes challenging. This also happens when the model is asked for the true world state instead of the protagonist’s belief state. This may be explained by the fact that the weight of intermediate information and reasoning steps with regards to the final answer decrease, leading to incorrect results. Thus, our results indicate that an application of CoT prompting techniques and improvements to the reasoning processes of the models ought to be selective. Moreover, perturbations affecting the spatial
| Perturbation Class | Llama : | - | Vicuna | Mixtra | Yi4D.Ch | Llama 3 | DBRX | Average | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ’0B Ch | at | 3B v1. | 3 | - 82 | ×7B In | st. | 4B Ch | at | OB Ins | ι. | Instruc | t | (a | ll mode | 1S) | ||||||
| V-P | CoT | ATE | V-P | CoT | ATE | V-P | CoT | ATE | V-P | CoT | ATE | V-P | CoT | ATE | V-P | CoT | ATE | V-P | CoT | ATE | |
| No Perturbation | 61.5 | 76.9 | +15.4 | 27.3 | 81.8 | +54.6 | 92.9 | 78.6 | -14.3 | 42.9 | 100.0 | +57.1 | 100.0 | 100.0 | +0.0 | 78.6 | 100.0 | +21.4 | 67.2 | 89.6 | +22.4 |
| Overall | 46.6 | 46.6 | +0.0 | 42.7 | 49.6 | +6.8 | 47.4 | 50.4 | +3.0 | 46.5 | 48.8 | +2.3 | 62.5 | 69.9 | +7.4 | 53.7 | 57.5 | +3.7 | 49.9 | 53.8 | +3.9 |
| Transparent Container | 28.6 | 28.6 | +0.0 | 69.2 | 53.9 | -15.4 | 7.1 | 35.7 | +28.6 | 42.9 | 28.6 | -14.3 | 42.9 | 57.1 | +14.3 | 42.9 | 57.1 | +14.3 | 38.9 | 43.5 | +4.6 |
| Preposition Replacement | 20.0 | 0.0 | -20.0 | 40.0 | 30.0 | -10.0 | 20.0 | 20.0 | +0.0 | 60.0 | 30.0 | -30.0 | 20.0 | 40.0 | +20.0 | 37.5 | 25.0 | -12.5 | 32.9 | 24.2 | -8.8 |
| Uninformative Label | 12.5 | 0.0 | -12.5 | 37.5 | 25.0 | -12.5 | 50.0 | 25.0 | -25.0 | 25.0 | 12.5 | -12.5 | 25.0 | 37.5 | +12.5 | 62.5 | 62.5 | +0.0 | 35.4 | 27.1 | -8.3 |
| Late Label | 53.9 | 61.5 | +7.7 | 33.3 | 75.0 | +41.7 | 42.9 | 42.9 | +0.0 | 38.5 | 23.1 | -15.4 | 42.9 | 42.9 | +0.0 | 64.3 | 57.1 | -7.2 | 45.9 | 50.4 | +4.5 |
| Non Protagonist Belief | 64.3 | 71.4 | +7.1 | 66.7 | 77.8 | +11.1 | 69.2 | 84.6 | +15.4 | 57.1 | 50.0 | -7.1 | 92.9 | 92.9 | +0.0 | 78.6 | 85.7 | +7.1 | 71.5 | 77.1 | +5.6 |
| Automatic Change Knowledge | 60.0 | 40.0 | -20.0 | 37.5 | 25.0 | -12.5 | 60.0 | 30.0 | -30.0 | 66.7 | 66.7 | +0.0 | 50.0 | 50.0 | +0.0 | 60.0 | 50.0 | -10.0 | 55.7 | 43.6 | -12.1 |
| Add Unrelated Information | 57.1 | 85.7 | +28.6 | 50.0 | 35.7 | -14.3 | 64.3 | 100.0 | +35.7 | 64.3 | 64.3 | +0.0 | 100.0 | 100.0 | +0.0 | 64.3 | 85.7 | +21.4 | 66.7 | 78.6 | +11.9 |
| Induction From Baseline | 54.6 | 36.4 | -18.2 | 63.6 | 45.5 | -18.2 | 50.0 | 50.0 | +0.0 | 36.4 | 54.6 | +18.2 | 66.7 | 91.7 | +25.0 | 33.3 | 33.3 | +0.0 | 50.8 | 51.9 | +1.1 |
| Untrustworthy Testimony | 33.3 | 58.3 | +25.0 | 0.0 | 50.0 | +50.0 | 50.0 | 66.7 | +16.7 | 33.3 | 66.7 | +33.3 | 66.7 | 75.0 | +8.3 | 33.3 | 50.0 | +16.7 | 36.1 | 61.1 | +25.0 |
| Conclusion From Sentiment | 50.0 | 21.4 | -28.6 | 36.4 | 36.4 | +0.0 | 14.3 | 0.0 | -14.3 | 46.2 | 30.8 | -15.4 | 50.0 | 57.1 | +7.1 | 28.6 | 7.1 | -21.4 | 37.6 | 25.5 | -12.1 |
Table 1: Accuracy (as percentages %) per perturbation class and model, comparing Vanilla prompting (V-P) vs Chain-of-Thought (CoT). Underline denotes performance above 50%, and bold denotes the best model performance on the data subset. ATE reports the signed absolute change (CoT–V-P), with improvements in green and deteriorations in red. We additionally report the Average over all models.
| Type Point- | ROUGE-LCS PROUGE-LCPS P | 0.3910.390 | 0.5160.482 | 0.3040.242 | 0.2450.212 | 0.3980.370 | 0.2350.214 |
|---|---|---|---|---|---|---|---|
| BiserialCorrelation | TransitionOverlap | 0.476 | 0.501 | 0.281 | 0.229 | 0.435 | 0.224 |
| PhiCoefficient | CoTCorrectness | 0.549 | 0.342 | 0.429 | 0.306 | 0.584 | 0.489 |
Table 2: Faithfulness: Correlations between CoT-correctness and Final Answer Correctness for all models. Moderate to strong correlations suggest that models rely on their rationales, although other effects are present. P-values for these correlations are below the P = 0.05 threshold.
reasoning of a ToM task remain challenging regardless of the prompting technique.
6.3 Faithfulness of Final Answer to CoT
Summary
이 섹션에서는 Chain-of-Thought (CoT) 추론의 정확성과 최종 답변의 일관성 간의 상관관계를 분석한 결과를 제시한다. Table 13에 따르면, 모델 크기와 최신성에 따라 CoT-정확성과 최종 답변의 일관성 간 상관관계가 강해지는 경향을 관찰할 수 있으며, 특히 대규모 모델(예: Llama-3-70B, DBRX)에서 이 상관관계가 가장 두드러진다. Rouge-LCS, Rouge-LPS, Transition Overlap과 같은 근사적 일관성 측정 지표는 Proper Subsequence(정확한 부분 수열)라는 정밀한 지표와 동일한 추세를 보이지만, 상관관계 강도는 일반적으로 낮으며, Vicuna 모델에서 추세가 반전되는 예외 사례도 존재한다. 이는 단순한 측정 방법의 제한된 유용성(limited utility)을 시사하며, CoT 추론 과정의 신뢰성 평가에 있어 정확한 지표의 중요성을 강조한다.
In Table 13 we observe significant, mostly strong correlations between all measures of CoT- and final-answer - correctness, with it being strongest in larger and more recent models. We conclude models to be mostly faithful, though there also seem to be other influences present. When comparing the three approximative measures of faithfulness (Rouge-LCS, Rouge-LPS, and Transition Overlap) to the precise measure (Proper Subsequence), we note that they generally follow the same trends. Nevertheless, the correlations are usually smaller and there are a few outliers (inversion of the trend in Vicuna), indicating a limited utility of these simpler methods.
6.4 Placebo Effect
Summary
이 섹션에서는 Chain-of-Thought (CoT) 프롬프팅 전략의 효과가 모델의 CoT 추론 정확도(CoT correctness)에 의존함을 밝히며, Mixtral 모델을 제외한 대부분의 모델에서 이 현상이 관찰되었다. 그러나 Mixtral은 잘못된 CoT 추론(incorrect CoTs)에도 불구하고 CoT-P 전략 하에서 성능 향상(placebo effect)을 보였는데, 이는 추론 단계에서의 편향(biases)이 원인일 수 있다고 분석되었다. 이 예외 사례를 고려하더라도, 전체적으로 CoT 추론의 정확성과 타당성이 최종 답변 도출에 핵심적인 역할을 한다는 결론을 내렸다. 특히, Placebo Effect는 CoT 프롬프팅이 단순히 추론 단계를 유도하는 것만으로는 효과가 없음을 시사하며, 논리적 추론의 질(reasoning quality)이 모델 성능에 직접적으로 영향을 미친다는 점을 강조한다.
The substantial positive effect of switching to CoT prompting can only be observed when the corresponding CoTs are correct - in most models. The only exception is Mixtral, where we witness a placebo effect (Figure 5). This is indicated by the improved performance under CoT-P, despite generating incorrect CoTs. A reason might be potential biases in reasoning steps. Despite this negative example, in general we
conclude that CoT correctness and reasoning play an important role in arriving at the correct final answer.
7 Discussion
Summary
이 섹션에서는 LLMs의 “이론적 사고”(Theory of Mind, ToM)에 대한 견고성(robustness)에 대한 허위 인식을 비판하며, Llama-3-70B와 DBRX와 같은 모델이 고전적 가짜 신념 작업에서 인간 기준을 초과하는 성능을 보이더라도, 투명 컨테이너나 전치사 교체와 같은 변형 작업(perturbations) 하에서 성능이 급격히 하락한다는 점을 강조한다. 이는 모델들이 표면적 휴리스틱(superficial heuristic)에 의존하고 있으며, 진정한 일반화된 정신 모델을 유지하지 못함을 시사한다. 또한, Chain-of-Thought (CoT) 프롬프팅의 효과는 상황에 따라 이중적인 결과를 보이며, 일부 변형 클래스에서는 성능 향상을 유도하지만, 다른 클래스에서는 예상치 못한 성능 악화를 초래한다. 특히, **“감정 기반 결론”(Conclusion From Sentiment)**과 같은 클래스에서는 CoT가 V-P 대비 최종 정확도를 25.5%로 감소시키는 극단적인 경우도 관찰되었다. 그러나 대규모 모델(예: Llama-3-70B, DBRX)에서는 CoT 추론의 정확성과 최종 답변의 일관성 간 강한 양의 상관관계가 확인되어, 모델이 중간 추론 단계의 오류로 인해 실패하는 경우가 많음을 밝힌다. 이는 ToM 견고성을 높이기 위해 추론 능력 개선(예: 더 나은 훈련 데이터, 유도 추론)이 필요함을 시사한다. 특히, Mixtral 모델에서는 CoT-P 전략 하에서 비정확한 추론(incorrect CoTs)이 오히려 최종 답변의 정확도에 긍정적인 영향을 미치는 placebo effect가 관찰되며, 이는 추론 단계의 편향이 원인일 수 있음을 시사한다.
The Illusion of Robustness Our results lend empirical support to the skepticism regarding “emergent” Theory of Mind in LLMs. While models like Llama-3-70B and DBRX achieve high accuracy on classic false-belief tasks—often exceeding human baselines—this competence appears brittle. The steep performance drop observed under perturbations such as Transparent Container and Preposition Replacement suggests that these models rely on superficial heuristic matching (e.g., associating “looking inside” with “knowing”) rather than maintaining a robust, generalized mental model of the agent. This aligns with Ullman [2023]‘s hypothesis that current successes are likely instances of “ostensible” rather than “robust” Theory of Mind.
The Double-Edged Sword of CoT Contrary to the prevailing assumption that Chain-of-Thought (CoT) prompting universally enhances reasoning, our data reveals a more complex picture. While CoT proved beneficial for tasks from some perturbation classes, it unexpectedly degraded performance in other classes. This suggests that CoT can introduce noise or “reasoning hallucinations” when the underlying logic is not symbolic or math-heavy. Consequently, CoT should not be treated as a default solution for social reasoning tasks; its application must be selective and tailored to the specific complexity of the perturbation.
Faithfulness and Reasoning Fidelity A critical finding of our study is the strong positive correlation between the correctness of the generated reasoning traces (CoT) and the accuracy of the final answers, particularly in larger models. This implies a high degree of faithfulness—models are generally not “making up” reasoning about ToM to justify a predetermined guess, but rather fail because their intermediate reasoning steps are flawed. This distinction is vital: it suggests that improving the reasoning capabilities of LLMs (e.g., through better training data or guided reasoning) is a viable

Figure 5: Comparison of effect strengths of CoT prompting given (a) incorrect (left-hand side) and (b) correct (right-hand side) reasoning rationales. Among all the evaluated models, we observe a placebo effect only in Mixtral, where incorrect reasoning (right) can even have a larger positive effect on final answer correctness than correct reasoning chains.
path toward robust ToM, as the models largely adhere to the logic they generate.
Limitations and Future Work
Summary
이 섹션에서는 본 연구의 한계와 향후 연구 방향을 논의한다. 첫째, CoT 추론의 정확도(CoT correctness) 평가 지표는 구조화된 추론 출력에 의존하며, 이는 작은 규모나 지시사항 훈련이 부족한 모델에서 일관되게 생성되지 않아 평가 범위에 제한을 초래한다. 그러나 작은 모델의 지시사항 준수 능력이 급격히 향상되고 있어, 이는 향후 문제가 되지 않을 것으로 예상된다. 둘째, 데이터셋이 가짜 신념(false belief) 작업에만 초점을 맞추고 있어, 희망 추론(desire reasoning)이나 문맥 오류 감지(faux pas detection)와 같은 다른 이론적 사고(Theory of Mind, ToM) 차원을 누락한 점이 한계로 꼽힌다. 향후 합성 데이터 생성(synthetic data generation)을 통해 대규모 데이터셋 확장이 필요하다는 점이 제시되었다. 셋째, 현재 평가 대상은 오픈소스 모델에 한정되었으며, 프로피타리 모델(proprietary models)인 GPT, Claude, Gemini는 재현 가능성 확보를 위해 제외되었다. 또한, 변형 작업(perturbed tasks)에 대한 인간 성능 데이터 수집은 LLM과 인간의 추론 차이를 명확히 비교하는 데 필수적이다. 마지막으로, SIMTOM[Wilf et al., 2023]과 같은 대안적 프롬프팅 접근법(prompting approaches)이나 기반 모델(agent-based architectures), 기호적 접근(symbolic approaches)을 활용한 연구는 더 견고하고 해석 가능한 ToM 구현에 기여할 수 있으며, 본 연구의 데이터셋과 방법론을 통해 탐구할 수 있을 것으로 기대된다.
While our work provides a structured investigation into the Theory of Mind robustness and reasoning faithfulness in LLMs, several limitations remain. First, our primary metrics for CoT correctness rely on structured reasoning outputs, which smaller or less instruction-tuned models often fail to produce consistently. This restricts our ability to evaluate such models using our most precise metrics. However, due to the rapid improvement in instruction following even in very small models, we do not expect this to be an issue in the future. Second, the dataset is focused solely on false belief tasks, leaving out other important Theory of Mind dimensions such as desire reasoning or faux pas detection. Broadening the task diversity could yield deeper insights into the social cognition of LLMs. However, applying a manual data creation process as in the present is likely too expensive to scale to large datasets. Hence, future work may resort to LLMs for synthetic data generation. Third, our current evaluation and analysis is limited to open-source models, excluding leading proprietary models such as GPT, Claude, or Gemini to ensure reproducibility. Furthermore, gathering new human performance data on the perturbed tasks would provide critical baselines and allow for more meaningful comparisons between LLMs and human reasoning and how far current models deviate from human-level performance and understanding in these scenarios. Finally, exploring alternative prompting approaches such as SIMTOM [Wilf et al., 2023], which filters context into protagonist-perspective views, agent-based architectures, and symbolic approaches that explicitly model narrator and character states separately, could lead to more robust and interpretable ToM in LLMs, which could be in turn investigated using our dataset and approach in this work.
8 Conclusion
Summary
이 섹션에서는 대규모 언어 모델의 Theory of Mind (ToM) 견고성(robustness)을 평가하기 위한 구조화된 방법론을 제시하며, 10개의 변형 클래스(perturbation classes)와 1088개의 수작업 예제로 구성된 새로운 ToM 벤치마크를 소개한다. 또한 구조화된 Chain of Thought(CoT) 기반의 신뢰성 평가 프레임워크를 제안하고, 이를 위해 수작업으로 주석을 생성하였다. 평가 결과, 4개의 모델이 변형 없이 ToM 유사한 행동(ostensible ToM)을 보였으나, Llama 3 70B와 DBRX만이 5개의 변형 클래스에서 최소 50% 이상의 정확도(≥50% accuracy)를 유지하는 제한된 견고성(limited RToM)을 보였다. 공간 추론 작업(spatial reasoning tasks)은 모든 모델에 지속적으로 도전이었으며, 이는 ToM과 공간 인지 통합의 한계를 시사한다. Chain-of-Thought 프롬프팅(CoT-P)은 Untrustworthy Testimony 및 Add Unrelated Information 작업에서 성능 향상을 유도했으나, Automatic Change Knowledge 및 Conclusion from Sentiment 작업에서는 성능 저하를 초래하는 혼합된 결과를 보였다. CoT 추론의 정확성(CoT correctness)은 최종 답변 정확도(final answer accuracy)와 강한 상관관계를 보이며, 특히 대규모 모델(예: Llama 3 70B, DBRX)에서 이 관계가 두드러졌다. 또한, Mixtral 모델은 잘못된 CoT 추론(incorrect CoTs)에도 불구하고 CoT-P 전략 하에서 성능 향상(placebo effect)을 보였으나, 이는 추론 단계의 편향(biases) 때문일 가능성이 있다. 이 연구는 LLMs의 ToM 능력이 여전히 취약한 상태이며, CoT 프롬프팅의 잠재력과 함정(promise and pitfalls)을 드러내며, 엄격한 평가 도구의 필요성을 강조한다. 제안된 벤치마크와 프레임워크는 견고하고 설명 가능한 ToM 추론(robust and explainable ToM reasoning)에 대한 미래 연구의 기초를 제공한다.
We present a structured evaluation of Theory of Mind robustness in large language models, introducing a new ToM benchmark consisting of 10 perturbation classes and 1088 handcrafted examples. Furthermore, we propose a faithfulness evaluation framework based on structured Chains of Thought, for which annotations were also created manually. Our findings show that four models demonstrate ostensible ToM on unperturbed tasks, but only Llama 3 70B and DBRX maintain limited robustness under perturbations. Spatial reasoning tasks persistently challenge all models, suggesting limitations in integrating ToM with spatial cognition. We find that Chain-of-Thought prompting can improve performance, particularly on unperturbed tasks, Untrustworthy Testimony, and Add Unrelated Information. However, CoT-P degrades performance in control tasks, Automatic Change Knowledge and Conclusion from Sentiment, indicating that it must be applied selectively. All evaluated models exhibit some degree of reasoning faithfulness, with CoT correctness positively correlated with final answer accuracy. Among tested CoT metrics, our novel metric based on proper subsequences offer the most precise evaluation of CoT correctness, while ROUGEbased approximations should be used with caution due to variability. Only one model showed placebo effects, where CoT structure alone improved performance; in general, correct CoTs are required for performance gains. Together, these findings highlight the fragility of ToM capabilities in LLMs, the promise and pitfalls of CoT prompting, and the need for rigorous evaluation tools. Our benchmark and framework offer a foundation for future research on robust and explainable ToM reasoning in LLMs. Ultimately, genuine ToM-like reasoning in LLMs remains fragile, but targeted prompting and structured evaluation offer a path forward.
Ethical Considerations
Summary
이 섹션에서는 데이터셋이 저자들에 의해 완전히 수작업으로 작성되었으며, 대규모 인력 참여 없이 생성되었음을 강조한다. 하위 작업은 규칙 기반 템플릿 인스턴스화를 통해 생성되었으며, 이는 기존 연구([Kosinski] 참조)의 방법을 따르는 것이며, 이러한 접근 방식은 조작/사기(manipulation/deception)와 정신 모델 추론에서의 편향 확대(bias amplification)와 같은 이중 용도 위험(dual-use risk)을 야기할 수 있음을 주의 깊게 지적한다. 다만, 시나리오가 가상의 상황에 기반하고 개인 데이터를 포함하지 않으므로 개인정보 보호 문제(privacy concerns)는 완화되었음을 밝힌다.
The dataset is entirely hand-written by the authors, without crowd-sourced labor. Sub-tasks are created by rule-based template instantiation (after Kosinski). While our work does not directly enable such applications, we note dual-use risk (manipulation/deception) and potential bias amplification in ToM-style reasoning; privacy concerns are mitigated because scenarios are fictional and contain no personal data.
Acknowledgements
Summary
이 섹션에서는 연구에 기여한 Bender 클러스터의 제공을 **University of Bonn의 Hochschulrechenzentrum (HRZ)**에 감사함을 밝히며, 이 자원이 연구의 계산 실험에 필수적이었다고 강조하였다. 또한, North Rhine-Westphalia 주와 Lamarr Institute for Machine Learning and Artificial Intelligence, **Bonn-Aachen International Center for Information Technology (b-it)**의 지원을 언급하였다. Michal Kosinski (Stanford University)에게 그의 데이터셋의 공개를 통해 본 연구의 초기 벤치마크 설계에 중요한 참고 자료를 제공한 점에 감사를 표하였다.
The authors gratefully acknowledge the granted access to the Bender cluster hosted by the University IT and Data Center (Hochschulrechenzentrum, HRZ) at the University of Bonn, which was essential for the computational experiments in this work. This research was supported by the state of North Rhine-Westphalia as part of the Lamarr Institute for Machine Learning and Artificial Intelligence and the Bonn-Aachen International Center for Information Technology (b-it), University of Bonn.
We thank Michal Kosinski (Stanford University) for making his dataset publicly available, which served as an important reference for our initial benchmark design.
