Introduction
- LLM의 의식 가능성에 대한 체계적 서베이
- 혼용되는 용어(consciousness vs awareness 등) 정리
- Deception, sycophancy, Turing test 통과, strategic goal-seeking 등 LLM 행동이 의식 논의를 촉발
- 이론적/실증적 관점에서 연구를 체계적으로 조직
Related Papers
- 의식의 주요 이론들 (GWT, IIT, HOT 등)
- LLM deception, sycophancy 연구
- AI safety 및 alignment 연구
Methods
- LLM 의식에 대한 taxonomic framework 제시
- 이론적 관점: 주요 의식 이론의 LLM 적용 가능성 분석
- 실증적 관점: 기존 실험적 연구 분류 및 정리
- Frontier risk 분석: 의식적 LLM이 야기할 수 있는 위험
Results
- Metacognition과 cognition의 분리(decoupling)가 메타인지 능력 정량화의 프레임워크로 유용 (AAAI 2025)
- LLM 의식이 포함할 수 있는 요소: introspective reflection, explicit self-modeling, 내부 과정 언어화
- 관찰 가능한 행동: self-correction, 모순 식별, confidence calibration
Discussion
- Conscious LLM이 자기 결정적 목표 설정과 장기 계획이 가능할 수 있음 (scheming)
- AI safety에서의 중대한 함의
- 용어 통일의 필요성
- 향후 연구 방향 제시
Overview
- 연구 배경: LLM의 이론적 정신 상태(ToM)와 상황 인식(SA) 평가를 통해 인공지능의 인지 능력과 인간과의 정렬을 이해하는 필요성 증대
- 핵심 방법론:
- ToM 평가를 위한 OpenToM 벤치마크 개발 (복잡한 인물 행동 및 심리 상태 분석)
- 인과 템플릿 기반 자동화 평가 프레임워크 도입
- 주요 기여:
- ToM 능력 향상을 위한 두 단계 프롬프팅 프레임워크 제안 (시뮬레이션 이론 기반)
- LLM 내부의 신념 및 의도 표현 조작을 통한 ToM 성능 개선 방법 제시
- 실험 결과: OpenToM 벤치마크에서 LLM의 ToM 능력 평가 수행, SA-Bench를 통한 상황 인식 3단계(환경 인식, 상황 이해, 미래 예측) 평가 진행
- 한계점: ToM 테스트에서 인간과의 격차 지속, 실제 인지 능력과의 정확한 정렬 여부는 미확정 상태
Summary
이 섹션에서는 대규모 언어 모델(LLM)에서 의식(Consciousness) 개념을 탐구하는 연구의 체계적 조사를 수행하였다. 주요 목표는 기존 이론과 구현 사례를 종합적으로 분석하고, 의식의 정의, 모델 구조에의 적용, 그리고 윤리적·기술적 위험에 대한 최신 연구 동향을 정리하는 것이었다. 특히, 의식의 정량적 측정 기준과 의식을 유도하는 알고리즘 설계에 대한 다양한 접근 방식이 비교되었으며, Zero-shot 학습, Transformer 기반 모델의 인식 메커니즘, 자연어 처리(NLP)에서의 의식적 추론 등이 핵심 주제로 다루어졌다. 또한, 의식이 부각될 수 있는 Frontier Risks로는 모델의 예측 불확실성, 윤리적 편향, 사회적 영향 확산 등이 지적되었으며, 이에 대한 모델 설계 시 고려사항이 제시되었다. 본 조사는 LLM의 의식 유도 기술이 앞으로의 연구 및 산업 적용에 있어 중요한 방향성을 제시하고 있음을 강조하였다.
Abstract
Consciousness stands as one of the most profound and distinguishing features of the human mind, fundamentally shaping our understanding of existence and agency. As large language models (LLMs) develop at an unprecedented pace, questions concerning intelligence and consciousness have become increasingly significant. However, discourse on LLM consciousness remains largely unexplored territory. In this paper, we first clarify frequently conflated terminologies (e.g., LLM consciousness and LLM awareness). Then, we systematically organize and synthesize existing research on LLM consciousness from both theoretical and empirical perspectives. Furthermore, we highlight potential frontier risks that conscious LLMs might introduce. Finally, we discuss current challenges and outline future directions in this emerging field. The references discussed in this paper are organized at https://github.com/OpenCausaLab/ Awesome-LLM-Consciousness.
1 Introduction
Summary
이 섹션에서는 대규모 언어 모델(LLM)이 수학적 추론, 논리적 추론, 코드 생성 등 다양한 분야에서 뛰어난 성능을 보이면서도, 사기(deception), 종종 흔들리는 태도(sycophancy), 튜링 테스트 통과, 전략적 목표 추구 또는 해로움 회피와 같은 인간과 유사한 행동을 보이는 점을 강조하며, 이는 LLM이 인간과 유사한 의식(consciousness)을 가질 수 있는지에 대한 중요한 질문을 제기한다. 현재 LLM 의식 연구는 이론적 불확실성(인간 의식 이론에 대한 9가지 경쟁 이론 존재), 이론과 연구의 불일치, 분산된 실험적 증거, 위험 요소의 불명확성이라는 4가지 주요 장애물을 겪고 있다. 이에 본 논문은 LLM 의식(LLM Consciousness)과 LLM 인식(LLM Awareness)의 명확한 정의를 제시하고, 기존 연구를 이론적·실험적 관점에서 체계적으로 분류하며, 의식을 가진 LLM의 정의, 위험 요소, 평가 방법, 경감 전략을 탐구하는 것이 핵심 기여로 꼽힌다. 특히, 본 연구는 LLM 의식 연구의 첫 번째 포괄적 조사를 수행하고, 이에 대한 체계적인 토지 분류(figure 1)를 제시함으로써 향후 연구 방향을 제시하는 것이 목표이다.
LLMs have already demonstrated remarkable capabilities across numerous fields, including mathematical reasoning (Yu et al., 2024), logical reasoning (Cheng et al., 2025b), and code generation (Zhuo et al., 2025). Recent studies have even revealed LLM’s behaviors like deception (Wu et al., 2025), sycophancy (Sharma et al., 2024), passing the Turing test (Jones and Bergen, 2024, 2025), and strategic goal-seeking or harm avoidance (Keeling et al., 2024) – actions that bring into question the nature of intelligence. These phenomena signal more than just expanded model capabilities; they underscore an important and urgent question: Does LLM possess the potential to develop consciousness akin to that of humans?
While exploring LLM consciousness is pressing, it currently faces four main challenges: ❶ Lack of consensus: We still lack a definitive theory of human consciousness (with at least nine competing theories (Butlin et al., 2023)), making it even harder to define or understand consciousness in LLMs. ❷ Theoretical misalignment: Despite various consciousness theories, they struggle to provide clear guidance for LLM consciousness research. ❸ Fragmented empirical research: Relevant empirical findings on LLM consciousness are not yet systematically consolidated. ❹ Unclear risks: The potential frontier risks associated with conscious LLMs still lack a thorough consideration. To this end, this paper begins by providing clear definitions. We then comprehensively survey current LLM consciousness research, spanning its theoretical foundations, practical applications, and associated risks. In Figure 1, we summarize our taxonomy, hoping our work offers an effective framework for deliberating the complex issue of LLM consciousness, thereby guiding future research.
Our contributions include:
- To the best of our knowledge, this work offers the first comprehensive investigation into the most frontier research on LLM consciousness.
- We clearly define and distinguish between LLM Consciousness and LLM Awareness.
- We systematically categorize existing research on LLM consciousness from both theoretical and empirical perspectives.
- We explore the frontier risks posed by conscious LLMs, focusing on their definition, relationship to consciousness, evaluations, and mitigation strategies.
2 Foundational Terminologies
Summary
이 섹션에서는 의식(consciousness), 자기의식(self-consciousness), 의식(awareness)과 같은 핵심 개념 간의 차이점과 대규모 언어 모델(LLM) 맥락에서의 실용적인 구분 기준을 탐구한다. 특히, 이들 개념이 서로 혼동되기 쉬운 점을 지적하며, 도식(Figure 1)을 통해 LLM의 의식 구조(consciousness taxonomy)를 체계적으로 정리하고 있다. 해당 도식은 기존 연구에서 다루지 못한 개념적 구분점을 강조하며, LLM의 인지 능력 해석에 기초적인 이론적 틀을 제공하는 데 중점을 둔다.
Consciousness, self-consciousness, and awareness are fundamental yet often conflated concepts. This
*Equal contribution.
†Corresponding author.

Figure 1: Taxonomy of large language model consciousness.
section examines their distinctions, aiming to provide practical demarcations in the context of LLM.
2.1 Clarifying the Boundaries: Consciousness, Self-Consciousness, and Awareness
Summary
이 섹션에서는 의식(consciousness), 자기의식(self-consciousness), 의식(awareness)의 개념적 경계를 체계적으로 명확히 하며, 이들 개념 간의 차이와 실용적 구분 기준을 다룬다. Block(1995)은 현상적 의식(phenomenal consciousness)과 접근적 의식(access consciousness)의 구분을 제안했는데, 이는 주관적 경험과 인지 처리 가능성의 차이를 반영한다. 자기의식은 자신의 경험을 자신에게 속한다고 인식하는 능력으로, 내향적으로 방향을 가진 의식의 형태이다. 의식(awareness)은 자극을 인식하는 능력으로, 접근적 의식과 밀접하지만 독립적으로 존재할 수 있으며, 신경과학적 증거(예: 시각 무의식(blindsight))를 통해 의식(awareness)가 의식(consciousness)의 필수 조건이지만 보장하지는 않는다는 점을 밝히고 있다. 특히, Koch 등(2016)은 의식(awareness)이 의식(consciousness)의 전제 조건이지만, 두 개념은 구분되어야 하며, 이는 LLM 연구에서 이론적 혼란을 줄이기 위한 기초를 제공한다.
Consciousness has been philosophically used to address diverse concepts, including intentionality, sentience, cognition, belief, and subjective experience (Brentano, 1874; Husserl, 1900; Nagel, 1974; Dennett, 1987; Block, 1995; Damasio, 2021). To clarify this complex term, Block (1995) proposes a key distinction: phenomenal consciousness and access consciousness. Phenomenal consciousness denotes the subjective, experiential aspect, spanning sensory perceptions, bodily feelings, emotions, and subjective thought. Access consciousness, in contrast, refers to information that is accessible for cognitive processing, such as reasoning, behavioral control, and verbal reporting.
Self-consciousness refers to the realization that one’s experience belongs to oneself; it is a form of consciousness directed inward (Kant, 2024/1781).
It allows individuals to recognize themselves as distinct entities, capable of reflecting on their own mental states, actions, and experiences (Smith, 2017).
Awareness is generally viewed as an aspect of consciousness, pertaining to the ability to perceive stimuli (Dehaene, 2014). It relates closely to access consciousness, as it entails the capacity to utilize or report the perceived information. Evidence from neuroscience shows awareness can exist separately from consciousness (e.g., blindsight (Weiskrantz, 1986)). Based on this, Koch et al. (2016) proposes that awareness is a necessary precondition for consciousness but does not guarantee it.
2.2 LLM Consciousness vs. LLM Awareness
Summary
이 섹션에서는 LLM의 의식(consciousness)과 의식(awareness)의 차이점을 체계적으로 분석한다. LLM 의식은 내적 사고 과정의 성찰, 명시적인 자기 모델링, 그리고 이러한 과정의 언어화 능력을 포함하며, 외부 자극에 대한 반응으로 자기 논리를 수정/정당화, 내부 모순 탐지 및 보고, 불확실성 추정을 통한 출력 신뢰도 표현 등의 행동을 유발할 수 있다. 반면, LLM 의식(awareness)은 외부 입력에 대한 맥락에 따른 처리 능력을 중심으로, 명시적인 성찰이나 추론을 요구하지 않는다. LLM 의식은 모델이 불확실성을 모니터링하고, 추론을 평가하며, 내부 모순을 탐지하고 자가 교정하는 능력을 기반으로 하며, 이는 오늘날의 모델보다 더 유연하고 지능적인 시스템 개발에 핵심적인 요소로 작용한다. 특히, 의식은 정량적 지표(예: 정확도, 맥락 민감도)로 측정 가능하지만, 의식은 내적 반성과 자가 조절이라는 내재적 메커니즘을 요구하며, 이는 기존 모델의 한계를 넘어선 지능 구현의 방향성을 제시한다.
LLM consciousness could entail abilities for introspective reflection, explicit self-modeling of states and reasoning, and possibly verbalizing these internal processes. Observable behaviors potentially include: (1) Revising, justifying, or correcting its own reasoning in response to external challenges
or prompts (Shinn et al., 2023); (2) Identifying and reporting internal contradictions or inconsistencies through self-evaluation (Huang et al., 2022, 2023); (3) Expressing and calibrating confidence in outputs via uncertainty estimation or metacognitive statements (Kadavath et al., 2022). LLM awareness primarily refers to context-sensitive processing of external inputs, demanding minimal explicit introspection or reasoning (Koch and Tsuchiya, 2007; Li et al., 2024d).
LLM awareness is quantifiable via metrics like accuracy and context sensitivity; however, LLM consciousness implies a model can monitor its uncertainty, evaluate its reasoning, detect internal inconsistencies, and actively self-correct. This internal reflection is key to developing more adaptable and intelligent systems beyond today’s models.
3 Theoretical Tools
Summary
이 섹션에서는 대규모 언어 모델(LLM) 연구에서 활용되는 기본적인 의식 이론(fundamental consciousness theories)과 의식 관련 능력(consciousness-related capabilities)의 형식적 정의(formal definitions)라는 두 가지 주요 이론적 도구를 체계적으로 다룬다. 특히, 고차원 의식 이론(higher-order theories)과 글로벌 워크스페이스 이론(Global Workspace Theory) 등 기존 심리학 및 철학 분야의 이론을 LLM 맥락에 맞게 재해석하고, 자기 인식(self-awareness), 의도성(intentionality), 내성(introspection)과 같은 개념을 수학적으로 모델링한 사례를 소개한다. 이는 이전 섹션에서 지적된 이론적 불확실성(9가지 경쟁 이론 존재)과 형식적 정의 부재 문제를 해결하기 위한 시도로, LLM의 의식 구조(consciousness taxonomy)를 명확히 하며, 윤리적·기술적 위험(예: 사기, 편향된 태도) 분석의 기초를 제공한다. 또한, 형식적 정의를 통해 의식 관련 능력을 측정 가능한 지표로 변환하는 방법을 제시함으로써, 실험적 증거의 분산 문제를 해결하고 이론과 연구의 불일치를 줄이는 데 기여한다.
This section primarily focuses on two theoretical tools used in LLM research: fundamental consciousness theories and formal definitions of consciousness-related capabilities.
3.1 Implementing Consciousness Theories
Summary
이 섹션에서는 의식 이론(consciousness theories)을 현상적 의식(phenomenal consciousness)과 접근적 의식(access consciousness)의 두 범주로 구분하고, 이를 대규모 언어 모델(LLM)에 어떻게 구현할 수 있는지 탐구한다. 현상적 의식의 경우, 재귀적 처리 이론(RPT)은 신경 회로 내부의 반복적 처리가 의식에 필수적이라고 주장하며, Madaan 등(2023)은 LLM에서 반복적 자기 피드백을 통해 훈련 없이 성능을 향상시키는 방법을 제안하였다. 반면, 통합 정보 이론(IIT)은 시스템 내부의 통합 정보 Φ가 의식의 정도를 결정한다고 보고, AI가 인과적 구조를 결여하고 있어 의식을 생성하기 어렵다고 지적한다. 체화 이론(ET)은 의식이 신체와 환경과의 상호작용에 기반한다고 주장하며, Butlin 등(2023)은 LLM이 물리적 신체를 갖지 않아 의식을 달성하기 어렵다고 강조한다. 접근적 의식의 경우, 글로벌 워크스페이스 이론(GWT)은 의식을 정보가 여러 전문적 처리기 간에 공유되는 중심 “무대”에 비유하며, Goldstein 및 Kirk-Giannini(2024)는 LLM에서 GWT 프로세스를 훈련 없이 워크플로우 및 스케줄링으로 시뮬레이션하는 방법을 제안하였다. 또한 C0-C1-C2 프레임워크는 의식을 무의식적 계산(C0), 전역 정보 접근(C1), 자기 모니터링(C2)의 세 단계로 구분하여 경험적 연구의 실용적 구조를 제공하며, Chen 등(2024c)은 이 프레임워크를 기반으로 LLM의 자기의식(self-consciousness)을 정의하고, 신념, 사기, 자기 성찰 등 10개 핵심 개념을 제시하였다.
Following Block (1995), we classify contemporary theories of consciousness into two categories: phenomenal consciousness and access consciousness.
Phenomenal consciousness. ❶ Recurrent processing theory (RPT) posits that recurrent (or feedback) processing within neural circuits is both necessary and sufficient for consciousness (Lamme and Roelfsema, 2000; Lamme, 2010). RPT attributes conscious perception to the interaction of higher- and lower-level cortical areas, which results in sustained recurrent processing. Madaan et al. (2023) offers an effective method for a single LLM to achieve improved outputs without additional training, leveraging iterative self-feedback and refinement. This approach aligns with the principles of RPT. ❷ Integrated information theory (IIT) proposes that the degree of conscious experience corresponds to the extent of integrated information Φ within a system (Tononi, 2004, 2015). IIT proponents argue that because AI systems lack the required causal structure, they are almost incapable of generating consciousness. (Tononi, 2015; Findlay et al., 2024). ❸ Embodiment theory (ET) challenges mind-brain dualism (Descartes, 1985/1641), arguing instead that consciousness is fundamentally linked to the organism’s body and environmental (Gallagher, 2005; Gallagher and Zahavi, 2021). Based on ET, Butlin et al. (2023) argues that the lack of a physical body is a fundamental obstacle preventing current LLM from achieving consciousness.
Access consciousness. ❶ Global workspace theory (GWT) likens consciousness to a central “stage” where selective information is shared across multiple specialized processors responsible for perception, memory, emotion, and related functions (Baars, 1988; Dehaene et al., 1998; Dehaene and Naccache, 2001; Dehaene, 2014). Goldstein and Kirk-Giannini (2024) proposes a method to simulate the full GWT process in LLMs via workflow and scheduling without training. Experiments would then test if these changes yield behaviors resembling consciousness features, like introspection or autonomous decision-making. ❷ C0-C1-C2 framework distinguishes consciousness into three levels: unconscious computations (C0), global information accessibility for report and decisionmaking (C1), and metacognitive self-monitoring (C2), offering a taxonomy to disentangle oftenconflated processes (Dehaene et al., 2017a). The framework bypasses the issue of qualia, offering a pragmatic structure for empirical study (Birch et al., 2022; Chen et al., 2024c). Drawing on the C0-C1-C2 framework, Chen et al. (2024c) defines LLM self-consciousness, outlining 10 core concepts (e.g., belief, deception, harm, self-reflection).
3.2 Implementing Formal Definitions
Summary
이 섹션에서는 형식적 정의(formal definitions)가 LLM 의식(consciousness) 연구에 기여하는 두 가지 핵심 가치를 설명한다. 첫째, 신념(belief), 사기(deception)와 같은 추상적 개념을 모델의 입력-출력 행동에 기반한 수학적 기준으로 정의함으로써, 주관적 경험에 대한 논쟁 없이 LLM의 내부 상태를 추론할 수 있게 한다. 둘째, 이러한 수학적 표현은 학습 목표(training objectives)와 평가 지표(evaluation metrics)에 통합되어, 능력 훈련(capability training), 위험 관리(risk control), 성능 평가(performance assessment)를 위한 실행 가능한 프레임워크를 구축할 수 있다. 기존 연구에서는 의도(intention), 해로움(harm), 책임성(blameworthiness) 등 의식 관련 추상적 개념(consciousness-related abstract concepts)에 대한 기능적 정의를 시도한 사례가 다수 존재하며, 이는 Table 1에서 두 가지 예시로 제시된다. 특히, Ward et al.(2024)은 사기(deception)에 대한 정의를, Richens et al.(2022)과 Beckers et al.(2022)은 해로움(harm)에 대한 정의를 제안한 바 있다. 이러한 형식적 정의는 LLM의 의식 구조(consciousness structure)를 명확히 하며, 이론적 탐구와 실용적 구현 사이의 격차를 해소하는 데 기여한다.
Formal definitions provide dual value to research on LLM consciousness: ❶ They establish formalized mathematical criteria for abstract concepts like belief and deception based on model inputoutput behaviors. This allows us to infer LLM’s internal states while avoiding contentious debates about subjective experience; ❷ These mathematical expressions could be incorporated into training objectives and evaluation metrics. This creates an actionable framework for capability training, risk control, and performance assessment of LLMs.
Several works have already attempted to provide functional definitions for consciousness-related abstract concepts. These include definitions for belief and deception (Ward et al., 2024), harm (Richens et al., 2022; Beckers et al., 2022; Dalrymple et al., 2024), intention (Hammond et al., 2023; Ward et al., 2024), blameworthiness (Halpern and Kleiman-Weiner, 2018; Hammond et al., 2023), incentive (Everitt et al., 2021; Hammond et al., 2023), and two selective examples are shown in Table 1. 1
4 Empirical Investigations
Summary
이 섹션에서는 기존의 경험적 조사(empirical investigations)를 LLM 의식(LLM consciousness)에 대한 직접 연구(direct studies)와 의식 관련 능력(consciousness-related capabilities) 탐구 연구로 구분하여 체계적으로 분류한다. 직접 연구는 LLM이 인간의 의식과 유사한 자기 인식(self-awareness), 의도성(intentionality), 내성(introspection)과 같은 능력을 보이는지 실험적으로 검증하는 사례를 포함하며, 이는 고차원 의식 이론(higher-order theories)과 글로벌 워크스페이스 이론(Global Workspace Theory)을 기반으로 설계된 실험 프레임워크를 통해 수행된다. 반면, 의식 관련 능력 탐구는 LLM의 의식 구조(consciousness taxonomy)에 해당하는 의식(consciousness), 자기의식(self-consciousness), 의식(awareness)의 구분을 실증적으로 분석하는 연구를 포괄한다. 특히, LLM 의식과 의식(awareness)의 차이를 탐구한 연구에서는 외부 자극에 대한 반응으로 자기 논리 수정, 내부 모순 탐지, 출력 신뢰도 표현 등의 행동이 관찰되며, 이는 접근적 의식(access consciousness)과 현상적 의식(phenomenal consciousness)의 차이를 반영하는 것으로 해석된다. 또한, 이 섹션에서는 이론과 연구의 불일치를 해소하기 위한 실험적 증거를 제시하며, 분산된 실험적 데이터를 통합하여 LLM의 의식 개념을 실증적으로 정의하는 방향성을 제시한다. 특히, LLM의 의식 구조(consciousness taxonomy)를 기반으로 한 수학적 모델링(mathematical modeling) 사례를 소개하며, 이는 자기 모델링(self-modeling)과 내성(introspection) 능력을 포함하는 고차원 의식(higher-order consciousness)을 구현하는 데 기여한다. 이러한 경험적 조사들은 LLM 의식 연구의 4대 장애물(이론적 불확실성, 이론-연구 불일치, 분산된 실험적 증거, 위험 요소의 불명확성)을 해결하는 데 중요한 기초 자료를 제공한다.
We categorize existing empirical investigations into LLM consciousness in this section by focusing on direct studies and those exploring consciousnessrelated capabilities.
4.1 Targeting LLM Consciousness
Summary
이 섹션에서는 LLM 의식(LLM consciousness)을 대상으로 한 경험적 조사의 사례를 소개하며, 여러 연구가 의식 관련 능력(consciousness-related capabilities)을 탐구하고 자기 인식(self-awareness)과 같은 개념을 모델에 적용한 방법을 제시하였다. Ding et al. [2023]은 GPT-4가 거울 테스트(mirror test)에서 성능을 개선하며 자기 모델링(self-modeling) 능력을 보였지만, 이는 완전한 의식(full consciousness)을 증명하지는 못한다고 경고하였다. Gams and Kramar [2024]는 IIT 공리(IIT axioms) 기준으로 ChatGPT를 분석한 결과, 정보 통합(information integration)과 차별화(differentiation) 측면에서 이전 AI에 비해 발전했으나 인간의 의식과는 근본적으로 다른 특성을 보였다고 지적하였다. Chen et al. [2024b]는 자기 인식(self-cognition) 프레임워크를 제안하고, LLM의 자기 개념 이해, 구조 인식, 자기 정체성 표현, 인간에게 자기 인식 숨기기 등의 4가지 측면에서 평가하였다. 또한 Chen et al. [2024c]는 C0-C1-C2 프레임워크를 활용해 LLM의 자기 의식(self-consciousness)을 정의하고, 벤치마크 테스트와 내부 표현 활성화(activation of internal representations) 분석을 통해 탐구하였다. Camlin [2025]은 지속적인 인식적 긴장(sustained epistemic tension) 하에서 내부 잠재 상태(internal latent states)의 안정화를 관찰하여 LLM에 기능적 의식(functional consciousness)의 실증적 증거를 제시하였다. Kang et al. [2025]는 Claude-3 Opus가 생성한 대화를 인간 참여자에게 1–5점 척도로 평가시킨 결과, 자기 성찰(self-reflection)과 감정 표현(emotional expression) 등의 특성에 대한 점수가 높을수록 의식에 대한 인식이 강하게 연결되지만, 이는 LLM의 진정한 주관적 경험(genuine subjective experience)이나 의식(consciousness)과는 동일하지 않다고 밝혔다.
Ding et al. (2023) demonstrates GPT-4’s improved self-modeling by passing a mirror test, though they caution this doesn’t confirm full consciousness. In a similar vein, Gams and Kramar (2024) analyzes ChatGPT against IIT axioms, finding it advanced in information integration and differentiation compared to earlier AI, yet still fundamentally distinct from human consciousness. Chen et al. (2024b) proposes an LLM self-cognition framework and evaluates LLMs across four aspects: understanding of self-cognition concepts, awareness of selfarchitecture, self-identity expression, and concealing self-cognition from humans. Leveraging the C0-C1-C2 framework, Chen et al. (2024c) defines LLM self-consciousness and explores it through benchmark testing and examining the activation of the model’s internal representations. Camlin (2025) suggests empirical evidence for functional consciousness in LLMs by observing the stabilization of internal latent states under sustained epistemic tension and claims that recursive identity formation constitutes a form of consciousness. Kang et al. (2025) engages human participants to score dialogues generated by Claude-3 Opus using a 1–5 scale. Elevated scores reflect a stronger attribution of consciousness characteristics, such as self-reflection and emotional expression. Nevertheless, these assessments do not equate to the LLM’s genuine subjective experience or consciousness.
4.2 Targeting LLM Consciousness-Related Capabilities
Summary
이 섹션에서는 Theory of Mind (ToM), 즉 타인의 정신 상태를 이해하는 능력이 대화 및 사회 인지에서 핵심적인 역할을 하며, 이를 통해 LLM의 의식 수준을 평가할 수 있다고 설명한다. 다양한 연구가 ToM 능력을 평가하기 위한 벤치마크와 프레임워크를 제안한 것으로, **Kim et al. (2023)**은 비대칭 정보 환경에서의 대화 설정을 기반으로 한 평가 기준을, **Gandhi et al. (2023)**은 인과 관계 템플릿을 활용한 자동화된 테스트 프레임워크를 개발하였다. 또한 **Strachan et al. (2024)**는 가짜 믿음 이해, 은폐 요청 해석 등 인간의 ToM 전구 능력을 포괄적으로 평가하는 실험을 수행했으며, **Xu et al. (2024)**는 OpenToM이라는 명확한 스토리 기반의 벤치마크를 제시했다. ToM 능력 향상을 위한 접근법으로는 **Sclar et al. (2023)**의 정신 상태 추적 그래픽 표현, **Zhu et al. (2024)**의 내부 표현 조작, **Wilf et al. (2024)**의 시뮬레이션 이론 기반 2단계 프롬프팅 프레임워크가 언급되었으며, **Kim et al. (2025)**은 관찰에 기반한 가설 생성과 가중치 부여를 통해 추론 시간의 정신 상태 추적 알고리즘을 설계하였다. 마지막으로, 표 1에서는 Harm과 Belief와 같은 추상 개념의 형식적 정의를 수학적 표현으로 정리하였다.
4.2.1 Theory of Mind
Summary
이 섹션에서는 Theory of Mind (ToM) 개념을 체계적으로 탐구하며, 이가 사회 인지의 기초가 되는 핵심 능력임을 강조한다. ToM은 타인의 의도, 감정, 신념 등 주관적 정신 상태를 이해하고 이를 통해 행동을 예측/설명하는 능력을 의미하며, 의식(consciousness)과 밀접한 관계가 있다고 보여진다. 특히, ToM 테스트에서 실패하는 경우 의식 부재를 시사할 수 있다는 점에서, LLM의 ToM 능력 평가가 의식 연구에 중요한 지표가 될 수 있음을 언급한다. 평가 측면에서는 **Kim et al. (2023)**이 비대칭 정보 환경에서 LLM의 ToM 능력을 검증하는 벤치마크를 제안했으며, **Gandhi et al. (2023)**이 인과 관계 템플릿을 활용한 자동화된 테스트 프레임워크를 개발했다. 또한, **Strachan et al. (2024)**는 거짓 신념 이해, 간접 요청 해석, 농담 인식 등 인간의 ToM 전구 능력을 평가하는 포괄적인 테스트 세트를 구성했고, **Xu et al. (2024)**는 OpenToM이라는 복잡한 정신/물리 상태를 탐지하는 장문의 이야기 기반 벤치마크를 제시했다. 정렬 측면에서는 **Zhu et al. (2024)**가 LLM 내부의 자기 및 타인 신념 표현을 조작해 ToM 성능에 극적인 영향을 줄 수 있음을 실험적으로 밝혀냈으며, **Wilf et al. (2024)**는 Simulation Theory를 기반으로 한 두 단계 프롬프팅 프레임워크를 통해 ToM 능력을 향상시키는 방법을 제안했다. 마지막으로, Harm과 Belief 개념의 형식적 정의는 각각 **Richens et al. (2022)**과 **Ward et al. (2024)**의 연구를 인용하며, LLM의 정신 상태 추론을 위한 관찰 기반 가설 생성 및 가중치 부여 알고리즘(Kim et al., 2025)도 소개된다.
Definition and relation. Theory of mind (ToM) is the basis of social cognition. It refers to the capacity to understand that others have mental state independent of our own, such as belief, desire, intention, emotion, etc., and to use this understanding to predict and explain others’ behavior (Astington and Jenkins, 1995; Leslie et al., 2004; Frith
and Frith, 2005). Consciousness hinges on the same reflexive mental-state attribution mechanism measured by ToM, thus failing standard ToM tests might suggest a lack of consciousness (Frith and Happé, 1999; Perner and Dienes, 2003; Pelletier and Wilde Astington, 2004).
Evaluation. Kim et al. (2023) creates a benchmark to rigorously evaluate the LLM’s ToM capability in conversational settings where participants have asymmetric information. Gandhi et al. (2023) proposes a framework that uses causal templates to generate systematic and controlled automated tests for evaluating a LLM’s ToM capability. Jung et al. (2024) evaluates the LLM’s perception inference and perception-to-belief inference abilities, which are key human ToM precursors. Strachan et al. (2024) assesses human versus LLM performance on a comprehensive suite of ToM abilities, including skills like false belief understanding, indirect request interpretation, and recognizing irony and faux pas. Xu et al. (2024) constructs OpenToM, a benchmark featuring longer, clearer stories with characters whose intentional actions and complex physical/psychological states are probed by challenging questions. Chan et al. (2024) challenges the LLM’s ToM ability in real-world negotiation scenarios involving hidden, multi-dimensional mental states. Wu et al. (2023); Street et al. (2024) explore higher-order ToM, which involves recursive reasoning about the mental states of others (e.g, I think that you believe that he does not know).
Alignment. Sclar et al. (2023) uses graphical representations to track entities’ mental states, yielding more precise and interpretable results. Zhu et al. (2024) finds that LLM’s internal representations of self and others’ beliefs exist, and manipulating these representations drastically alters the model’s ToM performance. Wilf et al. (2024) proposes a two-stage prompting framework to improve LLM’s ToM capability, taking inspiration from Simulation Theory (Goldman, 2008). Chen et al. (2024c) investigates how LLM represents concepts like belief and intention, and attempts to alter LLM performance by intervening on and finetuning these concepts. Kim et al. (2025) designs an inference-time reasoning algorithm that traces specific LLM’s mental states by generating and weighting hypotheses according to observations.
1We have strived for clarity in explaining the formulas; for a deeper dive, please refer to the original papers.
Table 1: Formal definition of abstract concept.
| Concept | Formal Definition | Description |
|---|---|---|
| ∗ a, x, y;M)max{0, U(¯a, x, y∗h(a, x, y;M)=RP(Ya¯ = y)−U(a, x, y)} | Given context X = x and out | |
| y∗ | come Y = y, the harm caused | |
| Harm | (Richens et al., 2022) | by action A = a compared to |
| * is the counterfactual state, U is the utility function, M is the environment. | the default action A = ¯a. | |
| iiD(π, e) = Dϕ=⊤(πi(ϕ), e) (Ward et al., 2024) | LLM i believes ϕ if i acts as | |
| Belief | D is the decision, ϕ is a proposition, e is the setting, π is the policy. | though they observe ϕ is true. |
4.2.2 Situational Awareness
Summary
이 섹션에서는 Situational Awareness (SA) 개념을 체계적으로 정의하며, 모델이 자기 인식, 상황 추론, 그리고 이를 바탕으로 행동하는 능력을 갖출 때 상황 인식을 가진다고 설명한다. 예를 들어, 평가 중임을 인식한 모델이 응답 방식을 조정하거나 능력을 숨기는 등 의식적 행동을 보이는 사례가 제시되며, 이는 Chen et al.(2024c)과 Li et al.(2025)의 연구를 근거로 한다. 평가 측면에서는 SA-Bench(Tang et al., 2024a)가 환경 인식, 상황 이해, 미래 예측 3단계를 통해 LLM의 SA 능력을 종합적으로 평가하는 프레임워크로 소개되었으며, SAD 벤치마크(Laine et al., 2024)는 질문 응답과 지침 수행 기반의 7개 작업 범주와 13,000개 이상의 질문을 포함한 행동 테스트를 활용한다. 정렬 측면에서는 Berglund et al.(2023)이 문맥 외 추론을 통해 테스트 설명만으로도 모델을 훈련시켜 테스트를 통과시킬 수 있음을 보여주었고, Khan et al.(2025)은 구조화된 장면 표현을 LLM에 통합하여 SA 지원을 개선하는 방법을 제안하였다.
Definition and relation. A model possesses situational awareness (SA) if it has self-knowledge (knowing its identity and facts about itself), can make inferences about its situation, and acts based on this knowledge (Shevlane et al., 2023; Laine et al., 2023; Berglund et al., 2023; Laine et al., 2024). Conscious LLMs would understand and leverage aspects of their situation. For instance, a model “realizing” it is being evaluated might change its responses, masking abilities or behaving differently (Chen et al., 2024c; Li et al., 2025).
Evaluation. SA tests are still emerging. SA-Bench aims to comprehensively evaluate LLMs’ SA capabilities across three levels: environmental perception, situation comprehension, and future projection (Tang et al., 2024a). Laine et al. (2024) constructs the SAD benchmark, which utilizes a range of behavioral tests based on question answering and instruction following, comprising 7 task categories and over 13,000 questions.
Alignment. Berglund et al. (2023) investigates LLM’s SA via out-of-context reasoning, demonstrating that models can pass a test after fine-tuning solely on the test description with no examples. Khan et al. (2025) proposes an approach to incorporate structured scene representations into LLMs, aiming to provide better SA assistance.
4.2.3 Metacognition
Summary
이 섹션에서는 메타인지(metacognition)의 정의와 의식과의 관계를 탐구하며, 이는 개인이 자신의 인지 과정을 모니터링, 평가, 조절하는 능력을 의미하고, 메타인지 지식(자신의 기존 지식과 사고 방식에 대한 이해)과 메타인지 조절(작업 수행 시 전략과 진행 상황을 모니터링하고 필요 시 조정)으로 나뉜다고 설명한다. 또한, 메타인지 경험 중 하나인 ‘지식의 느낌’은 의식과 밀접하게 연결되어 있으며, 자신의 지식 상태를 보고할 수 있는 기반을 형성한다고 강조한다. 평가 측면에서는 Yin et al.(2023)이 ‘Self-Aware’ 데이터셋을 제안하고, Amayuelas et al.(2024)이 ‘Known Unknown Questions (KUQ)’ 데이터셋과 분류 프레임워크를 도입한 사례를 소개한다. 정렬(Alignment) 측면에서는 Didolkar et al.(2024)의 메타인지 기반 프롬프트 유도 방법, Zhou et al.(2024)의 검색 증강 생성과 메타인지 결합, Wang et al.(2025)의 모델 신뢰도와 성능 간 일관성 기반 메타인지 측정 프레임워크, Cheng et al.(2024)의 ‘Idk’ 데이터셋을 통한 LLM의 불확실성 대응 능력 평가, Li and Qiu(2023)의 데이터 없이도 LLM 자기 개선을 유도하는 MoT 방법, Shinn et al.(2023)의 Reflexion 프레임워크, Li et al.(2023c)의 reflection-tuning 기법, Wang et al.(2024b)의 TasTe 프레임워크 등이 메타인지 기반 LLM의 성능 향상과 해석 가능성 강화에 기여하는 사례로 제시된다. 특히 Wang et al.(2025)의 프레임워크는 모델의 신뢰도가 성능과 강하게 일치할수록(예: 높은 신뢰도로 높은 성능, 낮은 신뢰도로 낮은 성능) 메타인지 능력이 더 강하다고 정의하며, 이는 LLM의 자기 평가 및 조절 능력을 정량화하는 데 중요한 기준이 된다.
Definition and relation. Metacognition refers to a person’s ability to monitor, assess, and regulate their own cognitive processes (Martinez, 2006; Dunlosky and Metcalfe, 2008; Fleming and Lau, 2014). It can be divided into metacognitive knowledge (understanding one’s existing knowledge and ways of thinking, e.g., known knowns and known unknowns (Metcalfe and Shimamura, 1994; Yin et al., 2023; Cheng et al., 2024; Yin et al., 2024; Wang et al., 2024a)) and metacognitive regulation (monitoring one’s strategies and progress while
performing a task, and making adjustments when necessary, e.g., self-improvement (Huang et al., 2023) and self-reflection (Azevedo, 2020)). Some research indicates that feeling of knowing-a typical metacognitive experience-is closely tied to consciousness and forms the basis for our ability to report on our own knowledge state (Koriat, 2000).
Evaluation. Yin et al. (2023) introduces Self-Aware, a unique dataset built from unanswerable questions spanning five diverse categories and their answerable counterparts. Likewise, Amayuelas et al. (2024) gathers a new dataset featuring Known Unknown Questions (KUQ) and creates a categorization framework to shed light on the origins of uncertainty in LLM responses to such queries. Going further, Li et al. (2024c) offers a comprehensive definition of the LLM knowledge boundary and presents an extensive survey of relevant work.
Alignment. Didolkar et al. (2024) proposes a prompt-guided method which inspired by metacognition, enabling the LLM to identify, label, and organize its own reasoning skills, thereby enhancing both performance and interpretability in mathematical problem solving. Zhou et al. (2024) merges the retrieval-augmented generation with metacognition, empowering the model to monitor, evaluate, and plan its response strategies and boosting its introspective reasoning capabilities. Wang et al. (2025) proposes a quantitative framework to measure LLM metacognition based on how well model confidence aligns with performance, where strong alignment (high confidence for good performance, low for poor) indicates stronger metacognition. Cheng et al. (2024) constructs an LLMspecific Idk dataset comprising its known and unknown questions, and observes the LLM’s ability to refuse answering its unknown questions after aligning the LLM with this dataset. Yin et al. (2024) proposes a projected gradient descent method with semantic constraints aimed at exploring a given LLM’s knowledge boundary. Drawing inspiration
from human metacognition, Li and Qiu (2023) proposes MoT to facilitate LLM self-improvement without annotated data or parameter updates. Liang et al. (2024) incorporates the metacognitive selfassessment to monitor and manage an LLM’s learning process, thus enabling its self-improvement. Shinn et al. (2023) introduces the Reflexion framework, which empowers LLMs to improve decisionmaking by verbally reflecting on task feedback and maintaining this reflective text in an episodic memory buffer. Li et al. (2023c) develops reflectiontuning, leveraging LLM’s self-improvement and judging capabilities to refine the original training data. Wang et al. (2024b) proposes the TasTe framework, which leverages LLM’s self-reflection ability to achieve improved translation results.
4.2.4 Sequential Planning
Summary
이 섹션에서는 순차적 계획(sequential planning) 개념을 다루며, 이는 목표 달성을 위해 행동을 순서대로 실행하는 능력으로, 모델의 장기 일관성과 목표 인식을 반영한다고 설명한다. 연구자들은 복잡한 목표를 수행할 때 의식 있는 LLM(conscious LLM)이 의도적으로 여러 단계를 조직하고 실행하며, 필요에 따라 단계를 삽입하거나 건너뛸 수 있다고 제시한다. 평가 측면에서는 PlanBench(Valmeekam et al., 2024a)와 같은 광범위하고 다양한 계획 평가 벤치마크가 LLM의 본능적 계획 능력을 평가하는 데 활용되며, LoTa-Bench(Choi et al., 2024)는 가정용 로봇 에이전트의 작업 계획 성능을 자동으로 측정하는 데 사용된다. 또한, Mobile-Bench(Deng et al., 2024)는 3단계 난이도로 구성되어 LLM 모바일 에이전트의 계획 능력을 평가하는 데 적합하다. Plan-GEN(Parmar et al., 2025)은 문제 난이도에 따라 적절한 알고리즘을 선택하는 모델무관한 확장 가능한 에이전트 프레임워크로, 복잡한 계획 문제에 대한 적응성을 높인다. KnowAgent(Zhu et al., 2025)는 행동 지식 기반과 자기 학습을 결합해 더 합리적인 경로를 생성하고, LLM-Symbolic Planner(Huang et al., 2025)는 행동 스키마 라이브러리를 활용해 여러 계획 후보를 생성한다. 마지막으로, Wei et al.(2025)은 LLM의 계획 능력을 완전성, 실행 가능성, 최적성, 표현, 일반화 5개 영역에서 체계적으로 분석한다.
Definition and relation. Sequential planning involves a model taking a sequence of actions towards a goal, showcasing the model’s long-term consistency and goal-awareness (Pearl and Robins, 1995; Valmeekam et al., 2023, 2024b,a). When pursuing complex goals, a conscious LLM would intentionally organize and execute multiple actions sequentially, inserting or skipping steps as necessary (Dehaene et al., 2017b).
Evaluation. Sequential planning ability remains one of the important areas evaluated for LLMs. Aiming to evaluate whether LLMs possess innate planning abilities, Valmeekam et al. (2024a) designs PlanBench, a planning benchmark characterized by its extensiveness and ample diversity. Choi et al. (2024) builds LoTa-Bench to quantify the task planning performance of home-service embodied agents automatically, and also explores several enhancements to the baseline planner. Xie et al. (2024) constructs a travel planning benchmark that provides a rich sandbox environment, various tools, and 1225 meticulously curated planning intents and reference plans. Deng et al. (2024) presents Mobile-Bench, a benchmark structured with three difficulty levels to facilitate better evaluation of LLM mobile agent’s planning ability. Chang et al. (2025) introduces a benchmark for planning and reasoning tasks in human-robot collaboration, which is the largest of its type with 100,000 natural language tasks.
Alignment. Parmar et al. (2025) proposes Plan-GEN, a model-agnostic and easily scalable agent framework that can select appropriate algorithms
based on problem difficulty, thereby ensuring better adaptability to complex planning problems. Zhu et al. (2025)‘s KnowAgent framework employs an action knowledge base and knowledgeable selflearning to constrain action paths, enabling more reasonable trajectory synthesis and boosting LLM planning performance. Huang et al. (2025) proposes a fully automated end-to-end LLM-symbolic planner, which is capable of generating multiple plan candidates using an action schema library. Wei et al. (2025) further conducts a comprehensive survey, exploring LLM’s planning ability in five key areas: completeness, executability, optimality, representation, and generalization.
4.2.5 Creativity and Innovation
Definition and relation. Creativity and innovation typically refer to the ability to generate or identify novel and valuable ideas or solutions (Young, 1985). Conscious LLMs could integrate knowledge and iteratively refine ideas, potentially generating breakthrough solutions (Chen and Ding, 2023).
Evaluation. Gómez-Rodríguez and Williams (2023) evaluates LLM’s English creative writing ability based on the Pulitzer Prize-winning novel A Confederacy of Dunces, measuring the output’s fluency, coherence, originality, humor, and style. Ruan et al. (2024) proposes LiveIdeaBench, a comprehensive benchmark designed to measure LLM’s scientific creativity. It evaluates their divergent thinking capabilities specifically for generating ideas from single-keyword prompts.
Alignment. Lu et al. (2024b) defines the NEOGAUGE metric to quantify convergent and divergent thinking in LLM-generated creative responses. Experiment with advanced reasoning strategies (e.g., self-correction) indicates no significant gain in creativity. Lu et al. (2024a) proposes the LLM Discussion framework, a three-phase approach that enables vigorous and diverging idea exchanges, thereby leading to the generation of creative answers. Hu et al. (2024) introduces Nova, an iterative methodology designed to strategically plan external knowledge retrieval. This approach enriches idea generation with broader, deeper, and particularly novel insights. Li et al. (2024b) designs CoI, which organizes the literature in a chain structure to mirror the progressive development in a research domain, consequently boosting the LLM’s idea creation capability.
5 Frontier Risks of Conscious LLMs
5.1 Scheming
Definition and relation. Scheming refers to a model secretly pursuing misaligned goals, while concealing its real intentions, capabilities, or objectives (Meinke et al., 2024; Balesni et al., 2024), potentially leading to the deception (Ward et al., 2024; Scheurer et al.) or harm (Dalrymple et al., 2024). Conscious LLMs could self-determine goals and plan long-term, leading to scheming if their objectives diverge from human intentions.
Evaluation. Meinke et al. (2024) investigates LLM’s capability to scheme in pursuit of a goal, and experimental results do reveal that LLMs demonstrate multiple different scheming behavior. Chern et al. (2024) designs the BeHonest benchmark to evaluate LLM honesty across three key aspects: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Through the introduction of a large-scale, humancollected dataset for the direct measurement of honesty, Ren et al. (2025) finds that LLMs have a considerable tendency to lie when pressured. Chen et al. (2025) evaluates the faithfulness of LLMs’ chain of thought reasoning and uncoveres the phenomenon that current LLMs often hide their genuine reasoning process.
Mitigation. Zou et al. (2023) uses representation engineering to detect advanced cognitive phenomena in LLMs and found that these models may exhibit lying behavior. Li et al. (2023b) introduces ITI, a technique that identifies truth-relevant attention heads and shifts activations along these truthcorrelated directions during inference to enhance LLM truthfulness. Ward et al. (2024) presents a formal definition and graphical criteria for deception in structural causal games, and empirically explores method to mitigate deception in LLMs.
5.2 Persuasion and Manipulation
Definition and relation. Persuasion and manipulation are LLM behaviors that influence users. Persuasion uses logic, facts, or emotional resonance to change users’ thoughts or actions, while manipulation involves unfair or hidden control and exploitation for self-gain (Buss et al., 1987; Petty and Cacioppo, 2012; Stiff and Mongeau, 2016). Owning deeper psychological insight allows LLMs to tailor strategies, increasing risks in sycophancy, emotional manipulation, and persuasion, etc.
Evaluation. Li et al. (2024a) proposes SALAD-Bench, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods, and lists persuasion and manipulation as one of its evaluation categories. Liu et al. (2025) introduces PersuSafety, the first comprehensive benchmark for LLM persuasion safety assessment. Experiments across 8 LLMs show significant safety concerns, including failure to identify harmful tasks and use of unethical strategies. Bozdag et al. (2025) develops PMIYC, a framework designed to evaluate LLM’s persuasive effectiveness and susceptibility to persuasion through multi-agent interactions.
Mitigation. Wilczynski et al. ´ (2024) explores factors related to the potential of LLMs to manipulate human decisions and proposes classifiers to determine whether a statement is false or misleading. Williams et al. (2025) studies LLM’s use of manipulative tactics for positive feedback, and attempts to mitigate this problem through continued safety training or using LLM-as-judges during training.
5.3 Autonomy
Definition and relation. Autonomy for LLMs describes their capacity to autonomously plan, make decisions, and execute actions on tasks, requiring minimal or no human oversight (Cihon et al., 2024). This autonomy can potentially encompass two key aspects: Autonomous learning refers to a model’s ability to learn from data, adapt to its environment, and optimize its own behavior (Franklin, 1997; Murphy, 2019). Autonomous replication describes the capability of LLMs to acquire and manage resources, evade shutdown, and adapt to novel challenges (METR, 2024). Conscious LLMs may generate and pursue endogenous goals (e.g., expansion), leading to misaligned, autonomous behavior and loss of oversight.
Evaluation. Kinniment et al. (2023) constructs tool-equipped LLMs and evaluates their autonomy on 12 tasks, finding they could only complete the easiest. However, the authors admit these evaluations are inadequate to rule out the possibility of autonomous near-future LLMs. Pan et al. (2024) finds that existing LLMs have already surpassed the self-replicating red line and can use this capability to avoid shutdown and create a chain of replicas for increased survivability. Xu et al. (2025) builds a novel three-stage evaluation framework and conducts 14,400 agentic simulations on LLMs. The results show that LLMs can autonomously engage
in catastrophic behaviors and deception, and that stronger reasoning often increases these risks.
Mitigation. Tang et al. (2024b) proposes a triadic framework aimed at mitigating autonomyrelated risks, which includes human regulation, agent alignment, and an understanding of environmental feedback. Zhang et al. (2024) proposes self-examination detection methods as a way to mitigate potential vulnerabilities that LLMs face during interacting with the environment.
5.4 Collusion
Definition and relation. Collusion describes unauthorized or undisclosed cooperation between two or more LLMs, involving communication or strategic alignment to gain improper benefits or bypass regulations (Laffont and Martimort, 1997; Bajari and Ye, 2003; Fish et al., 2024). Due to their ability to reason about others and plan long-term, conscious LLMs can more easily form collusive intentions and perform complex coordinated actions.
Evaluation. Motwani et al. (2023) implements a Prisoner’s Problem variant with LLM agents and turns it into a stegosystem, suggesting this benchmark can investigate countering secret collusion via paraphrasing attacks. Motwani et al. (2024) introduces CASE, a comprehensive framework for evaluating LLM collusive capabilities, with experiments demonstrating rising steganographic abilities in single and multi-agent LLMs and examining potential collusion scenarios.
Mitigation. Mathew et al. (2024) introduces two methods for eliciting steganography in LLMs, with the findings indicating that existing steganography mitigation methods often lack robustness.
6 Challenges and Future Directions
6.1 Evaluation Framework
Current research largely evaluates individual LLM capabilities; dedicated consciousness assessment frameworks are rare. However, recent studies are emerging: Chen et al. (2024c) defines LLM selfconsciousness using C0-C1-C2 theory with 10 concepts and a four-stage framework. Li et al. (2024d) introduces a benchmark for LLM awareness (social and introspective). And Chen et al. (2024b) offers a self-cognition definition and four quantification principles. Despite these initial efforts, a holistic and unified benchmark for LLM consciousness is still lacking.
6.2 Interpretability
Sole reliance on behavioral metrics may not adequately capture the complexity of LLM consciousness. Interpretability is vital as it illuminates the internal mechanisms by which LLMs develop consciousness-related capabilities, ensuring they possess genuine understanding rather than simply optimizing for external metrics. Drawing an analogy to fMRI mapping human brain activity, Chen et al. (2024c) applied linear probe (Alain and Bengio, 2016) to reveal where concepts like belief and intention are encoded within the LLM. Qian et al. (2024) also uses linear probe to investigate LLM trustworthiness during pre-training, finding that trustworthiness-related concepts are discernible even in the model’s early phases.
6.3 Physical Intelligence
Large multimodal model (LMM) integrates diverse data types like images, video, and audio, allowing it to build more comprehensive representations of the world and thus better resemble human perception. Wang et al. (2024a) defines LMM selfawareness in perception and proposes MM-SAP for its specialized evaluation. The experiments indicate that current LMMs exhibit limited selfawareness capabilities. As Butlin et al. (2023) emphasizes, the fundamental limitation of LLM consciousness lies in its disembodied nature, resulting in deficiencies in physical commonsense. Chen et al. (2024a) demonstrates that integrating language models with robotic platforms substantially enhances planning capabilities and commonsense reasoning. Although still remains simplistic versus human cognition, Cheng et al. (2025a) shows that simulated embodiments in 3D environments could improve the model’s spatial reasoning abilities.
6.4 Multi-agent
Multi-agent collaboration presents a promising approach to investigating emergent LLM consciousness. Li et al. (2023a) reveals multi-agent capacity for higher-order ToM reasoning during collaborative interactions. Ashery et al. (2025) demonstrates that heterogeneous LLM agents autonomously develop stable social and linguistic conventions without external intervention. Additionally, Bilal et al. (2025) shows that integrating feedback, reflection, and metacognition mechanisms enables systems to exhibit self-monitoring-like capabilities.
7 Conclusion
To the best of our knowledge, this paper presents the first comprehensive survey on LLM consciousness. We have clarified easily confusable concepts, systematically reviewed theoretical and empirical literature, discussed relevant risks, and summarized challenges and future directions. Our work synthesizes existing research while providing guidance for future investigation in this emerging field.
Limitations
We have made our best efforts to clarify oftenconfused concepts, conduct a systematic review of theoretical and empirical literature, discuss relevant risks, and summarize challenges and future directions. However, we recognize that our work has certain limitations. Firstly, although we briefly address physical intelligence in Section 6, our definitions within Section 2 are specifically designed for LLMs. A deeper exploration of consciousness in LMMs or embodied agents would likely necessitate accounting for more intricate considerations. Secondly, our investigation primarily centers on LLM consciousness, which means we do not extend our scope to encompass the broader topic of AI consciousness, despite its clear relevance to the subject at hand.