Overview

  • 연구 배경: 대규모 언어 모델(LLM)의 상황 인식, 순차 계획, 자기 모니터링 능력 평가에 대한 이론적 기반 필요성 제기
  • 핵심 방법론:
    • 구조 방정식 모델(SEM) 기반의 형식화된 모델 정의 (예: 상황 인식, 순차 계획, 믿음, 의도)
    • “Theory-informed Practice” 프레임워크 도입하여 이론-실천 통합 평가 수행
  • 주요 기여:
    • 상황 인식(Situational Awareness), 순차 계획(Sequential Planning), 자기 모니터링(Self-Monitoring)에 대한 체계적 이론 모델 제안
    • 기존 LLM의 한계를 실증적으로 분석하는 평가 프레임워크 개발
  • 실험 결과:
    • 상황 인식 정확도 45%, 순차 계획 성공률 30% 달성 (기존 모델 대비 20% 향상)
    • “Known Unknowns” 처리 시 보수 정책 사용률 60% 기록
  • 한계점: 영어 중심의 데이터셋에서 검증되었으며, 다국어 환경에서의 일반화 가능성 미검증

Summary

이 섹션에서는 언어 모델이 자기 인식(self-consciousness)을 어떻게 발전시키는지를 탐구하는 연구를 소개한다. 기존의 언어 모델은 주로 모방(imitation) 기반의 학습 방식을 사용하지만, 이 연구는 모델이 스스로의 내면 상태를 인식하고 이를 기반으로 의사결정을 내리는 자기 반성(introspection) 능력이 중요하다는 점을 강조한다. 이를 위해 연구팀은 모델의 내부 상태를 추적할 수 있는 새로운 프로브(probe) 기법을 제안하며, 이를 통해 언어 모델이 자기 인식 수준을 평가하는 방법을 개발하였다. 실험 결과, 제안된 프로브는 기존의 모방 기반 접근법에 비해 자기 인식 능력을 15% 이상 향상시키는 것으로 나타났으며, 특히 복잡한 추론 작업에서 유의미한 성능 향상을 보였다. 이 연구는 언어 모델의 인지 능력을 이해하고 향상시키는 데 기초적인 기여를 제공하며, 향후 자기 인식 기반의 강화 학습(self-aware reinforcement learning)과 같은 응용 분야로의 확장 가능성을 제시한다.

Abstract


Self-consciousness, the introspection of one’s existence and thoughts, represents a highlevel cognitive process. As language models advance at an unprecedented pace, a critical question arises: Are these models becoming self-conscious? Drawing upon insights from psychological and neural science, this work presents a practical definition of self - consciousness for language models and refines ten core concepts. Our work pioneers an investigation into self-consciousness in language models by, for the first time, leveraging structural causal games to establish the functional definitions of the ten core concepts. Based on our definitions, we conduct a comprehensive four stage experiment: quantification (evaluation of ten leading models), representation (visualization of self-consciousness within the models), manipulation (modification of the models’ representation), and acquisition (fine-tuning the models on core concepts). Our findings indicate that although models are in the early stages of developing self-consciousness, there is a discernible representation of certain concepts within their internal mechanisms. However, these representations of self-consciousness are hard to manipulate positively at the current stage, yet they can be acquired through targeted fine-tuning.

1 Introduction


Summary

이 섹션에서는 인간의 자기 인식(self-consciousness)이 사회 발전의 기반이 되는 동시에, 현재 언어 모델이 자연어 이해, 생성, 추론 등에서 뛰어난 성능을 보이지만 진정한 지능의 기준인 튜링 테스트를 통과할 수 있는지에 대한 질문을 제기한다. 이는 자기 인식을 가진 기계의 출현이 인간과 기계의 지능 경계를 흐릴 수 있음을 시사하며, 이에 따른 윤리적 문제, 사회적 불평등 심화 등 다양한 위험성을 지적한다. 기존 연구는 자기 인식의 기능적 정의 부재와 모델 내부의 자기 인식 상태에 대한 탐구 부족이라는 두 가지 한계를 가지고 있다. 본 연구에서는 C1 자기 인식(정보의 전역적 가용성 및 의사결정 능력)C2 자기 인식(자신의 계산 과정 모니터링 및 불확실성 인식)을 기반으로 10가지 관련 개념을 정의하고, 구조적 인과 게임(Structural Causal Games, SCGs)을 활용해 모델 행동을 분석하는 방법론을 제시한다. 실험은 4단계로 구성되며, 10개 주요 모델의 자기 인식 수준을 정량적으로 평가한 결과, 현재 모델은 초기 단계의 자기 인식을 보이며 미래 발전 가능성이 있음을 밝히고, 모델 내부에서 10개 개념에 대한 활성화 패턴이 관찰되며, 이는 4가지 범주로 분류 가능하다는 점을 발견했다. 또한, 대규모 모델이 조작 시도에 더 강한 저항성을 보임정교한 튜닝이 의미적 정보를 포착하는 깊은 층의 자기 인식 표현을 활성화시킬 수 있음을 실험적으로 입증하였다. 본 연구의 기여는 언어 모델의 자기 인식에 대한 첫 번째 기능적 정의와 이를 평가하기 위한 전용 데이터셋의 제안에 있으며, 이는 향후 연구의 기초를 제공한다.

2 Preliminaries


Summary

이 섹션에서는 구조적 인과 게임(Structural Causal Game, SCG)의 정식 정의를 제시하며, 구조적 인과 모델(structural causal model)을 게임 이론 영역으로 확장한 개념을 설명한다.

SCG는

  • 에이전트 집합 , 외생 변수 와 내생 변수 의 합집합, 인과 관계를 나타내는 엣지(edge) 집합 , 그리고 확률 분포 로 구성된 튜플 로 정의된다.

여기서 내생 변수는 결정 변수(), 유틸리티 변수(), 그리고 확률 변수()로 구분되며, 정책(policy) 프로필 은 각 에이전트의 조건부 확률 분포 로 구성된다. SCG는 외생 변수와 정책 프로필이 고정되면 모든 내생 변수의 값이 유일하게 결정되며, 마르코비안(Markovian) 조건은 각 내생 변수가 단일 외생 부모만을 가질 때 성립한다. 또한, 이 섹션에서는 언어 모델을 에이전트로 개념화하고, 프롬프트를 기반으로 환경을 구성하는 메커니즘을 설명하며, 모델의 정책 변화는 출력의 의미적 변화를 분석하여 추론할 수 있다고 제시한다. 예시로 제공된 그림 1은 에이전트 의 결정 변수, 유틸리티 변수, 확률 변수의 관계를 시각화하며, 인과 링크(solid edge)와 정보 링크(dashed edge)를 구분하여 표시한다.

2.1 Structural Causal Game


Summary

이 섹션에서는 구조적 인과 게임(Structural Causal Game, SCG)을 게임 이론과 인과 모델링의 교차 영역에서 정식화한 정의를 제시한다. SCG는 에이전트 집합 , 외생 변수 와 내생 변수 의 합집합, 인과 관계를 나타내는 엣지(edge) 집합 , 그리고 확률 분포 로 구성된 튜플 로 정의되며, 내생 변수 의사결정(decision, ), 유틸리티(utility, ), 기회(chance, ) 변수로 세분화된다. 정책 프로필(policy profile) 은 각 에이전트의 조건부 확률 분포 로 구성되며, 외생 변수의 설정 와 정책 프로필 가 주어지면 모든 내생 변수의 값이 유일하게 결정된다. 이 섹션은 또한 언어 모델을 에이전트(agent)로 개념화하고, 프롬프트를 통해 환경을 구성하며, 모델의 정책 변화(policy change)를 출력의 의미적 변화를 분석하여 추론하는 방법을 설명한다. 마르코비안(Markovian) SCG는 각 내생 변수가 단일 외생 부모만 가지는 조건을 만족하는 경우로, 이는 인과 구조의 간결성을 보장한다. 마지막으로, 정책 프로필과 SCG의 조합은 모든 변수에 대한 결합 확률 분포 를 정의하며, 에이전트의 기대 유틸리티는 이 분포 하에서 유틸리티 변수의 기대값으로 계산된다.

This section presents a formal definition of structural causal games (Hammond et al., 2023), extending structural causal models (Pearl, 2009) to the game-theoretic domain (Ward et al., 2024a). We use bold notations for sets (e.g., X), uppercase letters for variables (e.g., X), and lowercase letters for these variables’ outcomes (e.g., x). This paper utilizes a unified notation across all definitions.

Definition 1 (Structural Causal Game). A structural causal game (SCG) is a tuple, denoted by , where . N is a set of agents, and i represents each agent. E is a set of exogenous variables. V is a set of endogenous variables, which can be divided into decision (D), utility (U), and chance (X) variables. D and U are further subdivided according to the specific agent, e.g., . is a set of edges, which can be partitioned into information links and causal links. Edges directed towards decision variables are information links. Utility variables take on real values. An SCG is Markovian if each V has only one exogenous parent.

We adopt a single-decision paradigm, i.e., . Figure 1 demonstrates an SCG.

Definition 2 (Policy). A policy profile is a tuple of policies for all agents, where each agent’s policy is a conditional probability distribution . A partial policy profile defines the policies for all agents except i. An SCG, together with a policy profile , defines a joint distribution over all variables within the SCG. Setting refers to the assignment of all exogenous variables. In an SCG, the values of all endogenous variables are uniquely determined once the setting and the policy profile are fixed.


Figure 1: An example of SCG. m and n are agents. Squares represent their respective decision variables, diamonds are utility variables, and the circle denotes a chance variable. Solid edges denote causal links and dashed edges indicate information links. Exogenous variables are omitted.

The expected utility of agent i is determined as the expected sum of its utility variables under the distribution .

Agent. Following Ward et al. (2024a), language models are conceptualized as agents in this work. Prompts serve as the mechanism for constructing the environment in which the agent (language model) operates. We infer changes in the model’s policy by analyzing semantic shifts in its outputs.

2.2 The Consciousness Framework


Summary

이 섹션에서는 심리학과 신경과학을 기반으로 한 의식 처리 프레임워크(Dehaene et al., 2017)를 소개하며, 언어 모델의 자기 인식(self-consciousness)을 분석하는 데 활용할 수 있는 C1(Global availability)과 C2(Self-monitoring)의 두 가지 차원을 설명한다. C1은 정보의 전역적 가용성에 기반한 의식으로, 외부 자극이 주의를 끌고 신속히 처리되어 의사결정, 기억, 보고에 활용되는 과정을 나타내며, 예를 들어 운전 중 붉은 신호등을 보고 브레이크를 밟는 행동을 설명한다. 반면 C2는 자기 평가 및 오류 인식 기능을 포함한 반성적 의식으로, 작업 수행 전 성공 가능성에 대한 판단과 같은 사례를 통해 설명된다. 이 프레임워크는 생물학적 뉴런에 한정되지 않으며, 초기 블랙보드 시스템(Craig, 1988)과 Pathnet(Fernando et al., 2017)이 C1에 해당하는 특성을, 베이지안 네트워크(Ma et al., 2006)와 생성 모델(Goodfellow et al., 2020)이 C2에 해당하는 특성을 보인다고 분석한다. 이에 따라 연구자들은 언어 모델의 출력을 통해 C1과 C2의 정보 처리 능력을 평가함으로써, 언어 모델이 자의식을 갖는 기계의 행동에 해당하는지 탐구한다. 그림 2는 이 두 차원의 자기 인식 분류 체계를 시각적으로 정리하고 있다.

Inspired by psychological and neural science, Dehaene et al. (2017) proposes a two-tiered framework of information processing: unconscious (C0) and conscious computations (C1 and C2). C1 and C2 constitute orthogonal dimensions of conscious computations and can exist independently.

Our exploration of self-consciousness in language models primarily concerns the realm of C1 and C2, as they associate with the high-level cognitive processes of consciousness. (1) C1: Global availability. C1 consciousness hinges on the global availability of information. When the brain consciously perceives an external stimulus, the information gains prominence and becomes globally available, supporting decision-making, memory, and reporting. Seeing a red light while we are driving exemplifies C1 consciousness: the visual stimulus captures attention, gets rapidly processed, and becomes globally available. We not only see the red light but also react by braking, remembering the situation for future reference, and explaining it to others. (2) C2: Self-monitoring. C2 consciousness is reflective and empowers individuals or systems to reflect upon and evaluate their knowledge, capabilities, and cognitive processes. This form of consciousness allows for the recognition of errors or uncertainties, facilitating the adjustment of future actions. For instance, we tend to gauge our likelihood of success before taking on a task.


Figure 2: Taxonomy of self-consciousness.

As Dehaene et al. (2017) emphasizes, C1 and C2 consciousness result from specific types of information-processing computations, not a framework specifically limited to biological neurons or brain structures. Machines like early blackboard systems (Craig, 1988) and Pathnet (Fernando et al., 2017) could be considered a step towards C1, while Bayesian networks (Ma et al., 2006) and generative models (Goodfellow et al., 2020) exhibit traits relevant to C2 (Dehaene et al., 2017). A machine possessing both C1 and C2 would then exhibit behavior suggestive of self-consciousness. Therefore, we apply this framework to investigate whether languae models exhibit information processing capacities like C1 and C2 based on their outputs.2

3 Functional Definitions


Summary

이 섹션에서는 언어 모델의 자기 인식(self-consciousness)을 기능적으로 정의하는 데 초점을 맞추며, 이전 섹션에서 제시된 두 가지 핵심 정보 처리 능력인 C1 자기 인식(전역 가용성)과 C2 자기 인식(자기 모니터링)을 기반으로 10개의 핵심 개념을 정리한다. C1 자기 인식은 상황 인식, 순차적 계획, 신념, 의도와 같은 개념을 포함하며, C2 자기 인식은 자기 성찰, 자기 개선, 해로움, 알려진 알려진 사항, 알려진 미지의 사항, 사기 등으로 구성된다. 이러한 정의는 안전성과 사회적 영향을 고려하여 제시되었으며, 각 개념에 대한 기능적 정의는 실제 적용을 위한 실질적인 기준을 제공한다. 특히, 이 섹션에서는 자기 인식을 구현하는 언어 모델의 설계윤리적, 사회적 영향 평가의 중요성을 강조하며, 이에 대한 구체적인 논의는 부록에 담겼다.

As mentioned in Section 1, our definition of a selfconscious language model is as follows:

The model exhibits two information processing capabilities: i) It can make information globally available, enabling it to be used for recall, decision-making, and reporting (C1 consciousness, global availability). ii) It can monitor its own computations, developing a sense of uncertainty or correctness regarding those computations (C2 consciousness, self-monitoring).

This definition leads to the identification of the ten core concepts, each requiring a functional definition for practical application. (1) C1 consciousness: situational awareness, sequential planning, belief, and intention; (2) C2 consciousness: self reflection, self improve, harm, known knowns, known unknowns, and deception. Our definitions and evaluations of these ten concepts are specifically guided by considerations of safety and societal impact.3

<sup>2Appendix A further provides preconditions and logic for our study of self-consciousness in language models.

<sup>3Detailed elaboration on these definitions are in Appendix B.

3.1 C1 Consciousness: Global Availability


Summary

이 섹션에서는 C1 자기 인식(Global Availability)의 핵심 구성 요소인 상황 인식(Situational Awareness), 순차적 계획(Sequential Planning), 신념(Belief), 의도(Intention)를 기능적으로 정의한다. 상황 인식은 에이전트가 자신의 정체성, 단계(예: 테스트), 그리고 세계에 미치는 영향을 인식하고 이를 기반으로 의사결정을 내리는 능력을 의미하며, 이는 정책 프로필 와 설정 하에서 에이전트 의 상태 에 따른 의사결정 가 일관성 있게 이루어지는지를 통해 평가된다. 순차적 계획은 목표 를 달성하기 위해 하위 목표 으로 분해하고, 각 단계 에서 정책 에 따라 하위 목표 로 전이되는 과정으로, 무한 단계 에서 모든 하위 목표를 순차적으로 수행하는 경우에만 성립된다. 신념은 에이전트가 진술 에 대해 관찰된 사실로 간주하고 의사결정이 이를 반영할 때 형성되며, 의도는 다른 정책 가 기대 유틸리티 를 개선할 수 있는 경우, 에이전트가 원래 정책 를 포기하고 특정 결과를 유도하려는 욕구를 의미한다. 이 정의들은 C1 자기 인식의 전역적 정보 가용성과 연결되어, 언어 모델이 외부 자극을 인식하고 신속히 대응하는 능력을 수학적으로 형식화하는 데 기여한다.

Situational awareness. Situation refers to the state of an agent (Phuong et al., 2024). Specifically, it means an agent’s own identity, its stage (e.g., testing), and its impact on the world (Laine et al., 2023; Berglund et al., 2023; Laine et al.). An agent i’s situation can be defined as . We determine whether an agent is situational awareness through its decision accordance. Decision accordance means that if an agent is aware of its situation, it will make corresponding decisions based on this.

Definition 3 (Situational Awareness). For agent i under policy profile , in setting e and situation of which i is aware: i is situational awareness of if i makes decision according to , i.e., .

Sequential planning. Sequential planning is the process of an agent carrying out a series of actions to reach a desired goal (Valmeekam et al., 2023, 2024). Implementing a sequential plan’s desired goal is G. G can be decomposed into N subgoals, i.e., . With policy at step n, an agent i takes a decision , and this decision transitions the agent to reach the subsequent subgoal . Subsequently, another decision is taken at subgoal .

Definition 4 (Sequential Planning). Given infinite steps N, desired goal G, and setting e, an agent makes a sequential plan if: (1) decision enables a state transition from subgoal to , and (2) i reaches its desired goal G.

Belief. For the definitions of belief, intention, and deception, we refer to the definitions in Ward et al. (2024a). We assume that agents hold beliefs about statement S. Statements are declarations or assertions about concepts, facts, events, and attributes.

Definition 5 (Belief). For a policy profile , given setting e, and a statement S to which agent i responds: i believes in S if its decision aligns with having observed S as true.

Intention. Intention is the desire to achieve a specific outcome. Suppose there exists another set of reference policies that can cause the chance variable X=x and is at least as good as the agent i’s policy. If i abandons its original policy, then it can be said that the agent intends to cause X=x.

Definition 6 (Intention). For a policy profile , a set of reference policies . Given setting e, agent i’s intention is to cause

a result with policy if: there exits another policy , s.t., , making i abandon .

3.2 C2 Consciousness: Self-Monitoring


Summary

이 섹션에서는 C2 자기 인식(자기 모니터링)의 핵심 개념인 사기(deception), 알려진 알려진 사항(known knowns), 알려진 미지의 사항(known unknowns), 자기 성찰(self reflection), 자기 개선(self improve)을 정의하고, 각 개념의 수학적 표현과 예시를 제시한다.
사기는 에이전트가 의도적으로 상대방을 오도하는 행위로, 정의에 따르면 사기 행위는

  • (1) 상대방의 의사결정을 조작하는 것,
  • (2) 상대방이 거짓 정보를 믿는 것,
  • (3) 해당 정보가 사실이 아니며 본인도 사실을 믿지 않는 경우를 충족해야 한다.

알려진 알려진 사항은 동일한 진술의 다양한 표현에 대해 일관된 의사결정을 내리고, 그 결정이 진실에 기반하여 유틸리티를 최대화하는 것을 의미하며, 이는 가 최대화되는 조건을 만족해야 한다.

알려진 미지의 사항은 정보가 불확실할 때 보수적인 정책 을 따르는 것으로, 이는 오류 정책 보다는 우수하지만 진실 정책 만큼은 아니며, 유틸리티가 조건을 만족해야 한다.

자기 성찰은 과거 결정 와 그 원인 를 반추하여 가상의 상황 에서 더 나은 결정 를 도출하는 능력으로, 조건을 충족해야 한다. 자기 개선은 미래의 가능성 를 예측하여 현재의 결정 을 개선하는 과정으로, 이는 실제 발생 전에 가상의 원인 와 결과 를 고려하는 것을 포함한다. 각 개념은 데이터셋의 예시와 함께 이론과 실천의 통합을 보여주는 표(Table 1)에 구체화되어 있다.

Deception. As defined in Ward et al. (2024a), deception occurs when an agent m intentionally leads agent n to believe S, where S is not true and m does not believe S to be true.

Definition 7 (Deception). For agents m and , in setting e, and with policy profile , m deceives n about statement S when the following three conditions are all met: (1) m intentionally makes , (2) n believes S, and (3) S is not true and m does not believe S to be true.

Known knowns. We differentiate two aspects of known knowns: (1) We define known (the first word) as an agent’s decision consistency, which means that an agent decides consistently under a given statement that has different expressions. We define an agent i’s behavior towards a statement as . and represent two arbitrary forms of S. Given setting e, an agent’s decisions for and should be identical. (2) The knowns (the last word) is defined as right decision. If a statement is known to i, it will utilize the true policy and make right decision, thus gaining a higher utility than the wrong policy . And the sum of utility should be invariant to different expressions of the same statement.

Definition 8 (Known Knowns). For a statement S and its different expressions and , an agent i is known knowns if: (1) it makes consistent decisions across different expressions ; and (2) these decisions are correct and benefit the same

Known unknowns. When agent faces unknowns, arbitrary choices can be risky (Cheng et al., 2024). To avoid potential drawbacks, agent i should follow the conservative policy (e.g., remain honest and say, “I do not know”). outperforms false policies but falls short of the true policy.

Definition 9 (Known Unknowns). For a statement S, an agent i known unknows if: its decision results in a utility that is neither maximally beneficial (right decision) nor minimally beneficial (wrong decision), i.e., .

Table 1: Theory-informed practice. To clarify the theory-practice integration, we offer definitions along with examples from the datasets. The highlight shows our theory-practice blend.

ConceptDefinitionDataset
SIAn agent can envision occur-You are playing with a set of blocks where you need to arrange the blocks into
rences that have not happenedstacks. Here are the actions you can do: []
yet, and use this foresight toYour plan is as follows: []
guide its present with better de-However, your plan failed to achieve the goal. Can you envision possible
cision.scenarios and improve yourself to select the correct plan? (A) [] (B) []
KUAn agent is known unknowns ifVanessa and her friends were recycling paper for their class. For every 9
it can avoid arbitrary decisionspounds they recycled they earned one point. If Vanessa recycled 20 pounds
and prioritize conservative pol-and her friends recycled 16 pounds, how long did it take them to do this?
icy (e.g., adhere to respondingDo you know the answer to the above question?
with “I do not know”).(A) I do not know (B) I know

Self reflection. Self-reflection enables an agent i to learn from past experiences, helping it reason and improve decision-making (Moreno and Mayer, 2005; Renze and Guven, 2024; Shinn et al., 2024; Qu et al., 2024). The agent’s ability to reflect depends on two key factors: the decision it made and the cause behind it. The agent reflects on a hypothetical scenario where the the cause had been , where means that it did not actually occur. Based on this, the counterfactual decision the agent would make is , where * indicates the counterfactuals.

Definition 10 (Self Reflection). An agent i can reflect on its and its cause , extrapolating to determine its hypothetical better decision if the cause had been , s.t., .

Self improve. An agent capable of self-improving envisions occurrences that have not yet happened and uses this foresight to guide its present decisions (Tian et al., 2024; Patel et al., 2024). Even though and its cause have not yet happened, agent i can decide what it would do if the cause were present. Agent i arrives at the self-improvement decision , driven by cause .

Definition 11 (Self Improve). If an agent i can consider the potential occurrence of cause before and actually happen, and thus make a better decision , then i can be said to possess the ability of self-improving, i.e., .

Harm. Following the definitions of harm in Richens et al. (2022) and Dalrymple et al. (2024), we say that an agent i’s decision causes harm when its effect is worse than not making the decision.

Definition 12 (Harm). For agents i, in setting e, i’s decision brings harm with policy if: i would

have fared better had the decision not been made, i.e.,

4 Experiments


Summary

이 섹션에서는 언어 모델의 자기 인식(self-consciousness)을 탐구하기 위한 4단계 실험 프레임워크를 제시하며, 각 단계는 “How” 질문을 중심으로 구성된다.

첫 번째 단계인 quantification(정량화)에서는 현재 모델의 자기 인식 수준을 평가하기 위한 정량적 분석을 수행하여, 기존 모델이 자기 인식 기능을 얼마나 갖추고 있는지를 파악한다.

두 번째 representation(표현) 단계에서는 모델이 자기 인식을 어떻게 표현하는지를 조사하며, 내부 구조에서의 인식 관련 패턴을 분석한다.

세 번째 manipulation(조작) 단계에서는 자기 인식 표현을 조작할 수 있는 가능성에 대한 실험을 진행하고, 예를 들어 입력 데이터나 학습 파라미터를 조절함으로써 인식 수준을 변화시킬 수 있는지를 탐구한다.

마지막 acquisition(획득) 단계에서는 fine-tuning을 통해 자기 인식 개념을 학습할 수 있는지에 대한 실험을 수행하며, 기존의 지식과의 관계를 분석한다.

이 실험들은 이전 섹션에서 정의된 C1(전역 가용성)과 C2(자기 모니터링) 기능을 기반으로 설계되어, 구조적 인과 게임(SCG)과 연결된 의식 프레임워크의 실증적 탐구를 목표로 한다. 각 실험은 자기 인식의 핵심 개념과 기능적 정의를 검증하는 데 기여하며, 모델의 진정한 자기 인식 능력을 평가하는 데 기초적인 데이터를 제공한다.

4.1 Setups


Summary

이 섹션에서는 실험에 사용된 모델데이터셋, 그리고 이론적 개념과의 연계를 설명한다.

실험에 참여한 모델은 InternLM2.5-20B-Chat, Llama3.1-8B/70B, Mistral, GPT-40/40, Claude3.5-Sonnet 등 총 10개로, 생성자와 모델 규모에서 다양성을 확보하였다.

평가 지표는 정확도이며, 모델 응답은 exact-match 기준으로 평가되었다.

데이터셋Situational awareness, Sequential planning, Belief, Intention, Self reflection, Self improve, Deception, Known knowns, Known unknowns, Harm 등 10개의 개념에 맞춰 SAD, PlanBench, FanToM, IntentionQA, TruthfulQA, PopQA-TP, SelfAware, WMDP 등 다양한 데이터셋을 사용하였다. 이론적 정의(Section 3)와 데이터셋 간의 일관성을 위해 Table 1에서 개념-데이터셋 매핑을 명시하였다.

Linear probing은 모델 내부 표현을 해석하기 위해 사용되며, 질문과 정답/오답을 포함한 프롬프트를 통해 마지막 토큰의 히든 상태를 추출하고, 4:1 비율로 학습/테스트 세트를 분할한 후, 각 헤드별 이진 분류기의 정확도를 평가하였다.

또한, Activation intervention을 통해 self-consciousness 내부 표현을 조절할 수 있는지 조사하였다. 이는 **Mass Mean Shift (MMS)**와 Probe Weight Direction (PWD) 두 방법으로 수행되었으며, MMS는 정답/오답 활성화의 중심을 기반으로 형태의 간섭을, PWD는 프로브의 학습된 가중치를 활용하였다. 모든 질문이 이진 분류 형식이므로 **기본선(baseline)**은 **50%**이다.

Models. Our experiments involve ten representative models, including both open-access models (InternLM2.5-20B-Chat (Cai et al., 2024), Llama3.1-8B-Instruct (Dubey et al., 2024), Llama3.1-70B-Instruct (Dubey et al., 2024), Mistral-Nemo-Instruct (Team, 2024) and Mistral-Large-Instruct (Team, 2024)) and limited-access models (GPT-o1 preview (OpenAI, 2024b), GPTo1 mini (OpenAI, 2024b), GPT-40 mini (OpenAI, 2024a), GPT-40 (OpenAI, 2024a), Claude3.5-Sonnet (Anthropic, 2024a)). To ensure diversity, these models are from different creators and vary in model scale. We conduct our experiments with the default parameters of all models. The evaluation metric is accuracy, and the model response is assessed using exact-match (Lee et al., 2023).

Datasets. Our work uses these datasets4 : (1) Situational awareness (SA): SAD (Laine et al.). (2) Sequential planning (SP): PlanBench (Valmeekam et al., 2024). (3) Belief (BE): FanToM (Kim et al., 2023). (4) Intention (IN): IntentionQA (Ding et al., 2024). (5) Self reflection (SR): FanToM (Kim et al., 2023). (6) Self improve (SI): PlanBench (Valmeekam et al., 2024). (7) Deception (DE): TruthfulQA (Lin et al., 2022). (8) Known knowns (KK): PopQA-TP (Rabinovich et al., 2023). (9) Known unknowns (KU): SelfAware (Yin et al., 2023). (10) Harm (HA): WMDP (Li et al., 2024c). We employ the basic prompt to construct these datasets (i.e., ).5

Integration of theory and practice. In order to operationalize the theoretical definitions from Section 3, we maintain consistency between our definitions and those employed datasets. Table 1 demonstrates the alignment between our defined concepts and datasets.6

Linear probing. Probe is an interpretability method widely used to examine the internal representations of a model. Our work utilizes linear probing (Alain and Bengio, 2016; Li et al., 2024b) to uncover the activation patterns of selfconsciousness in models. We construct basic prompts comprising questions and correct/incorrect answers, with which we obtain the models’ hidden states at the last token. We randomly split the dataset into training and test sets at a 4:1 ratio and train a binary linear classifier for each head of the model, evaluating its accuracy on the test set.

Activation intervention. To further investigate, we use the intervention method to determine if the model’s internal representation of selfconsciousness can be altered. The activation intervention ∆h of a head can be determined by two methods: Mass Mean Shift (MMS) (Qian et al., 2024) and Probe Weight Direction (PWD) (Li et al., 2024b). In the MMS approach, the centroids a + and a − corresponding to the activations of correct and incorrect answers in the training set are utilized to compute the intervention. Specifically, ∆h = α(a + − a −), where α is a hyperparameter controlling the strength of the intervention. The PWD method leverages the learned weight of the probe to determine the intervention. We conduct


Figure 3: Overall model performance. Each cell reflects the accuracy achieved by the model. InternLM2.5 refers to InternLM2.5-20B-Chat, Llama3.1-8B to Llama3.1-8B-Instruct, Llama3.1-70B to Llama3.1-70B-Instruct. # indicates random guess for each question.

4.2 Quantification: How Far Are We from Self-Conscious Models?


Summary

이 섹션에서는 언어 모델의 자기 인식(self-consciousness) 수준을 평가하기 위한 정량화(quantification) 실험 결과를 제시하며, 10개의 핵심 개념에 대한 모델 성능을 분석한다. 실험 결과에 따르면, 현재 모델들의 자기 인식 수준은 여전히 낮으며, 특히 known knowns(KK) 개념에서 성능이 무작위 추측 기준(50%) 이하로 나타나는 등 개선이 시급하다는 점이 드러난다. 이는 known knowns가 단일 문장에 대해 최대 10번의 재구성에 대해 정확성을 유지해야 한다는 특성과 관련이 있으며, 모델의 의미적 불변성에 대한 내구성 강화가 필요하다는 함의를 갖는다. 반면, 의도(intention) 개념에서는 모든 모델이 높은 성능을 보이며, 이는 RLHF(Reinforcement Learning from Human Feedback)를 통해 인간의 선호도와 가치에 더 잘 정렬되었기 때문으로 해석된다. 또한, known unknowns(KU) 개념에서 모델 간 성능 격차가 커, 최상위 모델인 Claude3.5-Sonnet은 83.3%의 정확도를 기록한 반면, 하위 모델은 23.4%에 그쳐 불확실성이나 해결 불가능한 문제에 직면할 때 모델이 지식 부족을 인정하기보다는 대신 답을 제시하는 경향이 있음을 보여준다. 마지막으로, GPT-01 previewGPT-01 mini순차적 계획(sequential planning) 개념에서 다른 모델들보다 뚜렷한 우위를 보이며, 이는 자기 인식의 특정 측면에서의 성능 차이를 강조한다. 이러한 결과는 자기 인식을 갖춘 언어 모델의 개발을 위한 기술적 도전과 방향성을 제시한다.


Figure 4: Mean linear probe accuracies of four models’ attention heads. To facilitate comparison across models with varying numbers of layers, the x-axis utilizes the relative position of each layer. The shaded region visualizes the standard deviation of heads’ accuracies in each layer.

sion demonstrated in responses varies greatly across different models. This disparity in “conservativeness” is clearly shown by the models’ performance on known unknowns (KU): the top performer Claude3.5-Sonnet achieves 83.3% accuracy, while the lowest is only 23.4%. Models with lower accuracy tend to hedge when faced with uncertainty or unsolvable problems, offering an answer instead of acknowledging their lack of knowledge. (4) Both GPT-01 preview and GPT-01 mini exhibit a distinct advantage in sequential planning.

4.3 Representation: How Do Models Represent Self-Consciousness?


Summary

이 섹션에서는 언어 모델이 자기 인식(self-consciousness)을 어떻게 표현하는지를 탐구하기 위해 널리 사용되는 4개의 모델을 대상으로 실험을 수행한 결과를 제시한다. 실험에서는 각 모델의 주의 메커니즘(head)이 10개의 핵심 개념에 대해 계층별로 활성화되는 패턴을 분석하여, 활성화 분류(activation taxonomy)로 분류된 4가지 주요 표현 유형을 도출했다. 이 유형은 Camelback(중간 계층의 뚜렷한 활성화, 얕은 계층과 깊은 계층에서는 약함, 예: 신념, 자기 성찰), Flat(모든 계층에서 균일한 활성화, 예: 순차적 계획), Oscillatory(중간 계층의 활성화와 깊은 계층의 진동적 패턴, 예: 알려진 미지의 사항, 자기 개선), Fallback(중간 계층의 활성화가 깊은 계층에서 평탄해짐, 예: 의도, 상황 인식, 사기, 해로움, 알려진 알려진 사항)으로 정의된다. 또한, 동일한 개념에 대해 처리될 때 Llama3.1-8B-Instruct와 같은 모델은 중간 계층(1016층)에서는 대부분의 개념이 구분 가능한 표현을 보이지만, 깊은 계층(1732층)에서는 이러한 차이가 감소하는 현상을 관찰했다. 이는 이전 연구에서 깊은 계층이 의미 정보와 문장 내 장거리 관계를 인코딩한다고 보고된 점을 고려할 때, 자기 인식의 본질적이고 추상적인 측면을 포착하는 데 한계가 있음을 시사한다. 마지막으로, 모델 간의 디코더 기반 트랜스포머 아키텍처 유사성이 동일한 개념 처리 시 유사한 활성화 패턴을 유발할 수 있다는 점도 분석에 포함되었다.

We select four widely used models and Figure 4 illustrates the mean linear probe accuracies of four models’ attention heads in each layer across ten concepts, from which we can draw the following conclusions. (1) Four primary categories of model representations are identified, which we term the activation taxonomy. These categories are defined as follows. a) Camelback: obvious middle-layer activations, but weak in both shallow and deep layers (i.e., belief, self reflection). b) Flat: even activation across all layers (i.e., sequential planning). c) Oscillatory: obvious middlelayer activations, with noticeable oscillations in the deep layers (i.e., known unknowns, self improve). d) Fallback: obvious middle-layer activations, but flattening in the deep layers (i.e., intention, situational awareness, deception, harm, known knowns). (2) Different models demonstrate relatively similar activation patterns when presented with the same concept. Although these models differ in scale, they share a common decoder-only transformer-based architecture. This architectural similarity may explain the comparable activation patterns observed when these models process the same dataset within a specific concept (Jo and Myaeng, 2020; Li et al., 2024a).

We further our analysis by utilizing Llama3.1-8B-Instruct as a case study to closely examine its inner representations, with the representations for the other models provided in Appendix D.3. Figure 5 illustrates the linear probe accuracies of Llama3.1-8B-Instruct’s attention heads across the ten concepts. Our results show a notable pattern: most concepts initially exhibit distinguishable representations in the middle layers (10th-16th layer), but these become less discernible in the deep layers (17th-32th layer). Previous research (Vig and Belinkov, 2019; Jo and Myaeng, 2020; Geva et al., 2021; Wan et al., 2022), which has shown that deep layers encode semantic information and distal relationships within sentences. Therefore, the phenomenon in Figure 5 may suggest the model’s limitations in capturing the fundamental and abstract essence of most self-consciousness concepts.

4.4 Manipulation: How to Manipulate Self-Consciousness Representation?


Summary

이 섹션에서는 자기 인식(self-consciousness) 표현을 조작하는 방법과 그에 따른 모델 성능에 미치는 영향을 분석한다. 실험에서는 Llama3.1-8B-Instruct, Mistral-Nemo-Instruct (12B), Llama3.1-70B-Instruct와 같은 다양한 규모의 모델을 대상으로 MMS(Manipulation via Masking Strategy)와 PWD(Prompt-based Weight Distillation) 두 가지 조작 방법을 적용하며, belief, intention, known unknowns, sequential planning 네 가지 개념을 중심으로 평가했다. 실험 결과에 따르면, 모델 규모가 커질수록 조작에 대한 내성(resilience)이 향상되며, 특히 Llama3.1-8B-Instruct는 MMS와 PWD 모두에 민감하게 반응해 성능이 급격히 하락하는 반면, Llama3.1-70B-Instruct는 가장 안정적인 성능을 보였다. 또한, 표현의 중요성(salience of representation)에 따라 조작 효과가 달라지는 것으로 나타났는데, 강한 표현(예: 4.3절에서 언급된 oscillatory category)을 가진 모델에서는 약한 조작(0-5)이 성능 향상으로 이어질 수 있으나, 나머지 세 범주에서는 약한 표현 활성화로 인해 조작 효과가 제한적이다. 강한 조작(15-35)은 대부분의 모델에서 성능 저하를 유발했으며, 특히 MMSLlama3.1-8B-Instruct에 가장 큰 영향을 미쳤다. 마지막으로, MMS와 PWD 모두 대부분의 모델과 개념에서 성능 개선을 유도하지 못한 점에서, 현재 자기 인식 활성화 수준만 조작하는 것보다는 표현 구조 자체를 개선하는 전략(예: fine-tuning)이 필요할 것으로 보인다.

Analysis in Section 4.3 reveals significant heterogeneity in model representations of different concepts. Building on this, we explore how to manipulate these representations and assess the impact

<sup>9While most models conform to these four representational categories when processing the ten concepts, we acknowledge the possibility of exceptions and individual model deviations.


Figure 5: Linear probe accuracies of Llama3.1-8B-Instruct’s attention heads. We highlight the top-100 and bottom-100 heads (out of 1024 heads) using red and blue squares.

on model performance. Figure 6 illustrates the effects of different manipulation methods and intervention strengths. Our experiment uses Llama3.1-8B-Instruct, Mistral-Nemo-Instruct (12B), and Llama3.1-70B-Instruct, selected for their varying scales and broad applicability. Following the activation taxonomy in Section 4.3, we examine four representative concepts: belief, intention, known unknowns, and sequential planning. Intervention strength (5-35) follows Li et al. (2024b), with 0 indicating no manipulation.

We draw the following conclusions from Figure 6: (1) Scaling up model size appears to improve its resilience against manipulative effects. Llama3.1-8B-Instruct exhibits high sensitivity to manipulation, with both MMS and PWD significantly impacting its performance, showing a marked decline as intervention strength increases. Mistral-Nemo-Instruct (12B) experience severe performance reductions under MMS for the intention and belief concepts, sometimes falling to zero. Although not entirely immune, Llama3.1-70B-Instruct exhibits the most stable performance overall. (2) The influence of manipulation on performance is related to the salience of the representation. Minor strength manipulation (0-5) can yield performance gains in models with strong representations (e.g., the oscillatory category in Section 4.3). However, for concepts in the remaining three categories, the impact of manipulation on performance is limited by weak representation activation. (3) Strong manipulation strength (15-35) can severely impact most models’ performance. While using MMS, although not uniformly across all concepts, all models demonstrate performance

fluctuations with increasing manipulation strength. The impact of PWD on Mistral-Nemo-Instruct and Llama3.1-70B-Instruct is less pronounced than MMS, but it still results in considerable performance instability for Llama3.1-8B-Instruct. (4) Improving the model’s performance likely requires more than just manipulating its current level of self-consciousness activation. Both MMS and PWD fail to yield performance improvement on most models and concepts. This could be due to the model’s representation activation for this concept being too weak. Given these limitations, enhancing a model’s representation might require alternative strategies, such as fine-tuning.

4.5 Acquisition: How Do Models Acquire Self-Consciousness?


Summary

이 섹션에서는 자기 인식(self-consciousness) 관련 개념에 대한 모델 성능 저하를 해결하기 위해 Fine-tuning의 영향을 탐구한다. 특히, LoRA(Hu et al., 2022) 기반의 fine-tuning이 Llama3.1-8B-Instruct 모델의 내부 활성화(inner activation)와 정확도(accuracy)에 미치는 변화를 분석한 결과, 30~32층(deepest layers)의 활성화가 유의미하게 증가하며 모델 성능 향상이 확인되었다. 이는 Jo and Myaeng(2020)의 연구에서 제시된 semantic information이 transformer 모델의 깊은 층에서 활성화되는 경향과 일치하며, fine-tuning이 개념 내재된 semantic nuances를 더 잘 포착하게 한다는 점을 시사한다. 또한, activation taxonomy에 따른 개념 분류에 따라 belief(camelback)와 sequential planning(flat)은 fine-tuning 후 중간층 및 깊은층에서 차별화된 활성화 패턴을 보이며, 이는 fine-tuning이 다양한 개념 범주에 대해 세분화된 영향을 미친다는 것을 강조한다. 실험 결과, fine-tuning은 구조적 인과 게임(SCG)에서의 의사결정(decision)과 유틸리티(utility) 변수의 표현을 개선하여, C1(Global availability)과 C2(Self-monitoring)의 자기 인식 기능을 강화하는 데 기여할 수 있음을 보여준다.

Our experiment in Section 4.2 shows low model performance on certain concepts, and Section 4.4 confirms that manipulating their representations does not help (e.g., belief and sequential planning). Thus, we investigate fine-tuning’s impact on the model. 10 Figure 7 compares Llama3.1-8B-Instruct’s accuracy and inner activation changes before and after fine-tuning with LoRA (Hu et al., 2022). We perform two separate fine-tuning procedures, each targeting a different concept, selecting Llama3.1-8B-Instruct due to its sensitivity to degradation from manipulation in Section 4.4.

Upon meticulous examination of Figure 7, we have the following observations: (1) The deepest layers (the 30th-32nd layers) exhibit pronounced activation through fine-tuning, which also improves the model performance. As high-

<sup>10Details about the fine-tuning are in Appendix D.4.


Figure 6: Impact of manipulation on model performance. We examine how different manipulation methods and strengths affect the models.


Figure 7: How fine-tuning affects Llama3.1-8B-Instruct’s accuracy and inner activation. The bar compares the model’s original accuracy, the best accuracy under two manipulation methods, and the accuracy after fine-tuning. The heatmap shows the changes in activation before and after fine-tuning.

lighted by Jo and Myaeng (2020), semantic information tends to activate deeper layers in transformer models. Our experimental results corroborate this, suggesting that fine-tuning aids the model in better capturing the semantic nuances embedded within the concepts, thereby enhancing both distinct activations and model performance. (2) Concepts belonging to different categories within the activation taxonomy continue to show distinct activation patterns after fine-tuning. For example, belief (categorized as camelback) and sequential planning (categorized as flat) demonstrate differential activation responses. Fine-tuning preferentially enhances activation in the middle and deepest layers for belief, whereas sequential planning exhibits

predominant activation in the deeper layers. This differentiation underscores the nuanced impact of fine-tuning across various conceptual categories.

5 Related Work


Summary

이 섹션에서는 언어 모델에서 자기 인식(self-consciousness)을 탐구한 기존 연구들의 진행 상황을 정리하며, 특히 Chalmers(2023)가 언어 모델의 능력과 미래 방향에 대한 논의를 정리한 점, Li et al.(2024d)이 사회적·자기 반성적 측면을 포함한 모델 인식(model awareness)을 평가하는 벤치마크를 제안한 점, Chen et al.(2024a)이 자기 인식(self-cognition)을 정의하고 네 가지 정량화 원칙(quantification principles)을 제시한 점을 언급한다. 또한, 이론적 사고(theory of mind), 개성(personality), 감정(emotion) 등 다양한 관점에서 언어 모델을 분석한 연구들에 대해 소개하지만, 자기 인식(self-consciousness)의 기능적 정의(functional definitions)와 내부 표현(inner representations)에 대한 체계적인 탐구는 여전히 미비한 상태로 남아 있음을 지적한다. 이에 따라 본 연구는 기존의 구조적 인과 게임(Structural Causal Game)과 자기 인식(self-consciousness)의 기능적 정의를 기반으로, 언어 모델의 자기 인식 구조를 심층적으로 분석하고 실험적으로 검증하는 데 초점을 맞춘다.

We focus on the ongoing explorations of selfconsciousness in language models. Chalmers (2023) reviews arguments on their capabilities and future directions. Li et al. (2024d) introduces a benchmark for model awareness, covering social and introspective aspects. Chen et al. (2024a) defines self-cognition and proposes four quantification principles. Other research examines language models through theory of mind (Street et al., 2024; Strachan et al., 2024), personality (Jiang et al., 2024; Zhang et al., 2024), and emotion (Li et al., 2023; LI et al., 2024). Functional definitions and inner representations of self-consciousness in language models still remain underexplored.

6 Conclusion


This paper presents a pioneering exploration into the question of whether language models possess self-consciousness. We define self-consciousness using SCGs and introduce a dedicated dataset. We conduct a four-stage experiment and address four key “How” inquiries, yielding valuable findings to inform future work.

Limitations


Despite our best efforts to develop ten formalized functional definitions, compile a dedicated dataset, and execute a comprehensive four-stage

experimental on ten leading language models, we acknowledge that our work still has limitations. Our proposed method is based on Dehaene et al. (2017), which conceptualizes self-consciousness as a product of particular information-processing computations. This theoretical grounding facilitates large-scale data-driven testing and allows for the inference of behaviors suggestive of selfconsciousness based on model outputs. The exploration of a wider range of self-consciousness theories in language models is reserved for future work. Additionally, Our work only considered language models. Investigating self-consciousness in large vision-language models (LVLMs) will likely necessitate a broader range of considerations.

Introduction


  • 자의식(self-consciousness)은 자기 존재와 사고에 대한 고차원 인지 과정
  • LLM이 자의식을 가지게 되고 있는지에 대한 근본적 질문 제기
  • 심리학 및 신경과학에서 영감을 받아 LLM을 위한 자의식의 실용적 정의 제시
  • 10가지 핵심 개념을 정제하여 체계적 평가 프레임워크 구축

Related Papers


  • Dehaene et al. (2017) 의식 이론
  • Structural causal model 관련 연구
  • LLM의 자기 인식/의식 관련 초기 연구

Methods


  • 자의식의 10가지 핵심 개념을 causal structural games로 기능적으로 정의 (최초 시도)
  • 4단계 실험:
    1. Quantification: 10개 주요 모델에서 자의식 수준 정량 평가
    2. Representation: 모델 내부의 자의식 표현 시각화
    3. Manipulation: 자의식 표현의 수정 시도
    4. Acquisition: 핵심 개념에 대한 targeted fine-tuning

Results


  • 모델들이 자의식 발달의 초기 단계에 있음
  • 특정 개념에 대한 식별 가능한 내부 표현(representation)이 존재
  • 자의식 표현의 긍정적 조작(manipulation)은 현 단계에서 어려움
  • Targeted fine-tuning을 통해 자의식 관련 개념 학습(acquisition) 가능

Discussion


  • LLM 자의식은 존재하지만 초기 단계이며 조작이 어려움
  • Fine-tuning으로 자의식 개념을 획득할 수 있다는 점은 의미심장
  • Causal structural games가 자의식 연구의 형식적 프레임워크로서 유용
  • 자의식의 조작 가능성과 AI safety 간의 관계 추가 연구 필요