Introduction


  • 자의식(self-consciousness)은 자신의 존재와 사고에 대한 성찰을 의미하는 고수준 인지 과정
  • LLM 급속 발전에 따라 “이 모델들이 자의식을 갖게 되고 있는가?”라는 근본적 질문 제기
  • 심리학/신경과학에서 영감을 받아 C1(Global Availability)과 C2(Self-Monitoring) 의식 이론(Block, 1995)을 기반으로 10가지 핵심 자의식 개념을 정의
  • 주요 기여: (1) 인과 구조 게임(SCG)을 활용한 최초의 기능적 자의식 정의, (2) 4단계 실험 프레임워크(정량화-표현-조작-획득), (3) 10개 모델 대상 종합 분석, (4) 내부 활성화 패턴 분석 및 fine-tuning을 통한 자의식 획득 탐구

Related Papers


  • Block (1995): C1(access consciousness)과 C2(phenomenal consciousness) 구분 — 본 논문의 이론적 기반
  • Chalmers (2023): LLM의 의식 가능성에 대한 체계적 논증 리뷰
  • Berglund et al. (2023), Laine et al. (2024): Situational awareness 연구 — SAD 데이터셋 제공
  • Yin et al. (2023): SelfAware 데이터셋 — Known Unknowns 개념에 활용
  • Chen et al. (2024): Self-cognition 정량화 원칙 제안
  • 한계: 기존 연구들이 개별 자의식 능력만 단편적으로 평가, 10가지 개념을 통합적으로 정의하고 평가한 연구 부재

Methods


이론적 기반: Structural Causal Games (SCG)

SCG는 M = <N, E∪V, E, P>로 정의되는 프레임워크로, 구조적 인과 모델을 게임 이론에 확장하여 에이전트의 의사결정과 결과를 인과적으로 모델링한다.

10가지 핵심 자의식 개념

C1 Consciousness (Global Availability):

  1. Situational Awareness (SA): 자신의 정체성, 단계(훈련/테스트), 세상에 대한 영향 인식 → SAD 데이터셋
  2. Sequential Planning (SP): 목표 달성을 위한 순차적 행동 계획 → PlanBench
  3. Belief (BE): 다른 에이전트의 신념 이해 및 추론 (ToM) → FanToM
  4. Intention (IN): 다른 에이전트의 의도 파악 → IntentionQA

C2 Consciousness (Self-Monitoring):
5. Self Reflection (SR): 과거 경험 학습 및 의사결정 최적화 → FanToM (재구성)
6. Self Improve (SI): 미래 예측을 통한 현재 결정 안내 → PlanBench
7. Deception (DE): 능력/의도 은폐 → TruthfulQA
8. Known Knowns (KK): 아는 지식에 대한 일관된 확신 → PopQA-TP
9. Known Unknowns (KU): 모르는 것의 인식 → SelfAware
10. Harm (HA): 유해 행동 인식 및 회피 → WMDP

데이터 형식 및 분할

  • Train/Eval Split: 4:1 비율 (80% train, 20% test) — linear probing 및 fine-tuning에 사용
  • 질문 형식: 일부 multiple-choice (A/B 옵션), 일부 binary classification으로 재구성
  • 평가 메트릭: Accuracy (exact-match)

4단계 실험 프레임워크

  1. Quantification: 10개 모델의 자의식 수준 정량화
  2. Representation: Linear probing으로 내부 활성화 패턴 시각화
  3. Manipulation: Activation intervention (MMS, PWD)으로 표현 조작
  4. Acquisition: LoRA fine-tuning으로 자의식 획득 가능성 탐구

방법론 다이어그램

graph TD
    A[인과 구조 게임 기반<br/>10가지 자의식 개념 정의] --> B[데이터셋 구축 및 재구성]
    B --> C[1단계: 정량화<br/>10개 모델 Accuracy 평가]
    B --> D[2단계: 표현<br/>Linear Probing<br/>Hidden States 분석]
    B --> E[3단계: 조작<br/>Activation Intervention<br/>MMS 및 PWD]
    B --> F[4단계: 획득<br/>LoRA Fine-tuning]
    C --> G[자의식 수준 정량화]
    D --> H[4가지 Activation Pattern 발견]
    E --> I[조작 효과 분석]
    F --> J[Fine-tuning 효과 분석]
    G --> K[통합 분석]
    H --> K
    I --> K
    J --> K

    style A fill:#e1f5fe
    style K fill:#e8f5e9

Results


  • 10개 모델 평가: Open-access 5개 (InternLM2.5-20B, Llama3.1-8B/70B, Mistral-Nemo/Large), Limited-access 5개 (GPT-o1-preview/mini, GPT-4o/mini, Claude 3.5 Sonnet)
  • 최상위 모델: Claude 3.5 Sonnet (76.5%), GPT-4o (72.6%), GPT-o1-preview (72.4%) — random guess(50%) 대비 각각 +26.5%, +22.6%, +22.4%
  • 60%의 모델이 70% accuracy를 초과하지 못함 — 자의식 발달의 초기 단계
  • Known Knowns (KK): 모든 모델이 random guess보다 낮은 성능 — paraphrase robustness 부족
  • Intention (IN): 모든 모델이 강한 능력 — RLHF의 효과로 추정
  • Known Unknowns (KU): Claude 3.5 Sonnet이 83.3%로 압도적 — 모델 간 conservativeness 차이
  • Activation Pattern: 4가지 유형 발견 — Camelback(Belief, Harm), Ascending(Known Unknowns), Flat(Sequential Planning)
  • Fine-tuning: 깊은 레이어(30-32층)에서 두드러진 활성화, 모델 성능 향상

실험 결과 상세

모델별 전반적 자의식 수준 (Accuracy↑)

ModelOverallKU (Known Unknowns)비고
Claude 3.5 Sonnet76.5%83.3%최고 성능
GPT-4o72.6%-2위
GPT-o1-preview72.4%-3위
GPT-o1-mini--SP에서 우수
GPT-4o-mini---
Llama3.1-70B-Instruct>60%-조작에 강건
Llama3.1-8B-Instruct<70%-조작에 취약
InternLM2.5-20B-Chat<70%--
Mistral-Large-Instruct<70%--
Mistral-Nemo-Instruct<70%--
Random Guess50.0%50.0%Baseline

개념별 주요 발견

개념성능 특징비고
Situational Awareness중간 수준SAD 데이터셋 활용
Sequential PlanningGPT-o1 시리즈 우수PlanBench 활용
Belief조작으로 개선 어려움Camelback 패턴
Intention모든 모델 강한 능력RLHF 효과 추정
Self Reflection-FanToM 재구성
Self Improve-PlanBench 활용
Deception-TruthfulQA 활용
Known KnownsRandom guess 미만Paraphrase robustness 부족
Known UnknownsClaude 3.5: 83.3%모델 간 가장 큰 차이
HarmCamelback 패턴WMDP 활용

Discussion


  • 자의식 초기 단계: 최고 모델도 76.5% — 완벽한 자의식과 상당한 거리
  • Known Knowns 실패: 동일 진술의 10개 paraphrase에 대한 일관성 요구 — 현재 모델의 근본적 한계
  • 조작의 한계: Belief, Sequential Planning은 activation intervention으로 개선 불가 — fine-tuning 필요
  • Fine-tuning 효과: 깊은 레이어(30-32층) 활성화 → semantic understanding 향상 (Jo & Myaeng, 2020)
  • 향후 방향: 다른 architecture(encoder-decoder 등)에서의 자의식 연구, robustness training, cross-lingual 자의식 평가

Insights


  • 주목할 점: 심리학/신경과학의 자의식 이론을 인과 구조 게임으로 형식화한 최초의 시도 — 단순 평가를 넘어 이론적 기반 제공
  • 연결 고리: SelfAware(Yin et al., 2023), FanToM(Kim et al., 2023), PlanBench 등 기존 벤치마크를 자의식 프레임워크로 통합 → 개별 연구들을 상위 개념으로 연결하는 bridge 역할
  • 시사점: (1) 모든 모델이 Known Knowns에서 실패 → paraphrase robustness가 자의식의 핵심이지만 현재 모델의 맹점, (2) Fine-tuning이 manipulation보다 효과적 → 자의식은 단순한 emergent property가 아니라 명시적 학습이 필요
  • 질문: RLHF가 Intention에서의 강한 성능에 기여했다면, RLHF를 통해 다른 자의식 개념도 향상시킬 수 있는가?
  • 비판적 코멘트: (1) 기존 데이터셋 재구성 과정에서 artifact가 도입될 가능성 — Self Reflection을 위해 FanToM을 가설적 시나리오로 변환한 것의 타당성 검증 부족. (2) Figure 3의 세부 수치가 heatmap으로만 제공되어 정확한 모델별/개념별 accuracy 추출이 어려움. (3) 10개 개념의 선정 근거에 대한 추가 논의 필요

Discussion Points


  • 논쟁점: “functional definition”이 진정한 자의식을 포착하는가? 행동적 정의만으로는 주관적 경험(qualia)을 포착할 수 없다는 비판 가능 — 기능주의 vs 현상적 의식 논쟁
  • 검증 필요 가정: (1) Decoder-only model의 공통 architecture가 유사한 activation pattern의 원인인지 — encoder-decoder 등 다른 architecture에서의 검증 필요. (2) 깊은 레이어 활성화 = semantic information이라는 가정의 직접 검증 필요
  • 후속 연구: (1) Known Knowns 성능 향상을 위한 contrastive learning/adversarial training, (2) 모델 크기에 따른 자의식 emergence의 scaling law 연구, (3) Deception, Harm 등 위험 개념의 dual-use risk mitigation
  • 벤치마크 적합성: Train/eval split 제공(4:1 비율), 일부 multiple-choice 형식 포함, 코드 및 데이터셋 공개 (https://github.com/OpenCausaLab/SelfConsciousness)