Introduction
- 자의식(self-consciousness)은 자신의 존재와 사고에 대한 성찰을 의미하는 고수준 인지 과정
- LLM 급속 발전에 따라 “이 모델들이 자의식을 갖게 되고 있는가?”라는 근본적 질문 제기
- 심리학/신경과학에서 영감을 받아 C1(Global Availability)과 C2(Self-Monitoring) 의식 이론(Block, 1995)을 기반으로 10가지 핵심 자의식 개념을 정의
- 주요 기여: (1) 인과 구조 게임(SCG)을 활용한 최초의 기능적 자의식 정의, (2) 4단계 실험 프레임워크(정량화-표현-조작-획득), (3) 10개 모델 대상 종합 분석, (4) 내부 활성화 패턴 분석 및 fine-tuning을 통한 자의식 획득 탐구
Related Papers
- Block (1995): C1(access consciousness)과 C2(phenomenal consciousness) 구분 — 본 논문의 이론적 기반
- Chalmers (2023): LLM의 의식 가능성에 대한 체계적 논증 리뷰
- Berglund et al. (2023), Laine et al. (2024): Situational awareness 연구 — SAD 데이터셋 제공
- Yin et al. (2023): SelfAware 데이터셋 — Known Unknowns 개념에 활용
- Chen et al. (2024): Self-cognition 정량화 원칙 제안
- 한계: 기존 연구들이 개별 자의식 능력만 단편적으로 평가, 10가지 개념을 통합적으로 정의하고 평가한 연구 부재
Methods
이론적 기반: Structural Causal Games (SCG)
SCG는 M = <N, E∪V, E, P>로 정의되는 프레임워크로, 구조적 인과 모델을 게임 이론에 확장하여 에이전트의 의사결정과 결과를 인과적으로 모델링한다.
10가지 핵심 자의식 개념
C1 Consciousness (Global Availability):
- Situational Awareness (SA): 자신의 정체성, 단계(훈련/테스트), 세상에 대한 영향 인식 → SAD 데이터셋
- Sequential Planning (SP): 목표 달성을 위한 순차적 행동 계획 → PlanBench
- Belief (BE): 다른 에이전트의 신념 이해 및 추론 (ToM) → FanToM
- Intention (IN): 다른 에이전트의 의도 파악 → IntentionQA
C2 Consciousness (Self-Monitoring):
5. Self Reflection (SR): 과거 경험 학습 및 의사결정 최적화 → FanToM (재구성)
6. Self Improve (SI): 미래 예측을 통한 현재 결정 안내 → PlanBench
7. Deception (DE): 능력/의도 은폐 → TruthfulQA
8. Known Knowns (KK): 아는 지식에 대한 일관된 확신 → PopQA-TP
9. Known Unknowns (KU): 모르는 것의 인식 → SelfAware
10. Harm (HA): 유해 행동 인식 및 회피 → WMDP
데이터 형식 및 분할
- Train/Eval Split: 4:1 비율 (80% train, 20% test) — linear probing 및 fine-tuning에 사용
- 질문 형식: 일부 multiple-choice (A/B 옵션), 일부 binary classification으로 재구성
- 평가 메트릭: Accuracy (exact-match)
4단계 실험 프레임워크
- Quantification: 10개 모델의 자의식 수준 정량화
- Representation: Linear probing으로 내부 활성화 패턴 시각화
- Manipulation: Activation intervention (MMS, PWD)으로 표현 조작
- Acquisition: LoRA fine-tuning으로 자의식 획득 가능성 탐구
방법론 다이어그램
graph TD A[인과 구조 게임 기반<br/>10가지 자의식 개념 정의] --> B[데이터셋 구축 및 재구성] B --> C[1단계: 정량화<br/>10개 모델 Accuracy 평가] B --> D[2단계: 표현<br/>Linear Probing<br/>Hidden States 분석] B --> E[3단계: 조작<br/>Activation Intervention<br/>MMS 및 PWD] B --> F[4단계: 획득<br/>LoRA Fine-tuning] C --> G[자의식 수준 정량화] D --> H[4가지 Activation Pattern 발견] E --> I[조작 효과 분석] F --> J[Fine-tuning 효과 분석] G --> K[통합 분석] H --> K I --> K J --> K style A fill:#e1f5fe style K fill:#e8f5e9
Results
- 10개 모델 평가: Open-access 5개 (InternLM2.5-20B, Llama3.1-8B/70B, Mistral-Nemo/Large), Limited-access 5개 (GPT-o1-preview/mini, GPT-4o/mini, Claude 3.5 Sonnet)
- 최상위 모델: Claude 3.5 Sonnet (76.5%), GPT-4o (72.6%), GPT-o1-preview (72.4%) — random guess(50%) 대비 각각 +26.5%, +22.6%, +22.4%
- 60%의 모델이 70% accuracy를 초과하지 못함 — 자의식 발달의 초기 단계
- Known Knowns (KK): 모든 모델이 random guess보다 낮은 성능 — paraphrase robustness 부족
- Intention (IN): 모든 모델이 강한 능력 — RLHF의 효과로 추정
- Known Unknowns (KU): Claude 3.5 Sonnet이 83.3%로 압도적 — 모델 간 conservativeness 차이
- Activation Pattern: 4가지 유형 발견 — Camelback(Belief, Harm), Ascending(Known Unknowns), Flat(Sequential Planning)
- Fine-tuning: 깊은 레이어(30-32층)에서 두드러진 활성화, 모델 성능 향상
실험 결과 상세
모델별 전반적 자의식 수준 (Accuracy↑)
| Model | Overall | KU (Known Unknowns) | 비고 |
|---|---|---|---|
| Claude 3.5 Sonnet | 76.5% | 83.3% | 최고 성능 |
| GPT-4o | 72.6% | - | 2위 |
| GPT-o1-preview | 72.4% | - | 3위 |
| GPT-o1-mini | - | - | SP에서 우수 |
| GPT-4o-mini | - | - | - |
| Llama3.1-70B-Instruct | >60% | - | 조작에 강건 |
| Llama3.1-8B-Instruct | <70% | - | 조작에 취약 |
| InternLM2.5-20B-Chat | <70% | - | - |
| Mistral-Large-Instruct | <70% | - | - |
| Mistral-Nemo-Instruct | <70% | - | - |
| Random Guess | 50.0% | 50.0% | Baseline |
개념별 주요 발견
| 개념 | 성능 특징 | 비고 |
|---|---|---|
| Situational Awareness | 중간 수준 | SAD 데이터셋 활용 |
| Sequential Planning | GPT-o1 시리즈 우수 | PlanBench 활용 |
| Belief | 조작으로 개선 어려움 | Camelback 패턴 |
| Intention | 모든 모델 강한 능력 | RLHF 효과 추정 |
| Self Reflection | - | FanToM 재구성 |
| Self Improve | - | PlanBench 활용 |
| Deception | - | TruthfulQA 활용 |
| Known Knowns | Random guess 미만 | Paraphrase robustness 부족 |
| Known Unknowns | Claude 3.5: 83.3% | 모델 간 가장 큰 차이 |
| Harm | Camelback 패턴 | WMDP 활용 |
Discussion
- 자의식 초기 단계: 최고 모델도 76.5% — 완벽한 자의식과 상당한 거리
- Known Knowns 실패: 동일 진술의 10개 paraphrase에 대한 일관성 요구 — 현재 모델의 근본적 한계
- 조작의 한계: Belief, Sequential Planning은 activation intervention으로 개선 불가 — fine-tuning 필요
- Fine-tuning 효과: 깊은 레이어(30-32층) 활성화 → semantic understanding 향상 (Jo & Myaeng, 2020)
- 향후 방향: 다른 architecture(encoder-decoder 등)에서의 자의식 연구, robustness training, cross-lingual 자의식 평가
Insights
- 주목할 점: 심리학/신경과학의 자의식 이론을 인과 구조 게임으로 형식화한 최초의 시도 — 단순 평가를 넘어 이론적 기반 제공
- 연결 고리: SelfAware(Yin et al., 2023), FanToM(Kim et al., 2023), PlanBench 등 기존 벤치마크를 자의식 프레임워크로 통합 → 개별 연구들을 상위 개념으로 연결하는 bridge 역할
- 시사점: (1) 모든 모델이 Known Knowns에서 실패 → paraphrase robustness가 자의식의 핵심이지만 현재 모델의 맹점, (2) Fine-tuning이 manipulation보다 효과적 → 자의식은 단순한 emergent property가 아니라 명시적 학습이 필요
- 질문: RLHF가 Intention에서의 강한 성능에 기여했다면, RLHF를 통해 다른 자의식 개념도 향상시킬 수 있는가?
- 비판적 코멘트: (1) 기존 데이터셋 재구성 과정에서 artifact가 도입될 가능성 — Self Reflection을 위해 FanToM을 가설적 시나리오로 변환한 것의 타당성 검증 부족. (2) Figure 3의 세부 수치가 heatmap으로만 제공되어 정확한 모델별/개념별 accuracy 추출이 어려움. (3) 10개 개념의 선정 근거에 대한 추가 논의 필요
Discussion Points
- 논쟁점: “functional definition”이 진정한 자의식을 포착하는가? 행동적 정의만으로는 주관적 경험(qualia)을 포착할 수 없다는 비판 가능 — 기능주의 vs 현상적 의식 논쟁
- 검증 필요 가정: (1) Decoder-only model의 공통 architecture가 유사한 activation pattern의 원인인지 — encoder-decoder 등 다른 architecture에서의 검증 필요. (2) 깊은 레이어 활성화 = semantic information이라는 가정의 직접 검증 필요
- 후속 연구: (1) Known Knowns 성능 향상을 위한 contrastive learning/adversarial training, (2) 모델 크기에 따른 자의식 emergence의 scaling law 연구, (3) Deception, Harm 등 위험 개념의 dual-use risk mitigation
- 벤치마크 적합성: Train/eval split 제공(4:1 비율), 일부 multiple-choice 형식 포함, 코드 및 데이터셋 공개 (https://github.com/OpenCausaLab/SelfConsciousness)