Survey: LLM Self-Awareness & Self-Consciousness Benchmarks
Survey Scope
LLM의 자의식(self-consciousness), 자기인식(self-awareness), 자기 지식(self-knowledge), 메타인지(metacognition) 관련 벤치마크 및 평가 방법론을 조사하였다. Train/eval split 제공 여부, Multiple-choice QA 형식 지원 여부, 학회 accept 여부를 기준으로 5편의 논문을 선정하였다.
검색 키워드: self-consciousness, self-awareness, self-knowledge, metacognition, LLM benchmark
대상 연도: 2023-2025
선정 기준: Accepted paper (ACL, NAACL, EMNLP, LREC-COLING 등)
Research Timeline
timeline title Self-Awareness Benchmark Research Timeline 2023 : SelfAware Dataset (Yin et al., ACL 2023) : F1-based self-knowledge evaluation 2024 : R-Tuning (Zhang et al., NAACL 2024) : Think-Solve-Verify (Liu et al., LREC-COLING 2024) : Self-Align (Deng et al., EMNLP 2024) 2025 : Self-Consciousness Probing (Chen et al., ACL Findings 2025) : 10 core concepts via SCG framework
Thematic Clusters
graph LR subgraph Evaluation["Evaluation & Benchmarks"] A["SelfAware<br/>(Yin et al., 2023)"] B["Self-Consciousness Probing<br/>(Chen et al., 2025)"] end subgraph Training["Training Methods"] C["R-Tuning<br/>(Zhang et al., 2024)"] D["Self-Align<br/>(Deng et al., 2024)"] end subgraph Framework["Evaluation Frameworks"] E["Think-Solve-Verify<br/>(Liu et al., 2024)"] end A -->|"Dataset used by"| B A -->|"Concept extended by"| C C -->|"Baseline for"| D A -->|"Evaluation dataset for"| D A -->|"Concept related to"| E
Key Findings Summary
1. 자기 지식의 발달 단계
- 현재 최고 모델도 자의식 수준은 76.5% (Chen et al., 2025) — 완벽한 자의식과 상당한 거리
- GPT-4의 self-knowledge F1: 75.47% vs 인간 84.93% (Yin et al., 2023)
- 모든 모델이 Known Knowns (paraphrase robustness)에서 실패 — 근본적 한계
2. 훈련을 통한 자기인식 향상
- R-Tuning: 단순 거절 훈련으로 refusal ability가 task-agnostic meta-skill로 일반화
- Self-Align: 설명 포함 거절로 R-Tuning 대비 SelfAware에서 +16.3% (Vicuna), +25.2% (LLaMA2) 향상
- Instruction tuning이 모델 크기보다 self-knowledge 향상에 더 효과적 (Vicuna-13B > LLaMA-65B)
3. 자기 평가 vs 타자 평가
- GPT-3.5 자기 검증 SAw=0.05 (틀린 답의 5%만 인식) → GPT-4 검증 시 SAw=0.95 (Liu et al., 2024)
- 자기 평가와 타자 평가의 극단적 차이 — “자기인식” 정의의 근본적 문제 제기
4. 이론적 프레임워크의 발전
- Block (1995)의 C1/C2 의식 이론 → SCG 기반 형식화 (Chen et al., 2025)
- Know-Unknown Quadrant 프레임워크 (Yin et al., 2023) → R-Tuning, Self-Align으로 실용화
Research Gaps
- Multiple-choice 형식 벤치마크 부재: 대부분 open-ended QA — 통제된 평가 환경 필요
- 표준화된 Train/Eval Split 부족: SelfAware는 공식 split 미제공, TSV는 전용 데이터셋 없음
- Paraphrase Robustness: Known Knowns에서 모든 모델 실패 — 핵심이지만 해결 방안 부재
- 다국어 자기인식: 영어 중심 평가 — cross-lingual self-knowledge 미탐구
- 대형 모델 평가: 대부분 7B-13B 모델 실험 — 70B+ 모델에서의 scaling 효과 미검증
Paper List
| # | Paper | Venue | Year | Focus | Train/Eval Split | MC QA |
|---|---|---|---|---|---|---|
| 1 | From Imitation to Introspection (Chen et al.) | ACL Findings 2025 | 2025 | 10 core self-consciousness concepts, SCG | O (4:1) | Partial |
| 2 | Do LLMs Know What They Don’t Know (Yin et al.) | ACL 2023 | 2023 | SelfAware dataset, self-knowledge | X | X |
| 3 | R-Tuning (Zhang et al.) | NAACL 2024 | 2024 | Refusal-aware instruction tuning | O | X |
| 4 | Think-Solve-Verify (Liu et al.) | LREC-COLING 2024 | 2024 | Self-awareness verification framework | X (기존 데이터셋) | Partial (AQuA) |
| 5 | Self-Align (Deng et al.) | EMNLP 2024 | 2024 | Self-alignment for unknown questions | O | X |
범례: O = 제공, X = 미제공, Partial = 일부 제공