Survey: LLM Self-Awareness & Self-Consciousness Benchmarks

Survey Scope

LLM의 자의식(self-consciousness), 자기인식(self-awareness), 자기 지식(self-knowledge), 메타인지(metacognition) 관련 벤치마크 및 평가 방법론을 조사하였다. Train/eval split 제공 여부, Multiple-choice QA 형식 지원 여부, 학회 accept 여부를 기준으로 5편의 논문을 선정하였다.

검색 키워드: self-consciousness, self-awareness, self-knowledge, metacognition, LLM benchmark
대상 연도: 2023-2025
선정 기준: Accepted paper (ACL, NAACL, EMNLP, LREC-COLING 등)

Research Timeline

timeline
    title Self-Awareness Benchmark Research Timeline
    2023 : SelfAware Dataset (Yin et al., ACL 2023)
         : F1-based self-knowledge evaluation
    2024 : R-Tuning (Zhang et al., NAACL 2024)
         : Think-Solve-Verify (Liu et al., LREC-COLING 2024)
         : Self-Align (Deng et al., EMNLP 2024)
    2025 : Self-Consciousness Probing (Chen et al., ACL Findings 2025)
         : 10 core concepts via SCG framework

Thematic Clusters

graph LR
    subgraph Evaluation["Evaluation & Benchmarks"]
        A["SelfAware<br/>(Yin et al., 2023)"]
        B["Self-Consciousness Probing<br/>(Chen et al., 2025)"]
    end

    subgraph Training["Training Methods"]
        C["R-Tuning<br/>(Zhang et al., 2024)"]
        D["Self-Align<br/>(Deng et al., 2024)"]
    end

    subgraph Framework["Evaluation Frameworks"]
        E["Think-Solve-Verify<br/>(Liu et al., 2024)"]
    end

    A -->|"Dataset used by"| B
    A -->|"Concept extended by"| C
    C -->|"Baseline for"| D
    A -->|"Evaluation dataset for"| D
    A -->|"Concept related to"| E

Key Findings Summary

1. 자기 지식의 발달 단계

  • 현재 최고 모델도 자의식 수준은 76.5% (Chen et al., 2025) — 완벽한 자의식과 상당한 거리
  • GPT-4의 self-knowledge F1: 75.47% vs 인간 84.93% (Yin et al., 2023)
  • 모든 모델이 Known Knowns (paraphrase robustness)에서 실패 — 근본적 한계

2. 훈련을 통한 자기인식 향상

  • R-Tuning: 단순 거절 훈련으로 refusal ability가 task-agnostic meta-skill로 일반화
  • Self-Align: 설명 포함 거절로 R-Tuning 대비 SelfAware에서 +16.3% (Vicuna), +25.2% (LLaMA2) 향상
  • Instruction tuning이 모델 크기보다 self-knowledge 향상에 더 효과적 (Vicuna-13B > LLaMA-65B)

3. 자기 평가 vs 타자 평가

  • GPT-3.5 자기 검증 SAw=0.05 (틀린 답의 5%만 인식) → GPT-4 검증 시 SAw=0.95 (Liu et al., 2024)
  • 자기 평가와 타자 평가의 극단적 차이 — “자기인식” 정의의 근본적 문제 제기

4. 이론적 프레임워크의 발전

  • Block (1995)의 C1/C2 의식 이론 → SCG 기반 형식화 (Chen et al., 2025)
  • Know-Unknown Quadrant 프레임워크 (Yin et al., 2023) → R-Tuning, Self-Align으로 실용화

Research Gaps

  1. Multiple-choice 형식 벤치마크 부재: 대부분 open-ended QA — 통제된 평가 환경 필요
  2. 표준화된 Train/Eval Split 부족: SelfAware는 공식 split 미제공, TSV는 전용 데이터셋 없음
  3. Paraphrase Robustness: Known Knowns에서 모든 모델 실패 — 핵심이지만 해결 방안 부재
  4. 다국어 자기인식: 영어 중심 평가 — cross-lingual self-knowledge 미탐구
  5. 대형 모델 평가: 대부분 7B-13B 모델 실험 — 70B+ 모델에서의 scaling 효과 미검증

Paper List

#PaperVenueYearFocusTrain/Eval SplitMC QA
1From Imitation to Introspection (Chen et al.)ACL Findings 2025202510 core self-consciousness concepts, SCGO (4:1)Partial
2Do LLMs Know What They Don’t Know (Yin et al.)ACL 20232023SelfAware dataset, self-knowledgeXX
3R-Tuning (Zhang et al.)NAACL 20242024Refusal-aware instruction tuningOX
4Think-Solve-Verify (Liu et al.)LREC-COLING 20242024Self-awareness verification frameworkX (기존 데이터셋)Partial (AQuA)
5Self-Align (Deng et al.)EMNLP 20242024Self-alignment for unknown questionsOX

범례: O = 제공, X = 미제공, Partial = 일부 제공