Self-Consciousness 관련 Task/Benchmark Survey

조사 범위

  • 주제: LLM의 자의식(Self-Consciousness) 및 관련 요소 — Theory of Mind, 메타인지(Metacognition), 자기인식(Self-Awareness)
  • 기간: 2023-2026 (주로 2024-2026 top-tier 학회)
  • 분석 논문 수: 10편
  • 검색 소스: Semantic Scholar, arXiv

핵심 개념 정의 비교

“자의식(Self-Consciousness)“은 단일 개념이 아니라 여러 인접 개념의 스펙트럼으로 연구되고 있다. 각 논문에서 다루는 핵심 개념과 정의를 비교하면 다음과 같다:

개념정의대표 논문
Self-Awareness in PerceptionMLLM이 이미지에서 자신이 무엇을 인지할 수 있고 없는지를 이해하는 능력MM-SAP (ACL 2024)
Metacognition자신의 내부 상태를 모니터링하고 전략적으로 활용하는 능력Ackerman (2025), Steyvers & Peters (2025)
Theory of Mind (ToM)타인의 정신 상태(믿음, 욕구, 의도)를 추론하는 능력FANToM, HI-TOM, NegotiationToM, DynToM, CogToM
Dynamic Mental State Tracking시간에 따라 변화하는 정신 상태를 추적하는 능력DynToM (ACL 2025)
Higher-Order ToM재귀적 믿음 추론 (A가 B가 C를 안다고 생각하는 것을 추론)HI-TOM (EMNLP 2023)
Cognitive ToM인간 인지 메커니즘 전체를 반영한 포괄적 ToMCogToM (2026)

연구 타임라인

timeline
    title Self-Consciousness Benchmark Research Timeline
    2023 : FANToM (EMNLP)
         : HI-TOM (EMNLP)
    2024 : MM-SAP (ACL)
         : NegotiationToM (EMNLP)
         : What LLMs Know (Nature MI)
    2025 : DynToM (ACL)
         : Evidence for Limited Metacognition (arXiv)
         : Metacognition & Uncertainty (Curr Dir Psych Sci)
         : Re-evaluating ToM (Phil Trans Royal Soc B)
         : Rethinking ToM Benchmarks (CHI Workshop)
    2026 : CogToM (arXiv)

주제별 분류

graph TD
    SC[Self-Consciousness<br>관련 Benchmark] --> ToM[Theory of Mind]
    SC --> Meta[Metacognition]
    SC --> SA[Self-Awareness]
    SC --> Crit[비판적 리뷰]

    ToM --> FANToM[FANToM<br>대화적 ToM<br>EMNLP 2023]
    ToM --> HITOM[HI-TOM<br>고차 ToM<br>EMNLP 2023]
    ToM --> NegToM[NegotiationToM<br>협상 BDI<br>EMNLP 2024]
    ToM --> DynToM[DynToM<br>동적 정신상태<br>ACL 2025]
    ToM --> CogToM[CogToM<br>46개 패러다임<br>2026]

    Meta --> Ackerman[Evidence for<br>Limited Metacognition<br>2025]
    Meta --> Steyvers[Metacognition &<br>Uncertainty<br>Curr Dir Psych Sci]

    SA --> MMSAP[MM-SAP<br>지각 자기인식<br>ACL 2024]

    Crit --> Hu[Re-evaluating ToM<br>Phil Trans Royal Soc B]
    Crit --> Wang[Rethinking ToM<br>Benchmarks<br>CHI 2025]

주요 발견 요약

1. LLM은 자의식 관련 능력이 제한적이다

  • MM-SAP: 현재 MLLM은 제한된 자기인식 능력을 보유 (open-source: 44-55%, closed-source: 62-75%)
  • FANToM: GPT-4도 전체 질문 유형에서 26.6% (인간 87.5%)
  • NegotiationToM: 최고 모델 GPT-4 CoT도 욕구 63%, 신념 58%, 의도 40% (인간 91%, 91%, 84%)
  • DynToM: LLM 평균 33% vs. 인간 77.7% (44.7% 격차)

2. 메타인지 능력은 부분적으로 존재하지만 질적으로 다르다

  • Ackerman (2025): Frontier LLM이 제한적이지만 점증하는 메타인지 증거를 보임. 자신감 평가 및 활용 가능. 그러나 해상도 제한, 맥락 의존적, 인간과 질적으로 상이
  • Steyvers & Peters (2025): LLM이 인간과 유사한 과신(overconfidence) 편향을 보이나, 불확실성 표현을 꺼리고 2차 자기평가 표상이 부족

3. 고차 추론에서 성능이 급격히 저하된다

  • HI-TOM: ToM 차수가 높아질수록 성능 하락 (0차→4차)
  • DynToM: 시나리오가 길어지고 정신 상태 변화가 복잡해지면 성능 급락 (“Lost in the Middle” 패턴)

4. 현재 벤치마크의 방법론적 한계가 존재한다

  • Hu et al. (2025): 행동 매칭 vs. 계산 매칭 구분 부재, “training away” 문제, 화용론적 아티팩트
  • Wang et al. (2025): 75.5%의 ToM 측정이 믿음에만 집중, 20.2%만 심리측정학적 문서화 제공

5. 인간 인지 패턴과 LLM 인지가 구조적으로 다르다

  • CogToM (2026): Moravec의 역설 — LLM이 복잡한 감정 추론(80-95%)에는 강하지만 기초적 지각 과제(~20%)에 실패. 인간 발달 궤적과 정반대

연구 공백

  1. 체화(Embodiment) 기반 자의식: 현재 벤치마크는 모두 텍스트 기반으로, 신체적 자기인식을 평가하지 못함
  2. 능동적(Active) ToM: 대부분 수동적 관찰 평가. 실시간 상호작용에서의 ToM 평가 부족
  3. 자기모델(Self-Model): LLM이 자기 자신에 대한 내부 모델을 형성하는지 직접 평가하는 벤치마크 부재
  4. 현상적 의식(Phenomenal Consciousness): 경험적 의식 측면은 현재 벤치마크로 접근 불가
  5. 종단적(Longitudinal) 평가: 학습과 경험을 통한 자의식 발달 추적 벤치마크 없음

논문 목록

#TitleVenueYearCategoryCitations
1MM-SAPACL 20242024Self-Awareness19
2Evidence for Limited Metacognition in LLMsarXiv2025Metacognition1
3Metacognition and Uncertainty CommunicationCurr Dir Psych Sci2025Metacognition9
4NegotiationToMEMNLP 20242024ToM Benchmark39
5FANToMEMNLP 20232023ToM Benchmark133
6HI-TOMEMNLP 20232023ToM Benchmark48
7DynToMACL 20252025ToM Benchmark9
8Re-evaluating ToM evaluationPhil Trans Royal Soc B2025Survey/Critique10
9CogToMarXiv2026ToM Benchmark0
10Rethinking ToM Benchmarks for LLMsCHI Workshop 20252025Survey/Critique9