Self-Consciousness 관련 Task/Benchmark Survey
조사 범위
- 주제: LLM의 자의식(Self-Consciousness) 및 관련 요소 — Theory of Mind, 메타인지(Metacognition), 자기인식(Self-Awareness)
- 기간: 2023-2026 (주로 2024-2026 top-tier 학회)
- 분석 논문 수: 10편
- 검색 소스: Semantic Scholar, arXiv
핵심 개념 정의 비교
“자의식(Self-Consciousness)“은 단일 개념이 아니라 여러 인접 개념의 스펙트럼으로 연구되고 있다. 각 논문에서 다루는 핵심 개념과 정의를 비교하면 다음과 같다:
| 개념 | 정의 | 대표 논문 |
|---|
| Self-Awareness in Perception | MLLM이 이미지에서 자신이 무엇을 인지할 수 있고 없는지를 이해하는 능력 | MM-SAP (ACL 2024) |
| Metacognition | 자신의 내부 상태를 모니터링하고 전략적으로 활용하는 능력 | Ackerman (2025), Steyvers & Peters (2025) |
| Theory of Mind (ToM) | 타인의 정신 상태(믿음, 욕구, 의도)를 추론하는 능력 | FANToM, HI-TOM, NegotiationToM, DynToM, CogToM |
| Dynamic Mental State Tracking | 시간에 따라 변화하는 정신 상태를 추적하는 능력 | DynToM (ACL 2025) |
| Higher-Order ToM | 재귀적 믿음 추론 (A가 B가 C를 안다고 생각하는 것을 추론) | HI-TOM (EMNLP 2023) |
| Cognitive ToM | 인간 인지 메커니즘 전체를 반영한 포괄적 ToM | CogToM (2026) |
연구 타임라인
timeline
title Self-Consciousness Benchmark Research Timeline
2023 : FANToM (EMNLP)
: HI-TOM (EMNLP)
2024 : MM-SAP (ACL)
: NegotiationToM (EMNLP)
: What LLMs Know (Nature MI)
2025 : DynToM (ACL)
: Evidence for Limited Metacognition (arXiv)
: Metacognition & Uncertainty (Curr Dir Psych Sci)
: Re-evaluating ToM (Phil Trans Royal Soc B)
: Rethinking ToM Benchmarks (CHI Workshop)
2026 : CogToM (arXiv)
주제별 분류
graph TD
SC[Self-Consciousness<br>관련 Benchmark] --> ToM[Theory of Mind]
SC --> Meta[Metacognition]
SC --> SA[Self-Awareness]
SC --> Crit[비판적 리뷰]
ToM --> FANToM[FANToM<br>대화적 ToM<br>EMNLP 2023]
ToM --> HITOM[HI-TOM<br>고차 ToM<br>EMNLP 2023]
ToM --> NegToM[NegotiationToM<br>협상 BDI<br>EMNLP 2024]
ToM --> DynToM[DynToM<br>동적 정신상태<br>ACL 2025]
ToM --> CogToM[CogToM<br>46개 패러다임<br>2026]
Meta --> Ackerman[Evidence for<br>Limited Metacognition<br>2025]
Meta --> Steyvers[Metacognition &<br>Uncertainty<br>Curr Dir Psych Sci]
SA --> MMSAP[MM-SAP<br>지각 자기인식<br>ACL 2024]
Crit --> Hu[Re-evaluating ToM<br>Phil Trans Royal Soc B]
Crit --> Wang[Rethinking ToM<br>Benchmarks<br>CHI 2025]
주요 발견 요약
1. LLM은 자의식 관련 능력이 제한적이다
- MM-SAP: 현재 MLLM은 제한된 자기인식 능력을 보유 (open-source: 44-55%, closed-source: 62-75%)
- FANToM: GPT-4도 전체 질문 유형에서 26.6% (인간 87.5%)
- NegotiationToM: 최고 모델 GPT-4 CoT도 욕구 63%, 신념 58%, 의도 40% (인간 91%, 91%, 84%)
- DynToM: LLM 평균 33% vs. 인간 77.7% (44.7% 격차)
2. 메타인지 능력은 부분적으로 존재하지만 질적으로 다르다
- Ackerman (2025): Frontier LLM이 제한적이지만 점증하는 메타인지 증거를 보임. 자신감 평가 및 활용 가능. 그러나 해상도 제한, 맥락 의존적, 인간과 질적으로 상이
- Steyvers & Peters (2025): LLM이 인간과 유사한 과신(overconfidence) 편향을 보이나, 불확실성 표현을 꺼리고 2차 자기평가 표상이 부족
3. 고차 추론에서 성능이 급격히 저하된다
- HI-TOM: ToM 차수가 높아질수록 성능 하락 (0차→4차)
- DynToM: 시나리오가 길어지고 정신 상태 변화가 복잡해지면 성능 급락 (“Lost in the Middle” 패턴)
4. 현재 벤치마크의 방법론적 한계가 존재한다
- Hu et al. (2025): 행동 매칭 vs. 계산 매칭 구분 부재, “training away” 문제, 화용론적 아티팩트
- Wang et al. (2025): 75.5%의 ToM 측정이 믿음에만 집중, 20.2%만 심리측정학적 문서화 제공
5. 인간 인지 패턴과 LLM 인지가 구조적으로 다르다
- CogToM (2026): Moravec의 역설 — LLM이 복잡한 감정 추론(80-95%)에는 강하지만 기초적 지각 과제(~20%)에 실패. 인간 발달 궤적과 정반대
연구 공백
- 체화(Embodiment) 기반 자의식: 현재 벤치마크는 모두 텍스트 기반으로, 신체적 자기인식을 평가하지 못함
- 능동적(Active) ToM: 대부분 수동적 관찰 평가. 실시간 상호작용에서의 ToM 평가 부족
- 자기모델(Self-Model): LLM이 자기 자신에 대한 내부 모델을 형성하는지 직접 평가하는 벤치마크 부재
- 현상적 의식(Phenomenal Consciousness): 경험적 의식 측면은 현재 벤치마크로 접근 불가
- 종단적(Longitudinal) 평가: 학습과 경험을 통한 자의식 발달 추적 벤치마크 없음
논문 목록
| # | Title | Venue | Year | Category | Citations |
|---|
| 1 | MM-SAP | ACL 2024 | 2024 | Self-Awareness | 19 |
| 2 | Evidence for Limited Metacognition in LLMs | arXiv | 2025 | Metacognition | 1 |
| 3 | Metacognition and Uncertainty Communication | Curr Dir Psych Sci | 2025 | Metacognition | 9 |
| 4 | NegotiationToM | EMNLP 2024 | 2024 | ToM Benchmark | 39 |
| 5 | FANToM | EMNLP 2023 | 2023 | ToM Benchmark | 133 |
| 6 | HI-TOM | EMNLP 2023 | 2023 | ToM Benchmark | 48 |
| 7 | DynToM | ACL 2025 | 2025 | ToM Benchmark | 9 |
| 8 | Re-evaluating ToM evaluation | Phil Trans Royal Soc B | 2025 | Survey/Critique | 10 |
| 9 | CogToM | arXiv | 2026 | ToM Benchmark | 0 |
| 10 | Rethinking ToM Benchmarks for LLMs | CHI Workshop 2025 | 2025 | Survey/Critique | 9 |