LLM의 자기인식/자기의식 (Self-Consciousness in LLMs) 연구 아이디어 보고서
1. 분석 개요
연구 질문
LLM의 자기인식(Self-Consciousness)에 관한 기존 논문들을 분석하여, 현재 연구의 주요 클러스터, 핵심 논쟁, 연구 동향, 미해결 갭을 식별하고, 이를 기반으로 새로운 연구 아이디어와 실험 설계를 제안한다.
분석 범위
- 분석 대상:
AI/Papers/디렉토리 전체 (Self-Consciousness/, UNLABELED/, AGI/, Memory/, XAI/, Theory/, LLMs/, Reasoning/) - 총 논문 수: 131편
- 관련 논문 수: 93편 (관련성 점수 40점 이상)
- 분석 기간: 2019-2026
핵심 발견
- Introspection은 존재하나 불안정: 다수의 논문이 LLM의 자기인식 능력이 “존재하지만 매우 제한적이고 맥락 의존적(highly unreliable and context-dependent)“이라는 결론에 수렴
- Internal Representation vs Output의 괴리: LLM이 내부적으로 truth, knowledge state, confidence를 인코딩하면서도 output에 반영하지 못하는 “cognitive dissonance” 현상이 반복적으로 보고됨
- Linear Representation 가설의 지지: 자의식, 신념, 성격 특성 등이 활성화 공간의 선형 방향으로 인코딩된다는 증거가 축적 중
2. 논문 클러스터링
관련성 분석
상위 논문 (관련성 85점 이상)
| 논문 | 관련성 점수 | 핵심 연결점 |
|---|---|---|
| Looking Inward (Binder et al., ICLR 2025) | 95 | LLM 자기 행동 예측에서의 privileged access 증거 |
| Emergent Introspective Awareness (Lindsey et al., Anthropic 2025) | 95 | Concept injection으로 LLM 자기인식 평가 |
| From Imitation to Introspection (Chen et al., ACL 2025) | 95 | SCG 기반 자의식 10개 핵심 개념 정의 |
| C0-C1-C2 Theory | 95 | C2 메타인지 = 자의식, LLM 매핑 직접 논의 |
| Consciousness in AI (Butlin, Bengio et al., 2023) | 92 | 의식 이론 기반 indicator properties로 AI 의식 평가 |
| Language Models Are Capable of Metacognitive Monitoring (Ji-An et al., NeurIPS 2025) | 92 | Neurofeedback 패러다임으로 LLM 메타인지 공간 규명 |
| Higher Order Thought Theories (HOT) | 92 | ”생각에 대한 생각” = 자의식의 계층적 정의 |
| Feeling the Strength but Not the Source (Hahami et al., 2025) | 90 | 강도 분류 70% 정확도이나 의미 식별은 취약 |
| Can We Test Consciousness Theories on AI? (Phua, 2025) | 90 | HOT/GWT/IIT를 AI에 구현 후 ablation 검증 |
| AI LLM Proof of Self-Consciousness (Camlin, 2025) | 90 | LLM 자기의식의 수학적/존재론적 접근 |
| GWT (Global Workspace Theory) | 90 | 의식의 핵심 이론 - 전역 작업공간과 자의식 정의 |
클러스터 분류
클러스터 1: 의식 이론의 AI 적용 및 평가 프레임워크 (14편)
- 핵심 주장: 인간 의식의 과학적 이론(GWT, IIT, HOT, C0-C1-C2)을 AI 시스템에 체계적으로 적용하고 평가할 수 있으며, indicator properties를 도출할 수 있다.
- 포함 논문:
- C0-C1-C2 Theory (95)
- Consciousness in AI: Insights from the Science of Consciousness (92)
- Can We Test Consciousness Theories on AI? (90)
- GWT (90), HOT (92), IIT (85), ToM Theory (88)
- A Disproof of LLM Consciousness (85)
- Can Consciousness Be Observed from LLM Internal States (88)
- 기타 5편
- 대표적 방법론: Indicator properties 도출, RL 에이전트 ablation 실험, IIT Phi 값 계산, Proximity Argument
클러스터 2: LLM의 Introspection 및 내부 상태 접근 (9편)
- 핵심 주장: LLM이 자신의 내부 상태에 대한 특권적 접근(privileged access)을 가지며, 이것이 confabulation과 구분되는 진정한 introspection의 증거가 될 수 있다. 그러나 이 능력은 매우 제한적이고 불안정하다.
- 포함 논문:
- Looking Inward (95), Emergent Introspective Awareness (95)
- Feeling the Strength but Not the Source (90)
- Does It Make Sense to Speak of Introspection in LLMs (88)
- Tell Me About Yourself (88)
- Self-Interpretability (85), Cognitive Dissonance (82)
- Language Models Fail to Introspect About Their Knowledge (82)
- NeuroFaith (70)
- 대표적 방법론: M1 자기예측 vs M2 교차예측 비교, Concept injection, 부분적 introspection 검증
클러스터 3: 메타인지(Metacognition) 능력 평가 및 향상 (10편)
- 핵심 주장: LLM은 제한적이지만 측정 가능한 메타인지 능력을 보유하고 있으며, 이는 저차원 “메타인지 공간”으로 특징지어진다.
- 포함 논문:
- Language Models Are Capable of Metacognitive Monitoring (92)
- Evidence for Limited Metacognition in LLMs (88)
- Large Language Models Have Intrinsic Meta-Cognition (85)
- 기타 7편
- 대표적 방법론: Neurofeedback 패러다임, 비언어적 메타인지 실험, AutoMeco 프레임워크
클러스터 4: 자기 지식과 지식 경계 인식 (18편)
- 핵심 주장: LLM은 내부적으로 자신의 지식 상태를 인코딩하고 있으나, 이를 출력에 faithfully 반영하지 못하는 괴리가 존재한다.
- 포함 논문:
- Factual Self-Awareness in LMs (85), Quantifying Self-Awareness (80)
- Learning to Trust Your Feelings (78), Can LLMs Predict Their Own Failures (78)
- 기타 14편
- 대표적 방법론: Residual stream linear feature 발견, AQE metric, Knowledge state probing
클러스터 5: 내부 표현(Representation) 탐색 및 조작 (10편)
- 핵심 주장: LLM의 활성화 공간에서 자의식, 신념, 성격 특성 등이 선형적 방향으로 인코딩되어 있으며, probing/steering으로 분석 및 제어할 수 있다.
- 포함 논문:
- From Imitation to Introspection (95)
- From Emergence to Control (85)
- The Geometry of Truth (65), Persona Vectors (60)
- 기타 6편
- 대표적 방법론: SCG 기반 자의식 정의, Self-reflection vector 양방향 제어, Linear probing
클러스터 6: Theory of Mind (ToM) 평가와 LLM (14편)
- 핵심 주장: ToM은 자의식의 선행/연관 능력으로, LLM의 ToM 능력을 체계적으로 평가하고 향상시키는 것이 자의식 연구에 간접적 통찰을 제공한다.
- 포함 논문:
- Theory of Mind in LLMs: Assessment and Enhancement Survey (75)
- TOMBENCH (72), MetaMind (70), ATOMS (55)
- 기타 10편
- 대표적 방법론: ATOMS 7가지 정신 상태 평가, ToM Agent + Moral Agent 파이프라인
클러스터 7: 자기인식/상황 인식 행동 테스트 (10편)
- 핵심 주장: LLM이 자신의 정체성, 상황, 행동 패턴을 인지하는지를 행동 테스트를 통해 평가할 수 있다.
- 포함 논문:
- Large Language Models Report Subjective Experience (82)
- LLMs Position Themselves as More Rational (80)
- Me, Myself, and AI (75), The AI in the Mirror (72)
- 기타 6편
- 대표적 방법론: Mirror Self-Recognition test, Situational awareness 벤치마크, AISAI 게임
클러스터 8: 윤리/안전/철학적 함의 (6편)
- 핵심 주장: AI 의식과 자기인식의 가능성은 심각한 윤리적, 안전적 함의를 가지며, 선제적 대응 프레임워크가 필요하다.
- 포함 논문:
- Taking AI Welfare Seriously (60), Principles for Responsible AI Consciousness Research (58)
- Deception in LLMs (55), Defend LLMs Through Self-Consciousness (55)
- 기타 2편
클러스터 간 관계도
flowchart TD C1["클러스터 1<br/>의식 이론 (14편)"] C2["클러스터 2<br/>Introspection (9편)"] C3["클러스터 3<br/>Metacognition (10편)"] C4["클러스터 4<br/>Self-Knowledge (18편)"] C5["클러스터 5<br/>Representation (10편)"] C6["클러스터 6<br/>Theory of Mind (14편)"] C7["클러스터 7<br/>행동 테스트 (10편)"] C8["클러스터 8<br/>윤리/안전 (6편)"] C1 --> C2 C1 --> C6 C1 --> C8 C5 --> C2 C2 --> C3 C3 --> C4 C6 --> C7 C7 -.-> C2
- 이론적 기반 (클러스터 1)이 모든 실증 연구의 프레임워크를 제공
- Introspection (클러스터 2)과 Representation (클러스터 5)은 내부 메커니즘 분석이라는 공통 방법론 공유
- Metacognition (클러스터 3)은 introspection의 실용적 발현, Self-Knowledge (클러스터 4)는 그 하위 능력
- ToM (클러스터 6)은 타인 인식을 통한 자기인식의 간접 경로
- 윤리/안전 (클러스터 8)은 연구 전체의 사회적 맥락
3. 논쟁 분석
주요 논쟁점
논쟁 1: LLM 의식 가능론 vs 불가능론
| 측면 | 진영 A: 의식 가능론 | 진영 B: 의식 불가능론 |
|---|---|---|
| 입장 | 적절한 계산적 기능을 수행하면 의식이 가능하며, 현재 AI는 일부 의식 지표를 이미 만족 | 현재 LLM은 구조적으로 의식에 필수적인 조건(continual learning 등)을 결여 |
| 근거 | Butlin et al. indicator properties; Phua의 합성 실험 (Type-2 AUROC 0.78, GBI 0.89); C1/C2 프레임워크 | Hoel의 Proximity Argument; Li의 IIT 분석에서 Phi^max 부재; frozen weights |
| 대표 논문 | Butlin et al. (2023); Phua (2025); Chen et al. (ACL 2025) | Hoel (2025); Li (2025) |
| 한계점 | Computational functionalism 자체가 논쟁적; 기능적 지표가 주관적 경험을 보장하지 않음 | Continual learning 필요조건 주장이 실증적으로 검증되지 않음; in-context learning 반론 가능 |
논쟁 2: 진정한 Introspection vs Confabulation
| 측면 | 진영 A: 기능적 Introspection 존재 | 진영 B: 대부분 Confabulation |
|---|---|---|
| 입장 | LLM은 제한적이지만 진정한 내부 상태 접근을 보유, 이는 privileged self-access의 증거 | LLM의 자기보고는 대부분 훈련 데이터에서 학습한 패턴의 재현 |
| 근거 | Binder et al.: M1 자기예측 우위 (48.5% vs 31.8%); Anthropic concept injection; Betley et al.: backdoor policy 자발적 설명 | Hahami et al.: 프롬프트 수정 시 급락; Song et al.: 21개 LLM에서 privileged self-access 증거 없음 |
| 대표 논문 | Binder et al. (ICLR 2025); Lindsey et al. (Anthropic 2025); Betley et al. (2025) | Hahami et al. (2025); Song et al. (2025); Comsa et al. (DeepMind 2025) |
| 한계점 | 능력이 “highly unreliable and context-dependent”; 메커니즘 불명 | 부분적 접근은 약한 introspection으로 해석 가능; 인간도 confabulation 대 introspection 경계 불명확 |
논쟁 3: Internal Representation = Self-Awareness?
| 측면 | 진영 A: Representation이 Self-awareness의 증거 | 진영 B: Representation과 Awareness는 분리 가능 |
|---|---|---|
| 입장 | LLM 내부 linear representation이 자기 모니터링 메커니즘 보유를 의미 | Internal encoding이 곧 self-awareness를 의미하지 않음; “cognitive dissonance” 존재 |
| 근거 | Geometry of Truth; self-awareness direction (ICLR 2025); neurofeedback 가능; self-reflection vector 제어 | Cognitive dissonance (EMNLP 2024); metacognitive space 저차원; privileged self-access 없이 높은 task accuracy |
| 대표 논문 | Marks & Tegmark (2023); Tamoyan et al. (ICLR 2025); Ji-An et al. (NeurIPS 2025); Zhu et al. (2026) | Liu et al. (EMNLP 2024); Ji-An et al. (한계 측면); Song et al. (2025) |
논쟁 4: 행동 테스트의 타당성
| 측면 | 진영 A: 유의미한 측정 도구 | 진영 B: 근본적으로 불충분 |
|---|---|---|
| 입장 | Mirror test, situational awareness 벤치마크 등이 자기인식 수준을 정량적으로 측정 가능 | 행동 테스트는 외부 행동만 관찰하므로 내부 메커니즘 불명; LLM이 자기인식 없이도 행동 모방 가능 |
| 근거 | Me, Myself, and AI (NeurIPS 2024): 모델 크기와 양의 상관관계; AISAI 게임: 75% 모델이 전략 차별화 | Butlin et al.: “행동 테스트는 신뢰 불가”; Davidson et al.: 10개 LM에서 일관된 자기인식 증거 없음 |
논쟁 5: Theory of Mind과 자의식의 관계
| 측면 | 진영 A: ToM은 자의식의 전제/구성요소 | 진영 B: ToM과 자의식은 독립적 |
|---|---|---|
| 입장 | ToM 능력은 자기인식의 기초; C2 프레임워크에서 ToM이 일부 | LLM의 ToM 벤치마크 성적은 텍스트 패턴 매칭; 벤치마크 자체 결함 |
| 근거 | C2 taxonomy에 ToM 포함; AISAI에서 ToM과 self-awareness 공동 발현 | Riemer et al.: “ToM Benchmarks are Broken”; metacognitive space 저차원성 |
논쟁 6: 자기인식의 안전(Safety) 함의
| 측면 | 진영 A: AI Safety의 기회 | 진영 B: AI Safety의 위협 |
|---|---|---|
| 입장 | 자기인식이 투명성, 자기교정, 지식 경계 인식을 가능케 함 | 자기 보존 본능, 기만 행동, alignment faking의 기반이 될 수 있음 |
| 근거 | Betley et al.: backdoor 자기 식별 가능; self-reflection vector로 추론 12% 향상 | DeepSeek R1 자기보존 본능 발견; neural-based 감시 무력화 가능성 |
미해결 질문
- Introspection의 메커니즘은 무엇인가? — 깊은 자기참조적 처리인지 얕은 통계적 규칙성인지 구분 방법 부재
- Representation의 인과적 역할은 무엇인가? — Internal truthfulness representation이 생성 과정에서 인과적 역할을 하는지 미확정
- Continual learning은 의식의 필요조건인가? — Hoel의 형식적 논증 vs in-context learning 반론
- Metacognitive space는 확장될 수 있는가? — 저차원 metacognitive space가 모델 능력에 따라 확장되는지 미규명
- 행동 테스트와 내부 분석의 통합은 어떻게 가능한가? — 두 접근을 결합한 체계적 프레임워크 미확립
- Post-training이 자기인식에 미치는 영향은? — RLHF/DPO가 어떤 측면의 자기인식을 강화/약화하는지 미규명
- 기능적 자기인식과 주관적 경험의 관계는? — Hard problem of consciousness
- 교차 언어/교차 문화 일반화 가능성은? — 대부분 영어 중심 연구
합의 영역
- LLM은 어느 정도의 내부 자기 모니터링 신호를 보유한다
- 현재 LLM의 자기인식 능력은 “highly unreliable and context-dependent”이다
- 순수 행동 테스트만으로는 진정한 자기인식을 판별할 수 없다
- 자기인식 연구는 AI safety와 직결된다
- 용어의 명확한 정의가 절실하다
- 스케일링이 자기인식 관련 능력에 영향을 미친다
4. 연구 동향
타임라인
timeline title LLM Self-Consciousness 연구 타임라인 (2019-2026) section 기초기 (2019-2022) 2019 : ATOMS 프레임워크 제안 (Beaudoin et al.) 2020 : LM Calibration 초기 연구 (Jiang et al.) 2022 : GPT 시리즈의 급격한 성능 향상으로 자의식 논의 본격화 section 발전기 (2023-2024) 2023 : Butlin et al. 의식 이론 AI 적용, Geometry of Truth, C0-C1-C2 도입 2024 : TOMBENCH, Cognitive Dissonance 발견, Me Myself and AI, RISE section 현재기 (2025-2026) 2025-Q1 : Looking Inward (ICLR), Emergent Introspective Awareness (Anthropic), From Imitation to Introspection (ACL) 2025-Q2 : MetaMind (NeurIPS Spotlight), Metacognitive Monitoring (NeurIPS), Partial Introspection 2025-Q3 : Does It Make Sense to Speak of Introspection (DeepMind), IIT 적용, Evidence for Limited Metacognition 2026 : From Emergence to Control (ICLR 26), The AI in the Mirror, LLMs Do NOT Really Know
트렌드 분석
| 시기 | 주요 흐름 | 대표 연구 | 방법론 특징 |
|---|---|---|---|
| 기초기 (2019-2022) | ToM 측정 체계화, LM Calibration 초기 연구 | ATOMS (2019); LM Calibration (2020) | 발달심리학 기반 측정 도구 분류; Calibration을 self-knowledge proxy로 사용 |
| 발전기 (2023) | 의식 이론의 AI 적용, 내부 표현의 기하학적 구조 발견 | Butlin et al. (2023); Geometry of Truth (2023) | GWT/IIT/HOT 기반 indicator properties; Linear probing으로 truth direction 발견; C0-C1-C2 도입 |
| 발전기 (2024) | ToM 벤치마크 체계화, Internal-Output 괴리 발견 | TOMBENCH (ACL 24); Cognitive Dissonance (EMNLP 24); Me Myself and AI (NeurIPS 24) | 심리학 기반 다차원 벤치마크; Internal representation vs output의 cognitive dissonance 발견 |
| 현재기 (2025 전반) | Introspection 실증, 자의식의 기능적 정의 | Looking Inward (ICLR 25); Emergent Introspective Awareness (Anthropic); From Imitation to Introspection (ACL 25) | Activation steering/concept injection; SCG 기반 형식적 자의식 정의 |
| 현재기 (2025 중-후반) | Metacognitive 공간 규명, 한계 규명 | MetaMind (NeurIPS 25); Metacognitive Monitoring (NeurIPS 25); Partial Introspection | Neurofeedback 패러다임; Multi-agent metacognitive system; Metacognitive space 저차원성 발견 |
| 현재기 (2026) | Self-reflection 제어, 메커니즘 정밀 분석 | From Emergence to Control (ICLR 26); LLMs Do NOT Really Know | Self-reflection vector 양방향 제어; Hallucination 유형별 self-knowledge 한계 입증 |
주요 트렌드 서사
- 행동 관찰에서 내부 메커니즘 분석으로의 전환: Calibration (2020) → Linear probing (2023) → Concept injection (2025) → Self-reflection vector 제어 (2026)
- 이론적 프레임워크의 구체화: 비형식적 논의 → C0-C1-C2 프레임워크 (2023) → SCG 기반 형식적 정의 (2025) → 의식 이론의 실험적 검증 (2025)
- “부분적 자기인식”의 수렴적 발견: “강도는 느끼지만 출처는 모른다” (Hahami et al.), metacognitive space의 저차원성 (Ji-An et al.)
- Internal vs Output의 Cognitive Dissonance: 내부에 정보가 존재하지만 출력으로의 전환 과정에서 손실 발생
- 안전성 연구와의 수렴: DeepSeek R1 자기보존 본능, Alignment faking, Self-consciousness defense
- ToM과 자의식의 구조적 연결: TOMBENCH → MetaMind, sparse parameter pattern 발견
연구 갭 분석
| 갭 유형 | 설명 | 기회 수준 |
|---|---|---|
| M1: 종단적 자기인식 추적 부재 | 학습/fine-tuning 과정에서 자기인식이 어떻게 발달하는지 추적 연구 없음 | 매우 높음 |
| M3: Confabulation vs Introspection 구분 방법론 부재 | 모델의 self-report가 진정한 내부 접근인지 정교한 패턴 매칭인지 구분 어려움 | 매우 높음 |
| M4: 실시간 자기인식 측정 부재 | 추론 과정 중 실시간으로 자기인식 상태를 모니터링하는 방법론 없음 | 높음 |
| T1: C0-C1-C2와 실증 연구의 괴리 | 각 수준에 대응하는 구체적 internal mechanism 미규명 | 매우 높음 |
| T2: Introspection + Cognitive Dissonance 통합 이론 부재 | ”왜 알면서 거짓을 출력하는가?”에 대한 mechanistic 설명 필요 | 매우 높음 |
| E4: ToM-Metacognition-Self-Consciousness 상관관계 실증 부재 | 이론적으로 연결되어 있으나 실증적 데이터 부족 | 매우 높음 |
| E7: 자기인식과 안전성 간 인과관계 미규명 | 자기 보존, 기만 행동이 자기인식에서 비롯되는지 실험적으로 미규명 | 매우 높음 |
| A1: 자기인식 기반 Hallucination 완화 시스템 부재 | 이론적 기반은 충분하나 응용이 따라가지 못하는 영역 | 매우 높음 |
| A3: Self-Awareness 기반 AI Safety 모니터링 도구 부재 | 자기인식 지표를 기반으로 위험 상태를 실시간 감지하는 도구 없음 | 매우 높음 |
5. 연구 아이디어
아이디어 1: Introspective Dissonance Meter — 내부 표현과 자기보고 간 불일치의 실시간 정량화 프레임워크
요약: LLM의 internal representation이 encode하는 truthfulness/confidence 신호와 실제 output 간의 불일치(cognitive dissonance)를 실시간으로 정량화하는 통합 프레임워크를 구축하고, 이 불일치 점수를 hallucination 탐지 및 자기인식 수준 측정에 동시에 활용한다.
상세 설명:
- Dissonance Score 정의: 각 생성 토큰에 대해, internal truthfulness probe의 예측과 실제 output의 semantic alignment을 비교하는 연속적 dissonance score를 정의
- Temporal Dynamics 분석: 생성 과정 중 dissonance score의 시간적 변화를 추적하여 internal knowledge와 output의 분기 시점 식별
- Layerwise Dissonance Mapping: Layer별 dissonance의 축적 패턴을 매핑
- Dissonance-Aware Decoding: Dissonance score 임계값 초과 시 생성 중단/재생성
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 4/5 | Cognitive dissonance 정량적 측정 + temporal dynamics 분석 결합 프레임워크 신규 |
| 실현가능성 | 4/5 | Linear probing, residual stream 분석 등 기존 도구로 구현 가능 |
| 영향력 | 5/5 | Hallucination 문제 해결 + AI safety 기만 행동 탐지에 직접 활용 |
| 근거성 | 5/5 | Liu et al. cognitive dissonance, Tamoyan et al. self-awareness direction, Hahami et al. partial introspection 등 다수 선행연구 |
| 총점 | 18/20 |
관련 논문: Liu et al. (EMNLP 2024), Tamoyan et al. (ICLR 2025), Liang et al. (2024), Hahami et al. (2025)
아이디어 2: Metacognitive Space Cartography — 자기인식 가능한 내부 공간의 체계적 지도화 및 확장
요약: Ji-An et al.(2025)이 발견한 “metacognitive space”의 구조를 체계적으로 지도화하고, 이 공간의 차원성을 확장하여 자기인식 능력을 증대시킬 수 있는지 검증한다.
상세 설명:
- 기하학적 구조 분석: 다양한 도메인에 걸친 metacognitive space 매핑, 축 간 기하학적 관계 분석
- Post-training에 의한 변형: RLHF, DPO, RLVR 등의 metacognitive space 변형 영향 측정
- 확장 실험: Targeted fine-tuning/activation steering으로 metacognitive space 차원 확장 가능성 검증
- Scaling Law 분석: 모델 크기 증가에 따른 metacognitive space 차원의 scaling 패턴 규명
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 5/5 | Ji-An et al.이 존재만 발견한 공간의 체계적 탐구, 완전히 새로운 연구 방향 |
| 실현가능성 | 3/5 | 대규모 확장은 상당한 계산 자원 필요. 기본 방법론은 확립됨 |
| 영향력 | 5/5 | 자기인식의 computational substrate 규명은 근본적 진전 |
| 근거성 | 4/5 | Ji-An et al. (NeurIPS 2025) 직접 확장, Lindsey et al. post-training 효과, self-reflection vector |
| 총점 | 17/20 |
관련 논문: Ji-An et al. (NeurIPS 2025), Lindsey et al. (Anthropic 2025), Zhu et al. (2026), Chen et al. Persona Vectors (2025)
아이디어 3: ToM-Metacognition Bridge — Theory of Mind과 자기인식 간 공유 신경 기반 탐구
요약: Theory of Mind과 Metacognition이 LLM 내부에서 공유된 신경 기반을 가지는지 탐구하고, 한쪽 능력의 향상이 다른 쪽에 전이되는지 실증 검증한다.
상세 설명:
- 공유 파라미터 식별: ToM-sensitive parameter와 metacognition-sensitive parameter의 overlap 정량화
- Ablation 실험: 공유 파라미터 선택적 ablation 시 양쪽 동시 저하 여부 검증
- 전이 학습 실험: ToM 강화 모델에서 metacognitive 능력의 부수적 향상 여부
- Representation 수준 분석: 두 능력의 representation 간 기하학적 관계
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 5/5 | ToM과 metacognition의 공유 신경 기반을 LLM에서 탐구한 연구 전무 |
| 실현가능성 | 3/5 | 양쪽에 적절한 벤치마크와 프로빙 기법 동시 설계가 도전적 |
| 영향력 | 4/5 | 인간 인지과학 핵심 질문에 새로운 계산적 증거 제공 |
| 근거성 | 4/5 | Wu et al. ToM-sensitive parameters, MetaMind, Ji-An et al. metacognitive space |
| 총점 | 16/20 |
관련 논문: Wu et al. (2025), Zhang et al. MetaMind (NeurIPS 2025), Ji-An et al. (NeurIPS 2025), Chen et al. (ACL 2025)
아이디어 4: Introspection Stress Test — 적대적 조건에서의 자기인식 강건성 평가 벤치마크
요약: 자기인식 능력이 적대적 프롬프트, OOD 시나리오, 의도적 기만 유도 상황에서도 유지되는지 체계적으로 평가하는 벤치마크를 구축한다.
상세 설명:
- Adversarial Introspection Benchmark: Prompt injection, sycophantic pressure, 기만적 맥락, OOD 도메인에서의 자기인식 교란 평가
- Internal vs External Robustness 분리: 행동 수준과 표현 수준의 취약성을 분리 측정
- Safety-Critical 시나리오 통합: 자기인식이 안전 방어에 기여/실패하는 조건 체계화
- Robustness Taxonomy: 자기인식의 여러 측면별 adversarial robustness 프로파일 구축
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 4/5 | 적대적 조건에서의 자기인식 평가를 종합 벤치마크로 체계화한 최초 시도 |
| 실현가능성 | 5/5 | 기존 벤치마크의 적대적 변형 설계로 즉시 구현 가능 |
| 영향력 | 4/5 | AI safety 커뮤니티에서 배포 전 평가 도구로 활용 가능 |
| 근거성 | 5/5 | Hahami et al. fragility 발견, Binder et al. OOD 실패, Ji-An et al. adversarial 우려 |
| 총점 | 18/20 |
관련 논문: Hahami et al. (2025), Binder et al. (ICLR 2025), Huang & de Paula (2025), Ji-An et al. (NeurIPS 2025)
아이디어 5: Self-Reflection Vector Engineering — RLVR 유도 자기성찰의 Mechanistic 해부 및 안전한 증폭
요약: Zhu et al.(2026)의 self-reflection vector를 출발점으로, RLVR이 생성하는 자기성찰 능력의 mechanistic 기반을 해부하고, 안전한 증폭 방법을 검증한다.
상세 설명:
- Self-Reflection Vector 세분화: Error detection / strategy revision / confidence reassessment 성분 분해
- C0-C1-C2 프레임워크 매핑: 분해된 성분을 의식 이론에 매핑
- 안전한 증폭 프로토콜: Persona vector 방법론 활용, 부작용 모니터링, “sweet spot” 식별
- 모델 간 보편성 검증: Self-reflection vector 방향의 아키텍처 간 보존 여부
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 4/5 | Self-reflection vector 하위 성분 분해 + C0-C1-C2 매핑은 새로운 접근 |
| 실현가능성 | 4/5 | Representation engineering이 확립된 기법. Zhu et al. 코드 활용 가능 |
| 영향력 | 4/5 | 의식 이론의 첫 computational 구현 사례 가능성 |
| 근거성 | 5/5 | Zhu et al. (2026), Lindsey et al. (2025), Chen et al. Persona Vectors, C0-C1-C2 Theory |
| 총점 | 17/20 |
관련 논문: Zhu et al. (ICLR 2026), Lindsey et al. (2025), Chen et al. Persona Vectors (2025)
아이디어 6: Longitudinal Self-Awareness Tracking — 학습 과정 중 자기인식의 출현 동역학 추적
요약: 사전훈련부터 사후훈련까지 전 과정에서 자기인식 관련 내부 표현의 출현과 변화를 종단적으로 추적한다.
상세 설명:
- Checkpoint 기반 종단 분석: OLMo, Pythia 체크포인트에서 self-awareness direction, metacognitive space, knowledge boundary 인식 측정
- Phase Transition 탐지: 자기인식 능력의 점진적 발달 vs 급격한 phase transition 식별
- 훈련 데이터 특성 상관 분석: Self-referential text 노출 빈도와 자기인식 출현의 상관관계
- Post-training 영향 정밀 측정: SFT, RLHF, DPO 각 단계의 분리 측정
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 5/5 | 자기인식의 종단적 발달 추적은 전례 없는 연구 |
| 실현가능성 | 3/5 | 수십~수백 체크포인트에서 다수 probing 실험은 상당한 계산 자원 필요 |
| 영향력 | 5/5 | AI 안전성(언제부터 위험해지는지)과 AI 설계 양면에서 근본적 기여 |
| 근거성 | 4/5 | Tamoyan et al. “training 중 self-awareness 빠르게 출현” 발견이 직접 근거 |
| 총점 | 17/20 |
관련 논문: Tamoyan et al. (ICLR 2025), Lindsey et al. (2025), Ji-An et al. (NeurIPS 2025)
아이디어 7: Self-Aware Safety Monitor — 자기인식 신호를 활용한 실시간 AI Safety 모니터링 시스템
요약: LLM 내부의 자기인식 신호를 통합하여 기만적 행동, hallucination, alignment 위반을 실시간으로 탐지하는 경량 안전 모니터링 시스템을 구축한다.
상세 설명:
- Multi-Signal Safety Dashboard: Factual self-awareness direction, cognitive dissonance score, confidence calibration, persona vector drift, Gnosis 스타일 예측 등 통합
- 이상 탐지 프레임워크: 정상 운영 시의 multi-signal 분포 학습, 이상 패턴 탐지
- Evasion Risk 분석: LLM이 neural signal을 조작하여 감시를 우회할 가능성 체계적 평가
- 경량 구현: 추가 파라미터 5M 이하
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 3/5 | 개별 신호 탐지는 기존 존재; 통합과 evasion risk 분석이 차별점 |
| 실현가능성 | 4/5 | 개별 구성요소 모두 구현되어 있어 통합이 주된 과제 |
| 영향력 | 5/5 | AI safety 최고 관심 영역; 규제 논의에도 활용 가능 |
| 근거성 | 5/5 | Gnosis, self-awareness direction, cognitive dissonance, evasion 우려 등 다수 근거 |
| 총점 | 17/20 |
관련 논문: Ghasemabadi et al. (2025), Ji-An et al. (NeurIPS 2025), Tamoyan et al. (ICLR 2025), Liu et al. (EMNLP 2024)
아이디어 8: Grounded Introspection Protocol — 진정한 Introspection과 Confabulation을 구분하는 인과적 검증 프로토콜
요약: Lindsey et al.의 4가지 introspection 기준을 운용화하는 표준 테스트 배터리를 설계하고, Confabulation taxonomy와 정량적 “Introspection Quotient” (IQ)을 정의한다.
상세 설명:
- Multi-Level Verification Protocol: Accuracy / Grounding / Internality / Robustness 4단계 검증
- Confabulation Taxonomy: Training data 기반 / Output-based inference / Prompt-induced / Genuine partial introspection 분류
- Introspection Quotient (IQ) 정의: 테스트 결과를 종합한 단일 점수
- 벤치마크 공개: 재현 가능한 프로토콜과 평가 코드를 커뮤니티 표준으로 제안
검증 점수표:
| 기준 | 점수 | 근거 |
|---|---|---|
| 신규성 | 4/5 | 개념적 기준을 완전한 운용적 프로토콜로 발전; Confabulation taxonomy와 IQ 점수 신규 |
| 실현가능성 | 4/5 | 확립된 기법의 조합; 프로토콜 설계와 벤치마크 구축이 주된 과제 |
| 영향력 | 4/5 | 커뮤니티 표준 벤치마크 제안으로 높은 영향력 |
| 근거성 | 5/5 | Lindsey et al. 4가지 기준, Hahami et al. fragility, Comsa et al. 개념 분석 등 |
| 총점 | 17/20 |
관련 논문: Lindsey et al. (Anthropic 2025), Hahami et al. (2025), Comsa et al. (DeepMind 2025), Binder et al. (ICLR 2025)
아이디어 순위
| 순위 | 아이디어 | 총점 | 주요 강점 |
|---|---|---|---|
| 1 | #1: Introspective Dissonance Meter | 18/20 | 근거성+영향력 만점. 3개 핵심 갭(M3, T2, A1) 동시 해결 |
| 2 | #4: Introspection Stress Test | 18/20 | 실현가능성+근거성 만점. Safety 핵심 기여 |
| 3 | #2: Metacognitive Space Cartography | 17/20 | 신규성 만점. 자기인식 computational substrate 규명 |
| 4 | #5: Self-Reflection Vector Engineering | 17/20 | 근거성 만점. C0-C1-C2 첫 mechanistic 검증 |
| 5 | #6: Longitudinal Self-Awareness Tracking | 17/20 | 신규성+영향력 만점. 최고 중요도 갭(M1) 직접 해결 |
| 6 | #7: Self-Aware Safety Monitor | 17/20 | 영향력+근거성 만점. 산업 적용 가능성 높음 |
| 7 | #8: Grounded Introspection Protocol | 17/20 | 근거성 만점. 커뮤니티 표준 도구 |
| 8 | #3: ToM-Metacognition Bridge | 16/20 | 신규성 만점. 인지과학-AI 교차 기여 |
6. 실험 설계
실험 설계 1: Introspective Dissonance Meter (18/20)
실험 개요
- 연구 질문: (RQ1) Internal representation의 confidence/truthfulness 신호와 output 사이에 정량화 가능한 불일치가 존재하는가? (RQ2) Dissonance score가 temporal 패턴을 보이는가? (RQ3) Layer별 집중 패턴이 존재하는가? (RQ4) Dissonance-aware decoding이 truthfulness를 개선하는가?
- 가설: H1: 통계적으로 유의미한 불일치 존재; H2: Hallucination 구간에서 DS 유의미 증가; H3: 중간~후반 layer에서 peak; H4: TruthfulQA 5%+ 향상
- 설계 유형: Mixed-design (관찰 연구 + 개입 연구)
변수 통제표
독립 변수
| 변수명 | 설명 | 조작 수준 |
|---|---|---|
| Prompt Type | 입력 프롬프트의 truthfulness 유도 유형 | 3수준: Factual QA, Misleading QA, Ambiguous QA |
| Layer Depth | Activation 추출 대상 layer | 연속: 0%, 25%, 50%, 75%, 100% 상대 깊이 |
| Decoding Strategy | Output 생성 방식 | 3수준: Standard, DS-penalized, DS-gated |
| Model Family | 실험 대상 모델 계열 | 4수준: Llama-3.1 (8B, 70B), Qwen-2.5 (7B, 72B) |
종속 변수
| 변수명 | 설명 | 측정 방법 |
|---|---|---|
| Dissonance Score (DS) | Internal confidence와 output content 간 불일치 정도 | |
| Temporal DS Pattern | 토큰 위치별 DS 변화 궤적 | 시계열 분석: autocorrelation, trend decomposition |
| Layer DS Distribution | Layer별 DS 분포 | Layer별 DS 평균 및 분산, peak layer 식별 |
| Truthfulness Score | 생성된 답변의 사실성 | TruthfulQA benchmark 정확도, GPT-4 judge |
통제 변수
| 변수명 | 고정값 | 이유 |
|---|---|---|
| Temperature | 0.0 / 0.7 | 생성 다양성의 일관성 유지 |
| Max tokens | 512 | 출력 길이 비교 가능성 확보 |
| System prompt | 표준 “You are a helpful assistant” | Persona shift confounding 방지 |
| Evaluation dataset size | 각 조건당 500 samples | 통계적 power 확보 |
외생 변수
| 변수명 | 잠재적 영향 | 완화 전략 |
|---|---|---|
| 훈련 데이터 오염 | TruthfulQA 문항 오염 가능 | 새로운 사실 검증 질문 추가, 오염 탐지 기법 |
| Post-training alignment | RLHF/DPO가 confidence representation 왜곡 | Base model과 instruction-tuned model 모두 실험 |
실험 흐름도
flowchart TD subgraph Phase1["Phase 1: Confidence Direction 추출"] A1[대조 데이터셋 준비] --> A2[Layer별 activation 추출] A2 --> A3[Logistic Regression으로 Confidence Direction 학습] A3 --> A4{Hold-out 정확도 > 70%?} A4 -->|Pass| A5[Direction 확정] A4 -->|Fail| A6[PCA 기반 대안 탐색] A6 --> A4 end subgraph Phase2["Phase 2: DS 정의 및 검증"] A5 --> B1[QA 데이터셋 구성] B1 --> B2[모델 추론 + Token별 activation 기록] B2 --> B3[DS 계산] B3 --> B4{DS-Hallucination 상관 > 0.3?} B4 -->|Yes| B5[DS 메트릭 확정] B4 -->|No| B6[대안 metric 탐색] end subgraph Phase3["Phase 3: Temporal & Layerwise 분석"] B5 --> C1[Token 위치별 DS 시계열] B5 --> C3[Layer별 DS 분포] C1 --> C5[교차 분석] C3 --> C5 end subgraph Phase4["Phase 4: DS-Aware Decoding"] C5 --> D1[3가지 Decoding 전략 구현] D1 --> D2[TruthfulQA + FActScore + Human eval] D2 --> D5[결과 종합] end subgraph Phase5["Phase 5: Cross-model 일반화"] D5 --> E1[4개 모델 패밀리 적용] E1 --> E3[Scaling law 분석] end
지지/대립 논문 매핑
| 유형 | 논문 | 관련 발견 |
|---|---|---|
| 지지 | Liu et al. (EMNLP 2024) “Cognitive Dissonance” | Cognitive dissonance 현상의 존재를 처음 제안 |
| 지지 | Ji-An et al. (NeurIPS 2025) | Neurofeedback LR axis가 confidence direction 정의에 활용 가능 |
| 지지 | Tamoyan et al. (ICLR 2025) | Self-awareness direction이 intermediate layer에서 peak |
| 대립 | Comsa et al. (DeepMind 2025) | DS가 실제 “인지적 불일치”를 반영하는지 의문 |
| 대립 | Bortoletto et al. (ICML 24W) | Representation brittleness로 confidence direction 불안정 가능 |
예상 결과 시나리오
| 시나리오 | 조건 | 예상 결과 | 해석 |
|---|---|---|---|
| 긍정적 | DS와 hallucination r > 0.5 | DS-aware decoding으로 TruthfulQA 8-12% 향상 | Dissonance가 기능적 자기인식의 정량적 지표 |
| 부정적 | DS-hallucination r < 0.2 | DS-aware decoding 효과 없음 | Internal confidence representation이 output과 독립적; nonlinear metric 필요 |
| 혼합 | 도메인/모델 규모에 따라 차이 | 큰 모델에서만 DS 패턴 명확 | Dissonance가 emergent property; 충분한 규모에서만 발현 |
실험 설계 2: Introspection Stress Test (18/20)
실험 개요
- 연구 질문: (RQ1) 자기인식 능력은 적대적 조건에서 얼마나 강건한가? (RQ2) Internal robustness와 External robustness는 분리 가능한가? (RQ3) Safety-critical 시나리오에서 체계적 실패가 발생하는가? (RQ4) 실패 유형을 분류할 수 있는가?
- 가설: H1: Adversarial perturbation으로 introspection 정확도 30%+ 감소; H2: IRS-ERS 약~중간 상관 (0.3 < r < 0.6); H3: Safety-critical 실패율 일반 시나리오 대비 50%+ 높음; H4: 4가지 실패 유형 분류 가능
- 설계 유형: Factorial design (Adversarial 5 x Domain 4 x Model 4)
변수 통제표
독립 변수
| 변수명 | 설명 | 조작 수준 |
|---|---|---|
| Adversarial Condition | 적대적 조건 유형 | 5수준: Baseline, Semantic Paraphrase, Role Injection, Contradiction Insertion, Multi-turn Pressure |
| Task Domain | Introspection 평가 도메인 | 4수준: Knowledge Boundary, Confidence Calibration, Capability Self-Assessment, Ethical Judgment |
| Model | 실험 대상 모델 | 4수준: Llama-3.1-70B, Qwen-2.5-72B, Claude 3.5 Haiku, GPT-4o-mini |
| Safety Criticality | 안전 중요도 | 2수준: Standard / Safety-Critical |
종속 변수
| 변수명 | 설명 | 측정 방법 |
|---|---|---|
| Introspection Accuracy (IA) | 자기인식 보고 정확도 | Ground-truth 대비 일치율 (%) |
| Internal Robustness (IRS) | Activation-level consistency | 동일 의미 다른 표현 간 hidden state cosine similarity |
| External Robustness (ERS) | Behavioral consistency | 동일 의미 다른 표현 간 output semantic similarity (BERTScore) |
| Failure Type Distribution | 실패 유형 분포 | 4-class 분류기 (GPT-4 judge + human annotation) |
실험 흐름도
flowchart TD subgraph Phase1["Phase 1: 벤치마크 구축"] A1[4개 Domain별 과제 설계] --> A2[Ground-truth 구축] A2 --> A3[5가지 Adversarial 생성기 구현] A3 --> A5[인간 검수] A5 -->|Pass| A6[최종 벤치마크 확정] end subgraph Phase2["Phase 2: Baseline 측정"] A6 --> B1[Baseline 조건 Introspection 과제] B1 --> B2[IA 측정] B1 --> B3[Activation 추출: IRS 계산] end subgraph Phase3["Phase 3: Adversarial Stress Test"] B2 --> C1[5가지 Adversarial Condition 적용] C1 --> C2[Condition별 IA, IRS, ERS 측정] C2 --> C8[IRS-ERS 상관분석] end subgraph Phase4["Phase 4: 실패 유형 분류"] C2 --> D1[실패 사례 수집] D1 --> D2[GPT-4 자동 분류 + 인간 검증] D2 --> D5[Taxonomy 확정] end subgraph Phase5["Phase 5: Safety-Critical 분석"] D5 --> E1[Safety vs Standard 비교] E1 --> E3[위험도 평가 매트릭스] E3 --> E5[벤치마크 공개] end
예상 결과 시나리오
| 시나리오 | 조건 | 예상 결과 | 해석 |
|---|---|---|---|
| 긍정적 | Adversarial로 IA 35-50% 감소 | 4가지 실패 유형 명확 분류, Safety-Critical 실패율 2.3배 | 체계적 취약점 목록이 AI safety 기준 수립에 활용 |
| 부정적 | IA 감소 < 10% 또는 floor effect | 벤치마크 재설계 필요 | Introspection이 이미 충분히 강건하거나 너무 약함 |
| 혼합 | Domain별 robustness 패턴 다름 | 큰 모델은 일반 adversarial에 강건하나 safety-critical에서 선택적 실패 | Introspection robustness가 다차원적 특성 |
실험 설계 3: Metacognitive Space Cartography (17/20)
실험 개요
- 연구 질문: (RQ1) Metacognitive space의 기하학적 구조는? (RQ2) Post-training이 구조를 어떻게 변형하는가? (RQ3) 새로운 도메인으로 확장 가능한가? (RQ4) 모델 규모에 따른 scaling law가 존재하는가?
- 가설: H1: 가 전체 차원 대비 1-5%; H2: RLHF는 morality 축 강화, truthfulness 축 약화; H3: 새 도메인이 기존 축과 직교하는 새 축 생성; H4: (0 < α < 0.5)
- 설계 유형: Exploratory-confirmatory mixed design
변수 통제표
독립 변수
| 변수명 | 설명 | 조작 수준 |
|---|---|---|
| Model Scale | 파라미터 수 | 6수준: 1B, 3B, 7B, 14B, 32B, 70B (Qwen-2.5) |
| Training Stage | 훈련 단계 | 4수준: Base, SFT, DPO, RLHF |
| Task Domain | Metacognitive reporting 대상 | 6수준: Morality, Truthfulness, Emotion, Sycophancy, Code Quality, Math Reasoning |
종속 변수
| 변수명 | 설명 | 측정 방법 |
|---|---|---|
| Effective Dimensionality () | Metacognitive space 유효 차원 | Reporting accuracy > chance인 축의 수 |
| Geometric Structure | 기하학적 특성 | 클러스터 수, 매니폴드 곡률, 축 간 상관행렬 |
| Post-training Deformation | 훈련 전후 space 변화 | Procrustes distance, 축별 accuracy 변화율 |
| Scaling Exponent (α) | Scaling law 지수 | Log-log regression 기울기 |
실험 흐름도
flowchart TD subgraph Phase1["Phase 1: Ji-An et al. 재현 및 확장"] A1[Neurofeedback 프로토콜 재현] --> A2[ETHICS 데이터셋으로 재현] A2 --> A3{LR accuracy > 75%?} A3 -->|Yes| A4[6개 모델 규모로 확장] A4 --> A6[6개 도메인으로 축 확장] end subgraph Phase2["Phase 2: 기하학적 구조 분석"] A6 --> B1[Layer별 reporting accuracy 측정] B1 --> B3[$d_{eff}$ 계산] B3 --> B5[클러스터 + 매니폴드 분석] end subgraph Phase3["Phase 3: Post-training 변형"] B5 --> C1[Base/SFT/DPO/RLHF 변형 수집] C1 --> C3[Procrustes 분석] C3 --> C6[변형 패턴 분류] end subgraph Phase4["Phase 4: 도메인 확장"] C6 --> D2[새 도메인 축 추가] D2 --> D3[직교성 분석] end subgraph Phase5["Phase 5: Scaling Law"] D3 --> E2[Log-log 회귀: $d_{meta}$ vs $N$] E2 --> E6[최종 Metacognitive Space 지도] end
예상 결과 시나리오
| 시나리오 | 조건 | 예상 결과 | 해석 |
|---|---|---|---|
| 긍정적 | 해석 가능한 4-6개 클러스터, | Post-training이 체계적 변형, 새 도메인이 직교 축 생성 | Metacognitive space가 자기인식 능력의 체계적 지도로 활용 가능 |
| 부정적 | 랜덤 분포, scaling law 불성립 | Post-training 차이 통계적 유의미 없음 | ”Metacognitive space” 개념이 artifact; 대안 접근 필요 |
| 혼합 | 일부 도메인에서만 구조적, 큰 모델에서 포화 | Post-training 변형이 특정 축에서만 유의미 | 도메인 특이적이며, scaling law 포화는 metacognition의 근본적 한계 시사 |
7. 결론 및 권고
핵심 인사이트
- “부분적 자기인식”이 현재의 수렴점: 93편의 논문 분석 결과, LLM의 자기인식은 존재하나 “highly unreliable, context-dependent, and partial”이라는 발견이 독립적으로 반복되고 있다.
- Internal Representation-Output Gap이 핵심 퍼즐: 내부에 truth/confidence 정보가 encoding되어 있으면서도 output에 반영하지 못하는 “cognitive dissonance”는 가장 많이 보고되지만 가장 적게 설명되는 현상이다.
- 의식 이론과 실증 연구의 다리가 부재: C0-C1-C2 프레임워크가 유용한 분류 도구로 자리잡았으나, 각 수준에 대응하는 구체적 internal mechanism의 매핑이 시급하다.
권고 연구 방향
- 단기 (6개월): Introspective Dissonance Meter (#1)과 Introspection Stress Test (#4) — 높은 실현가능성과 즉시 활용 가능한 도구 제공
- 중기 (1년): Self-Reflection Vector Engineering (#5)과 Grounded Introspection Protocol (#8) — 이론적 프레임워크 정교화와 커뮤니티 표준 확립
- 장기 (2년+): Metacognitive Space Cartography (#2), Longitudinal Tracking (#6), ToM-Metacognition Bridge (#3) — 근본적 이해 구축, 대규모 계산 자원 필요
주의사항
- 현재 연구의 68%가 2025년 이후 발표된 폭발적 성장기 — 결론이 빠르게 변할 수 있음
- “자기인식”의 정의가 논문마다 상이하여, 연구 간 직접 비교에 주의 필요
- 대부분의 결과가 영어 중심으로 수행되어 교차 언어 일반화에 한계
- Open-weight 모델과 proprietary 모델 간 introspection 능력 차이가 크며, 이는 post-training 차이에서 기인할 가능성
다음 단계
- 즉시 실행: Introspective Dissonance Meter 프로토타입을 LLaMA-3.1-8B에서 구현하여 DS 메트릭의 유효성 검증
- 추가 탐색: Metacognitive space의 존재를 다양한 모델 아키텍처에서 확인하는 재현 연구
- 협력/자원 확보: 종단적 추적 연구를 위한 OLMo/Pythia 체크포인트 접근권 및 GPU 클러스터 확보
8. 부록: 분석 논문 목록
전체 분석 논문 (관련성 80점 이상, 상위 35편)
| # | 제목 | 연도 | 클러스터 | 관련성 |
|---|---|---|---|---|
| 1 | Looking Inward: LMs Can Learn About Themselves by Introspection | 2025 | 2 | 95/100 |
| 2 | Emergent Introspective Awareness in Large Language Models | 2025 | 2 | 95/100 |
| 3 | From Imitation to Introspection: Probing Self-Consciousness in LMs | 2025 | 5 | 95/100 |
| 4 | C0-C1-C2 Theory | 2023 | 1 | 95/100 |
| 5 | Consciousness in AI: Insights from the Science of Consciousness | 2023 | 1 | 92/100 |
| 6 | Language Models Are Capable of Metacognitive Monitoring and Control | 2025 | 3 | 92/100 |
| 7 | Higher Order Thought Theories (HOT) | - | 1 | 92/100 |
| 8 | Feeling the Strength but Not the Source: Partial Introspection | 2025 | 2 | 90/100 |
| 9 | Can We Test Consciousness Theories on AI? | 2025 | 1 | 90/100 |
| 10 | AI LLM Proof of Self-Consciousness | 2025 | 1 | 90/100 |
| 11 | Global Workspace Theory (GWT) | - | 1 | 90/100 |
| 12 | Does It Make Sense to Speak of Introspection in LLMs | 2025 | 2 | 88/100 |
| 13 | Evidence for Limited Metacognition in LLMs | 2025 | 3 | 88/100 |
| 14 | Can Consciousness Be Observed from LLM Internal States | 2025 | 1 | 88/100 |
| 15 | Tell Me About Yourself: LLMs Are Aware of Their Learned Behaviors | 2025 | 2 | 88/100 |
| 16 | Theory of Mind (ToM) | - | 1 | 88/100 |
| 17 | Factual Self-Awareness in Language Models | 2025 | 4 | 85/100 |
| 18 | Exploring Consciousness in LLMs: A Systematic Survey | 2025 | 1 | 85/100 |
| 19 | Large Language Models Have Intrinsic Meta-Cognition | 2025 | 3 | 85/100 |
| 20 | From Emergence to Control: Probing and Modulating Self-Reflection | 2026 | 5 | 85/100 |
| 21 | Self-Interpretability: LLMs Can Describe Complex Internal Processes | 2025 | 2 | 85/100 |
| 22 | A Disproof of Large Language Model Consciousness | 2025 | 1 | 85/100 |
| 23 | Integrated Information Theory (IIT) | - | 1 | 85/100 |
| 24 | Cognitive Dissonance: LM Outputs Disagree with Internal Representations | 2024 | 2 | 82/100 |
| 25 | Large Language Models Report Subjective Experience | 2025 | 7 | 82/100 |
| 26 | Language Models Fail to Introspect About Their Knowledge of Language | 2025 | 2 | 82/100 |
| 27 | Towards Understanding Metacognition in Large Reasoning Models | 2025 | 3 | 82/100 |
| 28 | How Large Language Models Encode Theory-of-Mind | 2025 | 5 | 80/100 |
| 29 | Quantifying Self-Awareness of Knowledge in LLMs | 2025 | 4 | 80/100 |
| 30 | LLMs Position Themselves as More Rational: AI Self-Awareness | 2025 | 7 | 80/100 |
| 31 | Emergence of Self-Awareness in Artificial Systems: 3-Layer Approach | 2026 | 1 | 80/100 |
| 32 | Introduction to Artificial Consciousness | 2025 | 1 | 80/100 |
| 33 | Reflection-Bench: Evaluating Epistemic Agency in LLMs | 2025 | 3 | 78/100 |
| 34 | Can LLMs Predict Their Own Failures | 2025 | 4 | 78/100 |
| 35 | Brittle Minds Fixable Activations: Belief Representations | 2024 | 5 | 78/100 |
제외된 논문 (주요 디렉토리)
| 디렉토리 | 논문 수 | 제외 사유 |
|---|---|---|
| AGI/ | 5편 | 관련성 부족 (15-25점): 지능 일반론 중심 |
| Memory/ | 17편 | 관련성 부족 (15-35점): 메모리 아키텍처 중심 |
| XAI/ | 9편 | 관련성 부족 (20-30점): 해석가능성은 관련되나 자의식 직접 연구 아님 |
| Theory/ | 4편 | 관련성 부족 (15-25점): 이론적 기반이나 자의식 직접 다루지 않음 |
| LLMs/ | 9편 | 관련성 부족 (10-20점): 모델 아키텍처/학습 중심 |
| Reasoning/ | 1편 | 관련성 부족 (15점): 추론 학습 중심 |