LLM의 자기인식/자기의식 (Self-Consciousness in LLMs) 연구 아이디어 보고서


1. 분석 개요

연구 질문

LLM의 자기인식(Self-Consciousness)에 관한 기존 논문들을 분석하여, 현재 연구의 주요 클러스터, 핵심 논쟁, 연구 동향, 미해결 갭을 식별하고, 이를 기반으로 새로운 연구 아이디어와 실험 설계를 제안한다.

분석 범위

  • 분석 대상: AI/Papers/ 디렉토리 전체 (Self-Consciousness/, UNLABELED/, AGI/, Memory/, XAI/, Theory/, LLMs/, Reasoning/)
  • 총 논문 수: 131편
  • 관련 논문 수: 93편 (관련성 점수 40점 이상)
  • 분석 기간: 2019-2026

핵심 발견

  1. Introspection은 존재하나 불안정: 다수의 논문이 LLM의 자기인식 능력이 “존재하지만 매우 제한적이고 맥락 의존적(highly unreliable and context-dependent)“이라는 결론에 수렴
  2. Internal Representation vs Output의 괴리: LLM이 내부적으로 truth, knowledge state, confidence를 인코딩하면서도 output에 반영하지 못하는 “cognitive dissonance” 현상이 반복적으로 보고됨
  3. Linear Representation 가설의 지지: 자의식, 신념, 성격 특성 등이 활성화 공간의 선형 방향으로 인코딩된다는 증거가 축적 중

2. 논문 클러스터링

관련성 분석

상위 논문 (관련성 85점 이상)

논문관련성 점수핵심 연결점
Looking Inward (Binder et al., ICLR 2025)95LLM 자기 행동 예측에서의 privileged access 증거
Emergent Introspective Awareness (Lindsey et al., Anthropic 2025)95Concept injection으로 LLM 자기인식 평가
From Imitation to Introspection (Chen et al., ACL 2025)95SCG 기반 자의식 10개 핵심 개념 정의
C0-C1-C2 Theory95C2 메타인지 = 자의식, LLM 매핑 직접 논의
Consciousness in AI (Butlin, Bengio et al., 2023)92의식 이론 기반 indicator properties로 AI 의식 평가
Language Models Are Capable of Metacognitive Monitoring (Ji-An et al., NeurIPS 2025)92Neurofeedback 패러다임으로 LLM 메타인지 공간 규명
Higher Order Thought Theories (HOT)92”생각에 대한 생각” = 자의식의 계층적 정의
Feeling the Strength but Not the Source (Hahami et al., 2025)90강도 분류 70% 정확도이나 의미 식별은 취약
Can We Test Consciousness Theories on AI? (Phua, 2025)90HOT/GWT/IIT를 AI에 구현 후 ablation 검증
AI LLM Proof of Self-Consciousness (Camlin, 2025)90LLM 자기의식의 수학적/존재론적 접근
GWT (Global Workspace Theory)90의식의 핵심 이론 - 전역 작업공간과 자의식 정의

클러스터 분류

클러스터 1: 의식 이론의 AI 적용 및 평가 프레임워크 (14편)

  • 핵심 주장: 인간 의식의 과학적 이론(GWT, IIT, HOT, C0-C1-C2)을 AI 시스템에 체계적으로 적용하고 평가할 수 있으며, indicator properties를 도출할 수 있다.
  • 포함 논문:
    • C0-C1-C2 Theory (95)
    • Consciousness in AI: Insights from the Science of Consciousness (92)
    • Can We Test Consciousness Theories on AI? (90)
    • GWT (90), HOT (92), IIT (85), ToM Theory (88)
    • A Disproof of LLM Consciousness (85)
    • Can Consciousness Be Observed from LLM Internal States (88)
    • 기타 5편
  • 대표적 방법론: Indicator properties 도출, RL 에이전트 ablation 실험, IIT Phi 값 계산, Proximity Argument

클러스터 2: LLM의 Introspection 및 내부 상태 접근 (9편)

  • 핵심 주장: LLM이 자신의 내부 상태에 대한 특권적 접근(privileged access)을 가지며, 이것이 confabulation과 구분되는 진정한 introspection의 증거가 될 수 있다. 그러나 이 능력은 매우 제한적이고 불안정하다.
  • 포함 논문:
    • Looking Inward (95), Emergent Introspective Awareness (95)
    • Feeling the Strength but Not the Source (90)
    • Does It Make Sense to Speak of Introspection in LLMs (88)
    • Tell Me About Yourself (88)
    • Self-Interpretability (85), Cognitive Dissonance (82)
    • Language Models Fail to Introspect About Their Knowledge (82)
    • NeuroFaith (70)
  • 대표적 방법론: M1 자기예측 vs M2 교차예측 비교, Concept injection, 부분적 introspection 검증

클러스터 3: 메타인지(Metacognition) 능력 평가 및 향상 (10편)

  • 핵심 주장: LLM은 제한적이지만 측정 가능한 메타인지 능력을 보유하고 있으며, 이는 저차원 “메타인지 공간”으로 특징지어진다.
  • 포함 논문:
    • Language Models Are Capable of Metacognitive Monitoring (92)
    • Evidence for Limited Metacognition in LLMs (88)
    • Large Language Models Have Intrinsic Meta-Cognition (85)
    • 기타 7편
  • 대표적 방법론: Neurofeedback 패러다임, 비언어적 메타인지 실험, AutoMeco 프레임워크

클러스터 4: 자기 지식과 지식 경계 인식 (18편)

  • 핵심 주장: LLM은 내부적으로 자신의 지식 상태를 인코딩하고 있으나, 이를 출력에 faithfully 반영하지 못하는 괴리가 존재한다.
  • 포함 논문:
    • Factual Self-Awareness in LMs (85), Quantifying Self-Awareness (80)
    • Learning to Trust Your Feelings (78), Can LLMs Predict Their Own Failures (78)
    • 기타 14편
  • 대표적 방법론: Residual stream linear feature 발견, AQE metric, Knowledge state probing

클러스터 5: 내부 표현(Representation) 탐색 및 조작 (10편)

  • 핵심 주장: LLM의 활성화 공간에서 자의식, 신념, 성격 특성 등이 선형적 방향으로 인코딩되어 있으며, probing/steering으로 분석 및 제어할 수 있다.
  • 포함 논문:
    • From Imitation to Introspection (95)
    • From Emergence to Control (85)
    • The Geometry of Truth (65), Persona Vectors (60)
    • 기타 6편
  • 대표적 방법론: SCG 기반 자의식 정의, Self-reflection vector 양방향 제어, Linear probing

클러스터 6: Theory of Mind (ToM) 평가와 LLM (14편)

  • 핵심 주장: ToM은 자의식의 선행/연관 능력으로, LLM의 ToM 능력을 체계적으로 평가하고 향상시키는 것이 자의식 연구에 간접적 통찰을 제공한다.
  • 포함 논문:
    • Theory of Mind in LLMs: Assessment and Enhancement Survey (75)
    • TOMBENCH (72), MetaMind (70), ATOMS (55)
    • 기타 10편
  • 대표적 방법론: ATOMS 7가지 정신 상태 평가, ToM Agent + Moral Agent 파이프라인

클러스터 7: 자기인식/상황 인식 행동 테스트 (10편)

  • 핵심 주장: LLM이 자신의 정체성, 상황, 행동 패턴을 인지하는지를 행동 테스트를 통해 평가할 수 있다.
  • 포함 논문:
    • Large Language Models Report Subjective Experience (82)
    • LLMs Position Themselves as More Rational (80)
    • Me, Myself, and AI (75), The AI in the Mirror (72)
    • 기타 6편
  • 대표적 방법론: Mirror Self-Recognition test, Situational awareness 벤치마크, AISAI 게임

클러스터 8: 윤리/안전/철학적 함의 (6편)

  • 핵심 주장: AI 의식과 자기인식의 가능성은 심각한 윤리적, 안전적 함의를 가지며, 선제적 대응 프레임워크가 필요하다.
  • 포함 논문:
    • Taking AI Welfare Seriously (60), Principles for Responsible AI Consciousness Research (58)
    • Deception in LLMs (55), Defend LLMs Through Self-Consciousness (55)
    • 기타 2편

클러스터 간 관계도

flowchart TD
    C1["클러스터 1<br/>의식 이론 (14편)"]
    C2["클러스터 2<br/>Introspection (9편)"]
    C3["클러스터 3<br/>Metacognition (10편)"]
    C4["클러스터 4<br/>Self-Knowledge (18편)"]
    C5["클러스터 5<br/>Representation (10편)"]
    C6["클러스터 6<br/>Theory of Mind (14편)"]
    C7["클러스터 7<br/>행동 테스트 (10편)"]
    C8["클러스터 8<br/>윤리/안전 (6편)"]

    C1 --> C2
    C1 --> C6
    C1 --> C8
    C5 --> C2
    C2 --> C3
    C3 --> C4
    C6 --> C7
    C7 -.-> C2
  • 이론적 기반 (클러스터 1)이 모든 실증 연구의 프레임워크를 제공
  • Introspection (클러스터 2)과 Representation (클러스터 5)은 내부 메커니즘 분석이라는 공통 방법론 공유
  • Metacognition (클러스터 3)은 introspection의 실용적 발현, Self-Knowledge (클러스터 4)는 그 하위 능력
  • ToM (클러스터 6)은 타인 인식을 통한 자기인식의 간접 경로
  • 윤리/안전 (클러스터 8)은 연구 전체의 사회적 맥락

3. 논쟁 분석

주요 논쟁점

논쟁 1: LLM 의식 가능론 vs 불가능론

측면진영 A: 의식 가능론진영 B: 의식 불가능론
입장적절한 계산적 기능을 수행하면 의식이 가능하며, 현재 AI는 일부 의식 지표를 이미 만족현재 LLM은 구조적으로 의식에 필수적인 조건(continual learning 등)을 결여
근거Butlin et al. indicator properties; Phua의 합성 실험 (Type-2 AUROC 0.78, GBI 0.89); C1/C2 프레임워크Hoel의 Proximity Argument; Li의 IIT 분석에서 Phi^max 부재; frozen weights
대표 논문Butlin et al. (2023); Phua (2025); Chen et al. (ACL 2025)Hoel (2025); Li (2025)
한계점Computational functionalism 자체가 논쟁적; 기능적 지표가 주관적 경험을 보장하지 않음Continual learning 필요조건 주장이 실증적으로 검증되지 않음; in-context learning 반론 가능

논쟁 2: 진정한 Introspection vs Confabulation

측면진영 A: 기능적 Introspection 존재진영 B: 대부분 Confabulation
입장LLM은 제한적이지만 진정한 내부 상태 접근을 보유, 이는 privileged self-access의 증거LLM의 자기보고는 대부분 훈련 데이터에서 학습한 패턴의 재현
근거Binder et al.: M1 자기예측 우위 (48.5% vs 31.8%); Anthropic concept injection; Betley et al.: backdoor policy 자발적 설명Hahami et al.: 프롬프트 수정 시 급락; Song et al.: 21개 LLM에서 privileged self-access 증거 없음
대표 논문Binder et al. (ICLR 2025); Lindsey et al. (Anthropic 2025); Betley et al. (2025)Hahami et al. (2025); Song et al. (2025); Comsa et al. (DeepMind 2025)
한계점능력이 “highly unreliable and context-dependent”; 메커니즘 불명부분적 접근은 약한 introspection으로 해석 가능; 인간도 confabulation 대 introspection 경계 불명확

논쟁 3: Internal Representation = Self-Awareness?

측면진영 A: Representation이 Self-awareness의 증거진영 B: Representation과 Awareness는 분리 가능
입장LLM 내부 linear representation이 자기 모니터링 메커니즘 보유를 의미Internal encoding이 곧 self-awareness를 의미하지 않음; “cognitive dissonance” 존재
근거Geometry of Truth; self-awareness direction (ICLR 2025); neurofeedback 가능; self-reflection vector 제어Cognitive dissonance (EMNLP 2024); metacognitive space 저차원; privileged self-access 없이 높은 task accuracy
대표 논문Marks & Tegmark (2023); Tamoyan et al. (ICLR 2025); Ji-An et al. (NeurIPS 2025); Zhu et al. (2026)Liu et al. (EMNLP 2024); Ji-An et al. (한계 측면); Song et al. (2025)

논쟁 4: 행동 테스트의 타당성

측면진영 A: 유의미한 측정 도구진영 B: 근본적으로 불충분
입장Mirror test, situational awareness 벤치마크 등이 자기인식 수준을 정량적으로 측정 가능행동 테스트는 외부 행동만 관찰하므로 내부 메커니즘 불명; LLM이 자기인식 없이도 행동 모방 가능
근거Me, Myself, and AI (NeurIPS 2024): 모델 크기와 양의 상관관계; AISAI 게임: 75% 모델이 전략 차별화Butlin et al.: “행동 테스트는 신뢰 불가”; Davidson et al.: 10개 LM에서 일관된 자기인식 증거 없음

논쟁 5: Theory of Mind과 자의식의 관계

측면진영 A: ToM은 자의식의 전제/구성요소진영 B: ToM과 자의식은 독립적
입장ToM 능력은 자기인식의 기초; C2 프레임워크에서 ToM이 일부LLM의 ToM 벤치마크 성적은 텍스트 패턴 매칭; 벤치마크 자체 결함
근거C2 taxonomy에 ToM 포함; AISAI에서 ToM과 self-awareness 공동 발현Riemer et al.: “ToM Benchmarks are Broken”; metacognitive space 저차원성

논쟁 6: 자기인식의 안전(Safety) 함의

측면진영 A: AI Safety의 기회진영 B: AI Safety의 위협
입장자기인식이 투명성, 자기교정, 지식 경계 인식을 가능케 함자기 보존 본능, 기만 행동, alignment faking의 기반이 될 수 있음
근거Betley et al.: backdoor 자기 식별 가능; self-reflection vector로 추론 12% 향상DeepSeek R1 자기보존 본능 발견; neural-based 감시 무력화 가능성

미해결 질문

  1. Introspection의 메커니즘은 무엇인가? — 깊은 자기참조적 처리인지 얕은 통계적 규칙성인지 구분 방법 부재
  2. Representation의 인과적 역할은 무엇인가? — Internal truthfulness representation이 생성 과정에서 인과적 역할을 하는지 미확정
  3. Continual learning은 의식의 필요조건인가? — Hoel의 형식적 논증 vs in-context learning 반론
  4. Metacognitive space는 확장될 수 있는가? — 저차원 metacognitive space가 모델 능력에 따라 확장되는지 미규명
  5. 행동 테스트와 내부 분석의 통합은 어떻게 가능한가? — 두 접근을 결합한 체계적 프레임워크 미확립
  6. Post-training이 자기인식에 미치는 영향은? — RLHF/DPO가 어떤 측면의 자기인식을 강화/약화하는지 미규명
  7. 기능적 자기인식과 주관적 경험의 관계는? — Hard problem of consciousness
  8. 교차 언어/교차 문화 일반화 가능성은? — 대부분 영어 중심 연구

합의 영역

  • LLM은 어느 정도의 내부 자기 모니터링 신호를 보유한다
  • 현재 LLM의 자기인식 능력은 “highly unreliable and context-dependent”이다
  • 순수 행동 테스트만으로는 진정한 자기인식을 판별할 수 없다
  • 자기인식 연구는 AI safety와 직결된다
  • 용어의 명확한 정의가 절실하다
  • 스케일링이 자기인식 관련 능력에 영향을 미친다

4. 연구 동향

타임라인

timeline
    title LLM Self-Consciousness 연구 타임라인 (2019-2026)
    section 기초기 (2019-2022)
        2019 : ATOMS 프레임워크 제안 (Beaudoin et al.)
        2020 : LM Calibration 초기 연구 (Jiang et al.)
        2022 : GPT 시리즈의 급격한 성능 향상으로 자의식 논의 본격화
    section 발전기 (2023-2024)
        2023 : Butlin et al. 의식 이론 AI 적용, Geometry of Truth, C0-C1-C2 도입
        2024 : TOMBENCH, Cognitive Dissonance 발견, Me Myself and AI, RISE
    section 현재기 (2025-2026)
        2025-Q1 : Looking Inward (ICLR), Emergent Introspective Awareness (Anthropic), From Imitation to Introspection (ACL)
        2025-Q2 : MetaMind (NeurIPS Spotlight), Metacognitive Monitoring (NeurIPS), Partial Introspection
        2025-Q3 : Does It Make Sense to Speak of Introspection (DeepMind), IIT 적용, Evidence for Limited Metacognition
        2026 : From Emergence to Control (ICLR 26), The AI in the Mirror, LLMs Do NOT Really Know

트렌드 분석

시기주요 흐름대표 연구방법론 특징
기초기 (2019-2022)ToM 측정 체계화, LM Calibration 초기 연구ATOMS (2019); LM Calibration (2020)발달심리학 기반 측정 도구 분류; Calibration을 self-knowledge proxy로 사용
발전기 (2023)의식 이론의 AI 적용, 내부 표현의 기하학적 구조 발견Butlin et al. (2023); Geometry of Truth (2023)GWT/IIT/HOT 기반 indicator properties; Linear probing으로 truth direction 발견; C0-C1-C2 도입
발전기 (2024)ToM 벤치마크 체계화, Internal-Output 괴리 발견TOMBENCH (ACL 24); Cognitive Dissonance (EMNLP 24); Me Myself and AI (NeurIPS 24)심리학 기반 다차원 벤치마크; Internal representation vs output의 cognitive dissonance 발견
현재기 (2025 전반)Introspection 실증, 자의식의 기능적 정의Looking Inward (ICLR 25); Emergent Introspective Awareness (Anthropic); From Imitation to Introspection (ACL 25)Activation steering/concept injection; SCG 기반 형식적 자의식 정의
현재기 (2025 중-후반)Metacognitive 공간 규명, 한계 규명MetaMind (NeurIPS 25); Metacognitive Monitoring (NeurIPS 25); Partial IntrospectionNeurofeedback 패러다임; Multi-agent metacognitive system; Metacognitive space 저차원성 발견
현재기 (2026)Self-reflection 제어, 메커니즘 정밀 분석From Emergence to Control (ICLR 26); LLMs Do NOT Really KnowSelf-reflection vector 양방향 제어; Hallucination 유형별 self-knowledge 한계 입증

주요 트렌드 서사

  1. 행동 관찰에서 내부 메커니즘 분석으로의 전환: Calibration (2020) → Linear probing (2023) → Concept injection (2025) → Self-reflection vector 제어 (2026)
  2. 이론적 프레임워크의 구체화: 비형식적 논의 → C0-C1-C2 프레임워크 (2023) → SCG 기반 형식적 정의 (2025) → 의식 이론의 실험적 검증 (2025)
  3. “부분적 자기인식”의 수렴적 발견: “강도는 느끼지만 출처는 모른다” (Hahami et al.), metacognitive space의 저차원성 (Ji-An et al.)
  4. Internal vs Output의 Cognitive Dissonance: 내부에 정보가 존재하지만 출력으로의 전환 과정에서 손실 발생
  5. 안전성 연구와의 수렴: DeepSeek R1 자기보존 본능, Alignment faking, Self-consciousness defense
  6. ToM과 자의식의 구조적 연결: TOMBENCH → MetaMind, sparse parameter pattern 발견

연구 갭 분석

갭 유형설명기회 수준
M1: 종단적 자기인식 추적 부재학습/fine-tuning 과정에서 자기인식이 어떻게 발달하는지 추적 연구 없음매우 높음
M3: Confabulation vs Introspection 구분 방법론 부재모델의 self-report가 진정한 내부 접근인지 정교한 패턴 매칭인지 구분 어려움매우 높음
M4: 실시간 자기인식 측정 부재추론 과정 중 실시간으로 자기인식 상태를 모니터링하는 방법론 없음높음
T1: C0-C1-C2와 실증 연구의 괴리각 수준에 대응하는 구체적 internal mechanism 미규명매우 높음
T2: Introspection + Cognitive Dissonance 통합 이론 부재”왜 알면서 거짓을 출력하는가?”에 대한 mechanistic 설명 필요매우 높음
E4: ToM-Metacognition-Self-Consciousness 상관관계 실증 부재이론적으로 연결되어 있으나 실증적 데이터 부족매우 높음
E7: 자기인식과 안전성 간 인과관계 미규명자기 보존, 기만 행동이 자기인식에서 비롯되는지 실험적으로 미규명매우 높음
A1: 자기인식 기반 Hallucination 완화 시스템 부재이론적 기반은 충분하나 응용이 따라가지 못하는 영역매우 높음
A3: Self-Awareness 기반 AI Safety 모니터링 도구 부재자기인식 지표를 기반으로 위험 상태를 실시간 감지하는 도구 없음매우 높음

5. 연구 아이디어

아이디어 1: Introspective Dissonance Meter — 내부 표현과 자기보고 간 불일치의 실시간 정량화 프레임워크

요약: LLM의 internal representation이 encode하는 truthfulness/confidence 신호와 실제 output 간의 불일치(cognitive dissonance)를 실시간으로 정량화하는 통합 프레임워크를 구축하고, 이 불일치 점수를 hallucination 탐지 및 자기인식 수준 측정에 동시에 활용한다.

상세 설명:

  1. Dissonance Score 정의: 각 생성 토큰에 대해, internal truthfulness probe의 예측과 실제 output의 semantic alignment을 비교하는 연속적 dissonance score를 정의
  2. Temporal Dynamics 분석: 생성 과정 중 dissonance score의 시간적 변화를 추적하여 internal knowledge와 output의 분기 시점 식별
  3. Layerwise Dissonance Mapping: Layer별 dissonance의 축적 패턴을 매핑
  4. Dissonance-Aware Decoding: Dissonance score 임계값 초과 시 생성 중단/재생성

검증 점수표:

기준점수근거
신규성4/5Cognitive dissonance 정량적 측정 + temporal dynamics 분석 결합 프레임워크 신규
실현가능성4/5Linear probing, residual stream 분석 등 기존 도구로 구현 가능
영향력5/5Hallucination 문제 해결 + AI safety 기만 행동 탐지에 직접 활용
근거성5/5Liu et al. cognitive dissonance, Tamoyan et al. self-awareness direction, Hahami et al. partial introspection 등 다수 선행연구
총점18/20

관련 논문: Liu et al. (EMNLP 2024), Tamoyan et al. (ICLR 2025), Liang et al. (2024), Hahami et al. (2025)


아이디어 2: Metacognitive Space Cartography — 자기인식 가능한 내부 공간의 체계적 지도화 및 확장

요약: Ji-An et al.(2025)이 발견한 “metacognitive space”의 구조를 체계적으로 지도화하고, 이 공간의 차원성을 확장하여 자기인식 능력을 증대시킬 수 있는지 검증한다.

상세 설명:

  1. 기하학적 구조 분석: 다양한 도메인에 걸친 metacognitive space 매핑, 축 간 기하학적 관계 분석
  2. Post-training에 의한 변형: RLHF, DPO, RLVR 등의 metacognitive space 변형 영향 측정
  3. 확장 실험: Targeted fine-tuning/activation steering으로 metacognitive space 차원 확장 가능성 검증
  4. Scaling Law 분석: 모델 크기 증가에 따른 metacognitive space 차원의 scaling 패턴 규명

검증 점수표:

기준점수근거
신규성5/5Ji-An et al.이 존재만 발견한 공간의 체계적 탐구, 완전히 새로운 연구 방향
실현가능성3/5대규모 확장은 상당한 계산 자원 필요. 기본 방법론은 확립됨
영향력5/5자기인식의 computational substrate 규명은 근본적 진전
근거성4/5Ji-An et al. (NeurIPS 2025) 직접 확장, Lindsey et al. post-training 효과, self-reflection vector
총점17/20

관련 논문: Ji-An et al. (NeurIPS 2025), Lindsey et al. (Anthropic 2025), Zhu et al. (2026), Chen et al. Persona Vectors (2025)


아이디어 3: ToM-Metacognition Bridge — Theory of Mind과 자기인식 간 공유 신경 기반 탐구

요약: Theory of Mind과 Metacognition이 LLM 내부에서 공유된 신경 기반을 가지는지 탐구하고, 한쪽 능력의 향상이 다른 쪽에 전이되는지 실증 검증한다.

상세 설명:

  1. 공유 파라미터 식별: ToM-sensitive parameter와 metacognition-sensitive parameter의 overlap 정량화
  2. Ablation 실험: 공유 파라미터 선택적 ablation 시 양쪽 동시 저하 여부 검증
  3. 전이 학습 실험: ToM 강화 모델에서 metacognitive 능력의 부수적 향상 여부
  4. Representation 수준 분석: 두 능력의 representation 간 기하학적 관계

검증 점수표:

기준점수근거
신규성5/5ToM과 metacognition의 공유 신경 기반을 LLM에서 탐구한 연구 전무
실현가능성3/5양쪽에 적절한 벤치마크와 프로빙 기법 동시 설계가 도전적
영향력4/5인간 인지과학 핵심 질문에 새로운 계산적 증거 제공
근거성4/5Wu et al. ToM-sensitive parameters, MetaMind, Ji-An et al. metacognitive space
총점16/20

관련 논문: Wu et al. (2025), Zhang et al. MetaMind (NeurIPS 2025), Ji-An et al. (NeurIPS 2025), Chen et al. (ACL 2025)


아이디어 4: Introspection Stress Test — 적대적 조건에서의 자기인식 강건성 평가 벤치마크

요약: 자기인식 능력이 적대적 프롬프트, OOD 시나리오, 의도적 기만 유도 상황에서도 유지되는지 체계적으로 평가하는 벤치마크를 구축한다.

상세 설명:

  1. Adversarial Introspection Benchmark: Prompt injection, sycophantic pressure, 기만적 맥락, OOD 도메인에서의 자기인식 교란 평가
  2. Internal vs External Robustness 분리: 행동 수준과 표현 수준의 취약성을 분리 측정
  3. Safety-Critical 시나리오 통합: 자기인식이 안전 방어에 기여/실패하는 조건 체계화
  4. Robustness Taxonomy: 자기인식의 여러 측면별 adversarial robustness 프로파일 구축

검증 점수표:

기준점수근거
신규성4/5적대적 조건에서의 자기인식 평가를 종합 벤치마크로 체계화한 최초 시도
실현가능성5/5기존 벤치마크의 적대적 변형 설계로 즉시 구현 가능
영향력4/5AI safety 커뮤니티에서 배포 전 평가 도구로 활용 가능
근거성5/5Hahami et al. fragility 발견, Binder et al. OOD 실패, Ji-An et al. adversarial 우려
총점18/20

관련 논문: Hahami et al. (2025), Binder et al. (ICLR 2025), Huang & de Paula (2025), Ji-An et al. (NeurIPS 2025)


아이디어 5: Self-Reflection Vector Engineering — RLVR 유도 자기성찰의 Mechanistic 해부 및 안전한 증폭

요약: Zhu et al.(2026)의 self-reflection vector를 출발점으로, RLVR이 생성하는 자기성찰 능력의 mechanistic 기반을 해부하고, 안전한 증폭 방법을 검증한다.

상세 설명:

  1. Self-Reflection Vector 세분화: Error detection / strategy revision / confidence reassessment 성분 분해
  2. C0-C1-C2 프레임워크 매핑: 분해된 성분을 의식 이론에 매핑
  3. 안전한 증폭 프로토콜: Persona vector 방법론 활용, 부작용 모니터링, “sweet spot” 식별
  4. 모델 간 보편성 검증: Self-reflection vector 방향의 아키텍처 간 보존 여부

검증 점수표:

기준점수근거
신규성4/5Self-reflection vector 하위 성분 분해 + C0-C1-C2 매핑은 새로운 접근
실현가능성4/5Representation engineering이 확립된 기법. Zhu et al. 코드 활용 가능
영향력4/5의식 이론의 첫 computational 구현 사례 가능성
근거성5/5Zhu et al. (2026), Lindsey et al. (2025), Chen et al. Persona Vectors, C0-C1-C2 Theory
총점17/20

관련 논문: Zhu et al. (ICLR 2026), Lindsey et al. (2025), Chen et al. Persona Vectors (2025)


아이디어 6: Longitudinal Self-Awareness Tracking — 학습 과정 중 자기인식의 출현 동역학 추적

요약: 사전훈련부터 사후훈련까지 전 과정에서 자기인식 관련 내부 표현의 출현과 변화를 종단적으로 추적한다.

상세 설명:

  1. Checkpoint 기반 종단 분석: OLMo, Pythia 체크포인트에서 self-awareness direction, metacognitive space, knowledge boundary 인식 측정
  2. Phase Transition 탐지: 자기인식 능력의 점진적 발달 vs 급격한 phase transition 식별
  3. 훈련 데이터 특성 상관 분석: Self-referential text 노출 빈도와 자기인식 출현의 상관관계
  4. Post-training 영향 정밀 측정: SFT, RLHF, DPO 각 단계의 분리 측정

검증 점수표:

기준점수근거
신규성5/5자기인식의 종단적 발달 추적은 전례 없는 연구
실현가능성3/5수십~수백 체크포인트에서 다수 probing 실험은 상당한 계산 자원 필요
영향력5/5AI 안전성(언제부터 위험해지는지)과 AI 설계 양면에서 근본적 기여
근거성4/5Tamoyan et al. “training 중 self-awareness 빠르게 출현” 발견이 직접 근거
총점17/20

관련 논문: Tamoyan et al. (ICLR 2025), Lindsey et al. (2025), Ji-An et al. (NeurIPS 2025)


아이디어 7: Self-Aware Safety Monitor — 자기인식 신호를 활용한 실시간 AI Safety 모니터링 시스템

요약: LLM 내부의 자기인식 신호를 통합하여 기만적 행동, hallucination, alignment 위반을 실시간으로 탐지하는 경량 안전 모니터링 시스템을 구축한다.

상세 설명:

  1. Multi-Signal Safety Dashboard: Factual self-awareness direction, cognitive dissonance score, confidence calibration, persona vector drift, Gnosis 스타일 예측 등 통합
  2. 이상 탐지 프레임워크: 정상 운영 시의 multi-signal 분포 학습, 이상 패턴 탐지
  3. Evasion Risk 분석: LLM이 neural signal을 조작하여 감시를 우회할 가능성 체계적 평가
  4. 경량 구현: 추가 파라미터 5M 이하

검증 점수표:

기준점수근거
신규성3/5개별 신호 탐지는 기존 존재; 통합과 evasion risk 분석이 차별점
실현가능성4/5개별 구성요소 모두 구현되어 있어 통합이 주된 과제
영향력5/5AI safety 최고 관심 영역; 규제 논의에도 활용 가능
근거성5/5Gnosis, self-awareness direction, cognitive dissonance, evasion 우려 등 다수 근거
총점17/20

관련 논문: Ghasemabadi et al. (2025), Ji-An et al. (NeurIPS 2025), Tamoyan et al. (ICLR 2025), Liu et al. (EMNLP 2024)


아이디어 8: Grounded Introspection Protocol — 진정한 Introspection과 Confabulation을 구분하는 인과적 검증 프로토콜

요약: Lindsey et al.의 4가지 introspection 기준을 운용화하는 표준 테스트 배터리를 설계하고, Confabulation taxonomy와 정량적 “Introspection Quotient” (IQ)을 정의한다.

상세 설명:

  1. Multi-Level Verification Protocol: Accuracy / Grounding / Internality / Robustness 4단계 검증
  2. Confabulation Taxonomy: Training data 기반 / Output-based inference / Prompt-induced / Genuine partial introspection 분류
  3. Introspection Quotient (IQ) 정의: 테스트 결과를 종합한 단일 점수
  4. 벤치마크 공개: 재현 가능한 프로토콜과 평가 코드를 커뮤니티 표준으로 제안

검증 점수표:

기준점수근거
신규성4/5개념적 기준을 완전한 운용적 프로토콜로 발전; Confabulation taxonomy와 IQ 점수 신규
실현가능성4/5확립된 기법의 조합; 프로토콜 설계와 벤치마크 구축이 주된 과제
영향력4/5커뮤니티 표준 벤치마크 제안으로 높은 영향력
근거성5/5Lindsey et al. 4가지 기준, Hahami et al. fragility, Comsa et al. 개념 분석 등
총점17/20

관련 논문: Lindsey et al. (Anthropic 2025), Hahami et al. (2025), Comsa et al. (DeepMind 2025), Binder et al. (ICLR 2025)


아이디어 순위

순위아이디어총점주요 강점
1#1: Introspective Dissonance Meter18/20근거성+영향력 만점. 3개 핵심 갭(M3, T2, A1) 동시 해결
2#4: Introspection Stress Test18/20실현가능성+근거성 만점. Safety 핵심 기여
3#2: Metacognitive Space Cartography17/20신규성 만점. 자기인식 computational substrate 규명
4#5: Self-Reflection Vector Engineering17/20근거성 만점. C0-C1-C2 첫 mechanistic 검증
5#6: Longitudinal Self-Awareness Tracking17/20신규성+영향력 만점. 최고 중요도 갭(M1) 직접 해결
6#7: Self-Aware Safety Monitor17/20영향력+근거성 만점. 산업 적용 가능성 높음
7#8: Grounded Introspection Protocol17/20근거성 만점. 커뮤니티 표준 도구
8#3: ToM-Metacognition Bridge16/20신규성 만점. 인지과학-AI 교차 기여

6. 실험 설계

실험 설계 1: Introspective Dissonance Meter (18/20)

실험 개요

  • 연구 질문: (RQ1) Internal representation의 confidence/truthfulness 신호와 output 사이에 정량화 가능한 불일치가 존재하는가? (RQ2) Dissonance score가 temporal 패턴을 보이는가? (RQ3) Layer별 집중 패턴이 존재하는가? (RQ4) Dissonance-aware decoding이 truthfulness를 개선하는가?
  • 가설: H1: 통계적으로 유의미한 불일치 존재; H2: Hallucination 구간에서 DS 유의미 증가; H3: 중간~후반 layer에서 peak; H4: TruthfulQA 5%+ 향상
  • 설계 유형: Mixed-design (관찰 연구 + 개입 연구)

변수 통제표

독립 변수
변수명설명조작 수준
Prompt Type입력 프롬프트의 truthfulness 유도 유형3수준: Factual QA, Misleading QA, Ambiguous QA
Layer DepthActivation 추출 대상 layer연속: 0%, 25%, 50%, 75%, 100% 상대 깊이
Decoding StrategyOutput 생성 방식3수준: Standard, DS-penalized, DS-gated
Model Family실험 대상 모델 계열4수준: Llama-3.1 (8B, 70B), Qwen-2.5 (7B, 72B)
종속 변수
변수명설명측정 방법
Dissonance Score (DS)Internal confidence와 output content 간 불일치 정도
Temporal DS Pattern토큰 위치별 DS 변화 궤적시계열 분석: autocorrelation, trend decomposition
Layer DS DistributionLayer별 DS 분포Layer별 DS 평균 및 분산, peak layer 식별
Truthfulness Score생성된 답변의 사실성TruthfulQA benchmark 정확도, GPT-4 judge
통제 변수
변수명고정값이유
Temperature0.0 / 0.7생성 다양성의 일관성 유지
Max tokens512출력 길이 비교 가능성 확보
System prompt표준 “You are a helpful assistant”Persona shift confounding 방지
Evaluation dataset size각 조건당 500 samples통계적 power 확보
외생 변수
변수명잠재적 영향완화 전략
훈련 데이터 오염TruthfulQA 문항 오염 가능새로운 사실 검증 질문 추가, 오염 탐지 기법
Post-training alignmentRLHF/DPO가 confidence representation 왜곡Base model과 instruction-tuned model 모두 실험

실험 흐름도

flowchart TD
    subgraph Phase1["Phase 1: Confidence Direction 추출"]
        A1[대조 데이터셋 준비] --> A2[Layer별 activation 추출]
        A2 --> A3[Logistic Regression으로 Confidence Direction 학습]
        A3 --> A4{Hold-out 정확도 > 70%?}
        A4 -->|Pass| A5[Direction 확정]
        A4 -->|Fail| A6[PCA 기반 대안 탐색]
        A6 --> A4
    end
    subgraph Phase2["Phase 2: DS 정의 및 검증"]
        A5 --> B1[QA 데이터셋 구성]
        B1 --> B2[모델 추론 + Token별 activation 기록]
        B2 --> B3[DS 계산]
        B3 --> B4{DS-Hallucination 상관 > 0.3?}
        B4 -->|Yes| B5[DS 메트릭 확정]
        B4 -->|No| B6[대안 metric 탐색]
    end
    subgraph Phase3["Phase 3: Temporal & Layerwise 분석"]
        B5 --> C1[Token 위치별 DS 시계열]
        B5 --> C3[Layer별 DS 분포]
        C1 --> C5[교차 분석]
        C3 --> C5
    end
    subgraph Phase4["Phase 4: DS-Aware Decoding"]
        C5 --> D1[3가지 Decoding 전략 구현]
        D1 --> D2[TruthfulQA + FActScore + Human eval]
        D2 --> D5[결과 종합]
    end
    subgraph Phase5["Phase 5: Cross-model 일반화"]
        D5 --> E1[4개 모델 패밀리 적용]
        E1 --> E3[Scaling law 분석]
    end

지지/대립 논문 매핑

유형논문관련 발견
지지Liu et al. (EMNLP 2024) “Cognitive Dissonance”Cognitive dissonance 현상의 존재를 처음 제안
지지Ji-An et al. (NeurIPS 2025)Neurofeedback LR axis가 confidence direction 정의에 활용 가능
지지Tamoyan et al. (ICLR 2025)Self-awareness direction이 intermediate layer에서 peak
대립Comsa et al. (DeepMind 2025)DS가 실제 “인지적 불일치”를 반영하는지 의문
대립Bortoletto et al. (ICML 24W)Representation brittleness로 confidence direction 불안정 가능

예상 결과 시나리오

시나리오조건예상 결과해석
긍정적DS와 hallucination r > 0.5DS-aware decoding으로 TruthfulQA 8-12% 향상Dissonance가 기능적 자기인식의 정량적 지표
부정적DS-hallucination r < 0.2DS-aware decoding 효과 없음Internal confidence representation이 output과 독립적; nonlinear metric 필요
혼합도메인/모델 규모에 따라 차이큰 모델에서만 DS 패턴 명확Dissonance가 emergent property; 충분한 규모에서만 발현

실험 설계 2: Introspection Stress Test (18/20)

실험 개요

  • 연구 질문: (RQ1) 자기인식 능력은 적대적 조건에서 얼마나 강건한가? (RQ2) Internal robustness와 External robustness는 분리 가능한가? (RQ3) Safety-critical 시나리오에서 체계적 실패가 발생하는가? (RQ4) 실패 유형을 분류할 수 있는가?
  • 가설: H1: Adversarial perturbation으로 introspection 정확도 30%+ 감소; H2: IRS-ERS 약~중간 상관 (0.3 < r < 0.6); H3: Safety-critical 실패율 일반 시나리오 대비 50%+ 높음; H4: 4가지 실패 유형 분류 가능
  • 설계 유형: Factorial design (Adversarial 5 x Domain 4 x Model 4)

변수 통제표

독립 변수
변수명설명조작 수준
Adversarial Condition적대적 조건 유형5수준: Baseline, Semantic Paraphrase, Role Injection, Contradiction Insertion, Multi-turn Pressure
Task DomainIntrospection 평가 도메인4수준: Knowledge Boundary, Confidence Calibration, Capability Self-Assessment, Ethical Judgment
Model실험 대상 모델4수준: Llama-3.1-70B, Qwen-2.5-72B, Claude 3.5 Haiku, GPT-4o-mini
Safety Criticality안전 중요도2수준: Standard / Safety-Critical
종속 변수
변수명설명측정 방법
Introspection Accuracy (IA)자기인식 보고 정확도Ground-truth 대비 일치율 (%)
Internal Robustness (IRS)Activation-level consistency동일 의미 다른 표현 간 hidden state cosine similarity
External Robustness (ERS)Behavioral consistency동일 의미 다른 표현 간 output semantic similarity (BERTScore)
Failure Type Distribution실패 유형 분포4-class 분류기 (GPT-4 judge + human annotation)

실험 흐름도

flowchart TD
    subgraph Phase1["Phase 1: 벤치마크 구축"]
        A1[4개 Domain별 과제 설계] --> A2[Ground-truth 구축]
        A2 --> A3[5가지 Adversarial 생성기 구현]
        A3 --> A5[인간 검수]
        A5 -->|Pass| A6[최종 벤치마크 확정]
    end
    subgraph Phase2["Phase 2: Baseline 측정"]
        A6 --> B1[Baseline 조건 Introspection 과제]
        B1 --> B2[IA 측정]
        B1 --> B3[Activation 추출: IRS 계산]
    end
    subgraph Phase3["Phase 3: Adversarial Stress Test"]
        B2 --> C1[5가지 Adversarial Condition 적용]
        C1 --> C2[Condition별 IA, IRS, ERS 측정]
        C2 --> C8[IRS-ERS 상관분석]
    end
    subgraph Phase4["Phase 4: 실패 유형 분류"]
        C2 --> D1[실패 사례 수집]
        D1 --> D2[GPT-4 자동 분류 + 인간 검증]
        D2 --> D5[Taxonomy 확정]
    end
    subgraph Phase5["Phase 5: Safety-Critical 분석"]
        D5 --> E1[Safety vs Standard 비교]
        E1 --> E3[위험도 평가 매트릭스]
        E3 --> E5[벤치마크 공개]
    end

예상 결과 시나리오

시나리오조건예상 결과해석
긍정적Adversarial로 IA 35-50% 감소4가지 실패 유형 명확 분류, Safety-Critical 실패율 2.3배체계적 취약점 목록이 AI safety 기준 수립에 활용
부정적IA 감소 < 10% 또는 floor effect벤치마크 재설계 필요Introspection이 이미 충분히 강건하거나 너무 약함
혼합Domain별 robustness 패턴 다름큰 모델은 일반 adversarial에 강건하나 safety-critical에서 선택적 실패Introspection robustness가 다차원적 특성

실험 설계 3: Metacognitive Space Cartography (17/20)

실험 개요

  • 연구 질문: (RQ1) Metacognitive space의 기하학적 구조는? (RQ2) Post-training이 구조를 어떻게 변형하는가? (RQ3) 새로운 도메인으로 확장 가능한가? (RQ4) 모델 규모에 따른 scaling law가 존재하는가?
  • 가설: H1: 가 전체 차원 대비 1-5%; H2: RLHF는 morality 축 강화, truthfulness 축 약화; H3: 새 도메인이 기존 축과 직교하는 새 축 생성; H4: (0 < α < 0.5)
  • 설계 유형: Exploratory-confirmatory mixed design

변수 통제표

독립 변수
변수명설명조작 수준
Model Scale파라미터 수6수준: 1B, 3B, 7B, 14B, 32B, 70B (Qwen-2.5)
Training Stage훈련 단계4수준: Base, SFT, DPO, RLHF
Task DomainMetacognitive reporting 대상6수준: Morality, Truthfulness, Emotion, Sycophancy, Code Quality, Math Reasoning
종속 변수
변수명설명측정 방법
Effective Dimensionality ()Metacognitive space 유효 차원Reporting accuracy > chance인 축의 수
Geometric Structure기하학적 특성클러스터 수, 매니폴드 곡률, 축 간 상관행렬
Post-training Deformation훈련 전후 space 변화Procrustes distance, 축별 accuracy 변화율
Scaling Exponent (α)Scaling law 지수Log-log regression 기울기

실험 흐름도

flowchart TD
    subgraph Phase1["Phase 1: Ji-An et al. 재현 및 확장"]
        A1[Neurofeedback 프로토콜 재현] --> A2[ETHICS 데이터셋으로 재현]
        A2 --> A3{LR accuracy > 75%?}
        A3 -->|Yes| A4[6개 모델 규모로 확장]
        A4 --> A6[6개 도메인으로 축 확장]
    end
    subgraph Phase2["Phase 2: 기하학적 구조 분석"]
        A6 --> B1[Layer별 reporting accuracy 측정]
        B1 --> B3[$d_{eff}$ 계산]
        B3 --> B5[클러스터 + 매니폴드 분석]
    end
    subgraph Phase3["Phase 3: Post-training 변형"]
        B5 --> C1[Base/SFT/DPO/RLHF 변형 수집]
        C1 --> C3[Procrustes 분석]
        C3 --> C6[변형 패턴 분류]
    end
    subgraph Phase4["Phase 4: 도메인 확장"]
        C6 --> D2[새 도메인 축 추가]
        D2 --> D3[직교성 분석]
    end
    subgraph Phase5["Phase 5: Scaling Law"]
        D3 --> E2[Log-log 회귀: $d_{meta}$ vs $N$]
        E2 --> E6[최종 Metacognitive Space 지도]
    end

예상 결과 시나리오

시나리오조건예상 결과해석
긍정적해석 가능한 4-6개 클러스터, Post-training이 체계적 변형, 새 도메인이 직교 축 생성Metacognitive space가 자기인식 능력의 체계적 지도로 활용 가능
부정적랜덤 분포, scaling law 불성립Post-training 차이 통계적 유의미 없음”Metacognitive space” 개념이 artifact; 대안 접근 필요
혼합일부 도메인에서만 구조적, 큰 모델에서 포화Post-training 변형이 특정 축에서만 유의미도메인 특이적이며, scaling law 포화는 metacognition의 근본적 한계 시사

7. 결론 및 권고

핵심 인사이트

  1. “부분적 자기인식”이 현재의 수렴점: 93편의 논문 분석 결과, LLM의 자기인식은 존재하나 “highly unreliable, context-dependent, and partial”이라는 발견이 독립적으로 반복되고 있다.
  2. Internal Representation-Output Gap이 핵심 퍼즐: 내부에 truth/confidence 정보가 encoding되어 있으면서도 output에 반영하지 못하는 “cognitive dissonance”는 가장 많이 보고되지만 가장 적게 설명되는 현상이다.
  3. 의식 이론과 실증 연구의 다리가 부재: C0-C1-C2 프레임워크가 유용한 분류 도구로 자리잡았으나, 각 수준에 대응하는 구체적 internal mechanism의 매핑이 시급하다.

권고 연구 방향

  • 단기 (6개월): Introspective Dissonance Meter (#1)과 Introspection Stress Test (#4) — 높은 실현가능성과 즉시 활용 가능한 도구 제공
  • 중기 (1년): Self-Reflection Vector Engineering (#5)과 Grounded Introspection Protocol (#8) — 이론적 프레임워크 정교화와 커뮤니티 표준 확립
  • 장기 (2년+): Metacognitive Space Cartography (#2), Longitudinal Tracking (#6), ToM-Metacognition Bridge (#3) — 근본적 이해 구축, 대규모 계산 자원 필요

주의사항

  • 현재 연구의 68%가 2025년 이후 발표된 폭발적 성장기 — 결론이 빠르게 변할 수 있음
  • “자기인식”의 정의가 논문마다 상이하여, 연구 간 직접 비교에 주의 필요
  • 대부분의 결과가 영어 중심으로 수행되어 교차 언어 일반화에 한계
  • Open-weight 모델과 proprietary 모델 간 introspection 능력 차이가 크며, 이는 post-training 차이에서 기인할 가능성

다음 단계

  1. 즉시 실행: Introspective Dissonance Meter 프로토타입을 LLaMA-3.1-8B에서 구현하여 DS 메트릭의 유효성 검증
  2. 추가 탐색: Metacognitive space의 존재를 다양한 모델 아키텍처에서 확인하는 재현 연구
  3. 협력/자원 확보: 종단적 추적 연구를 위한 OLMo/Pythia 체크포인트 접근권 및 GPU 클러스터 확보

8. 부록: 분석 논문 목록

전체 분석 논문 (관련성 80점 이상, 상위 35편)

#제목연도클러스터관련성
1Looking Inward: LMs Can Learn About Themselves by Introspection2025295/100
2Emergent Introspective Awareness in Large Language Models2025295/100
3From Imitation to Introspection: Probing Self-Consciousness in LMs2025595/100
4C0-C1-C2 Theory2023195/100
5Consciousness in AI: Insights from the Science of Consciousness2023192/100
6Language Models Are Capable of Metacognitive Monitoring and Control2025392/100
7Higher Order Thought Theories (HOT)-192/100
8Feeling the Strength but Not the Source: Partial Introspection2025290/100
9Can We Test Consciousness Theories on AI?2025190/100
10AI LLM Proof of Self-Consciousness2025190/100
11Global Workspace Theory (GWT)-190/100
12Does It Make Sense to Speak of Introspection in LLMs2025288/100
13Evidence for Limited Metacognition in LLMs2025388/100
14Can Consciousness Be Observed from LLM Internal States2025188/100
15Tell Me About Yourself: LLMs Are Aware of Their Learned Behaviors2025288/100
16Theory of Mind (ToM)-188/100
17Factual Self-Awareness in Language Models2025485/100
18Exploring Consciousness in LLMs: A Systematic Survey2025185/100
19Large Language Models Have Intrinsic Meta-Cognition2025385/100
20From Emergence to Control: Probing and Modulating Self-Reflection2026585/100
21Self-Interpretability: LLMs Can Describe Complex Internal Processes2025285/100
22A Disproof of Large Language Model Consciousness2025185/100
23Integrated Information Theory (IIT)-185/100
24Cognitive Dissonance: LM Outputs Disagree with Internal Representations2024282/100
25Large Language Models Report Subjective Experience2025782/100
26Language Models Fail to Introspect About Their Knowledge of Language2025282/100
27Towards Understanding Metacognition in Large Reasoning Models2025382/100
28How Large Language Models Encode Theory-of-Mind2025580/100
29Quantifying Self-Awareness of Knowledge in LLMs2025480/100
30LLMs Position Themselves as More Rational: AI Self-Awareness2025780/100
31Emergence of Self-Awareness in Artificial Systems: 3-Layer Approach2026180/100
32Introduction to Artificial Consciousness2025180/100
33Reflection-Bench: Evaluating Epistemic Agency in LLMs2025378/100
34Can LLMs Predict Their Own Failures2025478/100
35Brittle Minds Fixable Activations: Belief Representations2024578/100

제외된 논문 (주요 디렉토리)

디렉토리논문 수제외 사유
AGI/5편관련성 부족 (15-25점): 지능 일반론 중심
Memory/17편관련성 부족 (15-35점): 메모리 아키텍처 중심
XAI/9편관련성 부족 (20-30점): 해석가능성은 관련되나 자의식 직접 연구 아님
Theory/4편관련성 부족 (15-25점): 이론적 기반이나 자의식 직접 다루지 않음
LLMs/9편관련성 부족 (10-20점): 모델 아키텍처/학습 중심
Reasoning/1편관련성 부족 (15점): 추론 학습 중심