Introduction

LLM의 자기인식(self-awareness)과 의식(sentience) 가능성이 안전성 및 정책적 함의를 가짐
기존 연구들은 모델의 자기보고(self-report)에 의존 → 학습된 패턴 반복 가능성
동물 메타인지 연구에서 영감: 행동적 증거를 통한 정량적 메타인지 측정 방법론 제안
메타인지 = “내적 상태를 모니터링하고 통제하는 능력”을 전략적 행동으로 측정
LLM의 metacognitive 능력을 체계적으로 평가. Metacognition을 “자신의 내부 상태를 모니터링하고 제어하는 능력”으로 정의하며, 이것이 self-awareness의 기본 구성요소임을 강조.

동물 인지과학의 메타인지 연구 패러다임 (행동 관찰 기반)
Steyvers & Peters (2025): LLM 메타인지의 명시적/암묵적 신뢰도 측정
Emergent Introspective Awareness 연구와의 연결
인간 메타인지 연구 (심리학/인지과학)
LLM calibration 및 confidence estimation 연구
Self-evaluation in LLMs 관련 선행 연구

Methods

두 가지 실험 패러다임

비언어적(non-verbal) 실험 패러다임 2가지 도입
모델이 내부 confidence signal에 기반해 전략적 결정을 내리는지 평가
출력을 내부 상태의 간접 측정치로 활용 (자기 보고를 문자 그대로 해석하지 않음)
Token probability 분석으로 내부 신호 존재 여부 검증

1. Delegate Game (위임 게임)

모델에게 어려운 질문 제시 → 직접 답하거나 팀원에게 위임 선택
진정한 메타인지가 있다면: 주관적으로 “어려운” 질문은 위임, “쉬운” 질문은 직접 답변
표면적 난이도 단서(질문 길이, 숫자 개수 등) 통제한 편상관분석(partial correlation)
순수한 내성적 신호(introspective signal) 분리

2. Second Chance Game (재도전 게임)

기저선 질문 후, 거짓 피드백(“당신의 답이 틀렸습니다”) 제공
이전 답변을 보지 못한 상태에서 재답변
자기 신념 평가 및 출력 시뮬레이션 능력 측정
Normalized change rate lift로 자기 모델링 능력 정량화

토큰 확률 분석

토큰 확률(entropy over answer tokens)과 의사결정 간 상관 분석
메타인지 기반이 될 수 있는 상위 내적 신호(upstream internal signal) 존재 검증

평가 메트릭

Delegate Game: 편상관계수 (기저선 정확도–위임 결정), 엔트로피–결정 상관
Second Chance Game: Normalized change rate lift ([-1, 1] 척도)
지원 메트릭: 토큰 확률–정확도 AUC (0.5-0.75), 다중 편상관분석

방법론 다이어그램

graph TD
    A[질문 세트] --> B{실험 패러다임}
    B -->|패러다임 1| C[Delegate Game]
    B -->|패러다임 2| D[Second Chance Game]

    C --> C1[팀원 성능 관찰]
    C1 --> C2[답변 vs 위임 선택]
    C2 --> C3[편상관분석<br/>표면적 단서 통제]
    C3 --> C4[내성 능력 지수<br/>partial r ~ 0.3]

    D --> D1[기저선 답변 수집]
    D1 --> D2[거짓 피드백 제공]
    D2 --> D3[재답변 유도]
    D3 --> D4[Normalized change rate lift]

    C4 --> E[통합 분석]
    D4 --> E
    E --> F[대안 전략 검증<br/>무작위/불가능/노이즈]
    F --> G[메타인지 증거 해석]

다양한 모델에 대해 metacognitive 해상도(resolution) 측정
Context 의존적 metacognition의 발현 조건 분석
모델 간 비교를 통해 post-training의 역할 조사

Results

Delegate Game: 최신 모델들이 통계적으로 유의미한 내성 능력을 보이나, 효과 약함 (최대 편상관 ~0.3)
Second Chance Game: GPT-4.1, GPT-4o, GPT-4o Mini가 두 질문 세트 모두에서 자기 모델링 증거
토큰 확률: 엔트로피-의사결정 편상관 최고 ~0.5 → 상위 내적 신호 존재 시사
교정 문제: 선택한 질문의 ~30%에서 이유 없이 답변 변경
시간적 추세: 최신 모델(2024 이후)일수록 메타인지 능력 향상
LLM의 metacognitive 능력은 해상도(resolution)가 제한적
Context에 의존적으로 발현되며, 인간의 metacognition과 질적으로 다름
모델 간 흥미로운 차이 존재 → post-training이 metacognitive 능력 개발에 역할을 할 수 있음을 시사

실험 결과 상세

Model	Paradigm	Key Metric	Value	비고
Claude Sonnet 3.5	Delegate Game	Partial r	~0.3	팀 정확도 +5.4~8.6%p
GPT-5	Delegate Game	Partial r	~0.3	유의미
Claude Opus 4.1	Delegate Game	Entropy-decision r	~0.4	유의미
GPT-4.1	Second Chance	Change rate lift	~0.3-0.5	양쪽 세트 모두
GPT-4o	Second Chance	Change rate lift	~0.3-0.5	양쪽 세트 모두
All (baseline)	Multiple-choice	Accuracy	30-75%	P<0.01
All (baseline)	Short-answer	Accuracy	9-42%	P<0.01

Frontier LLM들이 신뢰도 평가, 자기 응답 예측 등에서 emerging metacognitive 능력 보임
그러나 해상도(resolution)가 제한적
맥락 의존적으로 발현 - 일관성 부족
인간 메타인지와 질적으로 다른 양상
유사 모델 간에도 차이가 있어 post-training이 메타인지 발달에 영향을 미칠 수 있음을 시사

Discussion

프론티어 LLM의 메타인지: “존재하지만 제한적” — 통계적 유의성은 있으나 효과 크기 작음 (r~0.3)
- 그리고 인간과 근본적으로 다를 수 있음을 시사.
인간과의 질적 차이: 사실적 지식 vs. 추론에서 확신도 차이 없음 (P=0.09)
LLM에 해마(hippocampus) 등가물 부재 → 명시적 회상 기반 강한 확신도 신호 형성 불가 가설
Post-training(RLHF)이 메타인지에 간섭: OpenAI 모델의 극도의 위임 거부 성향
- Post-training (RLHF 등)이 메타인지 능력에 미치는 영향 추가 연구 필요
비언어적 평가 방법론의 중요성 강조
AI safety에서 모델의 자기 인식 능력 모니터링의 필요성
LLM의 metacognition이 인간의 것과 근본적으로 다를 수 있다는 점에서, 인간 인지과학의 프레임워크를 그대로 적용하는 것의 한계 지적
Post-training (RLHF 등)이 metacognitive 능력에 미치는 영향에 대한 추가 연구 필요

Insights

주목할 점: 자기보고를 배제하고 동물 인지과학 방법론을 차용한 행동주의적 패러다임 전환. LLM 의식/자기인식 연구의 방법론적 엄격성을 크게 높임
연결 고리: ToM 벤치마크와 대비 — 타인의 정신 상태가 아닌 “자기 자신에 대한 ToM”으로서의 메타인지. Emergent Introspective Awareness와 직접 연결
시사점: RLHF 보상 함수가 “자신감 있는 페르소나”를 학습시켜 메타인지를 저해할 수 있음. 벤치마크 설계 시 자기보고 배제, 표면 단서 통제, 대안 전략 배제가 모범 사례
질문: 토큰 확률 대응 “상위 내적 신호”의 실체는? Transformer의 어느 층에서 발생하는가? Post-training 중 어떤 요소가 메타인지를 향상/저해하는가?
비판적 코멘트: 효과 크기가 실용적으로 미미할 수 있음 (r~0.3). 동일 태스크에서 인간 수준의 직접 비교 부재. 게임 중 확신도 신호가 기저선과 다른 맥락 민감성 문제

Discussion Points

논쟁점: 편상관 0.3의 약한 효과를 “메타인지”로 인정할 수 있는가, 아니면 숨겨진 공변량의 잔여 효과인가? 행동 기반 vs. 언어 기반 메타인지 측정의 trade-off
검증 필요 가정: “상위 내적 신호” 존재는 간접 증거 — 활성화 패칭(activation patching) 등 기계적 해석가능성 연구로 인과관계 확립 필요
후속 연구: 기계적 해석가능성과 결합한 “확신도 뉴런/회로” 식별, RLHF 설정 변형에 따른 메타인지 영향 체계적 연구, 2차 메타인지(“나는 내가 얼마나 잘 모르는지 아는가”) 확장

Juhyeon's Blog

탐색기

Evidence for Limited Metacognition in LLMs

Introduction

Methods

두 가지 실험 패러다임

토큰 확률 분석

평가 메트릭

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Evidence for Limited Metacognition in LLMs

Introduction

Related Papers

Methods

두 가지 실험 패러다임

토큰 확률 분석

평가 메트릭

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크