Introduction
- LLM이 자기 보고(self-report) 없이도 메타인지 능력을 보이는지 연구
- 기존 연구가 모델의 자기 보고에 의존했던 한계를 지적
- 내부 신호를 전략적으로 활용할 수 있는지를 간접적으로 측정하는 방법론 제안
- 인간 메타인지 연구 (심리학/인지과학)
- LLM calibration 및 confidence estimation 연구
- Self-evaluation in LLMs 관련 선행 연구
Methods
- 비언어적(non-verbal) 실험 패러다임 2가지 도입
- 모델이 내부 confidence signal에 기반해 전략적 결정을 내리는지 평가
- 출력을 내부 상태의 간접 측정치로 활용 (자기 보고를 문자 그대로 해석하지 않음)
- Token probability 분석으로 내부 신호 존재 여부 검증
Results
- Frontier LLM들이 신뢰도 평가, 자기 응답 예측 등에서 emerging metacognitive 능력 보임
- 그러나 해상도(resolution)가 제한적
- 맥락 의존적으로 발현 - 일관성 부족
- 인간 메타인지와 질적으로 다른 양상
- 유사 모델 간에도 차이가 있어 post-training이 메타인지 발달에 영향을 미칠 수 있음을 시사
Discussion
- LLM 메타인지는 존재하지만 인간의 것과 근본적으로 다를 수 있음
- Post-training (RLHF 등)이 메타인지 능력에 미치는 영향 추가 연구 필요
- 비언어적 평가 방법론의 중요성 강조
- AI safety에서 모델의 자기 인식 능력 모니터링의 필요성