Introduction


  • LLM이 자신의 추론 과정에서 실수를 인식하는 메타인지(meta-cognition) 능력을 가지는지 연구
  • 기존 self-evaluation 연구가 답의 정오 예측에만 집중하고 순차적 의존성을 무시했다는 한계 지적
  • Self-evaluation 측정 방식을 메타인지의 “렌즈(lens)“로 재정의

Related Papers


  • LLM self-evaluation 및 self-correction 연구
  • Chain-of-thought reasoning 관련 연구
  • 수학적 추론에서의 오류 탐지 연구

Methods


  • AutoMeco: LLM 메타인지 능력 평가를 위한 자동화 프레임워크
  • MIRA: 모델의 자기 평가 능력을 향상시키는 측정 기법
  • 수학적 추론 과제에서 단계별(step-by-step) 오류 인식 능력 평가
  • 다양한 LLM에 걸친 비교 실험

Results


  • LLM이 내재적(intrinsic) 메타인지 능력을 보유하고 있으나, 적절한 측정 방법(“좋은 렌즈”)이 필요
  • MIRA 기법이 기존 방법 대비 더 정확한 메타인지 측정 제공
  • 수학적 추론 과제에서 단계별 오류 인식이 가능하나 일관성에 한계
  • 모델별로 메타인지 능력 수준에 차이 존재

Discussion


  • 측정 방법론 자체가 메타인지 연구의 핵심 과제임을 강조
  • 적절한 “렌즈” 없이는 내재적 능력이 과소평가될 수 있음
  • 향후 다양한 추론 도메인으로의 확장 필요
  • Hallucination 감소 등 실용적 응용 가능성