Introduction


  • 최신 LLM도 자신의 competence를 20% 이상 오판
  • External supervision 없이 self-knowledge를 향상시키는 KnowRL 프레임워크 제안
  • Introspection + consensus-based rewarding 두 단계로 구성

Related Papers


  • Self-improvement RL (RLHF, self-play 등)
  • Knowledge boundary 연구

Methods


  • Introspection: 모델이 feasible/infeasible task를 스스로 생성하고 분류
  • Consensus-based rewarding: internal agreement를 통해 self-knowledge 일관성 강화
  • Internally generated data만 사용, external supervision 불필요

Results


  • LLaMA-3.1-8B, Qwen-2.5-7B에서 실험
  • Accuracy 최대 28%, F1 최대 12% 향상
  • 소수의 seed set으로 몇 iteration 만에 효과 달성

Discussion


  • LLM의 self-improve 능력을 self-knowledge 영역에 적용한 실용적 연구
  • External effort 없이도 knowledge awareness 향상 가능