Introduction
- 최신 LLM도 자신의 competence를 20% 이상 오판
- External supervision 없이 self-knowledge를 향상시키는 KnowRL 프레임워크 제안
- Introspection + consensus-based rewarding 두 단계로 구성
- Self-improvement RL (RLHF, self-play 등)
- Knowledge boundary 연구
Methods
- Introspection: 모델이 feasible/infeasible task를 스스로 생성하고 분류
- Consensus-based rewarding: internal agreement를 통해 self-knowledge 일관성 강화
- Internally generated data만 사용, external supervision 불필요
Results
- LLaMA-3.1-8B, Qwen-2.5-7B에서 실험
- Accuracy 최대 28%, F1 최대 12% 향상
- 소수의 seed set으로 몇 iteration 만에 효과 달성
Discussion
- LLM의 self-improve 능력을 self-knowledge 영역에 적용한 실용적 연구
- External effort 없이도 knowledge awareness 향상 가능