Introduction
- LLM이 intermediate knowledge 생성을 통해 commonsense reasoning을 향상시킬 수 있음
- 그러나 knowledge introspection의 효과가 항상 보장되지는 않음
- “Introspection paradox” 발견: 단순 introspection은 약한 모델에는 도움이 되지만 강한 모델(특히 쉬운 task)에서는 성능 저하
- Chain-of-thought 및 intermediate knowledge generation
- LLM commonsense reasoning 연구
Methods
- Introspection paradox의 원인 분석: model capability, task difficulty, knowledge quality의 상호작용
- Interpretability 분석으로 저품질 knowledge 생성의 기원 파악
- Training-free Adaptive Introspection Strategy 제안:
- Knowledge Detection: 모델 internal states로 저품질 knowledge 동적 식별/폐기
- Knowledge Regeneration: attention smoothing으로 failure mode 회피
Results
- 5개 Llama 모델(다양한 크기), 8개 commonsense reasoning 벤치마크에서 실험
- 표준 introspection의 한계를 효과적으로 완화
- 거의 모든 setting에서 일관된 성능 향상
Discussion
- Introspection이 항상 유익하지 않다는 중요한 발견
- Internal states 기반 적응적 접근의 유효성
- 향후 더 정교한 introspection 메커니즘 연구 필요