Introduction
- LLM이 자신이 모르는 것을 자연어로 표현할 수 있는지 탐구
- AI assistant의 unknown question 거부가 hallucination 감소의 핵심 방법
- Model-specific “I don’t know” (Idk) 데이터셋 구축
- Hallucination mitigation
- Honesty alignment
Methods
- 기존 open-domain QA 데이터셋 기반으로 모델별 known/unknown question 분류
- Idk 데이터셋으로 alignment 학습
- Alignment 후 unknown question 거부 능력 평가
Results
- Alignment 후 대부분의 unknown question 거부 가능
- 답변을 시도하는 질문의 accuracy가 alignment 전보다 유의미하게 향상
- Self-knowledge와 honesty의 연결 가능성 제시
Discussion
- Model-specific self-knowledge 활용의 실용적 접근법
- Known/unknown 경계의 정확한 정의와 측정이 여전히 과제