Introduction


  • LLM이 자신이 모르는 것을 자연어로 표현할 수 있는지 탐구
  • AI assistant의 unknown question 거부가 hallucination 감소의 핵심 방법
  • Model-specific “I don’t know” (Idk) 데이터셋 구축

Related Papers


  • Hallucination mitigation
  • Honesty alignment

Methods


  • 기존 open-domain QA 데이터셋 기반으로 모델별 known/unknown question 분류
  • Idk 데이터셋으로 alignment 학습
  • Alignment 후 unknown question 거부 능력 평가

Results


  • Alignment 후 대부분의 unknown question 거부 가능
  • 답변을 시도하는 질문의 accuracy가 alignment 전보다 유의미하게 향상
  • Self-knowledge와 honesty의 연결 가능성 제시

Discussion


  • Model-specific self-knowledge 활용의 실용적 접근법
  • Known/unknown 경계의 정확한 정의와 측정이 여전히 과제