Introduction


  • LLM의 honesty alignment: 아는 것은 정확히, 모르는 것은 모른다고 답하도록
  • Annotation-efficient 접근법 제안

Related Papers


  • RLHF
  • Truthfulness alignment

Methods


  • 최소한의 annotation으로 honesty alignment 달성
  • Universal한 honesty 기준 적용

Results


  • 효율적으로 honesty alignment 달성
  • Self-knowledge 관련 metric 개선

Discussion


  • Self-knowledge를 alignment 목표로 설정하는 접근
  • Honesty와 self-awareness의 연결