Introduction
- LLM의 honesty alignment: 아는 것은 정확히, 모르는 것은 모른다고 답하도록
- Annotation-efficient 접근법 제안
Related Papers
- RLHF
- Truthfulness alignment
Methods
- 최소한의 annotation으로 honesty alignment 달성
- Universal한 honesty 기준 적용
Results
- 효율적으로 honesty alignment 달성
- Self-knowledge 관련 metric 개선
Discussion
- Self-knowledge를 alignment 목표로 설정하는 접근
- Honesty와 self-awareness의 연결