Introduction
- LLM이 자신의 지식 경계를 정확히 인식하지 못해 확신에 찬 오답을 생성하는 문제
- 내부 상태를 활용하여 지식 경계 인식을 향상시키는 방법 연구
- 응답 생성 전(pre-generation)에도 confidence 추정이 가능한지 탐구
- LLM calibration 연구
- Hallucination detection/mitigation 연구
- Internal representation probing 연구
Methods
- LLM 내부 상태에서 confidence 신호 추출
- Confidence Consistency-based Calibration (C³): question reformulation을 활용한 지식 경계 인식 향상
- Pre-generation vs post-generation perception 비교 분석
Results
- LLM이 응답 생성 전에도 유의미한 pre-generation perception 능력 보유
- Post-generation에서 추가 정제(refinement) 발생
- Perception gap은 다양한 조건에서 안정적
- C³ 기법으로 unknown 인정률 약 5-6% 향상, 연산 효율성 유지
Discussion
- LLM 내부에 자기 지식 한계에 대한 신호가 존재
- High-stakes 응용에서 출력 위험 감소에 활용 가능
- Pre-generation confidence가 연산 비용 절감에 기여
- 향후 다양한 도메인에서의 검증 필요