Introduction
- Large Vision-Language Model (LVLM)의 knowledge boundary 인식 능력 조사
- 3가지 confidence signal 평가: probabilistic, answer consistency-based, verbalized
- LVLM과 LLM counterpart 비교
- LLM confidence calibration
- VQA hallucination
Methods
- 3개 LVLM, 3개 VQA 데이터셋에서 실험
- Probabilistic confidence, consistency-based confidence, verbalized confidence 비교
- LLM으로부터 adapted한 calibration 방법 + 3개의 새로운 방법 제안
Results
- LVLM이 reasonable perception level을 보이지만 개선 여지가 큼
- Probabilistic, consistency-based signal이 더 reliable
- Verbalized confidence는 overconfidence 경향
- Visual+textual input 처리가 QA 성능은 낮추지만 confidence도 낮춰 perception level 개선
Discussion
- Multimodal 맥락에서의 self-knowledge 평가로 확장
- LLM vs LVLM의 self-awareness 차이 비교