Introduction


  • Large Vision-Language Model (LVLM)의 knowledge boundary 인식 능력 조사
  • 3가지 confidence signal 평가: probabilistic, answer consistency-based, verbalized
  • LVLM과 LLM counterpart 비교

Related Papers


  • LLM confidence calibration
  • VQA hallucination

Methods


  • 3개 LVLM, 3개 VQA 데이터셋에서 실험
  • Probabilistic confidence, consistency-based confidence, verbalized confidence 비교
  • LLM으로부터 adapted한 calibration 방법 + 3개의 새로운 방법 제안

Results


  • LVLM이 reasonable perception level을 보이지만 개선 여지가 큼
  • Probabilistic, consistency-based signal이 더 reliable
  • Verbalized confidence는 overconfidence 경향
  • Visual+textual input 처리가 QA 성능은 낮추지만 confidence도 낮춰 perception level 개선

Discussion


  • Multimodal 맥락에서의 self-knowledge 평가로 확장
  • LLM vs LVLM의 self-awareness 차이 비교