Introduction


  • Vision-language model에서 confidence threshold 기반 selective prediction
  • 불확실할 때 abstain하여 error rate 제어

Related Papers


  • Selective prediction
  • VLM calibration

Methods


  • NExT-QA + Gemini 2.0 Flash에서 실험
  • Confidence threshold sweeping으로 risk-coverage tradeoff 분석

Results


  • In-distribution에서 confidence thresholding이 mechanistic control 제공
  • Smooth risk-coverage tradeoff 달성

Discussion


  • Multimodal 환경에서의 self-knowledge 활용
  • Abstention을 reliability mechanism으로 활용