Explicit Abstention Knobs for Predictable Reliability in Video Question Answering

Digest (CISELQ)

Context (C): 고위험(high-stakes) 환경에서 Vision-Language Model(VLM)을 배포할 때, 모델이 “모른다”고 답할 수 있는 능력(abstention, 선택적 예측)은 오답으로 인한 피해를 줄이는 핵심 메커니즘이다. 특히 Video QA는 시간축의 증거가 부분적으로 주어지거나 왜곡될 수 있어 신뢰성 제어가 필수적이다.
Issue (I): 단순한 confidence threshold가 실제로 오류율을 “예측 가능하게(predictably)” 통제해 주는가? 그리고 이러한 통제력이 분포 이동(distribution shift) 아래에서도 유지되는가? 두 질문은 경험적으로 분리되어 검증된 적이 드물다.
Solution (S): 저자들은 Gemini 2.0 Flash를 NExT-QA에 적용하여, confidence를 조정 가능한 abstention knob로 취급하고 risk-coverage curve와 selective accuracy를 체계적으로 측정한다. 또한 evidence truncation(비디오 앞/뒤 일부만 남기기)을 유도된 분포 이동으로 도입해 제어 안정성을 진단한다.
Evaluation (E): NExT-QA multiple-choice split에서 coverage를 100%부터 단조 감소시키며 accuracy와 risk를 측정하고, 절단 길이별(full/50%/25%) risk-coverage curve를 비교한다. selective risk, coverage at target accuracy, 그리고 threshold-to-risk 단조성 여부가 핵심 지표다.
Limitations (L): 단일 모델(Gemini 2.0 Flash)과 단일 데이터셋(NExT-QA)에 국한되며, abstention signal도 모델이 노출하는 self-report 기반이라 post-hoc calibrator나 ensemble 기반 uncertainty와의 비교는 제한적이다.
Question (Q): “예측 가능한 신뢰성(predictable reliability)“이라는 배포 요건을 충족하려면, confidence-only knob만으로 충분한가, 아니면 evidence-aware abstention으로 보강해야 하는가?

섹션별 요약

Introduction

Video QA에 VLM을 쓰려는 산업 수요는 커지지만, 오답이 치명적인 도메인(의료, 사고분석, 법적 증거 해석 등)에서는 “차라리 답을 안 하는” 옵션이 필요하다. 저자들은 abstention을 별도의 아키텍처 변화 없이도 confidence threshold라는 노브로 구현할 수 있다는 실용적 관점에서 출발하되, 이 노브가 “정말로 돌리는 대로 risk가 줄어드는가”를 엄격히 검증하겠다고 선언한다.

Methods

모델: Gemini 2.0 Flash (closed-source VLM, zero-shot prompting).
데이터: NExT-QA (temporal/causal reasoning 중심 Video QA 벤치마크).
신뢰도 점수: 모델이 답안과 함께 self-reported confidence를 생성하거나 verbalized probability를 뽑도록 prompt 설계.
Abstention knob: threshold τ 아래의 confidence를 가진 질문은 모두 “abstain” 처리.
분포 이동 유도: evidence truncation — 동일 질문에 대해 비디오의 시작/끝 구간만 남겨 VLM에 투입, 원본 대비 risk-coverage 변화를 측정.

Results

핵심 주장은 두 가지로 요약된다.

In-distribution에서는 knob이 작동한다. τ를 올리면 coverage가 떨어지지만 selective accuracy는 단조 상승하며, risk-coverage curve가 매끄럽다.
분포 이동 하에서는 knob이 무뎌진다. truncated 조건에서는 high-confidence 오답이 증가하여 동일 τ에서도 risk가 현저히 상승, 즉 “같은 노브 위치 = 같은 risk”라는 약속이 깨진다.

조건	Coverage	Selective Accuracy	Risk	Knob 선형성
Full video (ID)	100% → 감소	상승 (monotonic)	낮음	매끄러움
50% truncation	비슷	완만 상승	증가	느슨함
25% truncation	비슷	거의 평탄	크게 증가	붕괴

Discussion

저자들은 confidence-based abstention이 “calibrated under-specification”의 문제에 노출된다고 본다. 즉, 증거가 잘린 상황에서도 모델은 자신감을 유지하는데, 이는 VLM이 언어적 priors로 답을 “그럴듯하게” 채우기 때문이다. 따라서 abstention knob을 배포 계약(SLA)처럼 쓰려면, evidence sufficiency를 감지하는 보조 신호가 필요하다.

Insights

Confidence는 “모델이 무엇을 모르는지”보다 “모델이 언어적으로 얼마나 매끄럽게 답하는지”를 더 잘 반영한다.
따라서 abstention은 내재(internal) 확률뿐 아니라 외재(external) 증거 점검과 결합되어야 한다.

Discussion Points

Verbalized confidence vs. token-level probability: 어느 쪽이 knob으로 더 안정적인가?
Truncation은 분포 이동의 한 양상일 뿐 — occlusion/blurring/temporal jitter 등 다른 축은 어떻게 반응하는가?
Application-specific risk budget을 도입해 τ를 자동 선택하는 절차는 가능한가?

메타데이터

항목	값
Paper	Explicit Abstention Knobs for Predictable Reliability in Video Question Answering
Venue	arXiv preprint (2026)
Model	Gemini 2.0 Flash
Dataset	NExT-QA
Task	Video Multiple-choice QA
Shift Type	Evidence truncation
Primary Metric	Selective accuracy / risk-coverage curve

왜 이 연구를 하는가?

현실 배포에서 VLM의 abstention은 제품 품질의 최후 방어선이다. 그러나 “신뢰도가 0.9 이상이면 답하라”라는 규칙이 실제로 “오답률 10% 이하”를 보장하지 않는다면, 이 방어선은 심리적 위안에 불과하다. 본 연구는 이러한 실무적 통념을 Video QA에서 실증적으로 분해하여, 어디까지 믿을 수 있고 어디서부터는 증거 기반 보조가 필요한지를 구분한다.

방법 (Method)

flowchart TD
    A[Video + Question] --> B[Gemini 2.0 Flash]
    B --> C[Answer + Self-reported Confidence]
    C --> D{Confidence >= tau?}
    D -- Yes --> E[Emit Answer]
    D -- No --> F[Abstain]
    A -.evidence truncation.-> A2[Truncated Video]
    A2 --> B
    E --> G[Selective Accuracy / Risk]
    F --> H[Coverage 감소]
    G --> I[Risk-Coverage Curve]
    H --> I

핵심은 “knob = threshold τ”를 단일 하이퍼파라미터로 두고, (1) ID 조건과 (2) truncated 조건 사이에서 curve 모양의 차이를 관찰하는 것이다.

발견

#	발견	의미
1	ID에서 risk-coverage curve는 매끄럽고 단조적이다	confidence-only knob이 “작게는” 동작한다
2	truncation 심화 시 high-conf 오답이 늘어난다	모델이 증거 부족을 신뢰도에 반영하지 못한다
3	동일 τ가 조건별로 다른 risk를 낸다	SLA-스타일 배포에는 단일 threshold로 불충분
4	Verbalized confidence는 언어 priors에 민감하다	evidence-aware 보조 신호의 필요성

이론적 의의

본 연구는 selective prediction 문헌이 전제해 온 “confidence → risk의 calibrated 매핑”이 멀티모달·시계열 입력에서 취약하다는 점을 실증한다. 이는 abstention을 “uncertainty quantification”이 아니라 “evidence sufficiency quantification”의 문제로 재프레이밍할 근거가 된다. 또한 Video QA 고유의 구조(시간축 정보 손실)가 calibration failure의 구체적 메커니즘으로 드러난다는 점에서, 일반적 OOD 연구와 다른 축을 제공한다.

재현성 및 신뢰도 평가

항목	평가	근거
Evidence Quality	B	단일 모델·단일 데이터셋이지만 risk-coverage curve와 truncation ablation이 명확
Reproducibility	B	NExT-QA는 공개지만 Gemini 2.0 Flash는 closed API — prompt/seed 통제가 필수
Statistical Rigor	B-	분산/신뢰구간 보고가 제한적
External Validity	C+	Video QA 전반으로의 일반화 여부 미검증

원자적 인사이트

Knob은 감각이지 보증이 아니다. Confidence threshold는 ID에서는 직관적인 다이얼처럼 동작하지만, 분포 이동 하에서는 “같은 위치 = 같은 risk”를 보장하지 않는다. 배포 SLA를 threshold로 쓰려면 환경별 재보정이 필수다.
VLM의 자신감은 증거가 아니라 서사에서 온다. 비디오를 75% 잘라도 Gemini는 여전히 “확신에 찬” 답을 만든다. 이는 언어적 prior가 시각적 증거 부족을 가리는 전형적 실패 모드이며, evidence-sufficiency signal(예: 시간 coverage, retrieval 기반 grounding)이 abstention과 결합되어야 함을 시사한다.
Abstention 설계는 “모름”을 탐지하는 게 아니라 “증거”를 감시하는 문제로 재정의될 수 있다. 이는 self-consciousness / metacognition 관점에서도 “내 지식의 경계”를 아는 것보다 “내 입력의 경계”를 아는 것이 더 선행한다는 함의를 준다.

핵심 용어 정리

Abstention / Selective Prediction: 모델이 확신 없는 경우 답변을 거부하여 coverage를 낮추는 대신 selective accuracy를 올리는 기법.
Risk-Coverage Curve: 답한 비율(coverage) 대비 오답률(risk)을 그린 곡선. 이상적으로는 단조 감소.
Confidence Threshold (τ): abstain 여부를 결정하는 하이퍼파라미터. 본 논문의 “knob”.
Evidence Truncation: 입력 비디오의 시간 구간을 인위적으로 잘라 증거를 축소하는 분포 이동 실험.
Predictable Reliability: 배포 환경 변화에도 동일 threshold가 동일 수준의 risk를 유지한다는 성질.
Verbalized Confidence: 모델이 자연어로 자기 확신도를 보고하는 방식. token-level probability와 구분.

Juhyeon's Blog

탐색기

Explicit Abstention Knobs for Predictable Reliability in Video Question Answering

Explicit Abstention Knobs for Predictable Reliability in Video Question Answering

Digest (CISELQ)

섹션별 요약

Introduction

Methods

Results

Discussion

Insights

Discussion Points

메타데이터

왜 이 연구를 하는가?

방법 (Method)

발견

이론적 의의

재현성 및 신뢰도 평가

관련 연구

원자적 인사이트

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크