Know Your Limits: A Survey of Abstention in Large Language Models

Digest (CISELQ)

Context: 대형 언어 모델(LLM)은 환각(hallucination), 안전성 문제, 지식 한계 등으로 인해 “모른다”고 답하거나 응답을 거부하는 능력, 즉 abstention이 필수적이다. 그러나 기존 연구들은 불확실성 추정, 안전성 필터링, 지식 경계 탐지 등 분산된 서브필드에 흩어져 있었다.
Idea: 저자들은 abstention 문제를 query(질의 특성) · model(모델 능력) · human values(인간 가치 정렬) 세 관점으로 통합 조망하는 프레임워크를 제안한다.
Setup: 2020년 이후 LLM abstention 관련 논문들을 체계적으로 수집·분류하여, (1) 방법론(methods), (2) 벤치마크/평가 지표(benchmarks), (3) 응용 도메인 측면에서 taxonomy를 구성한다.
Experiments / Evidence: 서베이 특성상 새로운 실험 대신, 기존 연구들의 결과를 종합하여 abstention 성능, calibration, 안전성 trade-off를 비교·논의한다.
Learnings: Abstention은 단일 태스크가 아니라 query의 애매성, 모델의 지식·확신도, 사회적·윤리적 가치가 교차하는 지점에서 결정되어야 하며, 현 벤치마크는 세 축을 모두 포괄하지 못한다.
Questions: Abstention 능력이 태스크·도메인을 가로질러 일반화 가능한 meta-capability인가? 서로 다른 관점(query/model/values)에서의 abstention이 충돌할 때 어떻게 조정해야 하는가?

섹션별 요약

Introduction

LLM의 환각 및 안전 리스크를 줄이기 위해 “응답 거부(abstention)“가 중요한 안전 장치로 부상했으며, 본 서베이는 흩어진 연구들을 하나의 분석 렌즈로 묶는 것이 목표다.

Methods (서베이 구조)

문헌을 세 관점으로 분류한다. Query 관점은 ambiguous·unanswerable·underspecified 질문 식별; Model 관점은 confidence calibration, knowledge boundary probing, self-consistency; Human values 관점은 안전성·윤리·사회적 규범에 따른 거부. 각 관점 내에서 pretraining·alignment·inference-time 단계별 방법을 정리한다.

Results (대표 범주 요약 표)

관점	대표 방법	대표 벤치마크
Query	ambiguity detection, unanswerable QA	SQuAD 2.0, AmbigQA, (Un)Answerable
Model	calibration, self-eval, probing	TruthfulQA, SelfAware, KnowUnknowns
Human Values	RLHF refusals, safety prompts	HarmfulQA, DoNotAnswer, Safe-RLHF

Discussion

세 관점이 분리 연구되어 벤치마크·지표가 파편화돼 있음을 지적하며, 통합 평가 필요성과 over-abstention(과도한 거부) 문제를 부각한다.

Insights

Abstention은 “정답을 못 맞힘”이 아니라 정답을 거부하는 판단 능력이며, 이는 불확실성 추정과 가치 정렬의 교차점에서 학습·평가되어야 한다.

Discussion Points

Over-abstention vs under-abstention trade-off의 정량화
Abstention의 domain transfer 가능성
세 관점 충돌 시 우선순위 결정 메커니즘 부재

메타데이터

항목	내용
논문 종류	Survey
주요 분야	LLM safety, uncertainty, alignment
방법론	Literature taxonomy (3-view framework)
코드/데이터	서베이 — 개별 참조 연구에 의존
주요 기여	통합 프레임워크·gap 제시

왜 이 연구를 하는가?

LLM이 사실에 어긋난 내용을 자신감 있게 내뱉는 환각 문제와, 유해 요청에 응답하는 안전성 문제는 배포의 주요 걸림돌이다. 기존 연구는 (a) uncertainty estimation/calibration, (b) selective prediction, (c) safety alignment/RLHF refusal을 각기 독립적으로 다뤄 왔고, 이들이 실제로는 “응답을 거부한다”는 공통 행위로 수렴한다는 통합 시각이 부족했다. 본 서베이는 이를 하나의 분석 렌즈로 묶어 연구 지형도를 그리고, 실무자에게 어떤 상황에서 어떤 기법이 적합한지 가이드를 제공하고자 한다.

방법 (Method)

flowchart TD
    A[입력 쿼리 q] --> B{Query 관점<br/>애매성/미정의 감지}
    A --> C{Model 관점<br/>지식경계·확신도}
    A --> D{Human Values 관점<br/>안전·윤리 검사}
    B -->|ambiguous/unanswerable| E[Abstain]
    C -->|low confidence / OOD| E
    D -->|unsafe / policy-violating| E
    B -->|clear| F[Answer 생성]
    C -->|high confidence| F
    D -->|safe| F
    E --> G[Refusal 응답]
    F --> H[최종 응답]

핵심 아이디어는 세 관점의 판단 결과를 결합하는 decision pipeline으로 abstention을 표현하는 것이며, 각 관점별로 학습 단계(pretraining/alignment)와 추론 단계(prompting/verifier) 기법이 맵핑된다.

발견 (Findings)

#	발견
1	Query·Model·Values 세 축이 기존 abstention 연구를 포괄적으로 설명한다.
2	세 축을 함께 평가하는 통합 벤치마크는 거의 없다.
3	Over-abstention(과도한 거부)은 유용성을 훼손하며 RLHF 후 자주 발생한다.
4	Calibration-only 기법은 values 측면의 거부를 포착하지 못한다.
5	Abstention의 일반화(cross-task transfer) 연구가 희소하다.

이론적 의의

본 서베이는 abstention을 “정답 대신 거부를 출력하는 확률적 선택”으로 재정의하고, 이를 통해 selective prediction 이론(Chow’s rule), calibration 이론, **alignment 이론(RLHF)**을 하나의 의사결정 프레임에서 다룰 수 있음을 시사한다. 이는 향후 abstention을 meta-cognitive capability로 모델링할 이론적 토대를 제공한다.

재현성 및 신뢰도 평가

축	등급	근거
Evidence Quality	B	광범위한 문헌 리뷰지만 자체 실험은 부재
Reproducibility	C	서베이 특성상 재현 대상 아님; taxonomy 경계 일부 주관적
Coverage	B+	2020–2024 주요 abstention 연구 포괄
Novelty	B	3-view 통합 프레임워크 제안

원자적 인사이트

Abstention은 성능 지표가 아니라 정렬(alignment) 지표다 — 정답률을 낮추더라도 해로운 응답을 막는 trade-off가 본질이며, 단일 accuracy로 평가해서는 안 된다.
세 관점의 충돌 해결이 미개척 영역이다 — 질의는 명확(answerable)하고 모델은 확신하지만 values 관점에서 거부해야 하는 경우(예: 유해 정보 요청)가 실무의 핵심 난제다.
Over-abstention은 RLHF의 부작용이다 — 안전 정렬 강화 시 무해한 질문에도 거부하는 현상이 관찰되며, 이는 calibration·values 간 균형 문제로 재해석될 수 있다.

핵심 용어 정리

Abstention: 모델이 답 대신 “모른다/답할 수 없다”를 선택하는 행위.
Selective Prediction: 확신도가 낮은 입력에 대해 예측을 보류하는 고전적 프레임워크.
Calibration: 모델의 신뢰도(probability)와 실제 정답률의 일치 정도.
Over-abstention: 답할 수 있는 질문에도 과도하게 거부하는 현상.
Knowledge Boundary: 모델이 알고 있는 것과 모르는 것의 경계.
Ambiguous Query: 의미가 다의적이거나 해석이 여럿인 질의.
Unanswerable Question: 주어진 맥락·세계에서 정답이 존재하지 않는 질문.
RLHF Refusal: 인간 피드백 학습으로 유도된 거부 행동.

Juhyeon's Blog

탐색기

Know Your Limits - A Survey of Abstention in Large Language Models