Know Your Limits: A Survey of Abstention in Large Language Models
Digest (CISELQ)
- Context: 대형 언어 모델(LLM)은 환각(hallucination), 안전성 문제, 지식 한계 등으로 인해 “모른다”고 답하거나 응답을 거부하는 능력, 즉 abstention이 필수적이다. 그러나 기존 연구들은 불확실성 추정, 안전성 필터링, 지식 경계 탐지 등 분산된 서브필드에 흩어져 있었다.
- Idea: 저자들은 abstention 문제를 query(질의 특성) · model(모델 능력) · human values(인간 가치 정렬) 세 관점으로 통합 조망하는 프레임워크를 제안한다.
- Setup: 2020년 이후 LLM abstention 관련 논문들을 체계적으로 수집·분류하여, (1) 방법론(methods), (2) 벤치마크/평가 지표(benchmarks), (3) 응용 도메인 측면에서 taxonomy를 구성한다.
- Experiments / Evidence: 서베이 특성상 새로운 실험 대신, 기존 연구들의 결과를 종합하여 abstention 성능, calibration, 안전성 trade-off를 비교·논의한다.
- Learnings: Abstention은 단일 태스크가 아니라 query의 애매성, 모델의 지식·확신도, 사회적·윤리적 가치가 교차하는 지점에서 결정되어야 하며, 현 벤치마크는 세 축을 모두 포괄하지 못한다.
- Questions: Abstention 능력이 태스크·도메인을 가로질러 일반화 가능한 meta-capability인가? 서로 다른 관점(query/model/values)에서의 abstention이 충돌할 때 어떻게 조정해야 하는가?
섹션별 요약
Introduction
LLM의 환각 및 안전 리스크를 줄이기 위해 “응답 거부(abstention)“가 중요한 안전 장치로 부상했으며, 본 서베이는 흩어진 연구들을 하나의 분석 렌즈로 묶는 것이 목표다.
Methods (서베이 구조)
문헌을 세 관점으로 분류한다. Query 관점은 ambiguous·unanswerable·underspecified 질문 식별; Model 관점은 confidence calibration, knowledge boundary probing, self-consistency; Human values 관점은 안전성·윤리·사회적 규범에 따른 거부. 각 관점 내에서 pretraining·alignment·inference-time 단계별 방법을 정리한다.
Results (대표 범주 요약 표)
| 관점 | 대표 방법 | 대표 벤치마크 |
|---|---|---|
| Query | ambiguity detection, unanswerable QA | SQuAD 2.0, AmbigQA, (Un)Answerable |
| Model | calibration, self-eval, probing | TruthfulQA, SelfAware, KnowUnknowns |
| Human Values | RLHF refusals, safety prompts | HarmfulQA, DoNotAnswer, Safe-RLHF |
Discussion
세 관점이 분리 연구되어 벤치마크·지표가 파편화돼 있음을 지적하며, 통합 평가 필요성과 over-abstention(과도한 거부) 문제를 부각한다.
Insights
Abstention은 “정답을 못 맞힘”이 아니라 정답을 거부하는 판단 능력이며, 이는 불확실성 추정과 가치 정렬의 교차점에서 학습·평가되어야 한다.
Discussion Points
- Over-abstention vs under-abstention trade-off의 정량화
- Abstention의 domain transfer 가능성
- 세 관점 충돌 시 우선순위 결정 메커니즘 부재
메타데이터
| 항목 | 내용 |
|---|---|
| 논문 종류 | Survey |
| 주요 분야 | LLM safety, uncertainty, alignment |
| 방법론 | Literature taxonomy (3-view framework) |
| 코드/데이터 | 서베이 — 개별 참조 연구에 의존 |
| 주요 기여 | 통합 프레임워크·gap 제시 |
왜 이 연구를 하는가?
LLM이 사실에 어긋난 내용을 자신감 있게 내뱉는 환각 문제와, 유해 요청에 응답하는 안전성 문제는 배포의 주요 걸림돌이다. 기존 연구는 (a) uncertainty estimation/calibration, (b) selective prediction, (c) safety alignment/RLHF refusal을 각기 독립적으로 다뤄 왔고, 이들이 실제로는 “응답을 거부한다”는 공통 행위로 수렴한다는 통합 시각이 부족했다. 본 서베이는 이를 하나의 분석 렌즈로 묶어 연구 지형도를 그리고, 실무자에게 어떤 상황에서 어떤 기법이 적합한지 가이드를 제공하고자 한다.
방법 (Method)
flowchart TD A[입력 쿼리 q] --> B{Query 관점<br/>애매성/미정의 감지} A --> C{Model 관점<br/>지식경계·확신도} A --> D{Human Values 관점<br/>안전·윤리 검사} B -->|ambiguous/unanswerable| E[Abstain] C -->|low confidence / OOD| E D -->|unsafe / policy-violating| E B -->|clear| F[Answer 생성] C -->|high confidence| F D -->|safe| F E --> G[Refusal 응답] F --> H[최종 응답]
핵심 아이디어는 세 관점의 판단 결과를 결합하는 decision pipeline으로 abstention을 표현하는 것이며, 각 관점별로 학습 단계(pretraining/alignment)와 추론 단계(prompting/verifier) 기법이 맵핑된다.
발견 (Findings)
| # | 발견 |
|---|---|
| 1 | Query·Model·Values 세 축이 기존 abstention 연구를 포괄적으로 설명한다. |
| 2 | 세 축을 함께 평가하는 통합 벤치마크는 거의 없다. |
| 3 | Over-abstention(과도한 거부)은 유용성을 훼손하며 RLHF 후 자주 발생한다. |
| 4 | Calibration-only 기법은 values 측면의 거부를 포착하지 못한다. |
| 5 | Abstention의 일반화(cross-task transfer) 연구가 희소하다. |
이론적 의의
본 서베이는 abstention을 “정답 대신 거부를 출력하는 확률적 선택”으로 재정의하고, 이를 통해 selective prediction 이론(Chow’s rule), calibration 이론, **alignment 이론(RLHF)**을 하나의 의사결정 프레임에서 다룰 수 있음을 시사한다. 이는 향후 abstention을 meta-cognitive capability로 모델링할 이론적 토대를 제공한다.
재현성 및 신뢰도 평가
| 축 | 등급 | 근거 |
|---|---|---|
| Evidence Quality | B | 광범위한 문헌 리뷰지만 자체 실험은 부재 |
| Reproducibility | C | 서베이 특성상 재현 대상 아님; taxonomy 경계 일부 주관적 |
| Coverage | B+ | 2020–2024 주요 abstention 연구 포괄 |
| Novelty | B | 3-view 통합 프레임워크 제안 |
관련 연구
- Selective Prediction / Abstention 이론: Chow (1970), El-Yaniv & Wiener (2010).
- Calibration & Uncertainty: Kadavath et al. (2022) “Language Models (Mostly) Know What They Know”, Lin et al. (2022) TruthfulQA.
- Unanswerable QA: Rajpurkar et al. (2018) SQuAD 2.0, Min et al. (2020) AmbigQA.
- Safety / Refusal: Bai et al. (2022) Constitutional AI, Ji et al. (2023) Safe-RLHF, Wang et al. (2023) Do-Not-Answer.
- Self-knowledge: Yin et al. (2023) SelfAware.
원자적 인사이트
- Abstention은 성능 지표가 아니라 정렬(alignment) 지표다 — 정답률을 낮추더라도 해로운 응답을 막는 trade-off가 본질이며, 단일 accuracy로 평가해서는 안 된다.
- 세 관점의 충돌 해결이 미개척 영역이다 — 질의는 명확(answerable)하고 모델은 확신하지만 values 관점에서 거부해야 하는 경우(예: 유해 정보 요청)가 실무의 핵심 난제다.
- Over-abstention은 RLHF의 부작용이다 — 안전 정렬 강화 시 무해한 질문에도 거부하는 현상이 관찰되며, 이는 calibration·values 간 균형 문제로 재해석될 수 있다.
핵심 용어 정리
- Abstention: 모델이 답 대신 “모른다/답할 수 없다”를 선택하는 행위.
- Selective Prediction: 확신도가 낮은 입력에 대해 예측을 보류하는 고전적 프레임워크.
- Calibration: 모델의 신뢰도(probability)와 실제 정답률의 일치 정도.
- Over-abstention: 답할 수 있는 질문에도 과도하게 거부하는 현상.
- Knowledge Boundary: 모델이 알고 있는 것과 모르는 것의 경계.
- Ambiguous Query: 의미가 다의적이거나 해석이 여럿인 질의.
- Unanswerable Question: 주어진 맥락·세계에서 정답이 존재하지 않는 질문.
- RLHF Refusal: 인간 피드백 학습으로 유도된 거부 행동.
태그
Survey LLM Abstention SelectivePrediction Uncertainty Calibration Safety Alignment RLHF Hallucination