Know Your Limits: A Survey of Abstention in Large Language Models

Digest (CISELQ)

  • Context: 대형 언어 모델(LLM)은 환각(hallucination), 안전성 문제, 지식 한계 등으로 인해 “모른다”고 답하거나 응답을 거부하는 능력, 즉 abstention이 필수적이다. 그러나 기존 연구들은 불확실성 추정, 안전성 필터링, 지식 경계 탐지 등 분산된 서브필드에 흩어져 있었다.
  • Idea: 저자들은 abstention 문제를 query(질의 특성) · model(모델 능력) · human values(인간 가치 정렬) 세 관점으로 통합 조망하는 프레임워크를 제안한다.
  • Setup: 2020년 이후 LLM abstention 관련 논문들을 체계적으로 수집·분류하여, (1) 방법론(methods), (2) 벤치마크/평가 지표(benchmarks), (3) 응용 도메인 측면에서 taxonomy를 구성한다.
  • Experiments / Evidence: 서베이 특성상 새로운 실험 대신, 기존 연구들의 결과를 종합하여 abstention 성능, calibration, 안전성 trade-off를 비교·논의한다.
  • Learnings: Abstention은 단일 태스크가 아니라 query의 애매성, 모델의 지식·확신도, 사회적·윤리적 가치가 교차하는 지점에서 결정되어야 하며, 현 벤치마크는 세 축을 모두 포괄하지 못한다.
  • Questions: Abstention 능력이 태스크·도메인을 가로질러 일반화 가능한 meta-capability인가? 서로 다른 관점(query/model/values)에서의 abstention이 충돌할 때 어떻게 조정해야 하는가?

섹션별 요약

Introduction

LLM의 환각 및 안전 리스크를 줄이기 위해 “응답 거부(abstention)“가 중요한 안전 장치로 부상했으며, 본 서베이는 흩어진 연구들을 하나의 분석 렌즈로 묶는 것이 목표다.

Methods (서베이 구조)

문헌을 세 관점으로 분류한다. Query 관점은 ambiguous·unanswerable·underspecified 질문 식별; Model 관점은 confidence calibration, knowledge boundary probing, self-consistency; Human values 관점은 안전성·윤리·사회적 규범에 따른 거부. 각 관점 내에서 pretraining·alignment·inference-time 단계별 방법을 정리한다.

Results (대표 범주 요약 표)

관점대표 방법대표 벤치마크
Queryambiguity detection, unanswerable QASQuAD 2.0, AmbigQA, (Un)Answerable
Modelcalibration, self-eval, probingTruthfulQA, SelfAware, KnowUnknowns
Human ValuesRLHF refusals, safety promptsHarmfulQA, DoNotAnswer, Safe-RLHF

Discussion

세 관점이 분리 연구되어 벤치마크·지표가 파편화돼 있음을 지적하며, 통합 평가 필요성과 over-abstention(과도한 거부) 문제를 부각한다.

Insights

Abstention은 “정답을 못 맞힘”이 아니라 정답을 거부하는 판단 능력이며, 이는 불확실성 추정과 가치 정렬의 교차점에서 학습·평가되어야 한다.

Discussion Points

  • Over-abstention vs under-abstention trade-off의 정량화
  • Abstention의 domain transfer 가능성
  • 세 관점 충돌 시 우선순위 결정 메커니즘 부재

메타데이터

항목내용
논문 종류Survey
주요 분야LLM safety, uncertainty, alignment
방법론Literature taxonomy (3-view framework)
코드/데이터서베이 — 개별 참조 연구에 의존
주요 기여통합 프레임워크·gap 제시

왜 이 연구를 하는가?

LLM이 사실에 어긋난 내용을 자신감 있게 내뱉는 환각 문제와, 유해 요청에 응답하는 안전성 문제는 배포의 주요 걸림돌이다. 기존 연구는 (a) uncertainty estimation/calibration, (b) selective prediction, (c) safety alignment/RLHF refusal을 각기 독립적으로 다뤄 왔고, 이들이 실제로는 “응답을 거부한다”는 공통 행위로 수렴한다는 통합 시각이 부족했다. 본 서베이는 이를 하나의 분석 렌즈로 묶어 연구 지형도를 그리고, 실무자에게 어떤 상황에서 어떤 기법이 적합한지 가이드를 제공하고자 한다.


방법 (Method)

flowchart TD
    A[입력 쿼리 q] --> B{Query 관점<br/>애매성/미정의 감지}
    A --> C{Model 관점<br/>지식경계·확신도}
    A --> D{Human Values 관점<br/>안전·윤리 검사}
    B -->|ambiguous/unanswerable| E[Abstain]
    C -->|low confidence / OOD| E
    D -->|unsafe / policy-violating| E
    B -->|clear| F[Answer 생성]
    C -->|high confidence| F
    D -->|safe| F
    E --> G[Refusal 응답]
    F --> H[최종 응답]

핵심 아이디어는 세 관점의 판단 결과를 결합하는 decision pipeline으로 abstention을 표현하는 것이며, 각 관점별로 학습 단계(pretraining/alignment)와 추론 단계(prompting/verifier) 기법이 맵핑된다.


발견 (Findings)

#발견
1Query·Model·Values 세 축이 기존 abstention 연구를 포괄적으로 설명한다.
2세 축을 함께 평가하는 통합 벤치마크는 거의 없다.
3Over-abstention(과도한 거부)은 유용성을 훼손하며 RLHF 후 자주 발생한다.
4Calibration-only 기법은 values 측면의 거부를 포착하지 못한다.
5Abstention의 일반화(cross-task transfer) 연구가 희소하다.

이론적 의의

본 서베이는 abstention을 “정답 대신 거부를 출력하는 확률적 선택”으로 재정의하고, 이를 통해 selective prediction 이론(Chow’s rule), calibration 이론, **alignment 이론(RLHF)**을 하나의 의사결정 프레임에서 다룰 수 있음을 시사한다. 이는 향후 abstention을 meta-cognitive capability로 모델링할 이론적 토대를 제공한다.


재현성 및 신뢰도 평가

등급근거
Evidence QualityB광범위한 문헌 리뷰지만 자체 실험은 부재
ReproducibilityC서베이 특성상 재현 대상 아님; taxonomy 경계 일부 주관적
CoverageB+2020–2024 주요 abstention 연구 포괄
NoveltyB3-view 통합 프레임워크 제안

관련 연구

  • Selective Prediction / Abstention 이론: Chow (1970), El-Yaniv & Wiener (2010).
  • Calibration & Uncertainty: Kadavath et al. (2022) “Language Models (Mostly) Know What They Know”, Lin et al. (2022) TruthfulQA.
  • Unanswerable QA: Rajpurkar et al. (2018) SQuAD 2.0, Min et al. (2020) AmbigQA.
  • Safety / Refusal: Bai et al. (2022) Constitutional AI, Ji et al. (2023) Safe-RLHF, Wang et al. (2023) Do-Not-Answer.
  • Self-knowledge: Yin et al. (2023) SelfAware.

원자적 인사이트

  1. Abstention은 성능 지표가 아니라 정렬(alignment) 지표다 — 정답률을 낮추더라도 해로운 응답을 막는 trade-off가 본질이며, 단일 accuracy로 평가해서는 안 된다.
  2. 세 관점의 충돌 해결이 미개척 영역이다 — 질의는 명확(answerable)하고 모델은 확신하지만 values 관점에서 거부해야 하는 경우(예: 유해 정보 요청)가 실무의 핵심 난제다.
  3. Over-abstention은 RLHF의 부작용이다 — 안전 정렬 강화 시 무해한 질문에도 거부하는 현상이 관찰되며, 이는 calibration·values 간 균형 문제로 재해석될 수 있다.

핵심 용어 정리

  • Abstention: 모델이 답 대신 “모른다/답할 수 없다”를 선택하는 행위.
  • Selective Prediction: 확신도가 낮은 입력에 대해 예측을 보류하는 고전적 프레임워크.
  • Calibration: 모델의 신뢰도(probability)와 실제 정답률의 일치 정도.
  • Over-abstention: 답할 수 있는 질문에도 과도하게 거부하는 현상.
  • Knowledge Boundary: 모델이 알고 있는 것과 모르는 것의 경계.
  • Ambiguous Query: 의미가 다의적이거나 해석이 여럿인 질의.
  • Unanswerable Question: 주어진 맥락·세계에서 정답이 존재하지 않는 질문.
  • RLHF Refusal: 인간 피드백 학습으로 유도된 거부 행동.

태그

Survey LLM Abstention SelectivePrediction Uncertainty Calibration Safety Alignment RLHF Hallucination