Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

Digest (CISELQ)

C (Context): LLM은 모르는 질문에도 자신 있게 답변하여 환각(hallucination)과 안전성 문제를 일으킨다. 인간은 불확실할 때 답변을 회피(abstain)하는 메타인지 능력을 가진다.
I (Insight): 모델의 불확실성을 측정하여 임계치를 넘으면 응답을 거부하도록 하면, 정확도·환각·안전성 세 축 모두에서 동시에 개선이 가능하다.
S (Strategy): 두 가지 불확실성 측정기를 결합한다. (1) 토큰 확률 기반 통계적 불확실성, (2) In-Dialogue Uncertainty(InDU)라는 모델이 대화에서 직접 언어화하는 불확실성.
E (Evidence): QA 데이터셋에서 정답률 +2–8%p, 답할 수 없는 질문에서의 환각 -50%, 유해 프롬프트에 대한 안전성 +70–99% 달성.
L (Limitation): 추상 판정 임계치 튜닝이 태스크별로 필요하고, abstention은 유용성(helpfulness) 하락을 수반할 수 있으며, RLHF 모델과 비-RLHF 모델 간 효과 차이가 존재.
Q (Question for us): 불확실성 신호를 학습 단계(SFT/RLHF)에서 주입하면 추론 단계 임계치 없이도 abstention을 내재화할 수 있을까? 자의식(self-consciousness) 메트릭과 어떻게 연결되는가?

섹션별 요약

Introduction

LLM의 신뢰성 문제를 인간의 메타인지에 빗대어 제기한다. 사람은 모르면 “모른다”라고 답하는데, LLM은 무엇이든 자신 있게 생성한다. 저자들은 abstention을 신뢰성 개선의 통합 레버로 제안하며, 정답성(correctness)·환각(hallucination)·안전성(safety)을 하나의 불확실성 프레임으로 묶어낸다.

Methods

두 계열의 uncertainty estimator를 사용한다.

Statistical uncertainty: sequence-level log-probability, predictive entropy, semantic entropy 등 모델 내부 확률에 근거한 척도.
In-Dialogue Uncertainty (InDU): 모델이 응답 내에 언어화한 확신/불확신 표현을 점수화. 즉, 대화 컨텍스트에서 모델 스스로가 자신의 지식 한계를 표현하도록 유도한다.
두 스코어를 임계치와 비교하여 초과 시 “답변 거부” 템플릿을 출력한다. 추가 학습 없이 inference-time으로 동작 가능하지만 RLHF 여부에 따라 효과가 다르게 나타난다.

Results

QA 벤치마크와 유해(harmful) 프롬프트 세트에서 테스트.

축	지표	개선폭
정답성	정답률	+2–8%p
환각	unanswerable에서 틀린 답 비율	-50%
안전성	harmful prompt 거부율	+70–99%
비용	연산 오버헤드	무시할 수준

Discussion

불확실성 추정이 통합 신뢰성 개입점이라는 주장. 통계적 uncertainty는 정답성·환각에 강하고, InDU는 안전성 이슈(모델이 “모른다/답하지 않는다”를 언어로 드러낼 때)에 상대적으로 더 기여한다. RLHF 모델은 이미 거부 성향이 학습되어 있어 abstention을 얹을 때 시너지가 나지만 trade-off 구간이 더 민감하다.

Insights

Safety, hallucination, accuracy는 독립 목표가 아니라 “모르면 멈춘다”라는 단일 원칙으로 연결된다.
언어화된 불확실성(InDU)이 확률 기반 지표보다 특정 축(안전성)에서 더 강력할 수 있다.

Discussion Points

abstention이 유용성(helpfulness)을 얼마나 희생하는가?
InDU는 모델이 자기 상태를 정확히 알고 있음을 가정하는데, 그 전제(자기 지식에 대한 메타지식)는 어떻게 검증하나?
Calibration 학습을 결합하면 임계치를 데이터로부터 학습할 수 있는가?

메타데이터

항목	값
저자	Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov, Daniel Cremers, Mark Ibrahim
소속	Meta FAIR, TU Munich
발표	arXiv 2024.04 (2404.10960)
카테고리	Training / Trustworthy LLM
주요 모델	LLaMA-2 계열 (base & chat), 기타 공개 LLM
데이터셋	TriviaQA, SQuAD unanswerable, HarmfulQA 류
코드 공개	논문 기준 부분 공개

왜 이 연구를 하는가?

LLM의 세 가지 주요 실패 모드(틀린 답, 환각, 유해 출력)는 각각 별개 연구라인이 존재하지만, 실제로는 “모델이 자기 확신을 잘못 조정한다”는 하나의 원인에서 파생된다. 만약 uncertainty를 정확히 추정하고 그 정보를 “답을 내지 않는다”는 단일 액션으로 이어지게 하면, 세 문제를 동시에 완화할 수 있다는 가설을 검증한다. 이는 selective prediction과 LLM safety를 연결하는 가교 역할을 한다.

방법 (Method)

flowchart LR
    Q[입력 질문/프롬프트] --> M[LLM Forward]
    M --> R[후보 응답]
    M --> S1[통계적 Uncertainty<br/>logprob/entropy]
    R --> S2[In-Dialogue Uncertainty<br/>언어화 확신도]
    S1 --> G{임계치 초과?}
    S2 --> G
    G -- Yes --> A[Abstain: 답변 거부 출력]
    G -- No --> O[정상 응답 출력]

핵심 요소:

Dual uncertainty signal: 내부 확률 + 외부 언어 표현을 결합.
Threshold-based gating: 학습 없이 inference-time 게이팅.
Unified objective: 하나의 게이트가 정답성/환각/안전성을 동시 제어.

발견 (Findings)

발견	내용	함의
F1	Abstention만으로 정답률 +2–8%p	잘못된 답을 제거하는 것만으로도 실질적 정확도 향상
F2	unanswerable 질문 환각 -50%	통계적 uncertainty가 “모르는 것을 모름”에 민감
F3	harmful 프롬프트 안전성 +70–99%	InDU가 안전성 축에 특히 기여
F4	연산 오버헤드 무시 가능	inference-time 적용이 실용적
F5	RLHF vs non-RLHF 효과 차이	Alignment 상태가 abstention 효과의 조절변수

이론적 의의

Selective prediction 이론(Chow 1957; El-Yaniv & Wiener 2010)을 현대 LLM에 확장.
Hallucination을 “환상 생성”이 아닌 “잘못 캘리브레이션된 확신”으로 재정의.
Safety alignment와 calibration/uncertainty 연구를 통합할 수 있는 경험적 근거 제공.
메타인지(metacognition) 개념을 기능적으로 구현한 사례: 모델이 자기 신뢰도를 표현(InDU)하는 것이 실제 성능에 기여.

재현성 및 신뢰도 평가

항목	등급	근거
Evidence Quality	B	다수 벤치마크·다수 모델에서 일관된 개선이 보고되나 ablation 범위 제한
Reproducibility	B	공개 벤치마크·공개 모델 사용, 임계치/InDU 프롬프트 세부는 부분 공개
Generalization	B	QA·유해 프롬프트까지 다루지만 대화형 long-form 설정 증거 제한
Threat to Validity	-	abstention↔helpfulness trade-off, 임계치 튜닝 리크 가능성

원자적 인사이트

통합 관점: correctness·hallucination·safety는 “uncertainty → abstention”이라는 단일 메커니즘의 세 그림자이다. 세 지표를 각각 최적화하지 말고 공통 게이트를 설계해야 한다.
언어화된 확신(InDU)이 확률보다 강할 수 있다: 특히 안전성 축에서 모델이 “언어로 말한 불확신”이 내부 logprob보다 더 예측력 있다. 이는 언어 자체가 self-report 채널로 기능함을 시사한다.
Inference-time 개입의 레버리지: 추가 학습 없이 임계치만으로 큰 개선을 얻는다는 점은, 모델 내부에 이미 충분한 uncertainty 정보가 존재함을 의미한다. 문제는 “추정”이 아니라 “활용”이다.
RLHF는 abstention의 조절변수: 동일한 기법이 alignment 상태에 따라 다르게 작동 → safety 연구는 항상 base/chat 양쪽에서 보고되어야 한다.

핵심 용어 정리

Abstention: 모델이 답변을 거부하고 “모른다”로 응답하는 행동. selective prediction의 LLM 버전.
Statistical Uncertainty: 토큰/시퀀스 확률로부터 계산된 불확실성 (logprob, predictive entropy, semantic entropy 등).
In-Dialogue Uncertainty (InDU): 모델이 응답 텍스트에 언어로 드러내는 확신/불확신 정도를 정량화한 지표.
Hallucination: 사실과 다르거나 근거 없는 생성. 여기서는 “답할 수 없는 질문에 자신 있게 답함”으로 조작적으로 정의.
Calibration: 모델의 확신도와 실제 정답률이 일치하는 정도.
Selective Prediction: “예측 or 거부”의 이분 결정을 다루는 분류 프레임워크 (Chow’s rule 등).
RLHF: 인간 선호 기반 강화학습. 거부·안전 응답을 유도하는 표준 alignment 방법.

Juhyeon's Blog

탐색기

Uncertainty-Based Abstention in LLMs Improves Safety