Do Retrieval Augmented Language Models Know When They Don’t Know?
Digest (CISELQ)
- Context: LLM hallucination 문제를 완화하기 위해 retrieval-augmented LM(RALM)이 널리 사용되지만, RALM이 “지식이 부족할 때 답을 거부하는지”에 대한 체계적 분석은 부족했다.
- Issue: 검색 문서가 irrelevant하거나 부분적으로만 관련될 때, RALM이 calibration을 잘 유지하는지, refusal 능력과 calibration이 정렬(aligned)되는지 불분명하다.
- Solution: (1) 다양한 knowledge state(parametric knowledge 유/무 × retrieved evidence 유/무)에 대한 calibration·refusal을 체계 평가, (2) refusal-post-trained RALM에서 over-refusal 현상을 진단, (3) refusal 행위와 uncertainty-based abstention을 결합하는 간단하지만 효과적인 메커니즘 제안.
- Evidence: TriviaQA, Natural Questions(NQ), HotpotQA에서 ECE / Accuracy / Refusal Rate / Over-refusal rate를 측정. 여러 오픈 LLM(RALM 세팅)에 대해 fine-tuning 전/후 비교, in-context 세팅과 post-trained 세팅 비교.
- Learning: Refusal training이 “더 잘 모르는 것을 안다”를 보장하지 않는다. Refusal 능력은 calibration과 독립적으로 움직이며, 오히려 irrelevant retrieval에 직면하면 답할 수 있는 질문도 거부하는 over-refusal이 만연함.
- Question: RALM의 uncertainty estimation(특히 retrieved context와 parametric knowledge가 충돌할 때)은 여전히 열린 문제로 남는다.
섹션별 요약
Introduction
LLM의 hallucination을 줄이기 위한 표준 해법인 RAG가 “답을 해야 할 때와 거부해야 할 때”를 구분할 수 있는지 묻는다. Closed-book LLM에 대한 self-knowledge 연구는 있었지만, retrieval이 개입하면 knowledge가 parametric과 contextual로 분리되어 self-knowledge 정의 자체가 복잡해진다. 저자들은 3가지 RQ를 제시한다. (RQ1) 서로 다른 knowledge state에서 RALM의 calibration은 어떠한가? (RQ2) Refusal 능력과 calibration은 얼마나 정렬되어 있는가? (RQ3) Refusal과 uncertainty-based abstention을 어떻게 결합해야 over-refusal 없이 정확한 abstention을 달성하는가?
Methods
- Knowledge state 분해: 질문을 (a) 모델이 parametric으로 아는가? × (b) retrieved docs가 gold evidence를 포함하는가? 로 2×2 구획화.
- 평가 프로토콜: 각 구획에서 ECE(calibration), Accuracy(정답률), Refusal Rate(거부 비율), Over-refusal Rate(모델이 정답을 낼 수 있었는데 거부한 비율)를 측정.
- Refusal 훈련 비교: (i) vanilla RALM, (ii) refusal-post-trained RALM(거부 응답을 학습한 모델), (iii) in-context refusal prompting.
- 제안 메커니즘: Refusal 토큰/결정과 token-level uncertainty(예: sequence probability 기반)의 결합 규칙을 사용해, refusal이 과도할 때 uncertainty가 낮으면 응답을 복구하고, refusal이 없을 때라도 uncertainty가 높으면 abstain하도록 한다.
Results (요약 표)
| 관찰 | 핵심 결과 |
|---|---|
| Irrelevant retrieval | Refusal-trained RALM이 answerable 질문에서도 높은 비율로 거부 → over-refusal |
| Refusal ↔ Calibration | Refusal 성능이 좋아져도 ECE가 동반 개선되지 않음(독립성) |
| Partial evidence | Gold evidence가 일부만 포함될 때 calibration이 가장 취약 |
| 제안 결합 | Refusal + uncertainty 결합이 over-refusal을 유의하게 감소시키면서 accuracy 유지/향상 |
| 벤치마크 | TriviaQA / NQ / HotpotQA 전반에서 경향 일관 |
Discussion
Refusal training은 “안전한 출력”을 만들지만, 실제로 모델이 아는지 여부를 반영하기보다 검색 문서의 표면 패턴에 과적합된다. 따라서 refusal을 단독 지표로 삼으면 유용성이 떨어진다. Uncertainty estimation을 보조 신호로 쓰는 것이 더 견고한 abstention을 만들며, 이는 RAG 시스템 설계에서 “검색 품질 → 응답 정책”을 단일 경로로 연결하지 말고, 검색 품질 + 내부 불확실성이라는 2축으로 설계해야 함을 시사한다.
Insights
- RALM의 self-knowledge는 parametric self-knowledge와 달리, retrieval 결과의 품질에 의해 오염된다.
- Refusal SFT는 잘 설계되지 않으면 conservative bias를 심는다.
- Uncertainty 기반 abstention은 black-box 호환성이 높아 실배포 시스템에 바로 접목할 수 있다.
Discussion Points
- Token-level uncertainty 대신 semantic entropy / self-consistency로 대체 시 이득이 지속될까?
- Multi-hop(HotpotQA)처럼 중간 추론이 많은 경우 refusal 신호가 어디에서 나와야 하는가?
- Retrieval을 adversarially irrelevant로 유도했을 때 결합 메커니즘은 얼마나 견고한가?
메타데이터
| 항목 | 값 |
|---|---|
| 제목 | Do Retrieval Augmented Language Models Know When They Don’t Know? |
| 저자 | Youchao Zhou, Heyan Huang, Yicheng Liu, Rui Dai, Xinglin Wang, Xingchen Zhang, Shumin Shi, Yang Deng |
| 발표 | AAAI 2026 |
| arXiv | 2509.01476 (v1: 2025-09, 최종 개정: 2025-11) |
| 카테고리 | Application (RAG / Trustworthy LLM) |
| 주요 벤치마크 | TriviaQA, Natural Questions, HotpotQA |
| 주요 지표 | ECE, Accuracy, Refusal Rate, Over-refusal Rate |
왜 이 연구를 하는가?
RAG는 hallucination을 줄이는 실용적 수단으로 산업계에 이미 광범위하게 배포되어 있다. 그러나 “모를 때 모른다고 말하기(knowing when you don’t know)“라는 문제는 pure LLM의 self-knowledge 문헌에서 잘 연구된 반면, 검색이 들어간 순간 문제의 구조가 바뀐다. 검색 결과가 관련이 없거나 오히려 혼동을 일으킬 때, 모델은 내부 지식을 무시하고 “잘 모르겠다”로 도망갈 수 있다. 이것이 바로 이 논문이 지적하는 over-refusal이며, 사용자 경험과 RAG 시스템의 유용성에 직접 타격을 준다. 저자들은 refusal과 calibration을 분리하여 측정하고, 둘을 결합해야 실제로 “신뢰할 수 있는 abstention”이 가능함을 보인다. 즉 본 연구는 trustworthy RAG를 위한 진단 도구 + 간단한 해결책을 동시에 제공한다는 점에서 응용적 가치가 크다.
방법 (Method)
flowchart TD Q[사용자 질문 q] --> R[Retriever] R --> D[Retrieved Docs d] Q --> LLM[RALM] D --> LLM LLM --> A{출력 분기} A -->|Answer a, prob p| U[Uncertainty u = 1-p] A -->|Refusal token| F[Refusal 신호] U --> C{결합 규칙} F --> C C -->|refusal AND u low| Recover[응답 복구: over-refusal 방지] C -->|no refusal AND u high| Abstain[Abstain: hallucination 방지] C -->|그 외| Passthrough[모델 원래 출력 유지]
핵심은 refusal 토큰과 token/sequence-level uncertainty를 직교 신호로 보고, 두 신호의 일치/불일치 패턴에 따라 최종 응답을 결정하는 것이다. 훈련 없이도 post-hoc으로 적용 가능하며, refusal-post-trained 모델의 보수성을 완화하는 데 특히 효과적이다.
발견
| # | 발견 | 함의 |
|---|---|---|
| F1 | Refusal-trained RALM은 irrelevant retrieval에서 answerable 질문까지 거부함 | Refusal SFT가 검색 품질 단서에 과적합 |
| F2 | Refusal 성능 ↑ 이 ECE ↑ 를 의미하지 않음 | Refusal과 calibration은 독립 지표 |
| F3 | Gold 문서가 부분적으로만 있을 때 calibration이 가장 불안정 | Partial evidence가 RALM의 난이도 최댓값 |
| F4 | Refusal+Uncertainty 결합이 over-refusal을 크게 줄이며 accuracy 유지 | 저비용 post-hoc 개선 여지 |
| F5 | 경향은 TriviaQA/NQ/HotpotQA에 걸쳐 일관 | 단일 데이터셋 artifact가 아님 |
이론적 의의
본 논문은 LLM self-knowledge 연구를 retrieval-conditioned self-knowledge로 일반화한다. 즉 “내가 안다”는 개념이 parametric 지식만이 아닌 retrieved context와의 상호작용에서 정의되어야 함을 보인다. 이는 RAG 시대의 calibration/abstention 이론 재정의를 요구하며, refusal을 단일 binary label로 학습하는 현행 관행의 한계를 드러낸다. 또한 계측 가능한 over-refusal이라는 새 평가축을 제시하여, 향후 trustworthy RAG 벤치마크의 표준 지표 후보를 제공한다.
재현성 및 신뢰도 평가
| 축 | 평가 | 근거 |
|---|---|---|
| Evidence Quality | B | 3개 표준 QA 벤치마크에서 일관된 경향, 다수 모델/세팅 비교 |
| Reproducibility | C | 모델/리트리버/프롬프트 세부 스펙이 PDF 본문 외 부록 의존, 공개 코드 여부 제한적 |
| Generalizability | B | Open-domain QA 전반, multi-hop 포함 |
| Novelty | B | Over-refusal의 정량화 + refusal/calibration 분리 측정 |
| Practical Impact | A- | 추가 학습 없이 적용 가능한 결합 규칙 |
관련 연구
- Self-knowledge / Calibration: Kadavath et al. 2022 (Language models (mostly) know what they know), Lin et al. 2022 (Teaching models to express uncertainty).
- Refusal / Abstention: R-Tuning, SelfAware, Honest-LLM 계열.
- RAG 신뢰도: Self-RAG(Asai et al. 2023), FLARE(Jiang et al. 2023), CRAG.
- Uncertainty estimation: Semantic Entropy(Kuhn et al. 2023), SelfCheckGPT(Manakul et al. 2023).
원자적 인사이트
- Refusal ≠ Calibration: Refusal 토큰을 잘 내뱉는 모델이 자동으로 잘 보정된 것은 아니다. 두 신호를 병렬로 측정·결합해야 “믿을 수 있는 모른다”가 나온다.
- Over-refusal은 RAG 고유의 실패 모드: Closed-book LLM에서는 덜 두드러지지만, retrieval이 노이즈일 때 refusal-SFT 모델은 잘 아는 문제까지 피한다. 이는 RAG 시스템에서 별도 지표로 추적해야 할 독립 현상이다.
- Post-hoc decision rule의 가성비: 추가 SFT 없이 “refusal flag × uncertainty”만 결합해도 실용적 이득이 크며, 이는 refusal 학습을 재설계하기 전에 시도해볼 값싼 baseline을 제공한다.
핵심 용어 정리
- RALM (Retrieval-Augmented Language Model): 검색된 문서를 입력으로 받아 답을 생성하는 LM.
- Self-knowledge: 모델이 자신이 무엇을 아는지/모르는지 스스로 인지하는 능력.
- Calibration / ECE: 예측 확률과 실제 정답률의 일치도, ECE는 이를 bin 단위 오차로 요약한 지표.
- Refusal: 모델이 답 대신 “모른다”류 응답을 내는 행위.
- Over-refusal: 정답 가능했던 질문에 대해서도 거부하는 과도한 보수성.
- Abstention: 불확실성이 높을 때 의도적으로 응답을 보류하는 결정.
- Parametric vs Contextual Knowledge: 파라미터에 저장된 지식 vs 입력 컨텍스트(검색 문서)로 제공된 지식.
태그
RAG Calibration Uncertainty LLM Self-Knowledge Refusal Over-Refusal Abstention TrustworthyAI AAAI2026