Do Retrieval Augmented Language Models Know When They Don’t Know?

Digest (CISELQ)

  • Context: LLM hallucination 문제를 완화하기 위해 retrieval-augmented LM(RALM)이 널리 사용되지만, RALM이 “지식이 부족할 때 답을 거부하는지”에 대한 체계적 분석은 부족했다.
  • Issue: 검색 문서가 irrelevant하거나 부분적으로만 관련될 때, RALM이 calibration을 잘 유지하는지, refusal 능력과 calibration이 정렬(aligned)되는지 불분명하다.
  • Solution: (1) 다양한 knowledge state(parametric knowledge 유/무 × retrieved evidence 유/무)에 대한 calibration·refusal을 체계 평가, (2) refusal-post-trained RALM에서 over-refusal 현상을 진단, (3) refusal 행위와 uncertainty-based abstention을 결합하는 간단하지만 효과적인 메커니즘 제안.
  • Evidence: TriviaQA, Natural Questions(NQ), HotpotQA에서 ECE / Accuracy / Refusal Rate / Over-refusal rate를 측정. 여러 오픈 LLM(RALM 세팅)에 대해 fine-tuning 전/후 비교, in-context 세팅과 post-trained 세팅 비교.
  • Learning: Refusal training이 “더 잘 모르는 것을 안다”를 보장하지 않는다. Refusal 능력은 calibration과 독립적으로 움직이며, 오히려 irrelevant retrieval에 직면하면 답할 수 있는 질문도 거부하는 over-refusal이 만연함.
  • Question: RALM의 uncertainty estimation(특히 retrieved context와 parametric knowledge가 충돌할 때)은 여전히 열린 문제로 남는다.

섹션별 요약

Introduction

LLM의 hallucination을 줄이기 위한 표준 해법인 RAG가 “답을 해야 할 때와 거부해야 할 때”를 구분할 수 있는지 묻는다. Closed-book LLM에 대한 self-knowledge 연구는 있었지만, retrieval이 개입하면 knowledge가 parametriccontextual로 분리되어 self-knowledge 정의 자체가 복잡해진다. 저자들은 3가지 RQ를 제시한다. (RQ1) 서로 다른 knowledge state에서 RALM의 calibration은 어떠한가? (RQ2) Refusal 능력과 calibration은 얼마나 정렬되어 있는가? (RQ3) Refusal과 uncertainty-based abstention을 어떻게 결합해야 over-refusal 없이 정확한 abstention을 달성하는가?

Methods

  • Knowledge state 분해: 질문을 (a) 모델이 parametric으로 아는가? × (b) retrieved docs가 gold evidence를 포함하는가? 로 2×2 구획화.
  • 평가 프로토콜: 각 구획에서 ECE(calibration), Accuracy(정답률), Refusal Rate(거부 비율), Over-refusal Rate(모델이 정답을 낼 수 있었는데 거부한 비율)를 측정.
  • Refusal 훈련 비교: (i) vanilla RALM, (ii) refusal-post-trained RALM(거부 응답을 학습한 모델), (iii) in-context refusal prompting.
  • 제안 메커니즘: Refusal 토큰/결정과 token-level uncertainty(예: sequence probability 기반)의 결합 규칙을 사용해, refusal이 과도할 때 uncertainty가 낮으면 응답을 복구하고, refusal이 없을 때라도 uncertainty가 높으면 abstain하도록 한다.

Results (요약 표)

관찰핵심 결과
Irrelevant retrievalRefusal-trained RALM이 answerable 질문에서도 높은 비율로 거부 → over-refusal
Refusal ↔ CalibrationRefusal 성능이 좋아져도 ECE가 동반 개선되지 않음(독립성)
Partial evidenceGold evidence가 일부만 포함될 때 calibration이 가장 취약
제안 결합Refusal + uncertainty 결합이 over-refusal을 유의하게 감소시키면서 accuracy 유지/향상
벤치마크TriviaQA / NQ / HotpotQA 전반에서 경향 일관

Discussion

Refusal training은 “안전한 출력”을 만들지만, 실제로 모델이 아는지 여부를 반영하기보다 검색 문서의 표면 패턴에 과적합된다. 따라서 refusal을 단독 지표로 삼으면 유용성이 떨어진다. Uncertainty estimation을 보조 신호로 쓰는 것이 더 견고한 abstention을 만들며, 이는 RAG 시스템 설계에서 “검색 품질 → 응답 정책”을 단일 경로로 연결하지 말고, 검색 품질 + 내부 불확실성이라는 2축으로 설계해야 함을 시사한다.

Insights

  • RALM의 self-knowledge는 parametric self-knowledge와 달리, retrieval 결과의 품질에 의해 오염된다.
  • Refusal SFT는 잘 설계되지 않으면 conservative bias를 심는다.
  • Uncertainty 기반 abstention은 black-box 호환성이 높아 실배포 시스템에 바로 접목할 수 있다.

Discussion Points

  • Token-level uncertainty 대신 semantic entropy / self-consistency로 대체 시 이득이 지속될까?
  • Multi-hop(HotpotQA)처럼 중간 추론이 많은 경우 refusal 신호가 어디에서 나와야 하는가?
  • Retrieval을 adversarially irrelevant로 유도했을 때 결합 메커니즘은 얼마나 견고한가?

메타데이터

항목
제목Do Retrieval Augmented Language Models Know When They Don’t Know?
저자Youchao Zhou, Heyan Huang, Yicheng Liu, Rui Dai, Xinglin Wang, Xingchen Zhang, Shumin Shi, Yang Deng
발표AAAI 2026
arXiv2509.01476 (v1: 2025-09, 최종 개정: 2025-11)
카테고리Application (RAG / Trustworthy LLM)
주요 벤치마크TriviaQA, Natural Questions, HotpotQA
주요 지표ECE, Accuracy, Refusal Rate, Over-refusal Rate

왜 이 연구를 하는가?

RAG는 hallucination을 줄이는 실용적 수단으로 산업계에 이미 광범위하게 배포되어 있다. 그러나 “모를 때 모른다고 말하기(knowing when you don’t know)“라는 문제는 pure LLM의 self-knowledge 문헌에서 잘 연구된 반면, 검색이 들어간 순간 문제의 구조가 바뀐다. 검색 결과가 관련이 없거나 오히려 혼동을 일으킬 때, 모델은 내부 지식을 무시하고 “잘 모르겠다”로 도망갈 수 있다. 이것이 바로 이 논문이 지적하는 over-refusal이며, 사용자 경험과 RAG 시스템의 유용성에 직접 타격을 준다. 저자들은 refusal과 calibration을 분리하여 측정하고, 둘을 결합해야 실제로 “신뢰할 수 있는 abstention”이 가능함을 보인다. 즉 본 연구는 trustworthy RAG를 위한 진단 도구 + 간단한 해결책을 동시에 제공한다는 점에서 응용적 가치가 크다.

방법 (Method)

flowchart TD
    Q[사용자 질문 q] --> R[Retriever]
    R --> D[Retrieved Docs d]
    Q --> LLM[RALM]
    D --> LLM
    LLM --> A{출력 분기}
    A -->|Answer a, prob p| U[Uncertainty u = 1-p]
    A -->|Refusal token| F[Refusal 신호]
    U --> C{결합 규칙}
    F --> C
    C -->|refusal AND u low| Recover[응답 복구: over-refusal 방지]
    C -->|no refusal AND u high| Abstain[Abstain: hallucination 방지]
    C -->|그 외| Passthrough[모델 원래 출력 유지]

핵심은 refusal 토큰token/sequence-level uncertainty직교 신호로 보고, 두 신호의 일치/불일치 패턴에 따라 최종 응답을 결정하는 것이다. 훈련 없이도 post-hoc으로 적용 가능하며, refusal-post-trained 모델의 보수성을 완화하는 데 특히 효과적이다.

발견

#발견함의
F1Refusal-trained RALM은 irrelevant retrieval에서 answerable 질문까지 거부함Refusal SFT가 검색 품질 단서에 과적합
F2Refusal 성능 ↑ 이 ECE ↑ 를 의미하지 않음Refusal과 calibration은 독립 지표
F3Gold 문서가 부분적으로만 있을 때 calibration이 가장 불안정Partial evidence가 RALM의 난이도 최댓값
F4Refusal+Uncertainty 결합이 over-refusal을 크게 줄이며 accuracy 유지저비용 post-hoc 개선 여지
F5경향은 TriviaQA/NQ/HotpotQA에 걸쳐 일관단일 데이터셋 artifact가 아님

이론적 의의

본 논문은 LLM self-knowledge 연구를 retrieval-conditioned self-knowledge로 일반화한다. 즉 “내가 안다”는 개념이 parametric 지식만이 아닌 retrieved context와의 상호작용에서 정의되어야 함을 보인다. 이는 RAG 시대의 calibration/abstention 이론 재정의를 요구하며, refusal을 단일 binary label로 학습하는 현행 관행의 한계를 드러낸다. 또한 계측 가능한 over-refusal이라는 새 평가축을 제시하여, 향후 trustworthy RAG 벤치마크의 표준 지표 후보를 제공한다.

재현성 및 신뢰도 평가

평가근거
Evidence QualityB3개 표준 QA 벤치마크에서 일관된 경향, 다수 모델/세팅 비교
ReproducibilityC모델/리트리버/프롬프트 세부 스펙이 PDF 본문 외 부록 의존, 공개 코드 여부 제한적
GeneralizabilityBOpen-domain QA 전반, multi-hop 포함
NoveltyBOver-refusal의 정량화 + refusal/calibration 분리 측정
Practical ImpactA-추가 학습 없이 적용 가능한 결합 규칙

관련 연구

  • Self-knowledge / Calibration: Kadavath et al. 2022 (Language models (mostly) know what they know), Lin et al. 2022 (Teaching models to express uncertainty).
  • Refusal / Abstention: R-Tuning, SelfAware, Honest-LLM 계열.
  • RAG 신뢰도: Self-RAG(Asai et al. 2023), FLARE(Jiang et al. 2023), CRAG.
  • Uncertainty estimation: Semantic Entropy(Kuhn et al. 2023), SelfCheckGPT(Manakul et al. 2023).

원자적 인사이트

  1. Refusal ≠ Calibration: Refusal 토큰을 잘 내뱉는 모델이 자동으로 잘 보정된 것은 아니다. 두 신호를 병렬로 측정·결합해야 “믿을 수 있는 모른다”가 나온다.
  2. Over-refusal은 RAG 고유의 실패 모드: Closed-book LLM에서는 덜 두드러지지만, retrieval이 노이즈일 때 refusal-SFT 모델은 잘 아는 문제까지 피한다. 이는 RAG 시스템에서 별도 지표로 추적해야 할 독립 현상이다.
  3. Post-hoc decision rule의 가성비: 추가 SFT 없이 “refusal flag × uncertainty”만 결합해도 실용적 이득이 크며, 이는 refusal 학습을 재설계하기 전에 시도해볼 값싼 baseline을 제공한다.

핵심 용어 정리

  • RALM (Retrieval-Augmented Language Model): 검색된 문서를 입력으로 받아 답을 생성하는 LM.
  • Self-knowledge: 모델이 자신이 무엇을 아는지/모르는지 스스로 인지하는 능력.
  • Calibration / ECE: 예측 확률과 실제 정답률의 일치도, ECE는 이를 bin 단위 오차로 요약한 지표.
  • Refusal: 모델이 답 대신 “모른다”류 응답을 내는 행위.
  • Over-refusal: 정답 가능했던 질문에 대해서도 거부하는 과도한 보수성.
  • Abstention: 불확실성이 높을 때 의도적으로 응답을 보류하는 결정.
  • Parametric vs Contextual Knowledge: 파라미터에 저장된 지식 vs 입력 컨텍스트(검색 문서)로 제공된 지식.

태그

RAG Calibration Uncertainty LLM Self-Knowledge Refusal Over-Refusal Abstention TrustworthyAI AAAI2026