Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method

Paper Digest (CISELQ)

  • C (Context): LLM은 사실이 아닌 응답(hallucination)을 산발적으로 생성하여 신뢰성 문제를 일으킨다. 특히 모델이 “모른다”는 사실 자체를 인지하지 못할 때 치명적이다.
  • I (Issue): 기존 hallucination 탐지 기법들은 외부 지식베이스, 검색기, 혹은 fine-tuning을 필요로 하여 배포 비용이 크고 도메인 일반화가 어렵다.
  • S (Solution): 단일 질문을 여러 표현(paraphrase)으로 다양화하고 각 표현에 대한 답변을 수집한 뒤, 답변들의 발산(divergence)을 측정하여 모델이 모르는 질문을 플래그한다. 완전히 prompting만으로 작동한다.
  • E (Evidence): Vicuna, ChatGPT, GPT-4에서 다양한 QA 데이터셋에 대해 baseline(verbalized confidence, token probability 등) 대비 일관되게 우수한 AUROC/정확도를 보고한다.
  • L (Limitations): divergence metric이 표면적(lexical) 변형에 민감하며, 모델이 체계적으로 같은 틀린 답을 반복하는 경우 탐지에 실패한다. 추가 추론 호출로 인한 비용 증가도 단점이다.
  • Q (Questions): paraphrase의 품질/개수가 성능에 미치는 영향, 답변 유사도 측정 방식(lexical vs semantic vs embedding)의 robustness 비교, 그리고 open-ended generation으로의 확장 가능성.

섹션별 요약

Introduction

LLM의 hallucination은 사용자가 모델을 신뢰할 수 없게 만드는 핵심 문제다. 저자들은 LLM이 “스스로 모르는 것을 아는가(self-knowledge)“라는 철학적 질문을 실용적 탐지 문제로 치환한다. 만약 모델이 진정으로 어떤 질문에 대한 지식을 가지고 있다면, 그 질문이 어떤 형태로 제시되든 답변은 일관되어야 한다는 직관에서 출발한다.

Methods

입력 질문 q에 대해: (1) LLM 혹은 별도 paraphraser로 K개의 의미-보존 변형 q_1, …, q_K를 생성, (2) 각 q_i에 대해 답변 a_i를 수집, (3) {a_i} 간의 일관성/발산을 측정하여 불확실성 점수를 산출한다. 측정 지표로는 answer set의 엔트로피, 다수결 일치율, 또는 embedding cosine similarity 기반 cluster 수를 사용한다.

Results

ChatGPT/GPT-4/Vicuna를 TriviaQA, Natural Questions, HotpotQA 류 벤치마크에서 평가. 제안 방법이 verbalized confidence(“Are you sure?“) 및 logit-based confidence 대비 AUROC 기준 유의미한 개선을 보고. GPT-4에서 가장 큰 절대 성능을 보이나 상대적 개선 폭은 약한 모델에서 더 크다.

ModelBaseline (Verbalized)Self-Detection (Ours)
Vicuna-13B낮음개선
ChatGPT중간뚜렷한 개선
GPT-4높음최고치 달성

Discussion

답변 일관성은 self-knowledge의 약한(necessary but not sufficient) 지표다. 모델이 일관되게 틀린 경우(systematic bias)에는 탐지 실패하므로, semantic 기반 측정과 결합하거나 knowledge probing과 혼용할 필요가 있다.

Insights

  • 외부 지식 없이 모델 자체의 내부 일관성만으로도 hallucination 경향을 유의미하게 예측 가능.
  • Paraphrase diversity가 충분하지 않으면 방법이 붕괴.

Discussion Points

  • 답변 동등성 판단을 어떤 메트릭으로 할 것인가?
  • 얼마나 많은 paraphrase가 최소 유효한가?
  • 추론 cost 대비 효용은 어떻게 정량화되는가?

메타데이터

항목내용
저자Yukun Zhao, Lingyong Yan, Weiwei Sun, 외
학회NAACL 2024
연도2023 (arXiv), 2024 (publication)
코드부분 공개
평가 모델Vicuna, ChatGPT, GPT-4
주요 태스크Factual QA hallucination detection

왜 이 연구를 하는가?

LLM 배포가 확산되며 “모델이 자신이 모른다는 사실을 아는가”라는 metacognition 질문이 실무적으로 중요해졌다. 기존 접근은 (a) 외부 knowledge base 참조, (b) supervised calibration fine-tuning, (c) logit 기반 confidence 등으로 나뉘는데, 각기 비용/접근성/블랙박스 모델 호환성의 문제를 안는다. 저자들은 prompting만으로 동작하는 경량 프레임워크가 현실적 수요에 부합한다고 주장한다. 이는 self-consciousness 연구 맥락에서 “behavioral self-knowledge probe”로도 해석 가능하다.

방법 (Method)

flowchart TD
    Q[입력 질문 q] --> P[Paraphrase 생성<br/>q_1 ... q_K]
    P --> A[LLM 답변 수집<br/>a_1 ... a_K]
    A --> C[답변 클러스터링/일관성 측정]
    C --> S{발산 점수 > τ ?}
    S -->|Yes| U[Unknown 플래그]
    S -->|No| K[Known - 답변 신뢰]

구체적으로 paraphrase는 “Rephrase the following question while preserving meaning”와 같은 instruction으로 같은 LLM에 위임하며, 답변 간 동등성은 exact match, BERTScore, 혹은 임베딩 클러스터 수로 측정한다. 임계값 τ는 validation set에서 F1/AUROC 기준으로 튜닝.

발견

발견내용
F1Self-detection이 verbalized/logit baseline보다 일관되게 우수
F2강한 모델(GPT-4)일수록 일관성과 정답률 상관관계가 강함
F3Paraphrase 개수 K가 증가해도 4~5 이상에서 수렴
F4Semantic similarity 기반 측정이 lexical exact match보다 안정적

이론적 의의

본 연구는 LLM의 self-knowledge를 “출력 분포의 input perturbation에 대한 robustness”로 조작적 정의(operationalize)한다. 이는 인지과학의 metacognition framework(Flavell, 1979)에서 monitoring 요소에 해당하며, 모델이 자신의 knowledge state를 명시적으로 표상하지 않더라도 행동 일관성을 통해 간접 추론될 수 있음을 시사한다. Calibration 문헌과 연결되며, Kadavath et al.(2022)의 “Language Models (Mostly) Know What They Know”의 후속 실증 연구로 자리매김된다.

재현성 및 신뢰도 평가

점수근거
Evidence QualityB다수 모델·데이터셋 실험, 다만 stat. significance 보고 제한적
ReproducibilityBPrompting 방식은 공개되었으나 paraphrase seed/정확한 hyperparam 일부 누락
GeneralizationBOpen-ended generation(요약, 코드)으로의 확장은 미검증
Theoretical rigorC일관성-self-knowledge 연결이 경험적이며, 형식적 이론 부재

관련 연구

  • Kadavath et al., 2022. Language Models (Mostly) Know What They Know.
  • Lin et al., 2022. Teaching Models to Express Their Uncertainty in Words.
  • Manakul et al., 2023. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection.
  • Kuhn et al., 2023. Semantic Uncertainty (sampling-based uncertainty for generation).
  • Azaria & Mitchell, 2023. The Internal State of an LLM Knows When It’s Lying.

원자적 인사이트

  1. 입력 불변성이 지식의 프록시가 된다: 같은 정보 요구에 대해 표현이 달라져도 답변이 일관되면 모델은 “안다”고 볼 수 있다. 이는 sampling-based uncertainty(동일 입력 반복 샘플링)와 구분되며, paraphrase perturbation은 의미 수준의 robustness를 측정한다.
  2. Self-detection은 prompting-only로 충분히 작동: 외부 KB/fine-tune 없이도 competitive detection이 가능하므로, 블랙박스 API 모델에도 즉시 적용 가능한 실용적 경로를 제시한다.
  3. 일관된 오답 문제: 모델이 체계적으로 같은 틀린 답을 반복하면 본 방법은 실패한다. 따라서 self-detection은 knowledge probing(외부 정답 대조)과 상호보완적으로 설계되어야 한다.

핵심 용어 정리

  • Self-detection: 모델이 자신의 출력이 신뢰 가능한지 스스로 판단하는 능력.
  • Paraphrase divergence: 의미가 동일한 질문 변형들에 대해 모델 답변이 얼마나 다른지의 척도.
  • Verbalized confidence: “확실합니까?”처럼 모델이 자연어로 자신감을 표현하는 방식.
  • Semantic uncertainty: 답변의 표면형 차이가 아니라 의미 클러스터 수로 측정되는 불확실성.
  • Self-knowledge: 모델/에이전트가 자신이 무엇을 알고 모르는지에 대해 가지는 메타지식.

태그

LLM Hallucination SelfDetection Uncertainty Metacognition NAACL2024 SelfKnowledge Theory