Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method
Paper Digest (CISELQ)
- C (Context): LLM은 사실이 아닌 응답(hallucination)을 산발적으로 생성하여 신뢰성 문제를 일으킨다. 특히 모델이 “모른다”는 사실 자체를 인지하지 못할 때 치명적이다.
- I (Issue): 기존 hallucination 탐지 기법들은 외부 지식베이스, 검색기, 혹은 fine-tuning을 필요로 하여 배포 비용이 크고 도메인 일반화가 어렵다.
- S (Solution): 단일 질문을 여러 표현(paraphrase)으로 다양화하고 각 표현에 대한 답변을 수집한 뒤, 답변들의 발산(divergence)을 측정하여 모델이 모르는 질문을 플래그한다. 완전히 prompting만으로 작동한다.
- E (Evidence): Vicuna, ChatGPT, GPT-4에서 다양한 QA 데이터셋에 대해 baseline(verbalized confidence, token probability 등) 대비 일관되게 우수한 AUROC/정확도를 보고한다.
- L (Limitations): divergence metric이 표면적(lexical) 변형에 민감하며, 모델이 체계적으로 같은 틀린 답을 반복하는 경우 탐지에 실패한다. 추가 추론 호출로 인한 비용 증가도 단점이다.
- Q (Questions): paraphrase의 품질/개수가 성능에 미치는 영향, 답변 유사도 측정 방식(lexical vs semantic vs embedding)의 robustness 비교, 그리고 open-ended generation으로의 확장 가능성.
섹션별 요약
Introduction
LLM의 hallucination은 사용자가 모델을 신뢰할 수 없게 만드는 핵심 문제다. 저자들은 LLM이 “스스로 모르는 것을 아는가(self-knowledge)“라는 철학적 질문을 실용적 탐지 문제로 치환한다. 만약 모델이 진정으로 어떤 질문에 대한 지식을 가지고 있다면, 그 질문이 어떤 형태로 제시되든 답변은 일관되어야 한다는 직관에서 출발한다.
Methods
입력 질문 q에 대해: (1) LLM 혹은 별도 paraphraser로 K개의 의미-보존 변형 q_1, …, q_K를 생성, (2) 각 q_i에 대해 답변 a_i를 수집, (3) {a_i} 간의 일관성/발산을 측정하여 불확실성 점수를 산출한다. 측정 지표로는 answer set의 엔트로피, 다수결 일치율, 또는 embedding cosine similarity 기반 cluster 수를 사용한다.
Results
ChatGPT/GPT-4/Vicuna를 TriviaQA, Natural Questions, HotpotQA 류 벤치마크에서 평가. 제안 방법이 verbalized confidence(“Are you sure?“) 및 logit-based confidence 대비 AUROC 기준 유의미한 개선을 보고. GPT-4에서 가장 큰 절대 성능을 보이나 상대적 개선 폭은 약한 모델에서 더 크다.
| Model | Baseline (Verbalized) | Self-Detection (Ours) |
|---|---|---|
| Vicuna-13B | 낮음 | 개선 |
| ChatGPT | 중간 | 뚜렷한 개선 |
| GPT-4 | 높음 | 최고치 달성 |
Discussion
답변 일관성은 self-knowledge의 약한(necessary but not sufficient) 지표다. 모델이 일관되게 틀린 경우(systematic bias)에는 탐지 실패하므로, semantic 기반 측정과 결합하거나 knowledge probing과 혼용할 필요가 있다.
Insights
- 외부 지식 없이 모델 자체의 내부 일관성만으로도 hallucination 경향을 유의미하게 예측 가능.
- Paraphrase diversity가 충분하지 않으면 방법이 붕괴.
Discussion Points
- 답변 동등성 판단을 어떤 메트릭으로 할 것인가?
- 얼마나 많은 paraphrase가 최소 유효한가?
- 추론 cost 대비 효용은 어떻게 정량화되는가?
메타데이터
| 항목 | 내용 |
|---|---|
| 저자 | Yukun Zhao, Lingyong Yan, Weiwei Sun, 외 |
| 학회 | NAACL 2024 |
| 연도 | 2023 (arXiv), 2024 (publication) |
| 코드 | 부분 공개 |
| 평가 모델 | Vicuna, ChatGPT, GPT-4 |
| 주요 태스크 | Factual QA hallucination detection |
왜 이 연구를 하는가?
LLM 배포가 확산되며 “모델이 자신이 모른다는 사실을 아는가”라는 metacognition 질문이 실무적으로 중요해졌다. 기존 접근은 (a) 외부 knowledge base 참조, (b) supervised calibration fine-tuning, (c) logit 기반 confidence 등으로 나뉘는데, 각기 비용/접근성/블랙박스 모델 호환성의 문제를 안는다. 저자들은 prompting만으로 동작하는 경량 프레임워크가 현실적 수요에 부합한다고 주장한다. 이는 self-consciousness 연구 맥락에서 “behavioral self-knowledge probe”로도 해석 가능하다.
방법 (Method)
flowchart TD Q[입력 질문 q] --> P[Paraphrase 생성<br/>q_1 ... q_K] P --> A[LLM 답변 수집<br/>a_1 ... a_K] A --> C[답변 클러스터링/일관성 측정] C --> S{발산 점수 > τ ?} S -->|Yes| U[Unknown 플래그] S -->|No| K[Known - 답변 신뢰]
구체적으로 paraphrase는 “Rephrase the following question while preserving meaning”와 같은 instruction으로 같은 LLM에 위임하며, 답변 간 동등성은 exact match, BERTScore, 혹은 임베딩 클러스터 수로 측정한다. 임계값 τ는 validation set에서 F1/AUROC 기준으로 튜닝.
발견
| 발견 | 내용 |
|---|---|
| F1 | Self-detection이 verbalized/logit baseline보다 일관되게 우수 |
| F2 | 강한 모델(GPT-4)일수록 일관성과 정답률 상관관계가 강함 |
| F3 | Paraphrase 개수 K가 증가해도 4~5 이상에서 수렴 |
| F4 | Semantic similarity 기반 측정이 lexical exact match보다 안정적 |
이론적 의의
본 연구는 LLM의 self-knowledge를 “출력 분포의 input perturbation에 대한 robustness”로 조작적 정의(operationalize)한다. 이는 인지과학의 metacognition framework(Flavell, 1979)에서 monitoring 요소에 해당하며, 모델이 자신의 knowledge state를 명시적으로 표상하지 않더라도 행동 일관성을 통해 간접 추론될 수 있음을 시사한다. Calibration 문헌과 연결되며, Kadavath et al.(2022)의 “Language Models (Mostly) Know What They Know”의 후속 실증 연구로 자리매김된다.
재현성 및 신뢰도 평가
| 축 | 점수 | 근거 |
|---|---|---|
| Evidence Quality | B | 다수 모델·데이터셋 실험, 다만 stat. significance 보고 제한적 |
| Reproducibility | B | Prompting 방식은 공개되었으나 paraphrase seed/정확한 hyperparam 일부 누락 |
| Generalization | B | Open-ended generation(요약, 코드)으로의 확장은 미검증 |
| Theoretical rigor | C | 일관성-self-knowledge 연결이 경험적이며, 형식적 이론 부재 |
관련 연구
- Kadavath et al., 2022. Language Models (Mostly) Know What They Know.
- Lin et al., 2022. Teaching Models to Express Their Uncertainty in Words.
- Manakul et al., 2023. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection.
- Kuhn et al., 2023. Semantic Uncertainty (sampling-based uncertainty for generation).
- Azaria & Mitchell, 2023. The Internal State of an LLM Knows When It’s Lying.
원자적 인사이트
- 입력 불변성이 지식의 프록시가 된다: 같은 정보 요구에 대해 표현이 달라져도 답변이 일관되면 모델은 “안다”고 볼 수 있다. 이는 sampling-based uncertainty(동일 입력 반복 샘플링)와 구분되며, paraphrase perturbation은 의미 수준의 robustness를 측정한다.
- Self-detection은 prompting-only로 충분히 작동: 외부 KB/fine-tune 없이도 competitive detection이 가능하므로, 블랙박스 API 모델에도 즉시 적용 가능한 실용적 경로를 제시한다.
- 일관된 오답 문제: 모델이 체계적으로 같은 틀린 답을 반복하면 본 방법은 실패한다. 따라서 self-detection은 knowledge probing(외부 정답 대조)과 상호보완적으로 설계되어야 한다.
핵심 용어 정리
- Self-detection: 모델이 자신의 출력이 신뢰 가능한지 스스로 판단하는 능력.
- Paraphrase divergence: 의미가 동일한 질문 변형들에 대해 모델 답변이 얼마나 다른지의 척도.
- Verbalized confidence: “확실합니까?”처럼 모델이 자연어로 자신감을 표현하는 방식.
- Semantic uncertainty: 답변의 표면형 차이가 아니라 의미 클러스터 수로 측정되는 불확실성.
- Self-knowledge: 모델/에이전트가 자신이 무엇을 알고 모르는지에 대해 가지는 메타지식.
태그
LLM Hallucination SelfDetection Uncertainty Metacognition NAACL2024 SelfKnowledge Theory