Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method

Paper Digest (CISELQ)

C (Context): LLM은 사실이 아닌 응답(hallucination)을 산발적으로 생성하여 신뢰성 문제를 일으킨다. 특히 모델이 “모른다”는 사실 자체를 인지하지 못할 때 치명적이다.
I (Issue): 기존 hallucination 탐지 기법들은 외부 지식베이스, 검색기, 혹은 fine-tuning을 필요로 하여 배포 비용이 크고 도메인 일반화가 어렵다.
S (Solution): 단일 질문을 여러 표현(paraphrase)으로 다양화하고 각 표현에 대한 답변을 수집한 뒤, 답변들의 발산(divergence)을 측정하여 모델이 모르는 질문을 플래그한다. 완전히 prompting만으로 작동한다.
E (Evidence): Vicuna, ChatGPT, GPT-4에서 다양한 QA 데이터셋에 대해 baseline(verbalized confidence, token probability 등) 대비 일관되게 우수한 AUROC/정확도를 보고한다.
L (Limitations): divergence metric이 표면적(lexical) 변형에 민감하며, 모델이 체계적으로 같은 틀린 답을 반복하는 경우 탐지에 실패한다. 추가 추론 호출로 인한 비용 증가도 단점이다.
Q (Questions): paraphrase의 품질/개수가 성능에 미치는 영향, 답변 유사도 측정 방식(lexical vs semantic vs embedding)의 robustness 비교, 그리고 open-ended generation으로의 확장 가능성.

섹션별 요약

Introduction

LLM의 hallucination은 사용자가 모델을 신뢰할 수 없게 만드는 핵심 문제다. 저자들은 LLM이 “스스로 모르는 것을 아는가(self-knowledge)“라는 철학적 질문을 실용적 탐지 문제로 치환한다. 만약 모델이 진정으로 어떤 질문에 대한 지식을 가지고 있다면, 그 질문이 어떤 형태로 제시되든 답변은 일관되어야 한다는 직관에서 출발한다.

Methods

입력 질문 q에 대해: (1) LLM 혹은 별도 paraphraser로 K개의 의미-보존 변형 q_1, …, q_K를 생성, (2) 각 q_i에 대해 답변 a_i를 수집, (3) {a_i} 간의 일관성/발산을 측정하여 불확실성 점수를 산출한다. 측정 지표로는 answer set의 엔트로피, 다수결 일치율, 또는 embedding cosine similarity 기반 cluster 수를 사용한다.

Results

ChatGPT/GPT-4/Vicuna를 TriviaQA, Natural Questions, HotpotQA 류 벤치마크에서 평가. 제안 방법이 verbalized confidence(“Are you sure?“) 및 logit-based confidence 대비 AUROC 기준 유의미한 개선을 보고. GPT-4에서 가장 큰 절대 성능을 보이나 상대적 개선 폭은 약한 모델에서 더 크다.

Model	Baseline (Verbalized)	Self-Detection (Ours)
Vicuna-13B	낮음	개선
ChatGPT	중간	뚜렷한 개선
GPT-4	높음	최고치 달성

Discussion

답변 일관성은 self-knowledge의 약한(necessary but not sufficient) 지표다. 모델이 일관되게 틀린 경우(systematic bias)에는 탐지 실패하므로, semantic 기반 측정과 결합하거나 knowledge probing과 혼용할 필요가 있다.

Insights

외부 지식 없이 모델 자체의 내부 일관성만으로도 hallucination 경향을 유의미하게 예측 가능.
Paraphrase diversity가 충분하지 않으면 방법이 붕괴.

Discussion Points

답변 동등성 판단을 어떤 메트릭으로 할 것인가?
얼마나 많은 paraphrase가 최소 유효한가?
추론 cost 대비 효용은 어떻게 정량화되는가?

메타데이터

항목	내용
저자	Yukun Zhao, Lingyong Yan, Weiwei Sun, 외
학회	NAACL 2024
연도	2023 (arXiv), 2024 (publication)
코드	부분 공개
평가 모델	Vicuna, ChatGPT, GPT-4
주요 태스크	Factual QA hallucination detection

왜 이 연구를 하는가?

LLM 배포가 확산되며 “모델이 자신이 모른다는 사실을 아는가”라는 metacognition 질문이 실무적으로 중요해졌다. 기존 접근은 (a) 외부 knowledge base 참조, (b) supervised calibration fine-tuning, (c) logit 기반 confidence 등으로 나뉘는데, 각기 비용/접근성/블랙박스 모델 호환성의 문제를 안는다. 저자들은 prompting만으로 동작하는 경량 프레임워크가 현실적 수요에 부합한다고 주장한다. 이는 self-consciousness 연구 맥락에서 “behavioral self-knowledge probe”로도 해석 가능하다.

방법 (Method)

flowchart TD
    Q[입력 질문 q] --> P[Paraphrase 생성<br/>q_1 ... q_K]
    P --> A[LLM 답변 수집<br/>a_1 ... a_K]
    A --> C[답변 클러스터링/일관성 측정]
    C --> S{발산 점수 > τ ?}
    S -->|Yes| U[Unknown 플래그]
    S -->|No| K[Known - 답변 신뢰]

구체적으로 paraphrase는 “Rephrase the following question while preserving meaning”와 같은 instruction으로 같은 LLM에 위임하며, 답변 간 동등성은 exact match, BERTScore, 혹은 임베딩 클러스터 수로 측정한다. 임계값 τ는 validation set에서 F1/AUROC 기준으로 튜닝.

발견

발견	내용
F1	Self-detection이 verbalized/logit baseline보다 일관되게 우수
F2	강한 모델(GPT-4)일수록 일관성과 정답률 상관관계가 강함
F3	Paraphrase 개수 K가 증가해도 4~5 이상에서 수렴
F4	Semantic similarity 기반 측정이 lexical exact match보다 안정적

이론적 의의

본 연구는 LLM의 self-knowledge를 “출력 분포의 input perturbation에 대한 robustness”로 조작적 정의(operationalize)한다. 이는 인지과학의 metacognition framework(Flavell, 1979)에서 monitoring 요소에 해당하며, 모델이 자신의 knowledge state를 명시적으로 표상하지 않더라도 행동 일관성을 통해 간접 추론될 수 있음을 시사한다. Calibration 문헌과 연결되며, Kadavath et al.(2022)의 “Language Models (Mostly) Know What They Know”의 후속 실증 연구로 자리매김된다.

재현성 및 신뢰도 평가

축	점수	근거
Evidence Quality	B	다수 모델·데이터셋 실험, 다만 stat. significance 보고 제한적
Reproducibility	B	Prompting 방식은 공개되었으나 paraphrase seed/정확한 hyperparam 일부 누락
Generalization	B	Open-ended generation(요약, 코드)으로의 확장은 미검증
Theoretical rigor	C	일관성-self-knowledge 연결이 경험적이며, 형식적 이론 부재

원자적 인사이트

입력 불변성이 지식의 프록시가 된다: 같은 정보 요구에 대해 표현이 달라져도 답변이 일관되면 모델은 “안다”고 볼 수 있다. 이는 sampling-based uncertainty(동일 입력 반복 샘플링)와 구분되며, paraphrase perturbation은 의미 수준의 robustness를 측정한다.
Self-detection은 prompting-only로 충분히 작동: 외부 KB/fine-tune 없이도 competitive detection이 가능하므로, 블랙박스 API 모델에도 즉시 적용 가능한 실용적 경로를 제시한다.
일관된 오답 문제: 모델이 체계적으로 같은 틀린 답을 반복하면 본 방법은 실패한다. 따라서 self-detection은 knowledge probing(외부 정답 대조)과 상호보완적으로 설계되어야 한다.

핵심 용어 정리

Self-detection: 모델이 자신의 출력이 신뢰 가능한지 스스로 판단하는 능력.
Paraphrase divergence: 의미가 동일한 질문 변형들에 대해 모델 답변이 얼마나 다른지의 척도.
Verbalized confidence: “확실합니까?”처럼 모델이 자연어로 자신감을 표현하는 방식.
Semantic uncertainty: 답변의 표면형 차이가 아니라 의미 클러스터 수로 측정되는 불확실성.
Self-knowledge: 모델/에이전트가 자신이 무엇을 알고 모르는지에 대해 가지는 메타지식.

Juhyeon's Blog

탐색기

Knowing What LLMs DO NOT Know - A Simple Yet Effective Self-Detection Method