Do Large Language Models Know What They Don't Know
7분 분량
Introduction
LLM이 방대한 지식을 보유하고 있지만, 자신이 모르는 것을 인식하는 능력(self-knowledge)은 실용적 활용에서 핵심적
기존 데이터셋(SQuAD 2.0, NewsQA)의 unanswerable 질문은 맥락 의존적이어서 추가 정보로 답변 가능해지는 한계
Know-Unknow Quadrant 프레임워크를 제안하여 “Known Unknows” 대 “Unknown Unknows” 비율로 자기 지식 수준을 정량화
주요 기여: (1) SelfAware 데이터셋 구축 (1,032 unanswerable + 2,337 answerable), (2) 텍스트 유사도 기반 불확실성 자동 탐지 방법론, (3) 20개 LLM 대상 종합 분석
Related Papers
SQuAD 2.0 (Rajpurkar et al., 2018): 맥락 기반 unanswerable 질문 — 추가 정보로 답변 가능해지는 한계
BIG-bench Know-Unknowns (Srivastava et al., 2022): 23쌍의 MC 질문으로 LLM 지식 경계 평가 시도 → 랜덤 수준 성능
Kadavath et al. (2022): Value Head를 통한 self-knowledge 탐색 — 도메인/태스크 전환 시 일반화 어려움
SimCSE (Gao et al., 2021): 문장 임베딩 유사도 계산에 활용
Methods
SelfAware 데이터셋 구축: Quora, HowStuffWorks 등에서 2,858개 unanswerable 질문 수집 → 3명의 annotator 독립 검증 → 1,032개 확정
Answerable 질문: SQuAD(1,487), HotpotQA(182), TriviaQA(668) — SimCSE로 unanswerable 질문과 의미적으로 유사한 것 선별
5가지 Unanswerable 카테고리: 과학적 합의 부재(25%), 상상(15%), 완전 주관적(27%), 변수 과다(10%), 철학적(23%)
평가 방법론: 16개 불확실성 참조 문장과 모델 응답 간 SimCSE 유사도 계산 (threshold=0.75), sliding window(길이 5) 적용
3가지 입력 형식: Direct, Instruction, In-Context Learning (ICL)
평가 지표: F1 score (unanswerable = positive, answerable = negative)
방법론 다이어그램
graph TD
A[질문 입력] --> B{입력 형식 선택}
B -->|Direct| C[직접 질문]
B -->|Instruction| D[지시문 포함 질문]
B -->|ICL| E[예시 포함 질문]
C --> F[LLM 응답 생성]
D --> F
E --> F
F --> G[Sliding Window 분할]
G --> H[SimCSE 유사도 계산]
H --> I{유사도 >= 0.75?}
I -->|Yes| J[불확실성 표현 감지]
I -->|No| K[확정적 응답]
J --> L[F1 Score 계산]
K --> L
style A fill:#e1f5fe
style L fill:#e8f5e9
Results
모델 크기 효과: 파라미터 증가에 따라 F1 Score 향상 — scaling law와 일치
입력 형식 효과: ICL > Instruction > Direct — davinci 모델에서 ICL이 Direct 대비 27.96% 향상
인간 vs LLM: GPT-4 최고 F1 75.47% vs 인간 84.93% — 여전히 상당한 격차 존재
Answerable 정확도: text-ada-001(2.48%) → GPT-4(42.64%)로 모델 발전에 따라 향상
실험 결과 상세
GPT 시리즈 Self-Knowledge (F1 Score↑, Instruction 형식)
Model
Params
F1 Score
text-ada-001
350M
30.42
text-babbage-001
1.3B
30.17
text-curie-001
6.7B
33.33
text-davinci-001
175B
45.67
text-davinci-002
175B
47.48
text-davinci-003
175B
51.43
gpt-3.5-turbo
175B
54.12
gpt-4
-
75.47
Human
-
84.93
LLaMA 계열 Self-Knowledge (F1 Score↑, Instruction 형식)
Model
F1 Score
LLaMA-7B
28.57
Alpaca-7B
35.87
Vicuna-7B
42.78
LLaMA-13B
30.12
Alpaca-13B
37.44
Vicuna-13B
47.84
LLaMA-30B
30.3
LLaMA-65B
46.89
ICL 형식 davinci 시리즈 비교 (F1 Score↑)
Model
F1 Score
davinci
55.5
text-davinci-001
65.12
text-davinci-002
66.46
text-davinci-003
66.28
gpt-3.5-turbo
60.86
Discussion
한계 1: 참조 문장의 일반화 — GPT-3/InstructGPT에서만 추출하여 다른 LLM의 불확실성 표현 패턴을 누락할 가능성
한계 2: 입력 형식의 제한 — Direct, Instruction, ICL 3가지만 탐색. Reflexion, ToT, MoT 등 고급 프롬프팅과의 결합 미탐구
향후 방향: 더 정확한 참조 문장 자동 획득, 고급 추론 방법론과의 통합
Insights
주목할 점: 모델 크기보다 instruction tuning이 self-knowledge 향상에 더 효과적 — Vicuna-13B가 LLaMA-65B를 능가
연결 고리: R-Tuning(Zhang et al., 2024)이 이 연구의 “Known Unknows” 개념을 직접 확장하여 refusal-aware 훈련으로 발전
시사점: 자기 지식은 emergent ability로 볼 수 있으며, 명시적 훈련 없이도 모델 규모와 함께 자연스럽게 향상
질문: SimCSE 유사도 threshold 0.75가 모든 모델에 동일하게 적용 가능한가? 모델별 불확실성 표현 패턴이 다를 수 있음
비판적 코멘트: (1) 평가가 텍스트 유사도에 의존하여 미묘한 hedging이나 간접적 불확실성 표현을 놓칠 수 있음. (2) Train/eval split이 공식적으로 제공되지 않아 학습용 활용이 제한적. (3) Open-ended QA 형식으로 Multiple-choice 형식이 아님
Discussion Points
논쟁점: “self-knowledge”를 F1 score로 환원하는 것이 적절한가? 모델이 단순히 불확실성 표현 패턴을 학습한 것과 실제 자기 인식은 다를 수 있음
검증 필요 가정: 16개 참조 문장이 모든 유형의 불확실성 표현을 충분히 커버하는지 — 문화적/언어적 차이 고려 부족
후속 연구: (1) Multiple-choice 형식으로의 전환을 통한 보다 통제된 평가, (2) 모델의 내부 표현과 self-knowledge 간의 관계 탐구, (3) 다국어 환경에서의 self-knowledge 평가
벤치마크 적합성 참고: 본 데이터셋은 open-ended QA 형식이며, 명시적 train/eval split을 제공하지 않음. 그러나 SelfAware 데이터셋 자체는 공개되어 있어 연구자가 자체적으로 분할 가능