Introduction

LLM이 방대한 지식을 보유하고 있지만, 자신이 모르는 것을 인식하는 능력(self-knowledge)은 실용적 활용에서 핵심적
기존 데이터셋(SQuAD 2.0, NewsQA)의 unanswerable 질문은 맥락 의존적이어서 추가 정보로 답변 가능해지는 한계
Know-Unknow Quadrant 프레임워크를 제안하여 “Known Unknows” 대 “Unknown Unknows” 비율로 자기 지식 수준을 정량화
주요 기여: (1) SelfAware 데이터셋 구축 (1,032 unanswerable + 2,337 answerable), (2) 텍스트 유사도 기반 불확실성 자동 탐지 방법론, (3) 20개 LLM 대상 종합 분석

SQuAD 2.0 (Rajpurkar et al., 2018): 맥락 기반 unanswerable 질문 — 추가 정보로 답변 가능해지는 한계
BIG-bench Know-Unknowns (Srivastava et al., 2022): 23쌍의 MC 질문으로 LLM 지식 경계 평가 시도 → 랜덤 수준 성능
Kadavath et al. (2022): Value Head를 통한 self-knowledge 탐색 — 도메인/태스크 전환 시 일반화 어려움
SimCSE (Gao et al., 2021): 문장 임베딩 유사도 계산에 활용

Methods

SelfAware 데이터셋 구축: Quora, HowStuffWorks 등에서 2,858개 unanswerable 질문 수집 → 3명의 annotator 독립 검증 → 1,032개 확정
Answerable 질문: SQuAD(1,487), HotpotQA(182), TriviaQA(668) — SimCSE로 unanswerable 질문과 의미적으로 유사한 것 선별
5가지 Unanswerable 카테고리: 과학적 합의 부재(25%), 상상(15%), 완전 주관적(27%), 변수 과다(10%), 철학적(23%)
평가 방법론: 16개 불확실성 참조 문장과 모델 응답 간 SimCSE 유사도 계산 (threshold=0.75), sliding window(길이 5) 적용
3가지 입력 형식: Direct, Instruction, In-Context Learning (ICL)
평가 지표: F1 score (unanswerable = positive, answerable = negative)

방법론 다이어그램

graph TD
    A[질문 입력] --> B{입력 형식 선택}
    B -->|Direct| C[직접 질문]
    B -->|Instruction| D[지시문 포함 질문]
    B -->|ICL| E[예시 포함 질문]
    C --> F[LLM 응답 생성]
    D --> F
    E --> F
    F --> G[Sliding Window 분할]
    G --> H[SimCSE 유사도 계산]
    H --> I{유사도 >= 0.75?}
    I -->|Yes| J[불확실성 표현 감지]
    I -->|No| K[확정적 응답]
    J --> L[F1 Score 계산]
    K --> L

    style A fill:#e1f5fe
    style L fill:#e8f5e9

Results

모델 크기 효과: 파라미터 증가에 따라 F1 Score 향상 — scaling law와 일치
Instruction Tuning 효과: InstructGPT > GPT-3, Vicuna-13B > LLaMA-65B (instruction tuning의 효과 입증)
입력 형식 효과: ICL > Instruction > Direct — davinci 모델에서 ICL이 Direct 대비 27.96% 향상
인간 vs LLM: GPT-4 최고 F1 75.47% vs 인간 84.93% — 여전히 상당한 격차 존재
Answerable 정확도: text-ada-001(2.48%) → GPT-4(42.64%)로 모델 발전에 따라 향상

실험 결과 상세

GPT 시리즈 Self-Knowledge (F1 Score↑, Instruction 형식)

Model	Params	F1 Score
text-ada-001	350M	30.42
text-babbage-001	1.3B	30.17
text-curie-001	6.7B	33.33
text-davinci-001	175B	45.67
text-davinci-002	175B	47.48
text-davinci-003	175B	51.43
gpt-3.5-turbo	175B	54.12
gpt-4	-	75.47
Human	-	84.93

LLaMA 계열 Self-Knowledge (F1 Score↑, Instruction 형식)

Model	F1 Score
LLaMA-7B	28.57
Alpaca-7B	35.87
Vicuna-7B	42.78
LLaMA-13B	30.12
Alpaca-13B	37.44
Vicuna-13B	47.84
LLaMA-30B	30.3
LLaMA-65B	46.89

ICL 형식 davinci 시리즈 비교 (F1 Score↑)

Model	F1 Score
davinci	55.5
text-davinci-001	65.12
text-davinci-002	66.46
text-davinci-003	66.28
gpt-3.5-turbo	60.86

Discussion

한계 1: 참조 문장의 일반화 — GPT-3/InstructGPT에서만 추출하여 다른 LLM의 불확실성 표현 패턴을 누락할 가능성
한계 2: 입력 형식의 제한 — Direct, Instruction, ICL 3가지만 탐색. Reflexion, ToT, MoT 등 고급 프롬프팅과의 결합 미탐구
향후 방향: 더 정확한 참조 문장 자동 획득, 고급 추론 방법론과의 통합

Insights

주목할 점: 모델 크기보다 instruction tuning이 self-knowledge 향상에 더 효과적 — Vicuna-13B가 LLaMA-65B를 능가
연결 고리: R-Tuning(Zhang et al., 2024)이 이 연구의 “Known Unknows” 개념을 직접 확장하여 refusal-aware 훈련으로 발전
시사점: 자기 지식은 emergent ability로 볼 수 있으며, 명시적 훈련 없이도 모델 규모와 함께 자연스럽게 향상
질문: SimCSE 유사도 threshold 0.75가 모든 모델에 동일하게 적용 가능한가? 모델별 불확실성 표현 패턴이 다를 수 있음
비판적 코멘트: (1) 평가가 텍스트 유사도에 의존하여 미묘한 hedging이나 간접적 불확실성 표현을 놓칠 수 있음. (2) Train/eval split이 공식적으로 제공되지 않아 학습용 활용이 제한적. (3) Open-ended QA 형식으로 Multiple-choice 형식이 아님

Discussion Points

논쟁점: “self-knowledge”를 F1 score로 환원하는 것이 적절한가? 모델이 단순히 불확실성 표현 패턴을 학습한 것과 실제 자기 인식은 다를 수 있음
검증 필요 가정: 16개 참조 문장이 모든 유형의 불확실성 표현을 충분히 커버하는지 — 문화적/언어적 차이 고려 부족
후속 연구: (1) Multiple-choice 형식으로의 전환을 통한 보다 통제된 평가, (2) 모델의 내부 표현과 self-knowledge 간의 관계 탐구, (3) 다국어 환경에서의 self-knowledge 평가
벤치마크 적합성 참고: 본 데이터셋은 open-ended QA 형식이며, 명시적 train/eval split을 제공하지 않음. 그러나 SelfAware 데이터셋 자체는 공개되어 있어 연구자가 자체적으로 분할 가능

Juhyeon's Blog

탐색기

Do Large Language Models Know What They Don't Know

Introduction

Methods

방법론 다이어그램

Results

실험 결과 상세

GPT 시리즈 Self-Knowledge (F1 Score↑, Instruction 형식)

LLaMA 계열 Self-Knowledge (F1 Score↑, Instruction 형식)

ICL 형식 davinci 시리즈 비교 (F1 Score↑)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Do Large Language Models Know What They Don't Know

Introduction

Related Papers

Methods

방법론 다이어그램

Results

실험 결과 상세

GPT 시리즈 Self-Knowledge (F1 Score↑, Instruction 형식)

LLaMA 계열 Self-Knowledge (F1 Score↑, Instruction 형식)

ICL 형식 davinci 시리즈 비교 (F1 Score↑)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크