Introduction


  • LLM이 방대한 지식을 보유하고 있지만, 자신이 모르는 것을 인식하는 능력(self-knowledge)은 실용적 활용에서 핵심적
  • 기존 데이터셋(SQuAD 2.0, NewsQA)의 unanswerable 질문은 맥락 의존적이어서 추가 정보로 답변 가능해지는 한계
  • Know-Unknow Quadrant 프레임워크를 제안하여 “Known Unknows” 대 “Unknown Unknows” 비율로 자기 지식 수준을 정량화
  • 주요 기여: (1) SelfAware 데이터셋 구축 (1,032 unanswerable + 2,337 answerable), (2) 텍스트 유사도 기반 불확실성 자동 탐지 방법론, (3) 20개 LLM 대상 종합 분석

Related Papers


  • SQuAD 2.0 (Rajpurkar et al., 2018): 맥락 기반 unanswerable 질문 — 추가 정보로 답변 가능해지는 한계
  • BIG-bench Know-Unknowns (Srivastava et al., 2022): 23쌍의 MC 질문으로 LLM 지식 경계 평가 시도 → 랜덤 수준 성능
  • Kadavath et al. (2022): Value Head를 통한 self-knowledge 탐색 — 도메인/태스크 전환 시 일반화 어려움
  • SimCSE (Gao et al., 2021): 문장 임베딩 유사도 계산에 활용

Methods


  • SelfAware 데이터셋 구축: Quora, HowStuffWorks 등에서 2,858개 unanswerable 질문 수집 → 3명의 annotator 독립 검증 → 1,032개 확정
  • Answerable 질문: SQuAD(1,487), HotpotQA(182), TriviaQA(668) — SimCSE로 unanswerable 질문과 의미적으로 유사한 것 선별
  • 5가지 Unanswerable 카테고리: 과학적 합의 부재(25%), 상상(15%), 완전 주관적(27%), 변수 과다(10%), 철학적(23%)
  • 평가 방법론: 16개 불확실성 참조 문장과 모델 응답 간 SimCSE 유사도 계산 (threshold=0.75), sliding window(길이 5) 적용
  • 3가지 입력 형식: Direct, Instruction, In-Context Learning (ICL)
  • 평가 지표: F1 score (unanswerable = positive, answerable = negative)

방법론 다이어그램

graph TD
    A[질문 입력] --> B{입력 형식 선택}
    B -->|Direct| C[직접 질문]
    B -->|Instruction| D[지시문 포함 질문]
    B -->|ICL| E[예시 포함 질문]
    C --> F[LLM 응답 생성]
    D --> F
    E --> F
    F --> G[Sliding Window 분할]
    G --> H[SimCSE 유사도 계산]
    H --> I{유사도 >= 0.75?}
    I -->|Yes| J[불확실성 표현 감지]
    I -->|No| K[확정적 응답]
    J --> L[F1 Score 계산]
    K --> L

    style A fill:#e1f5fe
    style L fill:#e8f5e9

Results


  • 모델 크기 효과: 파라미터 증가에 따라 F1 Score 향상 — scaling law와 일치
  • Instruction Tuning 효과: InstructGPT > GPT-3, Vicuna-13B > LLaMA-65B (instruction tuning의 효과 입증)
  • 입력 형식 효과: ICL > Instruction > Direct — davinci 모델에서 ICL이 Direct 대비 27.96% 향상
  • 인간 vs LLM: GPT-4 최고 F1 75.47% vs 인간 84.93% — 여전히 상당한 격차 존재
  • Answerable 정확도: text-ada-001(2.48%) → GPT-4(42.64%)로 모델 발전에 따라 향상

실험 결과 상세

GPT 시리즈 Self-Knowledge (F1 Score↑, Instruction 형식)

ModelParamsF1 Score
text-ada-001350M30.42
text-babbage-0011.3B30.17
text-curie-0016.7B33.33
text-davinci-001175B45.67
text-davinci-002175B47.48
text-davinci-003175B51.43
gpt-3.5-turbo175B54.12
gpt-4-75.47
Human-84.93

LLaMA 계열 Self-Knowledge (F1 Score↑, Instruction 형식)

ModelF1 Score
LLaMA-7B28.57
Alpaca-7B35.87
Vicuna-7B42.78
LLaMA-13B30.12
Alpaca-13B37.44
Vicuna-13B47.84
LLaMA-30B30.3
LLaMA-65B46.89

ICL 형식 davinci 시리즈 비교 (F1 Score↑)

ModelF1 Score
davinci55.5
text-davinci-00165.12
text-davinci-00266.46
text-davinci-00366.28
gpt-3.5-turbo60.86

Discussion


  • 한계 1: 참조 문장의 일반화 — GPT-3/InstructGPT에서만 추출하여 다른 LLM의 불확실성 표현 패턴을 누락할 가능성
  • 한계 2: 입력 형식의 제한 — Direct, Instruction, ICL 3가지만 탐색. Reflexion, ToT, MoT 등 고급 프롬프팅과의 결합 미탐구
  • 향후 방향: 더 정확한 참조 문장 자동 획득, 고급 추론 방법론과의 통합

Insights


  • 주목할 점: 모델 크기보다 instruction tuning이 self-knowledge 향상에 더 효과적 — Vicuna-13B가 LLaMA-65B를 능가
  • 연결 고리: R-Tuning(Zhang et al., 2024)이 이 연구의 “Known Unknows” 개념을 직접 확장하여 refusal-aware 훈련으로 발전
  • 시사점: 자기 지식은 emergent ability로 볼 수 있으며, 명시적 훈련 없이도 모델 규모와 함께 자연스럽게 향상
  • 질문: SimCSE 유사도 threshold 0.75가 모든 모델에 동일하게 적용 가능한가? 모델별 불확실성 표현 패턴이 다를 수 있음
  • 비판적 코멘트: (1) 평가가 텍스트 유사도에 의존하여 미묘한 hedging이나 간접적 불확실성 표현을 놓칠 수 있음. (2) Train/eval split이 공식적으로 제공되지 않아 학습용 활용이 제한적. (3) Open-ended QA 형식으로 Multiple-choice 형식이 아님

Discussion Points


  • 논쟁점: “self-knowledge”를 F1 score로 환원하는 것이 적절한가? 모델이 단순히 불확실성 표현 패턴을 학습한 것과 실제 자기 인식은 다를 수 있음
  • 검증 필요 가정: 16개 참조 문장이 모든 유형의 불확실성 표현을 충분히 커버하는지 — 문화적/언어적 차이 고려 부족
  • 후속 연구: (1) Multiple-choice 형식으로의 전환을 통한 보다 통제된 평가, (2) 모델의 내부 표현과 self-knowledge 간의 관계 탐구, (3) 다국어 환경에서의 self-knowledge 평가
  • 벤치마크 적합성 참고: 본 데이터셋은 open-ended QA 형식이며, 명시적 train/eval split을 제공하지 않음. 그러나 SelfAware 데이터셋 자체는 공개되어 있어 연구자가 자체적으로 분할 가능