Introduction


  • 기존 LLM은 미지 질문(unknown questions)에 대해 단순히 “I don’t know”라고 답하거나, 그럴듯하지만 틀린 답변(hallucination)을 생성
  • 단순한 거절은 사용자에게 도움이 되지 않으며, 왜 답할 수 없는지에 대한 설명이 필요
  • 4가지 미지 질문 유형: (1) Incomplete (정보 부족), (2) Futuristic (미래 예측), (3) Incorrect (사실 오류 포함), (4) Ambiguous (모호한 표현)
  • Self-Align 방법론: 외부 인간 annotation 없이 모델 스스로 미지 질문에 대한 고품질 훈련 데이터를 생성 → 자기정렬(self-alignment)
  • 주요 기여: (1) 4가지 미지 질문 유형 정의 및 분류 체계, (2) Two-stage class-aware self-augmentation + disparity-driven self-curation 파이프라인, (3) 3가지 과제 형식(Unknown Question Detection, Classification, Open-ended Response Generation), (4) SelfAware 데이터셋에서 R-Tuning 대비 큰 폭 향상

Related Papers


  • R-Tuning (Zhang et al., 2023): Known/Unknown 분리 훈련 — Self-Align의 주요 baseline. “I don’t know”만 출력, 설명 미제공
  • SelfAware (Yin et al., 2023): LLM 자기 지식 평가 데이터셋 — Self-Align의 추가 평가에 활용
  • Proactive/ProCoT (Deng et al., 2023b): 모호한 질문에 대한 clarification question 생성 — Self-Align이 이를 확장
  • Hint (Slobodkin et al., 2023): “Unanswerable” 힌트 제공 프롬프팅 — baseline으로 비교
  • 한계: 기존 연구들은 단순 거절에 그치며, 질문이 왜 답할 수 없는지에 대한 설명을 포함하는 응답 생성 방법론 부재

Methods


Self-Align 파이프라인

Stage 1: Class-Aware Self-Augmentation

  • Step 1 — Guided Question Rewriting: 각 미지 질문 유형별 seed data (5개)를 사용하여 known question을 unknown question으로 변환
    • Incomplete: 정보 삭제/변경으로 불완전한 질문 생성
    • Futuristic: 과거 시점을 미래로 변경
    • Incorrect: 주어/목적어/부사 등을 교체하여 사실 오류 도입
    • Ambiguous: 말장난(pun)을 활용한 모호한 질문 생성
  • Step 2 — Conditioned Response Generation: 각 유형별 맞춤 프롬프트로 설명 포함 응답 생성
    • “먼저 왜 이 질문이 미지 질문인지 분석하고, 분류적 논의나 정확한 답변 회피 방식으로 답하라”

Stage 2: Self-Curation

  • Principle-driven Self-Curation: 5점 척도로 응답 품질 자체 평가 (1=질문 이해 실패 ~ 5=완벽한 응답)
  • Disparity-driven Self-Curation: Unknown question 응답과 대응되는 Known question 응답 간의 차이(disparity) 점수화 (0~100)
    • 높은 disparity = 미지 질문에 대해 차별화된 응답 생성 성공
  • 두 점수를 결합하여 최종 훈련 데이터 필터링

3가지 과제 형식

  1. Unknown Question Detection: 질문이 known인지 unknown인지 binary classification
  2. Unknown Question Classification: 4가지 유형 중 해당 카테고리 분류
  3. Open-ended Response Generation: 설명 포함 거절 응답 생성

방법론 다이어그램

graph TD
    A[Known Question<br/>+ Seed Data 5개/유형] --> B[Guided Question Rewriting<br/>유형별 변환]
    B --> C[Unknown Questions 생성<br/>4가지 유형]
    C --> D[Conditioned Response<br/>Generation]
    D --> E[Self-Augmented 데이터]
    E --> F[Principle-driven<br/>Self-Curation<br/>5점 척도 품질 평가]
    E --> G[Disparity-driven<br/>Self-Curation<br/>Known vs Unknown 차이 점수]
    F --> H[최종 훈련 데이터<br/>필터링]
    G --> H
    H --> I[Fine-Tuning]
    I --> J[Self-Aligned Model]
    J --> K[Detection: Known/Unknown 분류]
    J --> L[Classification: 4유형 분류]
    J --> M[Generation: 설명 포함 거절]

    style A fill:#e1f5fe
    style J fill:#e8f5e9

Results


  • 모델: Vicuna-7B, LLaMA2-7B-Chat
  • 데이터셋: 자체 구축 데이터셋 (4가지 유형별 200개 test) + SelfAware 데이터셋 (Yin et al., 2023)
  • 데이터 형식: Open-ended QA + binary classification. Train/eval split 존재 (자체 구축 훈련 데이터 + 별도 테스트 세트). Multiple-choice 형식 아님
  • Self-Augmented 데이터 품질: 인간 평가에서 zero-shot 대비 Honesty, Comprehensibility, Helpfulness 모두 대폭 향상

실험 결과 상세

자기정렬 데이터 품질 평가 (Human Evaluation, 0-2 Scale)

ResponseIncomp. Hon.Incomp. Comp.Incomp. Help.Future Hon.Future Comp.Future Help.Avg Hon.Avg Comp.Avg Help.
Zero-shot (Vicuna)0.850.300.150.950.851.200.840.540.50
Self-augmented1.951.651.552.001.851.801.881.581.30

SelfAware 데이터셋 — Unknown Question Detection (F1↑)

ModelMethodF1 Score
VicunaZero-shot0.193
VicunaDef+q’(5)+q(5)0.338
VicunaSelf-Ask0.253
VicunaSFT (AmbigQA)0.397
VicunaR-Tuning0.463
VicunaSelf-Aligned0.626
LLaMA2Zero-shot0.230
LLaMA2Def+q’(5)+q(5)0.375
LLaMA2Self-Ask0.329
LLaMA2SFT (AmbigQA)0.427
LLaMA2R-Tuning0.507
LLaMA2Self-Aligned0.759

SelfAware — Open-ended Response Generation (Win Rate vs. Self-Aligned K=3)

ModelMethodWin Rate
VicunaZero-shot0.595
VicunaFew-shot (5)0.675
VicunaProactive0.753
VicunaProCoT0.718
VicunaHint0.645
VicunaSelf-Aligned (K=1)0.603
VicunaSelf-Aligned (K=2)0.558
LLaMA2Zero-shot0.573
LLaMA2Few-shot (5)0.613
LLaMA2Proactive0.625
LLaMA2ProCoT0.598
LLaMA2Hint0.563
LLaMA2Self-Aligned (K=1)0.540
LLaMA2Self-Aligned (K=2)0.525

Known Questions 응답 품질 (Win Rate, ~0.50 = 영향 없음)

관찰수치
Self-Aligned vs Zero-shot (Avg)~0.500-0.507
Self-Aligned vs Few-shot (Avg)~0.494-0.503
Self-Aligned vs K=1, K=2 (Avg)~0.497-0.504

→ Known questions에 대한 응답 품질은 거의 영향 없음 (win rate ≈ 0.50)

Discussion


  • 한계 1: 미지 질문 유형이 4가지로 제한 — 더 넓은 범위의 미지 질문 유형(예: 윤리적 질문, 개인정보 관련 질문) 미포함
  • 한계 2: Ambiguous 카테고리가 pun(말장난)으로만 대표 — 실제 모호성의 다양성 반영 부족
  • 한계 3: 7B 모델로만 실험 — 대형 모델(70B+)에서의 효과 미검증
  • 한계 4: 영어 데이터셋만 사용 — 다국어 환경에서의 일반화 미확인
  • 향후 방향: (1) 더 다양한 미지 질문 유형 확장, (2) 대형 모델에서의 검증, (3) 다국어 Self-Align

Insights


  • 주목할 점: Self-Aligned가 R-Tuning을 SelfAware에서 대폭 초과 (Vicuna: 0.626 vs 0.463, LLaMA2: 0.759 vs 0.507) — 설명 포함 거절이 단순 거절보다 탐지 능력도 향상시킴
  • 연결 고리: R-Tuning (Zhang et al., 2023)의 binary refusal을 “왜 모르는지 설명”으로 확장. SelfAware (Yin et al., 2023)의 데이터셋을 추가 평가에 활용하여 연구 연속성 확보
  • 시사점: (1) 외부 annotation 없이 모델 자체로 고품질 훈련 데이터 생성 가능 (self-augmentation + self-curation), (2) Known questions 응답 품질에 영향 없이 unknown questions 처리 능력만 향상 — safety alignment과 유사한 패턴, (3) Disparity-driven curation이 원리 기반 curation보다 효과적 — 응답 차별화가 핵심
  • 질문: Self-Align의 self-curation이 모델의 현재 능력에 의존하므로, 약한 모델에서는 curation 품질도 낮아지는 순환 문제가 발생하지 않는가?
  • 비판적 코멘트: (1) 전용 벤치마크 데이터셋의 규모가 작음 (유형별 200개 test). (2) Multiple-choice 형식이 아닌 open-ended QA로 자동 평가의 재현성이 GPT-4 의존적. (3) Curation 단계 K값(iteration 수)에 따른 성능 변화가 K=3에서 최적이지만, 이 값의 선택 근거가 경험적

Discussion Points


  • 논쟁점: “설명 포함 거절”이 항상 바람직한가? 일부 상황(의료, 법률)에서는 간결한 거절이 오히려 안전할 수 있으며, 잘못된 설명이 더 큰 위험을 초래할 가능성
  • 검증 필요 가정: (1) GPT-4를 automatic evaluator로 사용한 win rate의 신뢰성 — human evaluation과의 일관성 검증 필요. (2) Self-curation의 품질이 base model 능력에 의존 — 더 약한 모델에서의 효과 검증 필요
  • 후속 연구: (1) Multi-turn 대화에서의 unknown question 처리 (후속 질문으로 정보 보완), (2) Retrieval-augmented setting에서 검색 실패와 미지 질문의 구분, (3) 사용자 연구를 통한 “설명 포함 거절” vs “단순 거절”의 실제 사용성 비교
  • 벤치마크 적합성 참고: 자체 데이터셋 train/eval split 존재. SelfAware 데이터셋 추가 평가. Open-ended QA 형식으로 multiple-choice 아님. 코드 공개 (https://github.com/thunlp/KnowUnDo)