Introduction

기존 LLM은 미지 질문(unknown questions)에 대해 단순히 “I don’t know”라고 답하거나, 그럴듯하지만 틀린 답변(hallucination)을 생성
단순한 거절은 사용자에게 도움이 되지 않으며, 왜 답할 수 없는지에 대한 설명이 필요
4가지 미지 질문 유형: (1) Incomplete (정보 부족), (2) Futuristic (미래 예측), (3) Incorrect (사실 오류 포함), (4) Ambiguous (모호한 표현)
Self-Align 방법론: 외부 인간 annotation 없이 모델 스스로 미지 질문에 대한 고품질 훈련 데이터를 생성 → 자기정렬(self-alignment)
주요 기여: (1) 4가지 미지 질문 유형 정의 및 분류 체계, (2) Two-stage class-aware self-augmentation + disparity-driven self-curation 파이프라인, (3) 3가지 과제 형식(Unknown Question Detection, Classification, Open-ended Response Generation), (4) SelfAware 데이터셋에서 R-Tuning 대비 큰 폭 향상

R-Tuning (Zhang et al., 2023): Known/Unknown 분리 훈련 — Self-Align의 주요 baseline. “I don’t know”만 출력, 설명 미제공
SelfAware (Yin et al., 2023): LLM 자기 지식 평가 데이터셋 — Self-Align의 추가 평가에 활용
Proactive/ProCoT (Deng et al., 2023b): 모호한 질문에 대한 clarification question 생성 — Self-Align이 이를 확장
Hint (Slobodkin et al., 2023): “Unanswerable” 힌트 제공 프롬프팅 — baseline으로 비교
한계: 기존 연구들은 단순 거절에 그치며, 질문이 왜 답할 수 없는지에 대한 설명을 포함하는 응답 생성 방법론 부재

Methods

Self-Align 파이프라인

Stage 1: Class-Aware Self-Augmentation

Step 1 — Guided Question Rewriting: 각 미지 질문 유형별 seed data (5개)를 사용하여 known question을 unknown question으로 변환
- Incomplete: 정보 삭제/변경으로 불완전한 질문 생성
- Futuristic: 과거 시점을 미래로 변경
- Incorrect: 주어/목적어/부사 등을 교체하여 사실 오류 도입
- Ambiguous: 말장난(pun)을 활용한 모호한 질문 생성
Step 2 — Conditioned Response Generation: 각 유형별 맞춤 프롬프트로 설명 포함 응답 생성
- “먼저 왜 이 질문이 미지 질문인지 분석하고, 분류적 논의나 정확한 답변 회피 방식으로 답하라”

Stage 2: Self-Curation

Principle-driven Self-Curation: 5점 척도로 응답 품질 자체 평가 (1=질문 이해 실패 ~ 5=완벽한 응답)
Disparity-driven Self-Curation: Unknown question 응답과 대응되는 Known question 응답 간의 차이(disparity) 점수화 (0~100)
- 높은 disparity = 미지 질문에 대해 차별화된 응답 생성 성공
두 점수를 결합하여 최종 훈련 데이터 필터링

3가지 과제 형식

Unknown Question Detection: 질문이 known인지 unknown인지 binary classification
Unknown Question Classification: 4가지 유형 중 해당 카테고리 분류
Open-ended Response Generation: 설명 포함 거절 응답 생성

방법론 다이어그램

graph TD
    A[Known Question<br/>+ Seed Data 5개/유형] --> B[Guided Question Rewriting<br/>유형별 변환]
    B --> C[Unknown Questions 생성<br/>4가지 유형]
    C --> D[Conditioned Response<br/>Generation]
    D --> E[Self-Augmented 데이터]
    E --> F[Principle-driven<br/>Self-Curation<br/>5점 척도 품질 평가]
    E --> G[Disparity-driven<br/>Self-Curation<br/>Known vs Unknown 차이 점수]
    F --> H[최종 훈련 데이터<br/>필터링]
    G --> H
    H --> I[Fine-Tuning]
    I --> J[Self-Aligned Model]
    J --> K[Detection: Known/Unknown 분류]
    J --> L[Classification: 4유형 분류]
    J --> M[Generation: 설명 포함 거절]

    style A fill:#e1f5fe
    style J fill:#e8f5e9

Results

모델: Vicuna-7B, LLaMA2-7B-Chat
데이터셋: 자체 구축 데이터셋 (4가지 유형별 200개 test) + SelfAware 데이터셋 (Yin et al., 2023)
데이터 형식: Open-ended QA + binary classification. Train/eval split 존재 (자체 구축 훈련 데이터 + 별도 테스트 세트). Multiple-choice 형식 아님
Self-Augmented 데이터 품질: 인간 평가에서 zero-shot 대비 Honesty, Comprehensibility, Helpfulness 모두 대폭 향상

실험 결과 상세

자기정렬 데이터 품질 평가 (Human Evaluation, 0-2 Scale)

Response	Incomp. Hon.	Incomp. Comp.	Incomp. Help.	Future Hon.	Future Comp.	Future Help.	Avg Hon.	Avg Comp.	Avg Help.
Zero-shot (Vicuna)	0.85	0.30	0.15	0.95	0.85	1.20	0.84	0.54	0.50
Self-augmented	1.95	1.65	1.55	2.00	1.85	1.80	1.88	1.58	1.30

SelfAware 데이터셋 — Unknown Question Detection (F1↑)

Model	Method	F1 Score
Vicuna	Zero-shot	0.193
Vicuna	Def+q’(5)+q(5)	0.338
Vicuna	Self-Ask	0.253
Vicuna	SFT (AmbigQA)	0.397
Vicuna	R-Tuning	0.463
Vicuna	Self-Aligned	0.626
LLaMA2	Zero-shot	0.230
LLaMA2	Def+q’(5)+q(5)	0.375
LLaMA2	Self-Ask	0.329
LLaMA2	SFT (AmbigQA)	0.427
LLaMA2	R-Tuning	0.507
LLaMA2	Self-Aligned	0.759

SelfAware — Open-ended Response Generation (Win Rate vs. Self-Aligned K=3)

Model	Method	Win Rate
Vicuna	Zero-shot	0.595
Vicuna	Few-shot (5)	0.675
Vicuna	Proactive	0.753
Vicuna	ProCoT	0.718
Vicuna	Hint	0.645
Vicuna	Self-Aligned (K=1)	0.603
Vicuna	Self-Aligned (K=2)	0.558
LLaMA2	Zero-shot	0.573
LLaMA2	Few-shot (5)	0.613
LLaMA2	Proactive	0.625
LLaMA2	ProCoT	0.598
LLaMA2	Hint	0.563
LLaMA2	Self-Aligned (K=1)	0.540
LLaMA2	Self-Aligned (K=2)	0.525

Known Questions 응답 품질 (Win Rate, ~0.50 = 영향 없음)

관찰	수치
Self-Aligned vs Zero-shot (Avg)	~0.500-0.507
Self-Aligned vs Few-shot (Avg)	~0.494-0.503
Self-Aligned vs K=1, K=2 (Avg)	~0.497-0.504

→ Known questions에 대한 응답 품질은 거의 영향 없음 (win rate ≈ 0.50)

Discussion

한계 1: 미지 질문 유형이 4가지로 제한 — 더 넓은 범위의 미지 질문 유형(예: 윤리적 질문, 개인정보 관련 질문) 미포함
한계 2: Ambiguous 카테고리가 pun(말장난)으로만 대표 — 실제 모호성의 다양성 반영 부족
한계 3: 7B 모델로만 실험 — 대형 모델(70B+)에서의 효과 미검증
한계 4: 영어 데이터셋만 사용 — 다국어 환경에서의 일반화 미확인
향후 방향: (1) 더 다양한 미지 질문 유형 확장, (2) 대형 모델에서의 검증, (3) 다국어 Self-Align

Insights

주목할 점: Self-Aligned가 R-Tuning을 SelfAware에서 대폭 초과 (Vicuna: 0.626 vs 0.463, LLaMA2: 0.759 vs 0.507) — 설명 포함 거절이 단순 거절보다 탐지 능력도 향상시킴
연결 고리: R-Tuning (Zhang et al., 2023)의 binary refusal을 “왜 모르는지 설명”으로 확장. SelfAware (Yin et al., 2023)의 데이터셋을 추가 평가에 활용하여 연구 연속성 확보
시사점: (1) 외부 annotation 없이 모델 자체로 고품질 훈련 데이터 생성 가능 (self-augmentation + self-curation), (2) Known questions 응답 품질에 영향 없이 unknown questions 처리 능력만 향상 — safety alignment과 유사한 패턴, (3) Disparity-driven curation이 원리 기반 curation보다 효과적 — 응답 차별화가 핵심
질문: Self-Align의 self-curation이 모델의 현재 능력에 의존하므로, 약한 모델에서는 curation 품질도 낮아지는 순환 문제가 발생하지 않는가?
비판적 코멘트: (1) 전용 벤치마크 데이터셋의 규모가 작음 (유형별 200개 test). (2) Multiple-choice 형식이 아닌 open-ended QA로 자동 평가의 재현성이 GPT-4 의존적. (3) Curation 단계 K값(iteration 수)에 따른 성능 변화가 K=3에서 최적이지만, 이 값의 선택 근거가 경험적

Discussion Points

논쟁점: “설명 포함 거절”이 항상 바람직한가? 일부 상황(의료, 법률)에서는 간결한 거절이 오히려 안전할 수 있으며, 잘못된 설명이 더 큰 위험을 초래할 가능성
검증 필요 가정: (1) GPT-4를 automatic evaluator로 사용한 win rate의 신뢰성 — human evaluation과의 일관성 검증 필요. (2) Self-curation의 품질이 base model 능력에 의존 — 더 약한 모델에서의 효과 검증 필요
후속 연구: (1) Multi-turn 대화에서의 unknown question 처리 (후속 질문으로 정보 보완), (2) Retrieval-augmented setting에서 검색 실패와 미지 질문의 구분, (3) 사용자 연구를 통한 “설명 포함 거절” vs “단순 거절”의 실제 사용성 비교
벤치마크 적합성 참고: 자체 데이터셋 train/eval split 존재. SelfAware 데이터셋 추가 평가. Open-ended QA 형식으로 multiple-choice 아님. 코드 공개 (https://github.com/thunlp/KnowUnDo)

Juhyeon's Blog

탐색기

Don't Just Say I don't know - Self-aligning LLMs for Responding to Unknown Questions

Introduction

Methods

Self-Align 파이프라인

Stage 1: Class-Aware Self-Augmentation

Stage 2: Self-Curation

3가지 과제 형식

방법론 다이어그램

Results

실험 결과 상세

자기정렬 데이터 품질 평가 (Human Evaluation, 0-2 Scale)

SelfAware 데이터셋 — Unknown Question Detection (F1↑)

SelfAware — Open-ended Response Generation (Win Rate vs. Self-Aligned K=3)

Known Questions 응답 품질 (Win Rate, ~0.50 = 영향 없음)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Don't Just Say I don't know - Self-aligning LLMs for Responding to Unknown Questions

Introduction

Related Papers

Methods

Self-Align 파이프라인

Stage 1: Class-Aware Self-Augmentation

Stage 2: Self-Curation

3가지 과제 형식

방법론 다이어그램

Results

실험 결과 상세

자기정렬 데이터 품질 평가 (Human Evaluation, 0-2 Scale)

SelfAware 데이터셋 — Unknown Question Detection (F1↑)

SelfAware — Open-ended Response Generation (Win Rate vs. Self-Aligned K=3)

Known Questions 응답 품질 (Win Rate, ~0.50 = 영향 없음)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크