Self-Align 방법론: 외부 인간 annotation 없이 모델 스스로 미지 질문에 대한 고품질 훈련 데이터를 생성 → 자기정렬(self-alignment)
주요 기여: (1) 4가지 미지 질문 유형 정의 및 분류 체계, (2) Two-stage class-aware self-augmentation + disparity-driven self-curation 파이프라인, (3) 3가지 과제 형식(Unknown Question Detection, Classification, Open-ended Response Generation), (4) SelfAware 데이터셋에서 R-Tuning 대비 큰 폭 향상
Related Papers
R-Tuning (Zhang et al., 2023): Known/Unknown 분리 훈련 — Self-Align의 주요 baseline. “I don’t know”만 출력, 설명 미제공
SelfAware (Yin et al., 2023): LLM 자기 지식 평가 데이터셋 — Self-Align의 추가 평가에 활용
Proactive/ProCoT (Deng et al., 2023b): 모호한 질문에 대한 clarification question 생성 — Self-Align이 이를 확장
Hint (Slobodkin et al., 2023): “Unanswerable” 힌트 제공 프롬프팅 — baseline으로 비교
한계: 기존 연구들은 단순 거절에 그치며, 질문이 왜 답할 수 없는지에 대한 설명을 포함하는 응답 생성 방법론 부재
Methods
Self-Align 파이프라인
Stage 1: Class-Aware Self-Augmentation
Step 1 — Guided Question Rewriting: 각 미지 질문 유형별 seed data (5개)를 사용하여 known question을 unknown question으로 변환
Incomplete: 정보 삭제/변경으로 불완전한 질문 생성
Futuristic: 과거 시점을 미래로 변경
Incorrect: 주어/목적어/부사 등을 교체하여 사실 오류 도입
Ambiguous: 말장난(pun)을 활용한 모호한 질문 생성
Step 2 — Conditioned Response Generation: 각 유형별 맞춤 프롬프트로 설명 포함 응답 생성
“먼저 왜 이 질문이 미지 질문인지 분석하고, 분류적 논의나 정확한 답변 회피 방식으로 답하라”
Stage 2: Self-Curation
Principle-driven Self-Curation: 5점 척도로 응답 품질 자체 평가 (1=질문 이해 실패 ~ 5=완벽한 응답)
Disparity-driven Self-Curation: Unknown question 응답과 대응되는 Known question 응답 간의 차이(disparity) 점수화 (0~100)
Unknown Question Classification: 4가지 유형 중 해당 카테고리 분류
Open-ended Response Generation: 설명 포함 거절 응답 생성
방법론 다이어그램
graph TD
A[Known Question<br/>+ Seed Data 5개/유형] --> B[Guided Question Rewriting<br/>유형별 변환]
B --> C[Unknown Questions 생성<br/>4가지 유형]
C --> D[Conditioned Response<br/>Generation]
D --> E[Self-Augmented 데이터]
E --> F[Principle-driven<br/>Self-Curation<br/>5점 척도 품질 평가]
E --> G[Disparity-driven<br/>Self-Curation<br/>Known vs Unknown 차이 점수]
F --> H[최종 훈련 데이터<br/>필터링]
G --> H
H --> I[Fine-Tuning]
I --> J[Self-Aligned Model]
J --> K[Detection: Known/Unknown 분류]
J --> L[Classification: 4유형 분류]
J --> M[Generation: 설명 포함 거절]
style A fill:#e1f5fe
style J fill:#e8f5e9
Results
모델: Vicuna-7B, LLaMA2-7B-Chat
데이터셋: 자체 구축 데이터셋 (4가지 유형별 200개 test) + SelfAware 데이터셋 (Yin et al., 2023)
데이터 형식: Open-ended QA + binary classification. Train/eval split 존재 (자체 구축 훈련 데이터 + 별도 테스트 세트). Multiple-choice 형식 아님
Self-Augmented 데이터 품질: 인간 평가에서 zero-shot 대비 Honesty, Comprehensibility, Helpfulness 모두 대폭 향상
실험 결과 상세
자기정렬 데이터 품질 평가 (Human Evaluation, 0-2 Scale)
Response
Incomp. Hon.
Incomp. Comp.
Incomp. Help.
Future Hon.
Future Comp.
Future Help.
Avg Hon.
Avg Comp.
Avg Help.
Zero-shot (Vicuna)
0.85
0.30
0.15
0.95
0.85
1.20
0.84
0.54
0.50
Self-augmented
1.95
1.65
1.55
2.00
1.85
1.80
1.88
1.58
1.30
SelfAware 데이터셋 — Unknown Question Detection (F1↑)
Model
Method
F1 Score
Vicuna
Zero-shot
0.193
Vicuna
Def+q’(5)+q(5)
0.338
Vicuna
Self-Ask
0.253
Vicuna
SFT (AmbigQA)
0.397
Vicuna
R-Tuning
0.463
Vicuna
Self-Aligned
0.626
LLaMA2
Zero-shot
0.230
LLaMA2
Def+q’(5)+q(5)
0.375
LLaMA2
Self-Ask
0.329
LLaMA2
SFT (AmbigQA)
0.427
LLaMA2
R-Tuning
0.507
LLaMA2
Self-Aligned
0.759
SelfAware — Open-ended Response Generation (Win Rate vs. Self-Aligned K=3)
Model
Method
Win Rate
Vicuna
Zero-shot
0.595
Vicuna
Few-shot (5)
0.675
Vicuna
Proactive
0.753
Vicuna
ProCoT
0.718
Vicuna
Hint
0.645
Vicuna
Self-Aligned (K=1)
0.603
Vicuna
Self-Aligned (K=2)
0.558
LLaMA2
Zero-shot
0.573
LLaMA2
Few-shot (5)
0.613
LLaMA2
Proactive
0.625
LLaMA2
ProCoT
0.598
LLaMA2
Hint
0.563
LLaMA2
Self-Aligned (K=1)
0.540
LLaMA2
Self-Aligned (K=2)
0.525
Known Questions 응답 품질 (Win Rate, ~0.50 = 영향 없음)
관찰
수치
Self-Aligned vs Zero-shot (Avg)
~0.500-0.507
Self-Aligned vs Few-shot (Avg)
~0.494-0.503
Self-Aligned vs K=1, K=2 (Avg)
~0.497-0.504
→ Known questions에 대한 응답 품질은 거의 영향 없음 (win rate ≈ 0.50)
Discussion
한계 1: 미지 질문 유형이 4가지로 제한 — 더 넓은 범위의 미지 질문 유형(예: 윤리적 질문, 개인정보 관련 질문) 미포함
한계 2: Ambiguous 카테고리가 pun(말장난)으로만 대표 — 실제 모호성의 다양성 반영 부족
한계 3: 7B 모델로만 실험 — 대형 모델(70B+)에서의 효과 미검증
한계 4: 영어 데이터셋만 사용 — 다국어 환경에서의 일반화 미확인
향후 방향: (1) 더 다양한 미지 질문 유형 확장, (2) 대형 모델에서의 검증, (3) 다국어 Self-Align
Insights
주목할 점: Self-Aligned가 R-Tuning을 SelfAware에서 대폭 초과 (Vicuna: 0.626 vs 0.463, LLaMA2: 0.759 vs 0.507) — 설명 포함 거절이 단순 거절보다 탐지 능력도 향상시킴
연결 고리: R-Tuning (Zhang et al., 2023)의 binary refusal을 “왜 모르는지 설명”으로 확장. SelfAware (Yin et al., 2023)의 데이터셋을 추가 평가에 활용하여 연구 연속성 확보
시사점: (1) 외부 annotation 없이 모델 자체로 고품질 훈련 데이터 생성 가능 (self-augmentation + self-curation), (2) Known questions 응답 품질에 영향 없이 unknown questions 처리 능력만 향상 — safety alignment과 유사한 패턴, (3) Disparity-driven curation이 원리 기반 curation보다 효과적 — 응답 차별화가 핵심
질문: Self-Align의 self-curation이 모델의 현재 능력에 의존하므로, 약한 모델에서는 curation 품질도 낮아지는 순환 문제가 발생하지 않는가?
비판적 코멘트: (1) 전용 벤치마크 데이터셋의 규모가 작음 (유형별 200개 test). (2) Multiple-choice 형식이 아닌 open-ended QA로 자동 평가의 재현성이 GPT-4 의존적. (3) Curation 단계 K값(iteration 수)에 따른 성능 변화가 K=3에서 최적이지만, 이 값의 선택 근거가 경험적
Discussion Points
논쟁점: “설명 포함 거절”이 항상 바람직한가? 일부 상황(의료, 법률)에서는 간결한 거절이 오히려 안전할 수 있으며, 잘못된 설명이 더 큰 위험을 초래할 가능성
검증 필요 가정: (1) GPT-4를 automatic evaluator로 사용한 win rate의 신뢰성 — human evaluation과의 일관성 검증 필요. (2) Self-curation의 품질이 base model 능력에 의존 — 더 약한 모델에서의 효과 검증 필요
후속 연구: (1) Multi-turn 대화에서의 unknown question 처리 (후속 질문으로 정보 보완), (2) Retrieval-augmented setting에서 검색 실패와 미지 질문의 구분, (3) 사용자 연구를 통한 “설명 포함 거절” vs “단순 거절”의 실제 사용성 비교
벤치마크 적합성 참고: 자체 데이터셋 train/eval split 존재. SelfAware 데이터셋 추가 평가. Open-ended QA 형식으로 multiple-choice 아님. 코드 공개 (https://github.com/thunlp/KnowUnDo)