Annotation-Efficient Universal Honesty Alignment for LLMs

Digest (CISELQ):

Context: LLM이 “자신이 아는 것과 모르는 것”을 구분하고 calibrated confidence로 표현하는 Honesty Alignment는 안전하고 신뢰할 수 있는 배포의 핵심 요구사항으로 떠올랐다. 그러나 기존 접근은 대규모 correctness 라벨링을 필요로 한다.

Issue: 전 범위 도메인에 대해 correctness 주석을 확보하는 것은 비현실적이며, 특히 unseen 태스크로의 일반화(universal honesty)에서 수작업 라벨 의존성이 병목이 된다.

Solution: EliCal — (1) 값싼 self-consistency 신호로 내부 confidence를 eliciting하고, (2) 소량(1k)의 correctness 라벨로 calibration을 수행하는 2단계 프레임워크.

Evidence: 저자들이 공개한 HonestyBench(10개 QA 데이터셋, 560k train / 70k eval, correctness + self-consistency 주석)에서 1k 라벨(풀 감독의 0.18%)만으로도 풀 감독과 근접한 성능 달성.

Limitation: Self-consistency 신호가 모델의 표면적 일치를 측정하므로 internally coherent한 오류(confidently wrong)에는 취약할 수 있으며, 실험이 QA 태스크 중심이다.

Question: Self-consistency 이외의 저비용 신호(예: entropy, internal probes)가 elicitation 단계에서 어떤 보완적 이득을 줄 수 있는가?

섹션별 요약

Introduction

LLM의 hallucination은 배포 신뢰성의 주요 위협이며, 해결책으로 “아는 것은 답하고 모르는 것은 abstain/낮은 confidence로 표시하는” Honesty Alignment가 제안되어 왔다. 본 논문은 이 문제를 확장성(universal)과 비용(annotation-efficient) 축에서 동시에 공략한다.

Methods

1단계 Elicitation: 각 질문에 대해 같은 모델로 다회 샘플링 후 answer consistency를 계산하고, 이를 pseudo-signal로 fine-tuning하여 모델이 자신의 불확실성 표현을 “끌어내도록(elicit)” 훈련한다. 이 단계는 human label 無.
2단계 Calibration: 소량(예: 1k)의 golden correctness 라벨로 추가 fine-tuning을 수행해 confidence의 절대 스케일을 보정한다.
HonestyBench: 10개 QA 태스크를 통합해 correctness + self-consistency 이중 주석으로 공개.

Results

주요 지표 요약 (논문 보고 기준):

조건	라벨 수	Honesty 성능	Unseen(MMLU) 일반화
Full supervision	~560k (100%)	기준선	기준선
Calibration-only (few-shot)	1k	낮음	제한적
EliCal (elicitation → 1k calibration)	1k (0.18%)	풀 감독 근접	baseline 상회
Elicitation-only	0	순위는 좋으나 스케일 부정확	부분적

Discussion

Elicitation이 confidence의 “순위(ranking)“를 학습시키고, Calibration이 “스케일(scale)“을 학습시킨다는 이원적 관점을 제안한다. 이 분리는 왜 소량의 라벨로도 큰 이득이 나는지를 설명한다.

Insights

Self-consistency는 공짜가 아닌 “추론 비용으로 산 감독 신호”이며, 주석 대체재로 작동.
Universal honesty는 unseen 도메인까지 확장되어야 하며, elicitation 단계가 그 일반화 축을 담당.

Discussion Points

Self-consistency가 신뢰성 있게 실패하는 케이스(systematic hallucination)에서 elicitation이 오히려 잘못된 신호를 증폭할 우려.
Calibration 라벨의 분포(난이도/도메인)가 일반화에 미치는 영향.

메타데이터

arXiv: 2510.17509 (2025-10)
Venue: ICLR 2026 (submitted)
Authors: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
Code/Data: HonestyBench 공개 예정

왜 이 연구를 하는가?

Honesty Alignment는 RLHF/DPO류의 preference alignment와는 다른 축으로, 모델이 자신의 지식 경계(knowledge boundary)를 인식하고 calibrated 확률로 응답하도록 훈련하는 것이다. 기존 연구는 (a) 대규모 correctness 라벨에 의존하거나 (b) 단일 도메인에 국한되어 universal honesty로 확장되지 못했다. 본 연구는 “라벨 병목”을 self-consistency로 우회하여 scalable pipeline을 제시한다.

방법 (Method)

flowchart LR
    A[Unlabeled QA Pool] --> B[Multi-sample Generation]
    B --> C[Self-Consistency Score]
    C --> D[Stage-1: Elicitation FT<br/>pseudo-confidence target]
    D --> E[Elicited Model]
    F[1k Gold Correctness Labels] --> G[Stage-2: Calibration FT]
    E --> G
    G --> H[EliCal Model:<br/>Universal Honesty]
    H --> I[Evaluation on<br/>HonestyBench + MMLU unseen]

Elicitation 목표함수: 샘플 간 일치도를 soft target으로 사용한 confidence regression/classification.
Calibration 목표함수: small labeled subset에 대한 correctness prediction loss(예: BCE, ECE 최소화).
하이퍼파라미터: calibration 라벨 수를 {100, 500, 1k, 10k, full}로 스윕하여 1k에서 saturation 관찰.

발견 (Findings)

축	관찰	해석
주석 효율	1k 라벨(0.18%)로 full-sup 근접	Elicitation이 대부분의 “순위 학습”을 담당
일반화	Unseen MMLU에서 calibration-only 대비 우세	Self-consistency가 도메인 불변 신호
Elicitation-only	순위는 유지, 절대 확률은 miscalibrated	Calibration 단계의 필요성 실증
Scale	10개 QA 통합에서 일관된 개선	파이프라인이 태스크 불특정(universal)

이론적 의의

Ranking vs. Scaling 분해: Honesty calibration 문제를 “confidence ordering(저비용 신호로 학습 가능)“과 “probability scaling(소량 라벨로 학습 가능)“으로 분해한 관점은 uncertainty quantification 이론과 연결된다.
Self-consistency를 weak supervision으로 재해석: Wang et al.(2023)의 self-consistency를 추론 시 앙상블이 아니라 훈련 시 pseudo-label 소스로 재활용.
Universal alignment 정의: 도메인 간 전이 가능한 honesty 정렬을 실험적으로 검증 가능한 개념으로 정식화.

재현성 및 신뢰도 평가

항목	평가	근거
데이터 공개	B+	HonestyBench 560k+70k 공개 선언
코드 공개	B	공개 의사 표명, 재현 스크립트 여부는 확인 필요
실험 다양성	B	10개 QA + MMLU unseen, 베이스라인 대비 ablation 존재
통계적 유의성	C	seed 반복/분산 보고 수준은 본문 확인 필요
한계 공개	B	Calibration 라벨 편향 영향 일부 논의
종합	B	방법/데이터의 독자 구성 가능성은 높음

핵심 용어 정리

Honesty Alignment: 모델이 자신의 지식 경계를 인식하고 calibrated confidence로 답변/기권하도록 정렬하는 훈련 목표.
Elicitation: 외부 라벨 없이 모델 내부 신호(self-consistency 등)로 confidence를 유도/학습시키는 단계.
Calibration: Confidence 출력이 실제 정답률과 일치하도록 보정하는 단계(본 논문에서는 소량 correctness 라벨로 SFT).
Self-Consistency: 동일 질의에 대한 다중 샘플의 답변 일치도로, 모델 불확실성의 무감독 대리 신호.
HonestyBench: 10개 QA 데이터셋 통합, correctness + self-consistency 이중 주석의 560k/70k 벤치마크.
Universal Honesty: Seen 태스크를 넘어 unseen 도메인(MMLU 등)에서도 유지되는 정직성 정렬 성질.
Annotation Efficiency: 목표 성능 달성에 필요한 human label 수; 본 논문은 0.18%로 full supervision 근접.

Juhyeon's Blog

탐색기

Annotation-Efficient Universal Honesty Alignment for LLMs

Annotation-Efficient Universal Honesty Alignment for LLMs

섹션별 요약

Introduction

Methods

Results

Discussion

Insights

Discussion Points

메타데이터

왜 이 연구를 하는가?

방법 (Method)

발견 (Findings)

이론적 의의

재현성 및 신뢰도 평가

관련 연구

원자적 인사이트 (Zettelkasten)

Elicitation-Calibration 분리가 라벨 효율의 핵심이다

Self-Consistency는 훈련 시 약감독 신호로 재활용될 수 있다

Universal Honesty는 unseen 도메인 일반화로 정의된다

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크