LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
Digest (CISELQ)
Context: LLM은 종종 자신 있게 틀린 답을 제시하고, 기존 calibration 방법은 답의 정오(correctness)만을 기준으로 삼아 화자-청자 상호작용에서의 수용 가능성(acceptance)을 반영하지 못한다.
Issue: 정답일 때 자신 있게 말하고 오답일 때 주저하는 화용론적(pragmatic) 신호를 학습시켜야 하지만, 기존 RLHF/SFT는 청자(listener)의 관점을 직접 모델링하지 않는다.
Solution: LACIE는 speaker(답변 모델)와 simulated listener 간 2-에이전트 게임에서 화자의 답변이 청자에 의해 수용되는지 여부로 선호쌍을 구성하고, DPO 기반 preference optimization으로 speaker를 파인튜닝한다.
Evaluation: TriviaQA로 학습, TruthfulQA로 전이 평가. 인간 평가자와 LLM 청자 모두에서 acceptance 정확도를 측정.
Limitation: listener를 LLM이 대리하므로 인간 화용론의 완전한 분포를 반영하지 못하고, 학습 데이터 도메인(QA) 외 일반화는 제한적이다.
Quicktake: LACIE 파인튜닝 모델은 인간에 의해 잘못 수용되는 답변을 47% 줄이면서 맞는 답변의 수용률은 유지하며, 암묵적 hedging/abstention 행동이 창발(emergent)한다.
섹션별 요약
Introduction
LLM의 과신 문제는 단순 calibration(Expected Calibration Error)보다 의사소통 효과(communication effectiveness) 관점에서 다시 정의되어야 한다.
언어학의 RSA(Rational Speaker-Listener) 프레임워크에서 영감을 얻어, 화자가 청자의 믿음을 고려하도록 학습시키는 것이 목표이다.
기여: (1) listener-aware 선호 데이터 생성 파이프라인, (2) DPO로 speaker 학습, (3) 인간 수용 실험과 도메인 전이 실험.
Methods
Speaker model S가 질문에 대해 답과 confidence expression을 포함한 응답을 생성한다.
Listener model L은 S의 응답을 보고 수용 여부(True/False)를 확률적으로 판정한다.
보상은 “정답 & 수용” 또는 “오답 & 거부”에 높은 값, “오답 & 수용” 또는 “정답 & 거부”에 낮은 값을 부여하는 Pragmatic Utility로 정의된다.
이 보상으로 후보 응답 페어를 ranking하여 DPO 선호 데이터셋을 만든 뒤 speaker를 파인튜닝한다.
Results
모델
데이터셋
Baseline AUROC
LACIE AUROC
인간 잘못된 수용률 감소
Mistral-7B
TriviaQA
~0.62
~0.78
-47%
Llama3-8B
TriviaQA
~0.65
~0.80
유사 수준
Llama3-70B
TruthfulQA (transfer)
-
개선
abstention 증가
LACIE 모델은 명시적 confidence 표현뿐 아니라 hedging, 거절(abstention) 같은 암묵적 신호를 창발적으로 학습.
TriviaQA → TruthfulQA 전이에서도 calibration 개선이 유지됨.
Discussion
기존 RLHF가 “유용성” 위주로 보상했다면 LACIE는 “정당한 신뢰성”을 보상함으로써 정직성-유용성 트레이드오프를 재조정한다.
Listener를 LLM으로 근사하는 것은 편향이 있을 수 있지만, 실제 인간 평가에서도 개선이 관찰되어 practical utility가 입증된다.
Abstention 증가는 바람직하지만 과도한 회피(over-refusal)로 이어질 수 있어 보상 설계가 중요하다.
Insights
Calibration은 내부 확률만이 아니라 외부 화용론적 신호(어휘, 헤지, 거절)로도 표출된다.
DPO 기반 pragmatic reward는 reward model 없이도 화용론적 효과를 학습시킬 수 있다.
Discussion Points
Listener 모델의 편향이 speaker의 calibration에 어떻게 전이되는가?
단일 turn 외 multi-turn 대화에서 listener-aware 학습은 어떻게 일반화되는가?
Abstention 보상을 어떻게 튜닝해야 over-refusal을 막을 수 있는가?
메타데이터
항목
내용
저자
Elias Stengel-Eskin, Peter Hase, Mohit Bansal (UNC)
발표
NeurIPS 2024
코드
GitHub (esteng/pragmatic_calibration) 공개
모델
Mistral-7B, Llama3-8B/70B
데이터
TriviaQA (학습), TruthfulQA (전이)
왜 이 연구를 하는가?
LLM이 배포 환경에서 사용자의 신뢰를 얻으려면 단순히 “맞는 답”이 아니라 “맞을 때 자신감 있게, 틀릴 때 머뭇거림”과 같은 화용론적 일관성이 필요하다. 기존 calibration 연구는 내부 확률(log-probability, verbalized confidence)에 머물러 실제 청자가 답변을 수용할지 여부를 직접 최적화하지 않았다. LACIE는 이 간극을 메워, 말하는 행위(utterance)가 청자에게 미치는 effect를 objective로 내재화한다.
방법 (Method)
flowchart TD
Q[질문 Q] --> S[Speaker LLM]
S -->|후보 응답 r1, r2| L[Listener LLM]
L -->|수용 확률 p_acc| U[Pragmatic Utility]
G[정답 GT] --> U
U -->|선호쌍 w over l| DPO[DPO Finetune Speaker]
DPO --> S2[LACIE Speaker]
S2 -->|배포| H[인간 청자 평가]
핵심은 reward = f(correct, accepted) 형태의 2차원 보상을 통해 “정직한 자신감”을 학습시키는 것이다.
발견 (Findings)
#
발견
근거
1
인간 수용 오류 47% 감소
TriviaQA 인간 평가
2
Hedging/abstention 창발
정성 분석, 거절률 증가
3
도메인 전이 유지
TruthfulQA 평가
4
모델 스케일에 robust
7B~70B에서 일관된 개선
이론적 의의
Gricean/RSA 화용론을 alignment objective로 operationalize한 초기 사례.
Calibration을 “내부 확률 적합” 문제에서 “사회적 communication utility” 문제로 재정의.
Preference optimization(DPO)이 correctness 외의 의미적 속성(confidence, honesty)도 포섭할 수 있음을 보임.
Lin et al. 2022 “Teaching Models to Express Uncertainty in Words”: verbalized confidence SFT.
Kadavath et al. 2022 “Language Models (Mostly) Know What They Know”: self-evaluation P(True).
Tian et al. 2023 “Just Ask for Calibration”: RLHF 이후 verbalized confidence 악화 보고.
RSA: Frank & Goodman 2012.
원자적 인사이트
청자 모델링은 reward model의 대안: 별도 인간 선호 레이블 없이도, listener LLM의 수용 신호만으로 화용론적 보상을 구성할 수 있다. 이는 스케일러블한 honesty alignment의 경로를 제시한다.
Calibration은 어휘로 누출된다: LACIE 학습 후 모델은 명시적 확률이 아니라 “I think”, “I’m not sure”와 같은 hedging 어휘 빈도로 confidence를 표현한다. 즉 언어 표면이 internal belief state의 proxy로 학습된다.
Abstention은 보상 설계의 부산물: 거절을 명시적으로 penalize하지 않아도 “오답+수용”이 큰 페널티를 받으면 모델은 회피를 선호한다. 이는 safety training에서의 over-refusal도 같은 메커니즘에서 비롯될 수 있음을 시사한다.
핵심 용어 정리
Pragmatic Speaker: 청자의 해석을 고려해 utterance를 선택하는 화자 모델 (RSA 프레임워크).
Listener-Aware Finetuning: listener 시뮬레이션에서 얻은 수용 신호로 speaker를 최적화하는 학습.
DPO (Direct Preference Optimization): reward model 없이 선호쌍(win/lose)으로 policy를 직접 학습.
Calibration: 모델의 confidence와 실제 accuracy의 정렬.
Hedging: “I think”, “possibly” 등 불확실성을 완화하는 언어 표지.