LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

Digest (CISELQ)

  • Context: LLM은 종종 자신 있게 틀린 답을 제시하고, 기존 calibration 방법은 답의 정오(correctness)만을 기준으로 삼아 화자-청자 상호작용에서의 수용 가능성(acceptance)을 반영하지 못한다.
  • Issue: 정답일 때 자신 있게 말하고 오답일 때 주저하는 화용론적(pragmatic) 신호를 학습시켜야 하지만, 기존 RLHF/SFT는 청자(listener)의 관점을 직접 모델링하지 않는다.
  • Solution: LACIE는 speaker(답변 모델)와 simulated listener 간 2-에이전트 게임에서 화자의 답변이 청자에 의해 수용되는지 여부로 선호쌍을 구성하고, DPO 기반 preference optimization으로 speaker를 파인튜닝한다.
  • Evaluation: TriviaQA로 학습, TruthfulQA로 전이 평가. 인간 평가자와 LLM 청자 모두에서 acceptance 정확도를 측정.
  • Limitation: listener를 LLM이 대리하므로 인간 화용론의 완전한 분포를 반영하지 못하고, 학습 데이터 도메인(QA) 외 일반화는 제한적이다.
  • Quicktake: LACIE 파인튜닝 모델은 인간에 의해 잘못 수용되는 답변을 47% 줄이면서 맞는 답변의 수용률은 유지하며, 암묵적 hedging/abstention 행동이 창발(emergent)한다.

섹션별 요약

Introduction

  • LLM의 과신 문제는 단순 calibration(Expected Calibration Error)보다 의사소통 효과(communication effectiveness) 관점에서 다시 정의되어야 한다.
  • 언어학의 RSA(Rational Speaker-Listener) 프레임워크에서 영감을 얻어, 화자가 청자의 믿음을 고려하도록 학습시키는 것이 목표이다.
  • 기여: (1) listener-aware 선호 데이터 생성 파이프라인, (2) DPO로 speaker 학습, (3) 인간 수용 실험과 도메인 전이 실험.

Methods

  • Speaker model S가 질문에 대해 답과 confidence expression을 포함한 응답을 생성한다.
  • Listener model LS의 응답을 보고 수용 여부(True/False)를 확률적으로 판정한다.
  • 보상은 “정답 & 수용” 또는 “오답 & 거부”에 높은 값, “오답 & 수용” 또는 “정답 & 거부”에 낮은 값을 부여하는 Pragmatic Utility로 정의된다.
  • 이 보상으로 후보 응답 페어를 ranking하여 DPO 선호 데이터셋을 만든 뒤 speaker를 파인튜닝한다.

Results

모델데이터셋Baseline AUROCLACIE AUROC인간 잘못된 수용률 감소
Mistral-7BTriviaQA~0.62~0.78-47%
Llama3-8BTriviaQA~0.65~0.80유사 수준
Llama3-70BTruthfulQA (transfer)-개선abstention 증가
  • LACIE 모델은 명시적 confidence 표현뿐 아니라 hedging, 거절(abstention) 같은 암묵적 신호를 창발적으로 학습.
  • TriviaQA → TruthfulQA 전이에서도 calibration 개선이 유지됨.

Discussion

  • 기존 RLHF가 “유용성” 위주로 보상했다면 LACIE는 “정당한 신뢰성”을 보상함으로써 정직성-유용성 트레이드오프를 재조정한다.
  • Listener를 LLM으로 근사하는 것은 편향이 있을 수 있지만, 실제 인간 평가에서도 개선이 관찰되어 practical utility가 입증된다.
  • Abstention 증가는 바람직하지만 과도한 회피(over-refusal)로 이어질 수 있어 보상 설계가 중요하다.

Insights

  • Calibration은 내부 확률만이 아니라 외부 화용론적 신호(어휘, 헤지, 거절)로도 표출된다.
  • DPO 기반 pragmatic reward는 reward model 없이도 화용론적 효과를 학습시킬 수 있다.

Discussion Points

  • Listener 모델의 편향이 speaker의 calibration에 어떻게 전이되는가?
  • 단일 turn 외 multi-turn 대화에서 listener-aware 학습은 어떻게 일반화되는가?
  • Abstention 보상을 어떻게 튜닝해야 over-refusal을 막을 수 있는가?

메타데이터

항목내용
저자Elias Stengel-Eskin, Peter Hase, Mohit Bansal (UNC)
발표NeurIPS 2024
코드GitHub (esteng/pragmatic_calibration) 공개
모델Mistral-7B, Llama3-8B/70B
데이터TriviaQA (학습), TruthfulQA (전이)

왜 이 연구를 하는가?

LLM이 배포 환경에서 사용자의 신뢰를 얻으려면 단순히 “맞는 답”이 아니라 “맞을 때 자신감 있게, 틀릴 때 머뭇거림”과 같은 화용론적 일관성이 필요하다. 기존 calibration 연구는 내부 확률(log-probability, verbalized confidence)에 머물러 실제 청자가 답변을 수용할지 여부를 직접 최적화하지 않았다. LACIE는 이 간극을 메워, 말하는 행위(utterance)가 청자에게 미치는 effect를 objective로 내재화한다.

방법 (Method)

flowchart TD
    Q[질문 Q] --> S[Speaker LLM]
    S -->|후보 응답 r1, r2| L[Listener LLM]
    L -->|수용 확률 p_acc| U[Pragmatic Utility]
    G[정답 GT] --> U
    U -->|선호쌍 w over l| DPO[DPO Finetune Speaker]
    DPO --> S2[LACIE Speaker]
    S2 -->|배포| H[인간 청자 평가]
  • 핵심은 reward = f(correct, accepted) 형태의 2차원 보상을 통해 “정직한 자신감”을 학습시키는 것이다.

발견 (Findings)

#발견근거
1인간 수용 오류 47% 감소TriviaQA 인간 평가
2Hedging/abstention 창발정성 분석, 거절률 증가
3도메인 전이 유지TruthfulQA 평가
4모델 스케일에 robust7B~70B에서 일관된 개선

이론적 의의

  • Gricean/RSA 화용론을 alignment objective로 operationalize한 초기 사례.
  • Calibration을 “내부 확률 적합” 문제에서 “사회적 communication utility” 문제로 재정의.
  • Preference optimization(DPO)이 correctness 외의 의미적 속성(confidence, honesty)도 포섭할 수 있음을 보임.

재현성 및 신뢰도 평가

등급비고
Evidence QualityB인간 평가 포함, 그러나 샘플 크기 제한
ReproducibilityB코드/데이터 공개, 단 listener 프롬프트 세부 민감
GeneralizationBQA 도메인 중심, 일반 대화 검증 부족
Theoretical NoveltyB+RSA를 DPO로 변환한 점 참신

관련 연구

  • Calibration-Tuning: 내부 확률 기반 calibration.
  • Lin et al. 2022 “Teaching Models to Express Uncertainty in Words”: verbalized confidence SFT.
  • Kadavath et al. 2022 “Language Models (Mostly) Know What They Know”: self-evaluation P(True).
  • Tian et al. 2023 “Just Ask for Calibration”: RLHF 이후 verbalized confidence 악화 보고.
  • RSA: Frank & Goodman 2012.

원자적 인사이트

  1. 청자 모델링은 reward model의 대안: 별도 인간 선호 레이블 없이도, listener LLM의 수용 신호만으로 화용론적 보상을 구성할 수 있다. 이는 스케일러블한 honesty alignment의 경로를 제시한다.
  2. Calibration은 어휘로 누출된다: LACIE 학습 후 모델은 명시적 확률이 아니라 “I think”, “I’m not sure”와 같은 hedging 어휘 빈도로 confidence를 표현한다. 즉 언어 표면이 internal belief state의 proxy로 학습된다.
  3. Abstention은 보상 설계의 부산물: 거절을 명시적으로 penalize하지 않아도 “오답+수용”이 큰 페널티를 받으면 모델은 회피를 선호한다. 이는 safety training에서의 over-refusal도 같은 메커니즘에서 비롯될 수 있음을 시사한다.

핵심 용어 정리

  • Pragmatic Speaker: 청자의 해석을 고려해 utterance를 선택하는 화자 모델 (RSA 프레임워크).
  • Listener-Aware Finetuning: listener 시뮬레이션에서 얻은 수용 신호로 speaker를 최적화하는 학습.
  • DPO (Direct Preference Optimization): reward model 없이 선호쌍(win/lose)으로 policy를 직접 학습.
  • Calibration: 모델의 confidence와 실제 accuracy의 정렬.
  • Hedging: “I think”, “possibly” 등 불확실성을 완화하는 언어 표지.
  • Abstention: 답변을 거부하거나 모른다고 말하는 행위.

Tags

LLM Calibration Alignment DPO Pragmatics NeurIPS2024 Finetuning Honesty