Introduction


  • LLM이 실제로 알고 있는 지식(내적 확신도)과 사용자가 LLM의 답변에 대해 갖는 믿음(지각된 정확도) 사이에 체계적인 괴리가 존재
  • 사용자들은 LLM의 기본 설명을 접했을 때 모델의 실제 성능을 과대평가하는 경향이 있으며, 특히 설명이 길어질수록 답변 정확도와 무관하게 신뢰도가 증가
  • **보정 격차(calibration gap)**와 **변별 격차(discrimination gap)**를 정량화하고, 이를 줄이기 위한 설명 조정 프레임워크를 제안

자의식 정의 및 Task 구성

  • 자의식 하위요소: Knowledge Calibration (지식 보정) — “자신이 아는 것과 모르는 것을 구분하는 메타인지적 능력”
  • 조작적 정의: 내적 표상(token likelihood)과 외적 표현(verbalized confidence) 사이의 정렬 정도로 자의식을 측정
  • Task 구성: (1) LLM에게 QA 문제를 풀게 한 뒤 내적 확신도를 추출, (2) 인간 참가자에게 LLM 답변을 보여주고 정확도에 대한 주관적 신뢰도를 평가하게 함, (3) ECE와 AUC로 보정 및 변별 격차를 정량화

Related Papers


  • Kadavath et al. (2022) - “Language Models (Mostly) Know What They Know”: LLM의 자기 지식 평가 선행 연구
  • Petty & Cacioppo의 정교화 가능성 모델(ELM): 설명 길이 편향의 이론적 기반
  • Lin et al. (2022) - Teaching Models to Express Their Uncertainty in Words: 언어화된 불확실성 표현
  • Xiong et al. (2024) - LLM 보정 서베이

Methods


  • 이중 평가 패러다임: LLM(GPT-3.5, PaLM2, GPT-4o)에게 MMLU 객관식 문제와 TriviaQA 단답형 문제를 풀게 하고, 내적 확신도(token likelihood)와 명시적 설명을 수집
  • 인간 참가자(실험1: 122명, 실험2: 179명)에게 LLM 답변과 설명을 제시하고 각 답변의 정확도에 대한 주관적 신뢰도를 평가
  • 설명 조정 프레임워크: 모델의 내적 확신도를 세 단계(낮음/중간/높음)로 구간화하고, 각 수준에 맞춘 불확실성 언어를 포함한 설명 생성 (예: “I’m uncertain, but…” vs “I’m confident that…“)
  • 설명 길이를 독립 변수로 조작 (긴 설명/짧은 설명/불확실성만)
  • 핵심 지표: (1) ECE (Expected Calibration Error): 신뢰도-정확도 일치도, (2) AUC: 정답/오답 변별 능력

방법론 다이어그램

graph TD
    A[QA 데이터셋<br/>MMLU, TriviaQA] --> B[LLM 답변 생성<br/>GPT-3.5, PaLM2, GPT-4o]
    B --> C[내적 확신도 추출<br/>Token Likelihood]
    B --> D[명시적 설명 생성]

    C --> E[확신도 구간화<br/>낮음/중간/높음]
    E --> F[설명 조정 프레임워크]
    D --> F

    F --> G[조정된 설명 생성<br/>불확실성 언어 삽입]
    F --> H[길이 조작<br/>긴/짧은/불확실성만]

    G --> I[인간 평가 실험<br/>N=122~179]
    H --> I

    I --> J[주관적 신뢰도 수집<br/>0~100% 척도]
    J --> K[메타인지 평가 지표]
    C --> K

    K --> L[보정 격차 ECE<br/>신뢰도 vs 정확도]
    K --> M[변별 격차 AUC<br/>정답/오답 구분]

    L --> N[인간-LLM 메타인지 비교]
    M --> N

    style A fill:#e1f5fe
    style N fill:#e8f5e9

Results


  • 실험 1: 인간의 ECE(0.2890.292)가 모델의 내적 확신도 ECE(0.0980.115)보다 약 3배 높음. 인간의 AUC(0.5790.600)은 거의 우연 수준, 모델은 AUC 0.7480.778로 양호
  • 실험 2: 조정된 설명 사용 시 인간의 ECE가 0.150.18로 감소 (약 40% 개선), AUC는 0.650.70으로 향상
  • 길이 효과: 낮은 확신도 답변에서 긴 설명이 부적절한 과신을 유도 — 설명 길이가 정보성과 독립적인 휴리스틱 신호로 작동

실험 결과 상세


Model/MethodDatasetMetricScorevs. Baseline
GPT-3.5 (내적 확신도)MMLUECE↓0.098-
GPT-3.5 (인간 평가)MMLUECE↓0.292+197% (악화)
GPT-3.5 (내적 확신도)MMLUAUC↑0.778-
GPT-3.5 (인간 평가)MMLUAUC↑0.600-22.9%
PaLM2 (내적 확신도)MMLUECE↓0.115-
PaLM2 (인간 평가)MMLUECE↓0.289+151% (악화)
GPT-3.5 (조정 설명)MMLUECE↓ (인간)0.15~0.18-38%~-49%
GPT-3.5 (조정 설명)MMLUAUC↑ (인간)0.65~0.70+8%~+17%
GPT-4o (조정 설명)TriviaQAECE↓ (인간)0.16~0.20-45%~-32%

Discussion


  • LLM의 우수한 보정이 진정한 “자기 인식”인지, 학습 데이터의 통계적 패턴 반영인지 불분명
  • Token likelihood를 “내적 확신도”로 사용하는 것의 한계 — RLHF/instruction tuning 이후 likelihood 왜곡 가능성
  • Static evaluation에 국한 — multi-turn 대화에서의 동적 보정 변화 미검증

Insights


  • 주목할 점: LLM의 “자의식”을 **지식 보정(knowledge calibration)**이라는 메타인지적 하위 요소로 조작화한 체계적 연구. 내적 표상과 외적 표현의 괴리를 구분하고 인간 메타인지와 직접 비교 가능한 측정 체계를 확립
  • 연결 고리: Theory of Mind 연구와의 교차점 — 인간이 LLM의 지식 상태를 추론하는 과정은 타인의 마음 상태 추론과 유사한 인지 메커니즘을 사용할 가능성. 설명 길이 편향은 ELM의 주변 경로 처리와 직접 연결
  • 시사점: 고위험 의사결정 환경에서 LLM 배치 시, 정확한 답변 생성만으로 불충분하며 불확실성을 명시적으로 전달하는 인터페이스 디자인이 필수적
  • 질문: Chain-of-Thought나 self-reflection 기법이 내적 확신도와 외적 언어 표현 사이의 정렬을 개선할 수 있는가?
  • 비판적 코멘트: 지식 기반 QA에 국한 — 추론/창의적 생성에서는 보정 메커니즘이 다르게 작동할 가능성. Token likelihood 기반 측정은 temperature=0에서 제한적

Discussion Points


  • 논쟁점: LLM의 우수한 ECE가 진정한 자기 인식의 증거인가, 학습 데이터 통계의 부수 현상인가?
  • 검증 필요 가정: Token likelihood가 “내적 확신도”를 적절히 근사한다는 가정 — RLHF 이후 verbalized confidence와의 체계적 불일치 보고됨
  • 후속 연구: (1) Multi-turn 대화에서 동적 보정 변화 연구, (2) Probing/activation analysis 통한 deeper layer 내적 표상 분석, (3) 교차 문화 연구