On Verbalized Confidence Scores for LLMs

Digest (CISELQ)

Context: LLM을 실세계 시스템에 통합하려면 응답에 대한 uncertainty quantification(UQ) 이 필수적이지만, 기존 방식은 내부 token logits 접근, proxy model 학습, 또는 multiple sampling과 같이 모델 내부에 접근하거나 연산 overhead가 크다는 한계가 있다.
Issue: API 기반 블랙박스 LLM 환경에서 가볍고 prompt- & model-agnostic한 UQ 기법이 필요하다. “LLM이 직접 자신의 confidence를 숫자로 말하게 하는” verbalized confidence가 후보지만, 그 신뢰도(calibration)가 실제로 충분히 높은지, 어떤 조건에서 잘 작동하는지는 체계적으로 검증되지 않았다.
Solution: 본 논문은 verbalized confidence scores를 여러 데이터셋 · 모델 · 프롬프트 방식 조합으로 대규모 벤치마크하는 실증 연구를 제시한다. 단일 sample로 출력 토큰 안에 confidence: 0~100 식의 숫자를 verbalize하도록 요청하고, 그 점수의 신뢰도를 calibration 지표로 평가한다.
Evaluation: QA/상식추론 계열 데이터셋 위에서 다양한 프롬프트 전략(basic zero-/few-shot, chain-of-thought 변형, combined prompt 등)을 적용하고, reliability diagram과 calibration 지표(ECE 계열)로 비교한다.
Limitations: 단일 sampling · 단일 숫자 출력에 의존하므로 self-consistency, logit 기반 방법 대비 상한이 제한될 수 있고, 특정 LLM이 confidence 값을 habitually overconfident하게 말하는 경향(예: 항상 90–100)을 완전히 해결하지 못한다. 또 벤치마크가 주로 영어·사실형 QA에 치우쳐 있다.
Questions / Takeaways: “어떻게 묻는가”가 verbalized confidence의 calibration을 결정한다. 적절히 설계된 prompt(예: basic + CoT + 정당화 요구의 combo)에서는 외부 UQ 기법과 견줄 만한 calibration을 저비용으로 얻을 수 있다.

섹션별 요약

Introduction

LLM 응답에 대한 신뢰를 확보하려면 UQ가 필수이며, agent-to-agent 상호작용에서도 상대의 확신도를 읽는 능력이 중요하다.
기존 UQ는 (1) token-level logit 기반, (2) task-specific proxy model, (3) multiple-sampling(self-consistency, semantic entropy 등)의 세 축이었다. 모두 white-box 접근 혹은 여러 번의 추론을 요구한다.
Verbalized confidence는 “모델에게 자기 답에 대한 확신도를 숫자로 말하라”고 요청하는 방식으로, API 친화적이고 overhead가 거의 없다. 문제는 이 숫자가 얼마나 믿을 만한지이다.

Methods

Setup: 각 question $x$ 에 대해 LLM에게 정답 $\overset{y}{^}$ 와 함께 “confidence $c \in [0, 100]$ “을 한 번에 verbalize하도록 요청. $c /100$ 을 예측 확률로 간주하고 정답 여부 $1 [\overset{y}{^} = y]$ 와 비교.
Prompt methods (비교 축):
- Basic: “답과 함께 confidence를 0–100으로 제시”하는 최소 지시.
- CoT 변형: 답 산출 전/후에 reasoning을 verbalize.
- Few-shot: calibration 예시를 in-context로 제공.
- Combo: basic + CoT + 정당화(justification) 요구를 결합한 복합 프롬프트.
Metrics: Expected Calibration Error(ECE), reliability diagram, 정확도-confidence 분포 등을 사용.

flowchart LR
    Q["Question x"] --> P["Prompt template (basic/CoT/few-shot/combo)"]
    P --> LLM["LLM (single forward pass)"]
    LLM --> O["Answer y-hat + verbalized confidence c"]
    O --> S1["Correctness 1[y-hat = y]"]
    O --> S2["Confidence p-hat = c/100"]
    S1 --> E["Calibration eval (ECE, reliability diagram)"]
    S2 --> E
    E --> R["Reliability by (dataset x model x prompt)"]

Results

핵심 결론: calibration은 prompt method에 의해 크게 좌우된다. Basic prompt는 지속적으로 overconfidence(대부분의 답에 80–100 점 부여) 경향을 보여 ECE가 높다. 반면 combo 계열 prompt는 confidence 분포를 넓히고 정답 확률과 더 잘 정렬시켜 ECE를 크게 낮춘다.
모델 간 편차가 크며, instruction-tuned/정렬된 최신 모델일수록 verbalized confidence가 유의미한 discriminative power를 가진다.
Basic prompt에서는 verbalized confidence가 사실상 상수에 가까운 경우도 있어, “물어본 것만으로는 충분하지 않다” 는 점을 강조한다.

Prompt method	Confidence 분포 특성	Calibration(ECE)	코멘트
Basic	상단(80–100)에 집중	높음(나쁨)	전형적 overconfidence
CoT 추가	중간 구간으로 확산	중간	reasoning이 self-check로 기능
Few-shot	예시에 민감	중간	예시 calibration에 영향 받음
Combo	가장 넓게 분포	낮음(좋음)	최고 성능 구간

Discussion

Verbalized confidence는 단순하지만 “어떻게 묻는가”에 강하게 의존한다. 이는 LLM의 메타인지적 표출이 prompt scaffolding의 함수임을 시사한다.
저비용(single-pass)으로도 sampling 기반 기법에 근접한 calibration을 달성할 수 있다면, production 환경에서 UQ 기본 옵션으로 현실적인 후보다.
실패 양상은 모델별로 다르며, 일부 모델은 지시에도 불구하고 confidence 분포를 거의 넓히지 못한다 → 본질적으로 학습된 self-knowledge의 한계.

Insights

Verbalized confidence는 “능력”이라기보다 “능력을 끌어내는 prompt 설계”에 더 좌우되는 속성이다.
CoT는 성능뿐 아니라 calibration 신호로서도 기능한다: reasoning을 드러내면서 모델이 스스로의 불확실성을 분포적으로 표출한다.
Black-box API 환경에서도 UQ가 가능하다는 실증은 agent-based LLM 시스템(멀티에이전트 협업, tool-use, RAG)에 직접 응용된다.

Discussion Points

Verbalized confidence는 semantic entropy나 self-consistency와 조합될 때 상한이 얼마나 올라가는가?
숫자(0–100) 대신 언어 척도(“매우 확신”, “조금 의심”) verbalization과 비교하면?
Instruction-tuning 단계에서 calibration-aware SFT를 넣으면 basic prompt만으로도 좋은 점수를 얻을 수 있는가?

메타데이터

Key	Value
Title	On Verbalized Confidence Scores for LLMs
Authors	Daniel Yang, Yao-Hung Hubert Tsai, Makoto Yamada
Venue	arXiv preprint (cs.CL)
Year	2024 (Dec 19)
arXiv	2412.14737
Code	https://github.com/danielyxyang/llm-verbalized-uq
Category	Theory (Empirical analysis of UQ method)

왜 이 연구를 하는가?

LLM이 실제 제품·의사결정·에이전트 파이프라인에 들어갈수록, “이 답이 얼마나 믿을 만한가”를 런타임에 값싸게 추정할 수 있어야 한다. 기존 UQ 기법은 대부분 (1) 내부 logit 접근(black-box API에서 불가능), (2) 여러 번의 sampling(비용과 지연 증가), (3) task-specific proxy 학습(일반화 부족)을 요구한다. Verbalized confidence는 이 세 제약을 모두 우회한다: 1회 호출, 내부 접근 불필요, 범용. 따라서 “그 숫자가 진짜 믿을 만한가”를 체계적으로 벤치마크하는 것은 실용적 UQ 방법론 설계의 전제 조건이다. 본 연구는 이 전제를 prompt method 축에서 검증함으로써, 향후 verbalized UQ를 agent·RAG·tool-use 시스템의 default로 채택할지 여부에 대한 증거를 제공한다.

방법 (Method)

flowchart TB
    D["Dataset (QA/commonsense 등)"] --> T["Template 조합"]
    M["LLM (여러 모델 비교)"] --> T
    PM["Prompt method {basic, CoT, few-shot, combo}"] --> T
    T --> C["Single-pass generation"]
    C --> A["Answer y-hat"]
    C --> V["Verbalized confidence c in [0,100]"]
    A --> CORR["Correctness indicator 1[y-hat=y]"]
    V --> PHAT["Probability p-hat = c/100"]
    CORR --> EV["Reliability diagram"]
    PHAT --> EV
    EV --> METRIC["ECE 등 calibration metric"]
    METRIC --> CMP["축(Dataset x Model x PromptMethod) 비교"]

핵심 설계는 세 축(Dataset, Model, Prompt method)을 완전교차하여 verbalized confidence의 reliability가 어느 축에 의해 주로 결정되는지 분리 관측하는 것이다. 특히 prompt method 축에서 basic→CoT→combo로 진행할수록 reliability가 체계적으로 향상되는 패턴이 드러난다.

발견

#	Finding
F1	Basic prompt에서 대부분의 LLM은 심한 overconfidence를 보이며, confidence 분포가 80–100 구간에 집중된다.
F2	CoT 및 justification을 결합한 combo prompt는 ECE를 가장 크게 낮추며, sampling 없이도 well-calibrated에 가까운 점수를 준다.
F3	Reliability는 모델 축보다 prompt method 축에서의 변동이 더 크다. 즉 같은 모델이라도 묻는 방식에 따라 결과가 뒤집힐 수 있다.
F4	Verbalized confidence는 최신 instruction-tuned 모델에서 discriminative(맞은/틀린 사례 구분) 능력이 더 강하게 나타난다.
F5	일부 모델은 어떤 prompt로도 confidence 분포를 제대로 넓히지 못해, self-knowledge의 학습적 상한을 시사한다.

이론적 의의

Self-knowledge의 prompt 의존성: 모델의 메타인지적 출력(confidence)은 고정된 능력이 아니라, scaffolding에 의해 조형되는 관측 함수임을 보여준다. 이는 introspection 연구에서 “모델이 무엇을 아는가”와 “어떻게 말하게 하는가”를 구분해야 한다는 주장을 실증한다.
Black-box UQ의 실현가능성: logit 접근 없이도 prompt만으로 calibration이 충분히 개선된다는 점은, closed-weight API 시대의 신뢰성 공학에 중요한 단서를 제공한다.
Agent 시스템 설계 원칙: multi-agent 협업에서 “내가 얼마나 확신하는가”를 표준 channel로 노출시키는 디자인을 뒷받침한다.

재현성 및 신뢰도 평가

Axis	Grade	근거
Evidence Quality	B	여러 데이터셋/모델/프롬프트 축의 벤치마크는 포괄적이나, 이론적 분석보다는 실증 관측 위주.
Reproducibility	B	공개 코드(GitHub `danielyxyang/llm-verbalized-uq`)와 표준 벤치마크. 다만 일부 proprietary LLM에 대한 재현은 API 비용/모델 스냅샷 이슈가 있다.
Generalizability	B	주로 영어 QA 중심. 장문 생성/코드/수학 영역으로의 외삽은 추가 검증 필요.
Theoretical Depth	C	Calibration 이론의 새 정의/보장보다는 응용적 측정이 중심.

원자적 인사이트

Calibration은 모델 속성이 아니라 “모델 × 프롬프트”의 속성이다. 같은 LLM이라도 basic prompt와 combo prompt 하에서 ECE가 크게 달라진다는 관찰은, UQ 연구가 모델 단위로만 보고되는 관례의 한계를 드러낸다. 앞으로의 UQ 벤치마크는 prompt family를 공변량으로 명시해야 한다.
CoT는 정답률 개선 도구를 넘어 메타인지 신호 추출 도구로 재해석된다. Reasoning을 드러내는 과정이 모델 내부의 불확실성을 분포적 confidence로 번역해 준다는 점은, reasoning과 calibration이 같은 매커니즘을 공유할 가능성을 시사한다.
Verbalized confidence의 상한은 self-knowledge 학습에 의해 결정된다. 어떤 모델은 prompt 개선으로도 confidence 분포를 넓히지 못하며, 이는 사전학습/정렬 단계에서 meta-level 신호가 적절히 주입되지 않았다는 신호다. 이 상한은 calibration-aware SFT/RLHF로만 돌파될 수 있다.

핵심 용어 정리

Verbalized confidence: LLM이 자신의 답에 대한 확신도를 출력 토큰 안에서 직접 숫자/언어로 말하는 방식의 UQ.
Calibration: 예측 확률 $p$ 와 실제 정답률 $acc (p)$ 가 일치하는 정도. 완전 calibrated이면 confidence 0.8인 답이 80% 확률로 맞다.
Expected Calibration Error (ECE): confidence bin별 $∣ acc - conf ∣$ 의 가중평균. 낮을수록 좋다.
Reliability diagram: confidence bin 대 실제 정답률의 plot. 대각선에 가까울수록 well-calibrated.
Prompt- & model-agnostic UQ: 특정 모델 내부나 특정 태스크에 묶이지 않고 일반화되는 불확실성 추정 전략.
Self-consistency / semantic entropy: 여러 번 sampling하여 답 분포로 불확실성을 측정하는 기존 접근(비용 큼).

Juhyeon's Blog

탐색기

On Verbalized Confidence Scores for LLMs

On Verbalized Confidence Scores for LLMs

Digest (CISELQ)

섹션별 요약

Introduction

Methods

Results

Discussion

Insights

Discussion Points

메타데이터

왜 이 연구를 하는가?

방법 (Method)

발견

이론적 의의

재현성 및 신뢰도 평가

관련 연구

원자적 인사이트

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크