ECE

Summary

ECE (Expected Calibration Error) — 보정(calibration) 오차
“모델이 0.9 확률로 예측한 샘플들 중, 실제로 90%가 맞는가?”
$모델이 말하는 확신도가 실제 정답률과 얼마나 일치하는가 ?$
→ 값이 낮을수록 좋음 (0이면 완벽한 calibration).
→ 정확도(accuracy)와는 별개. 정확도는 높아도 ECE는 나쁠 수 있음.

계산 방식

모델 예측 확률을 M개 구간(bin)으로 나눔 (예: [0.0~~0.1], [0.1~~0.2], …).

각 bin에서 평균 신뢰도(confidence)와 실제 정확도(accuracy)를 구함.

두 값의 차이를 샘플 수로 가중 평균.
$ECE = \sum_{m = 1}^{M} \frac{∣ B _{m} ∣}{n} ∣ acc (B_{m}) - conf (B_{m}) ∣$
여기서 $B_{m}$ 은 m번째 bin, $∣ B_{m} ∣$ 은 그 bin의 샘플 수, $n$ 은 전체 샘플 수.

직관 예시

모델이 “80% 확신” 한 100개 샘플 중 실제로 60개만 맞췄다면 → 그 bin 기여도는 $∣0.8 - 0.6∣ = 0.2$ .
모든 bin에서 이 값이 작아야 잘 보정된 모델.

한계

Bin 개수에 민감: bin을 어떻게 자르느냐에 따라 값이 달라짐.

다중 클래스에서는 보통 정답 클래스의 확률만 사용 (top-label calibration). 전체 분포 보정은 못 잡음.

관련 개념

보정 metric 짝꿍: Brier Score (확률 예측의 MSE).
현대 신경망은 over-confident 경향이 있어서 calibration이 중요함.

원 논문

Naeini, M. P., Cooper, G. F., & Hauskrecht, M. (2015).
“Obtaining Well Calibrated Probabilities Using Bayesian Binning.”
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2015).

신경망 맥락에서 널리 알려진 후속 연구:
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017).
“On Calibration of Modern Neural Networks.”
Proceedings of the 34th International Conference on Machine Learning (ICML 2017).

Juhyeon's Blog

탐색기

ECE

그래프 뷰

Properties

백링크