Summary
ECE (Expected Calibration Error) — 보정(calibration) 오차
“모델이 0.9 확률로 예측한 샘플들 중, 실제로 90%가 맞는가?”
→ 값이 낮을수록 좋음 (0이면 완벽한 calibration).
→ 정확도(accuracy)와는 별개. 정확도는 높아도 ECE는 나쁠 수 있음.
계산 방식
- 모델 예측 확률을 M개 구간(bin)으로 나눔 (예: [0.0
0.1], [0.10.2], …).- 각 bin에서 평균 신뢰도(confidence)와 실제 정확도(accuracy)를 구함.
- 두 값의 차이를 샘플 수로 가중 평균.
여기서 은 m번째 bin, 은 그 bin의 샘플 수, 은 전체 샘플 수.
직관 예시
모델이 “80% 확신” 한 100개 샘플 중 실제로 60개만 맞췄다면 → 그 bin 기여도는 .
모든 bin에서 이 값이 작아야 잘 보정된 모델.
한계
- Bin 개수에 민감: bin을 어떻게 자르느냐에 따라 값이 달라짐.
- 다중 클래스에서는 보통 정답 클래스의 확률만 사용 (top-label calibration). 전체 분포 보정은 못 잡음.
관련 개념
보정 metric 짝꿍: Brier Score (확률 예측의 MSE).
현대 신경망은 over-confident 경향이 있어서 calibration이 중요함.
원 논문
Naeini, M. P., Cooper, G. F., & Hauskrecht, M. (2015).
“Obtaining Well Calibrated Probabilities Using Bayesian Binning.”
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2015).신경망 맥락에서 널리 알려진 후속 연구:
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017).
“On Calibration of Modern Neural Networks.”
Proceedings of the 34th International Conference on Machine Learning (ICML 2017).