Summary

ECE (Expected Calibration Error) — 보정(calibration) 오차
“모델이 0.9 확률로 예측한 샘플들 중, 실제로 90%가 맞는가?”

→ 값이 낮을수록 좋음 (0이면 완벽한 calibration).
→ 정확도(accuracy)와는 별개. 정확도는 높아도 ECE는 나쁠 수 있음.

계산 방식

  1. 모델 예측 확률을 M개 구간(bin)으로 나눔 (예: [0.00.1], [0.10.2], …).
  2. 각 bin에서 평균 신뢰도(confidence)와 실제 정확도(accuracy)를 구함.
  3. 두 값의 차이를 샘플 수로 가중 평균.

    여기서 은 m번째 bin, 은 그 bin의 샘플 수, 은 전체 샘플 수.

직관 예시

모델이 “80% 확신” 한 100개 샘플 중 실제로 60개만 맞췄다면 → 그 bin 기여도는 .
모든 bin에서 이 값이 작아야 잘 보정된 모델.

한계

  • Bin 개수에 민감: bin을 어떻게 자르느냐에 따라 값이 달라짐.
  • 다중 클래스에서는 보통 정답 클래스의 확률만 사용 (top-label calibration). 전체 분포 보정은 못 잡음.

관련 개념

보정 metric 짝꿍: Brier Score (확률 예측의 MSE).
현대 신경망은 over-confident 경향이 있어서 calibration이 중요함.

원 논문

Naeini, M. P., Cooper, G. F., & Hauskrecht, M. (2015).
“Obtaining Well Calibrated Probabilities Using Bayesian Binning.”
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2015).

신경망 맥락에서 널리 알려진 후속 연구:
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017).
“On Calibration of Modern Neural Networks.”
Proceedings of the 34th International Conference on Machine Learning (ICML 2017).