Summary

Brier Score — 확률 예측의 평균 제곱 오차(MSE).

→ 값이 낮을수록 좋음 (0이면 완벽).
→ 기상 예보(비 올 확률) 평가에서 시작되어 ML에서도 calibration metric으로 쓰임.

계산 (이진 분류 기준)

  • : 모델이 예측한 양성(positive) 확률
  • : 실제 정답 (0 또는 1)
  • 다중 클래스는 one-hot 형태의 정답 벡터와 확률 벡터 간 제곱 오차 평균으로 확장.

직관 예시

실제 정답이 1인데 모델이 0.9로 예측 → (좋음).
같은 정답에 모델이 0.4로 예측 → (나쁨).

ECE와의 차이

  • ECE: bin 단위로 “확신도 vs 실제 정확도” 차이 → calibration만 봄.
  • Brier Score: 샘플 단위 제곱 오차 → calibration + sharpness(예측의 결정성)를 같이 반영.
  • Brier는 strictly proper scoring rule (정직한 확률 보고가 최적 전략임을 보장).

한계

  • 클래스 불균형에 영향을 받음 (희귀 클래스 비중이 작으면 점수가 좋아 보일 수 있음).
  • 다중 클래스에서 절대값 해석이 직관적이지 않음.

원 논문

Brier, G. W. (1950).
“Verification of forecasts expressed in terms of probability.”
Monthly Weather Review, 78(1), 1–3.