Summary
Brier Score — 확률 예측의 평균 제곱 오차(MSE).
→ 값이 낮을수록 좋음 (0이면 완벽).
→ 기상 예보(비 올 확률) 평가에서 시작되어 ML에서도 calibration metric으로 쓰임.
계산 (이진 분류 기준)
- : 모델이 예측한 양성(positive) 확률
- : 실제 정답 (0 또는 1)
- 다중 클래스는 one-hot 형태의 정답 벡터와 확률 벡터 간 제곱 오차 평균으로 확장.
직관 예시
실제 정답이 1인데 모델이 0.9로 예측 → (좋음).
같은 정답에 모델이 0.4로 예측 → (나쁨).
ECE와의 차이
- ECE: bin 단위로 “확신도 vs 실제 정확도” 차이 → calibration만 봄.
- Brier Score: 샘플 단위 제곱 오차 → calibration + sharpness(예측의 결정성)를 같이 반영.
- Brier는 strictly proper scoring rule (정직한 확률 보고가 최적 전략임을 보장).
한계
- 클래스 불균형에 영향을 받음 (희귀 클래스 비중이 작으면 점수가 좋아 보일 수 있음).
- 다중 클래스에서 절대값 해석이 직관적이지 않음.
원 논문
Brier, G. W. (1950).
“Verification of forecasts expressed in terms of probability.”
Monthly Weather Review, 78(1), 1–3.