Introduction
- Standard MoE의 deterministic routing이 miscalibration과 overconfidence의 원인
- Bayesian MoE routing framework 제안: routing decision에 확률 분포 모델링
- Weight-space, logit-space, selection-space의 세 가지 uncertainty 도입 방법 조사
- Mixture-of-Experts
- Bayesian deep learning, uncertainty quantification
Methods
- 3B parameter MoE model에서 실험
- 세 가지 uncertainty 도입 위치 비교
- In-distribution calibration 및 OoD detection 평가
Results
- Routing stability, in-distribution calibration, OoD detection 모두 개선
- Core architectural component 개선으로 reliable uncertainty signal 생성
Discussion
- Architecture 수준에서 self-awareness를 구축하는 접근
- “Know what they don’t know”를 위한 구조적 해결책