Introduction


  • 기존 knowledge probe는 prediction accuracy와 precision만 측정하며 모델의 reliability(confidence calibration)를 고려하지 않음
  • 3가지 confidence modality: (1) intrinsic confidence, (2) structural consistency, (3) semantic grounding
  • 16개의 causal/masked LM에 대한 대규모 calibration 분석

Related Papers


  • Knowledge probing (LAMA 등)
  • Confidence calibration 연구

Methods


  • Relational knowledge에 대한 calibration probing framework
  • Intrinsic confidence: 모델의 기본 출력 확률
  • Structural consistency: 문장 rephrasing에 대한 일관성
  • Semantic grounding: linguistic confidence 표현의 정확성

Results


  • 대부분의 모델, 특히 masking objective로 학습된 모델이 overconfident
  • Statement rephrasing 불일치를 고려한 confidence가 가장 잘 calibrated
  • 가장 큰 pre-trained 모델도 linguistic confidence 표현의 semantics를 정확히 encode하지 못함

Discussion


  • Self-aware knowledge probing이라는 새로운 평가 패러다임 제시
  • 모델별 calibration 차이가 크며, 이는 모델 선택에 중요한 기준이 될 수 있음