Summary
전통적으로 Language model을 평가할 떄 사용하는 metric.
→ perplexity가 높은 모델은 NTP(Next Token Prediction)에 대한 confidence가 낮다.
→ perplexity가 낮아야 좋은 모델.즉, 모델의 uncertainty를 측정하는 measure.
“매 순간 평균적으로 몇개의 단어 선택지 중 고민을 했는가?”
NOTE
or
Tip
Prompt PPL
Summary
perplexity 개념을 model의 response가 아니라 입력 prompt에 대해 계산을 하여,
“모델이 query를 얼마나 익숙하고 명확하게 느끼는가?”로 해석할 수 있음.
→ ltpo