Pearson, spearman, zipf, Rfreq
Pearson
- 값 자체로 상관

Spearman
- 순위 상관; 데이터를 순위 형태로 변환 후 pearson corr.
- Pearson과 범위 공유,
- 아래 수식은 동 순위 없다는 가정 하 적용됨.


Kendall’s Tau(b)
- 순위 상관
- spearman은 제곱 항이 있어, kendall’s tau가 outlier에 대해 조금 더 robust함.
- concordant하다는 건 x,y 분포에서 증감 부호가 일치한다는 것.
- a,b,c type이 있는데, tie(동 순위)를 a에서 고려하지 않아, 이를 보완한 것이 b
그렇다면 고민 포인트는 어떠한 지표를 더 사용해야 하냐?
- 연속형 값이니 pearson을 믿느냐?
- 그런데 분포를 보면 outlier가 너무 많으니, 더 robust한 spearman을 좀 더 기준으로 보는게 옳지 않은가?