Pearson, spearman, zipf, Rfreq

Pearson


  • 값 자체로 상관

Spearman


  • 순위 상관; 데이터를 순위 형태로 변환 후 pearson corr.
  • Pearson과 범위 공유,
  • 아래 수식은 동 순위 없다는 가정 하 적용됨.


Kendall’s Tau(b)


  • 순위 상관
  • spearman은 제곱 항이 있어, kendall’s tau가 outlier에 대해 조금 더 robust함.
  • concordant하다는 건 x,y 분포에서 증감 부호가 일치한다는 것.
  • a,b,c type이 있는데, tie(동 순위)를 a에서 고려하지 않아, 이를 보완한 것이 b

그렇다면 고민 포인트는 어떠한 지표를 더 사용해야 하냐?

  • 연속형 값이니 pearson을 믿느냐?
  • 그런데 분포를 보면 outlier가 너무 많으니, 더 robust한 spearman을 좀 더 기준으로 보는게 옳지 않은가?