Summary

데이터의 분산이 가장 “큰”방향으로 projection.

  • 차원 축소
  • noise 제거
  • feature selection
  • visualization(2,3D)

왜 분산이 커야하나?

→ 분산이 크다는 의미는 그 정보 만으로도 데이터들을 잘 구분할 수 있다는 의미이다. 데이터 간 구분이 안되면, 그 자체로써 데이터로의 의미가 없기에 주성분은 데이터를 잘 분산하는 방향으로 설정한다.
→ 분산이 가장 큰 방향 = “데이터 간 구분이 잘 되는 방향” = “정보 손실 최소화”