EDA(Exploratory Data Analysis)


  • ‘s 등 축약형 처리 고민해보기
    • SUBTLEX는 축약형을 분리한 것 같고, HAL은 분리하지 않은 것 같음.
      • HAL에서는 축약형이 집계되지만, SUBTLEX에서는 집계되지 않음.
        • 축약형을 해체했다기 보다는 탈락시킨 것으로 추정.

          → 따라서 tokenization 시 일단 HAL과 동일하게 세팅.

          → 상관 분석 시, SUBTLEX와는 교집합 단어 대상으로만 상관계수를 산출하기 때문에 target corpus와 1 vs 1 상황에서는 동일한 전처리했다고 볼 수 있음.