Merging
- pandas의 merge method 사용.
- DB 형태로 제공할 때는 outter 방식으로 merge
- 전체를 하나의 xlsx 파일로 뽑음.
- 교과서와 (수능+모의고사) 셋을 분리해서도 보고 싶기에, 분리해서 처리.
- 둘 다 각각의 소스를 전처리하고, 이를 먼저 E-lexicon이랑 합침.
- E-lexicon은 합치기 전에 lower 처리함. ← CSAT는 기본적으로 모두 소문자로 해둠.
- Why?
- ortho-N, OLD 값을 구할 때에는 비 단어가 섞이면 안되잖아.
- 그러니 적어도 E-lexicon 내에 있는 단어만 가져올 수 있게 하면, 비교적 정확한 OLD, ortho-N을 계산할 수 있겠지.
- 둘 다 각각의 소스를 전처리하고, 이를 먼저 E-lexicon이랑 합침.
상관 분석을 위해 inner (교집합) 형태로 merging- outer로 합쳐도 상관 구하는데 문제 없음.