Abstract
...
The good algorithm is the Laplace transformation, which consists of adding 1 to each frequency count and increasing the total corpus size by the number of word types observed.
Introduction
...
More variance in word-processing performance is accounted for by frequency estimates from smaller corpora that are more representative of the language that the participants of psychology experiments have been exposed to (Brysbaert, Keuleers, & New, 2011). Although frequency measures based on very large corpora provide estimates for all words, they do not provide very good estimates.
- 흥미로운 파트!! : 작은 코퍼스가 더 behavior exp를 잘 설명한다는 거잖아.
- 큰 코퍼스는 다양한 단어를 cover할 수 있지만, 개별 단어에 대한 좋은 추정치를 제공하지는 않고. WhY?
- 큰 코퍼스 같은 경우, wikipedia와 같은 일반적인 사람들이 많이 읽지는 않는 자료들을 기반으로 함.
- 큰 코퍼스는 극 저 빈도 단어들을 과대 추정함.
- 대략적으로 사람들의 읽는 속도 평균 읽는 량을 감안해서 계산해보면, 20세가 그동안 접한 단어는 많아야 14억 단어인데, 이 보다 큰 코퍼스를 사용한다면, 빈도를 과대 추정.
Suggested Methods
Discard words with 0-freq
- 말 그대로 0 빈도 단어들을 제외하고 즉, 두 코퍼스 간 교집합 단어들에 대한 분석만 진행.
- 이 경우 단점은 아무래도 두 코퍼스에서 교집합에 해당하는 단어들만 비교하다보니, 주로 저빈도 단어 보다는 고 빈도 단어만 살아남을 가능성이 높아, 이로 빈도효과를 측정한다면, effect-size는 작아지기도,,
Add 1 to each freq
- Laplace smoothing : 다 1씩 더하고 코퍼스 크기를 수정해야 함.
Results
결론: Laplace 써라.