전처리 이후 총 corpus token 수: 83만 개(835025)
Number of Tokens(Corpus Size)
| KE | KE(EXAM) | KE(TEXTBOOK) | |
|---|---|---|---|
| Total Token | 835,025(100%) | 482,265(57.7%) | 352,760(42.3%) |
| . | 54,965 | 32,877 | 22,088 |
| , | 38,666 | 21,944 | 16,722 |
| Unique-Token | 22,147 | 17,440 | 14,824 |
| Unique-Token(POS) | 16,354 | 14,011 | 11,803 |
어떠한 단어들이 6천개나 빠졌나?
- 현재 KE에서는 나왔지만, E-lexicon에서는 없는 단어들이 6 천개나 된다는 건데,,
- 그중 대략 3천개는 SUBTLEXus에는 있는 것으로 확인됨.