전처리 이후 총 corpus token 수: 83만 개(835025)

Number of Tokens(Corpus Size)


KEKE(EXAM)KE(TEXTBOOK)
Total Token835,025(100%)482,265(57.7%)352,760(42.3%)
.54,96532,87722,088
,38,66621,94416,722
Unique-Token22,14717,44014,824
Unique-Token(POS)16,35414,01111,803

어떠한 단어들이 6천개나 빠졌나?


  • 현재 KE에서는 나왔지만, E-lexicon에서는 없는 단어들이 6 천개나 된다는 건데,,
  • 그중 대략 3천개는 SUBTLEXus에는 있는 것으로 확인됨.