• Forestplot
    • 논문 19개가 각 행이되고,
    • 각 행에는 ANOVA 결과 및 pairwise-tukey 결과가 들어가면 되지.
    • 각 행에 그려지는 plot의 형태가 forest plot의 형태가 되고, CI가 그려지고, p-val이 같이 보고되면 될 듯,

Methods


  • 기존에는 ANOVA를 사용하려고 했으나, 이가 괜찮을까? 생각이 들어 고민 중.
  • ANOVA는 모수, 등분산성 가정을 충족해야 사용 가능한데, 분석 대상 데이터는 빈도 데이터이다.
  • 둘 다 충족 안 할 가능성이 매우 높고, 실제로도 그래서 정리 중…

Results


Hypothesis 1


  • 코퍼스 간 상관 비교 시 HF > LF 이고, 이는 Corpus의 질적 차이에 기인했다.
    • Critic: 1998 burgess의 논문에서 얘기된대로, 저빈도 단어의 빈도수 값 자체가 규모가 작은 코퍼스(KF) 에서는 덜 안정화된 건 아닌지?
    • Fact: 일단 저빈도에서의 상관이 전체적으로 낮은 건 맞음.
      • 그렇다면 우리 논문에서 단순히 ‘저빈도 단어들은 상관이 유독 낮더라’ 가 포인트가 되면 안됨.
      • 낮은 상관이 질적 차이에서 기인했다는 걸 증명해야 함. 이는,
          1. Korean-English Learner의 행동을 잘 설명한다거나,
          1. LF 단어들에서 KE가 KF와는 상관이 낮지만, HAL, SUBTLEX와는 높아야 됨.
          • SUBTLEX 논문에서 빈도에 의한 행동 설명력은 3000만 token이 elbow라고 했으니, HAL, SUBTLEX를 기준으로 삼자는 거지.

  • 해석을 좀 해보자면,
    • 오히려 초점은 DB 구축인거지. 그렇다면 우리 DB를 사용해야할 이유를 대보면,
      • Korean-English L2 learner의 행동을 잘 설명한다는 내용이 있어야 한다던지,
    • 혹은 오히려, KF를 타겟으로 비슷한 크기이지만, 다르다는 걸 무조건 어필해야 한다.
    • SUBTLEX 논문에서는 결국 3000만 token 이상이 되어야 빈도 값들이 설명력이 증가하지 않는다고 했다.
      • 즉, 3000만 크기 이상은 필요가 없다.
      • 그러니까, HAL, SUBTLEX 빈도보다 더 빈도 값 자체가 유의미한 실험값이 될 수 없다고 주장하는 거지.
      • 그렇다면 HAL-KE, SUBTLEX-KE의 LF-corr 값이 KE-KF보다 높아야 의미가 있는 거지.
        • KF-KE corr값이 낮은 것만으로는 설명이 불충분하지.
        • 왜냐하면 우리 LF 단어 빈도가 유의미 하다는 것이 입증은 되어야 하니.

Hypothesis 2