Introduction


  • LDT 같은 실험에서 RT를 Word Freq로 설명할 때, L1 corpus의 빈도를 그대로 사용해도 되는가? 하는 의문에서 시작.
  • “우리나라 사람들이 접하는 영어 대표적 자료인 교과서, 수능 시험 지문은 우리가 많이 읽으니 이로 산출한 빈도 데이터가 우리 즉, L2 English learner로써 체험하는 단어의 빈도를 더 잘 설명할 것이다.” 라는 가설.
    • “더 잘 설명할 것이다” 라는 부분은 행동 실험을 직접하고 같은 값들로 살펴볼 수 있을 거라 기대.

Method(!!)


  • 코퍼스 구축 방법
    • 대한민국 학생들을 상대로 치뤄지는 영어시험인 수능에 더해, 중고등학생들이 영어를 접하는 지문들을 정리하여 코퍼스를 구축.
    • 전처리 방법 및 tokenizing, merging 과정 소개 및 코드 제시.
  • 선행 연구들에서 행동 실험의 결과를 설명하기 위해 word freq를 사용하는데, 일반적으로 하나의 코퍼스에서 추출하다가 보니, 한 코퍼스 내에서 단어가 저빈도인지 고빈도인지 판단한다.
    • 그렇다면, KF에서 고빈도로 단어를 설정하면 다른 코퍼스에서도 이 단어가 고빈도라 말할 수 잇는가?

Results


  • “일단 우리 코퍼스가 이상하진 않아요”
    • 전체적으로 기존 유명 코퍼스들과 spearman, pearson correlation을 제시하여 적당한 상관을 보여준다.
    • JSD 같은 metric도 사용하면 좋을 것 같다. → 단순 register 차이일수도 잇다.
    • 빈도 vector를 교집합 단어들에 대해서 만들어서 cosine-sim
    • Burgress의 1900? 년대 논문에 의하면 KF와 같이 소규모의 코퍼스에서 저 빈도 단어들의 빈도가 유의미한 값이 아니라는 지적을 반박해야 한다.
      • 선행 연구 단어 자극들 correlation 분석.
        • 저 빈도 단어들에서 우리 코퍼스의 빈도 값은 안정화가 되어 있어요,,
  • 질적 코퍼스 분석(psychological value distribution analysis)
    • Emotional Valance, Arousal 등을 분석하여 뭔가 한국인들의 영어가 질적으로 다를 수 있는 포인트가 있고, 다른 연구 결과에서 나온게 지지되면 좋겠지.(L1-english, L2-english가 다르다는 선행 연구의 결과를 지지하게 분석이 되면 best.)
    • “우리 코퍼스에서 단어 빈도 값은 L2 English Learner인 한국인들의 행동을 잘 설명해요!!”
      • Exp1. 다음과 같은 a,b,c 그룹 단어 준비해서 각각의 케이스에 대한 설명률 및 빈도효과가 어떻게 해석되는지 보는게 좋겠다.
        • a. 고, 고
        • b. 고, 저
        • c. 저, 고
        • 일 때, b-c 비교 시 빈도효과가 L2 data가 L2 corpus에서 유의미하게 해석이 잘된다면 아주아주 좋지.
        • 그러면 할 말은 저러한 단어들을 사용할 때에는 각별히 조심해야 한다고 할 수 있고 이 단어들 대상만으로 다른 psychological value둘울 뷴석할 수 있겠지.
      • Exp2. SUBTLEX 빈도수 기준 구간별 단어들에 대래 RT explanation rate를 analysis

Discussion