LDT 같은 실험에서 RT를 Word Freq로 설명할 때, L1 corpus의 빈도를 그대로 사용해도 되는가? 하는 의문에서 시작.
“우리나라 사람들이 접하는 영어 대표적 자료인 교과서, 수능 시험 지문은 우리가 많이 읽으니 이로 산출한 빈도 데이터가 우리 즉, L2 English learner로써 체험하는 단어의 빈도를 더 잘 설명할 것이다.” 라는 가설.
“더 잘 설명할 것이다” 라는 부분은 행동 실험을 직접하고 R2 같은 값들로 살펴볼 수 있을 거라 기대.
Method(!!)
코퍼스 구축 방법
대한민국 학생들을 상대로 치뤄지는 영어시험인 수능에 더해, 중고등학생들이 영어를 접하는 지문들을 정리하여 코퍼스를 구축.
전처리 방법 및 tokenizing, merging 과정 소개 및 코드 제시.
선행 연구들에서 행동 실험의 결과를 설명하기 위해 word freq를 사용하는데, 일반적으로 하나의 코퍼스에서 추출하다가 보니, 한 코퍼스 내에서 단어가 저빈도인지 고빈도인지 판단한다.
그렇다면, KF에서 고빈도로 단어를 설정하면 다른 코퍼스에서도 이 단어가 고빈도라 말할 수 잇는가?
Results
“일단 우리 코퍼스가 이상하진 않아요”
전체적으로 기존 유명 코퍼스들과 spearman, pearson correlation을 제시하여 적당한 상관을 보여준다.
JSD 같은 metric도 사용하면 좋을 것 같다. → 단순 register 차이일수도 잇다.
빈도 vector를 교집합 단어들에 대해서 만들어서 cosine-sim
Burgress의 1900? 년대 논문에 의하면 KF와 같이 소규모의 코퍼스에서 저 빈도 단어들의 빈도가 유의미한 값이 아니라는 지적을 반박해야 한다.
선행 연구 단어 자극들 correlation 분석.
저 빈도 단어들에서 우리 코퍼스의 빈도 값은 안정화가 되어 있어요,,
질적 코퍼스 분석(psychological value distribution analysis)
Emotional Valance, Arousal 등을 분석하여 뭔가 한국인들의 영어가 질적으로 다를 수 있는 포인트가 있고, 다른 연구 결과에서 나온게 지지되면 좋겠지.(L1-english, L2-english가 다르다는 선행 연구의 결과를 지지하게 분석이 되면 best.)
“우리 코퍼스에서 단어 빈도 값은 L2 English Learner인 한국인들의 행동을 잘 설명해요!!”
Exp1. 다음과 같은 a,b,c 그룹 단어 준비해서 각각의 케이스에 대한 설명률 및 빈도효과가 어떻게 해석되는지 보는게 좋겠다.
a. 고, 고
b. 고, 저
c. 저, 고
일 때, b-c 비교 시 빈도효과가 L2 data가 L2 corpus에서 유의미하게 해석이 잘된다면 아주아주 좋지.
그러면 할 말은 저러한 단어들을 사용할 때에는 각별히 조심해야 한다고 할 수 있고 이 단어들 대상만으로 다른 psychological value둘울 뷴석할 수 있겠지.