CSAT(only) vs Textbook(only) (Z-score Normalized)


  • 위에서 사용되었던 CSAT를 (수능+모의고사) vs 한국 영어 교과서로 구분해서 상관 분석
  • 기존 CSAT 총 token 수: 83만(835025, 9.2만은 . or ,) 중 수능+모의고사(482265: 57%), 교과서(352760: 13.4%)
    • 각각의 unique token 수: 수능+모의고사(17438), 교과서(14822)
    • 이중 E-lexicon proj랑 겹쳐서 POS가 살아 있는것만 고려.
    • 정제과정 거치면 14009, 11801개의 unique token 확보. 더불어 POS tag도 있는.
    • CSAT unique token 수: 16354 → overlap 9456개

Multi column

Freq

단어 빈도수 상관관계 분석 결과
==================================
📊 기본 통계:
데이터 개수: 9456
CSAT_only_Freq - 평균: 0.00, 표준편차: 1.00
Textbook_only_Freq - 평균: -0.00, 표준편차: 1.00
 
🔗 상관계수:
피어슨 상관계수: 0.9904 (p-value: 0.0000)
스피어만 상관계수: 0.7509 (p-value: 0.0000)
켄달 타우: 0.5997 (p-value: 0.0000)
 
📝 해석:
통계적 유의성: 매우 유의함 (p < 0.001)
상관관계 강도: 강한 양의 상관관계
==================================

Ortho_N

단어 빈도수 상관관계 분석 결과
==================================
📊 기본 통계:
데이터 개수: 9456
Ortho_N_CSAT(only) - 평균: -0.00, 표준편차: 1.00
Ortho_N_Textbook(only) - 평균: -0.00, 표준편차: 1.00
 
🔗 상관계수:
피어슨 상관계수: 0.9656 (p-value: 0.0000)
스피어만 상관계수: 0.9257 (p-value: 0.0000)
켄달 타우: 0.8961 (p-value: 0.0000)
 
📝 해석:
통계적 유의성: 매우 유의함 (p < 0.001)
상관관계 강도: 강한 양의 상관관계
==================================

OLD20

단어 빈도수 상관관계 분석 결과
==================================
📊 기본 통계:
데이터 개수: 9456
OLD20_CSAT(only) - 평균: -0.00, 표준편차: 1.00
OLD20_Textbook(only) - 평균: 0.00, 표준편차: 1.00
 
🔗 상관계수:
피어슨 상관계수: 0.9912 (p-value: 0.0000)
스피어만 상관계수: 0.9912 (p-value: 0.0000)
켄달 타우: 0.9357 (p-value: 0.0000)
 
📝 해석:
통계적 유의성: 매우 유의함 (p < 0.001)
상관관계 강도: 강한 양의 상관관계
==================================

차집합 단어들은 어떠한 분포를? ← 수정되어야 함,,


  • CSAT를 우선 수능 / 교과서로 나눈 뒤, 각각을 E-lexicon proj의 POS값을 사용해서 tagging.
    • tagging된 것들의 상관은 높게 나옴.

    • 그렇다면 상관을 구할 때, 버려진 단어들은 어떠한 특징이??

      • E-lexicon proj 로 POS tagging되지 않는 즉, E-lexicon proj 에 없는 단어는 모두 textbook에서 나왔다. 반면 수능은 그렇지 않은 거지.
      • 그렇다면 corpus 분석에 있어서 두 코퍼스가 유사한지 판단하는 것에 교집합 단어의 상관만 보는 것이 의미가 있나 고민해볼 포인트.
      • 차집합 단어들의 해석을 어떻게 할 것인지도 고민해볼 포인트.
        • 볼만한 지표들은 E-lexicon에 있는 AoA? Emotion Rating? 이런 것도 의미가 있을까?
          • “긍정가, 부정가가 특이적인 단어들이 저기에 들어갔다” 라는 결과가 나와도 재미있지는 않을까 생각이 들긴 하네.