CSAT(only) vs Textbook(only) (Z-score Normalized)
- 위에서 사용되었던 CSAT를 (수능+모의고사) vs 한국 영어 교과서로 구분해서 상관 분석
- 기존 CSAT 총 token 수: 83만(835025, 9.2만은 . or ,) 중 수능+모의고사(482265: 57%), 교과서(352760: 13.4%)
- 각각의 unique token 수: 수능+모의고사(17438), 교과서(14822)
- 이중 E-lexicon proj랑 겹쳐서 POS가 살아 있는것만 고려.
- 정제과정 거치면 14009, 11801개의 unique token 확보. 더불어 POS tag도 있는.
- CSAT unique token 수: 16354 → overlap 9456개
Multi column
Freq
![]()
![]()
단어 빈도수 상관관계 분석 결과 ================================== 📊 기본 통계: 데이터 개수: 9456 CSAT_only_Freq - 평균: 0.00, 표준편차: 1.00 Textbook_only_Freq - 평균: -0.00, 표준편차: 1.00 🔗 상관계수: 피어슨 상관계수: 0.9904 (p-value: 0.0000) 스피어만 상관계수: 0.7509 (p-value: 0.0000) 켄달 타우: 0.5997 (p-value: 0.0000) 📝 해석: 통계적 유의성: 매우 유의함 (p < 0.001) 상관관계 강도: 강한 양의 상관관계 ==================================Ortho_N
![]()
![]()
단어 빈도수 상관관계 분석 결과 ================================== 📊 기본 통계: 데이터 개수: 9456 Ortho_N_CSAT(only) - 평균: -0.00, 표준편차: 1.00 Ortho_N_Textbook(only) - 평균: -0.00, 표준편차: 1.00 🔗 상관계수: 피어슨 상관계수: 0.9656 (p-value: 0.0000) 스피어만 상관계수: 0.9257 (p-value: 0.0000) 켄달 타우: 0.8961 (p-value: 0.0000) 📝 해석: 통계적 유의성: 매우 유의함 (p < 0.001) 상관관계 강도: 강한 양의 상관관계 ==================================OLD20
![]()
![]()
단어 빈도수 상관관계 분석 결과 ================================== 📊 기본 통계: 데이터 개수: 9456 OLD20_CSAT(only) - 평균: -0.00, 표준편차: 1.00 OLD20_Textbook(only) - 평균: 0.00, 표준편차: 1.00 🔗 상관계수: 피어슨 상관계수: 0.9912 (p-value: 0.0000) 스피어만 상관계수: 0.9912 (p-value: 0.0000) 켄달 타우: 0.9357 (p-value: 0.0000) 📝 해석: 통계적 유의성: 매우 유의함 (p < 0.001) 상관관계 강도: 강한 양의 상관관계 ==================================
차집합 단어들은 어떠한 분포를? ← 수정되어야 함,,
- CSAT를 우선 수능 / 교과서로 나눈 뒤, 각각을 E-lexicon proj의 POS값을 사용해서 tagging.
-
tagging된 것들의 상관은 높게 나옴.
-
그렇다면 상관을 구할 때, 버려진 단어들은 어떠한 특징이??
- E-lexicon proj 로 POS tagging되지 않는 즉, E-lexicon proj 에 없는 단어는 모두 textbook에서 나왔다. 반면 수능은 그렇지 않은 거지.
- 그렇다면 corpus 분석에 있어서 두 코퍼스가 유사한지 판단하는 것에 교집합 단어의 상관만 보는 것이 의미가 있나 고민해볼 포인트.
- 차집합 단어들의 해석을 어떻게 할 것인지도 고민해볼 포인트.
- 볼만한 지표들은 E-lexicon에 있는 AoA? Emotion Rating? 이런 것도 의미가 있을까?
- “긍정가, 부정가가 특이적인 단어들이 저기에 들어갔다” 라는 결과가 나와도 재미있지는 않을까 생각이 들긴 하네.
- 볼만한 지표들은 E-lexicon에 있는 AoA? Emotion Rating? 이런 것도 의미가 있을까?
-


