Exp1(Regression)


  • 가설:

  • 보여주고 싶은 것 : 공통된 단어를 뽑았을 때, 두 코퍼스에서 보여주는 기울기에 차이가 있을 것인가?

  • 결국 보여주려고 하는 건, 두 코퍼스에서 빈도효과가 차이가 난다.

  • 두 코퍼스에서 각각 10구간 percentile을 잘라서 각각의 위치에서 sampling.

    • 10 percentile 중 23, 34, 45 … 78 6개의 구간에서 즉, 상하위 20% 씩 cut-off하고 가운데 60% 구간을 거의 등간격으로 해서 sampling.
    • 구간별 10개씩
      • 원랙 3구간 20개씩 하려고 했는데, 조건을 맞추다보니 KE에서 sampling 시 어려워서 더 구간을 쪼개서 단어 자극의 코퍼스 커버리지를 넓힘.
  • 총 120개 단어들을 회귀 분석에 사용할 예정.

  • 분석안

    • 1안 : 각 60개를 각 코퍼스에만 적용.
    • 2안합쳐서 120개를 각각 코퍼스에서 회귀
    • 전체 단어의 분포를 보고 결정할 것.

Stimuli Stats


주요 통제 변인은 다음과 같다.

  • Word Length : 4를 기준으로 3~6 letter로 모두 setting
  • Freq: 기울기를 볼 때, 추정한 베타값의 신뢰도를 추정하는 SE를 줄이기 위해서는 빈도 값이 해당 카테고리 안에서 spreading되어야 할 필요가 있기에, 완벽하진 않아도 얼추 흝어지도록 함.
  • syllabic: mono, di-syllabic 단어만 추출.
  • 원형 즉, 파생형은 사용하지 않고, plural 역시 제외.
  • POS(X): 일부러 통제하지 않음. 딱히 필요성을 느끼지 못함.
  • Concreteness(7-scale) : 3.6 기준으로 통제함.
    • 큰 이유는 없고, Baek et al(2023, Memory and Cognition) 참고해서 비슷한 범위로 맞춤.
  • AoA(△): 적당히 했으나, 코퍼스별 차이가 있긴 함. 대략 코퍼스 간 1년 정도 차이.
  • OLD, PLD: 통제하진 않았으나 t-test에서 유의하지 않게 나옴.

KE percentile stimuli 60개


Multi column

Note

KE(%)Zipf(Mean, SD)LengthConcretenessAoA
20-30(HF)5.928008 (0.073)4.1 (0.32)3.637 (0.792)4.231 (1.098)
30-405.739303 (0.059)4.1 (0.88)3.697 (0.682)4.932 (0.999)
40-505.605710 (0.020)4.0 (0.67)3.572 (0.236)5.574 (0.532)
50-605.483919 (0.041)4.0 (0.81)3.631 (0.294)4.343 (0.870)
60-705.350969 (0.038)4.1 (0.57)3.629 (0.137)5.692 (2.153)
70-80(LF)5.193892 (0.045)4.1 (0.57)3.618 (0.188)5.484 (1.347)

SUBTLEX percentile stimuli 60개


Multi column

Note

SUB(%)Zipf(Mean, SD)LengthConcretenessAoA
20-30(HF)4.977205 (0.074033)4.0 (0.47)3.687 (0.264)5.709
30-404.778746 (0.050153)4.1 (0.88)3.645 (0.323)5.344
40-504.610735 (0.048432)4.1 (0.57)3.641 (0.226)5.760
50-604.475714 (0.044966)4.1 (0.57)3.666(0.216)7.102
60-704.332576 (0.043542)4.1 (0.73)3.653 (0.288)6.601
70-80(LF)4.159414 (0.052596)4.0 (0.47)3.707 (0.160)7.451

Summary

위 두 코퍼스에 대해 각각의 구간 별 빈도는 퍼지게, Concreteness는 일정하게, Length는 일정하게 가 적용됨.

  • 겹치는 단어는 9개? 즉, 111개의 단어.
    저번의 그래프로도 예상가능했지만, KE는 전체적으로 동일 빈도 단어들이 코퍼스 내에서 하방으로 skewed되어 있음. 고빈도 단어이더라도 percentile이 훨씬 아래라, 이런걸 LDT 할 때 고려하라고 제언할 수 잇을지도..?

Stimuli group 간 stats-Test


  • 만약 자극 60개씩을 각각의 코퍼스에 대해서만 회귀 분석을 수행할 것이라면, 두 그룹간 차이는 없어야 회귀 분석 시 property를 넣지 않고 원하는 main-effect만 분석하기 수월하다.
  • 2개의 그룹 비교니까 간단하게 t-test.

  • AoA 말고는 원하는 방향으로 control 됨.

Stimuli merging


  • 가능한 분석 시나리오 중 하나로 120개의 자극을 각각의 코퍼스에 대해 회귀 시키는 케이스.

Multi column

Percentile Plot

Zipf-Scale Plot

  • 예상과 다르진 않음. 다만, 이렇게 120개에 대해 돌리면 서로 카테고리별 겹치는 영역이 많다보니, 기울기의 차이가 날거라 기대하긴 힘들지도,,

Nonwords(LDT용)


  • ELP에서 제공하는 Nonword를 사용함.
  • 단어 선정 기준은
    • Length
    • Bi-gram Freq(mean, sum)
    • Ortho_N
    • 을 통제함(mean, sd).

마찬가지로, 총 111개.
t-test 돌려서 구분 안되는 정도까지 해둠.

Multi column

Real-word stats

Non-word stats

t-test:

  • 위 4가지 기준으로 구분되지 않음.

Exp2


  • 자극을 뽑아서 하고 싶었으나, 단어 풀이 압도적으로 통제하기 어렵기도 하고, SUBTLEX로도 구분하는 단어들이 너무 전문 용어 및 LDT 자극으로 부적합하다는 판단이 들어 보류(폐기)
    • 기존 생각~으로는 구간을 SUBTLEX Zipf 기준
      • 2.0~2.5
      • 2.5~3.0
      • 3.0~3.5
        • 3.5이상에서는 KE도 같이 커버.
      • 으로 하려고 했는데, 2.0~2.5 구간에 대한 단어풀이 20개도 안되서 포기.
      • 그리고 이것 역시 하나의 실험이자, 회귀 분석을 고려 중이었는데, 20개씩해서 60개는 나왔으면 좋겠지만, 조건별 단어 필터링을 해본 결과, 친숙성이 너무 떨어져, 통제가 제대로 안될거라는 판단.

Multi column

SUBTLEX Zipf 2.0~2.5 stimuli candidate(full)

SUBTLEX Zipf 2.5~3.0 stimuli candidate(full)

  • 가설: SUBTLEX의 저빈도 구간 (Zipf < 3.5) 단어들에 대한 L2 English leaner들의 행동을 L1 corpus 빈도가 더 잘 설명할 것인가 아니면, 차이가 없다고 하는 L2 corpus가 더 잘 설명하는가?
    • 그냥 대충 생각해보며, L2도 맞을 것 같은데, 일반적으로는 극저빈도 단어들은 L2가 모르잖아. 그러면 빈도효과를 볼 수 있을까?
    • KE(L2) corpus에서 1 빈도 단어들은 코퍼스의 해상력 문제인가 아니면, L2의 특징이 반영된 것인가?
  • Occam’s Razor 관점에서는 실제 L2의 행동 데이터가 flatten한 RT 그래프를 보여주면, L2 코퍼스가 더 좋지.
  • 간단히 말하자면, SUBTLEX가 KE로 구분할 수 없는 즉, Zipf3.5 미만의 단어들에 대해서 아무리 구분할 수 있어도 의미가 없다 → L2 그러면 더욱 더 KE를 사용하던가 cut-off 기준으로 사용하던가 해야지.
  • 그러며 연속형으로 단어 select.
  • 구간은 Zipf 2.02.5 / 2.53.0 / 3.0 ~ 3.5 각 20개씩?