Exp1(Regression)

가설:
보여주고 싶은 것 : 공통된 단어를 뽑았을 때, 두 코퍼스에서 보여주는 기울기에 차이가 있을 것인가?
결국 보여주려고 하는 건, 두 코퍼스에서 빈도효과가 차이가 난다.
두 코퍼스에서 각각 10구간 percentile을 잘라서 각각의 위치에서 sampling.
- 10 percentile 중 2~~3, 3~~4, 4~~5 … 7~~8 6개의 구간에서 즉, 상하위 20% 씩 cut-off하고 가운데 60% 구간을 거의 등간격으로 해서 sampling.
- 구간별 10개씩
  - 원랙 3구간 20개씩 하려고 했는데, 조건을 맞추다보니 KE에서 sampling 시 어려워서 더 구간을 쪼개서 단어 자극의 코퍼스 커버리지를 넓힘.
총 120개 단어들을 회귀 분석에 사용할 예정.
분석안
- 1안 : 각 60개를 각 코퍼스에만 적용.
- 2안합쳐서 120개를 각각 코퍼스에서 회귀
- 전체 단어의 분포를 보고 결정할 것.

Stimuli Stats

주요 통제 변인은 다음과 같다.

Word Length : 4를 기준으로 3~6 letter로 모두 setting
Freq: 기울기를 볼 때, 추정한 베타값의 신뢰도를 추정하는 SE를 줄이기 위해서는 빈도 값이 해당 카테고리 안에서 spreading되어야 할 필요가 있기에, 완벽하진 않아도 얼추 흝어지도록 함.
syllabic: mono, di-syllabic 단어만 추출.
원형 즉, 파생형은 사용하지 않고, plural 역시 제외.
POS(X): 일부러 통제하지 않음. 딱히 필요성을 느끼지 못함.
Concreteness(7-scale) : 3.6 기준으로 통제함.
- 큰 이유는 없고, Baek et al(2023, Memory and Cognition) 참고해서 비슷한 범위로 맞춤.
AoA(△): 적당히 했으나, 코퍼스별 차이가 있긴 함. 대략 코퍼스 간 1년 정도 차이.
OLD, PLD: 통제하진 않았으나 t-test에서 유의하지 않게 나옴.

KE percentile stimuli 60개

Multi column

Note

KE(%) Zipf(Mean, SD) Length Concreteness AoA
20-30(HF) 5.928008 (0.073) 4.1 (0.32) 3.637 (0.792) 4.231 (1.098)
30-40 5.739303 (0.059) 4.1 (0.88) 3.697 (0.682) 4.932 (0.999)
40-50 5.605710 (0.020) 4.0 (0.67) 3.572 (0.236) 5.574 (0.532)
50-60 5.483919 (0.041) 4.0 (0.81) 3.631 (0.294) 4.343 (0.870)
60-70 5.350969 (0.038) 4.1 (0.57) 3.629 (0.137) 5.692 (2.153)
70-80(LF) 5.193892 (0.045) 4.1 (0.57) 3.618 (0.188) 5.484 (1.347)

KE(%)	Zipf(Mean, SD)	Length	Concreteness	AoA
20-30(HF)	5.928008 (0.073)	4.1 (0.32)	3.637 (0.792)	4.231 (1.098)
30-40	5.739303 (0.059)	4.1 (0.88)	3.697 (0.682)	4.932 (0.999)
40-50	5.605710 (0.020)	4.0 (0.67)	3.572 (0.236)	5.574 (0.532)
50-60	5.483919 (0.041)	4.0 (0.81)	3.631 (0.294)	4.343 (0.870)
60-70	5.350969 (0.038)	4.1 (0.57)	3.629 (0.137)	5.692 (2.153)
70-80(LF)	5.193892 (0.045)	4.1 (0.57)	3.618 (0.188)	5.484 (1.347)

SUBTLEX percentile stimuli 60개

Multi column

Note

SUB(%) Zipf(Mean, SD) Length Concreteness AoA
20-30(HF) 4.977205 (0.074033) 4.0 (0.47) 3.687 (0.264) 5.709
30-40 4.778746 (0.050153) 4.1 (0.88) 3.645 (0.323) 5.344
40-50 4.610735 (0.048432) 4.1 (0.57) 3.641 (0.226) 5.760
50-60 4.475714 (0.044966) 4.1 (0.57) 3.666(0.216) 7.102
60-70 4.332576 (0.043542) 4.1 (0.73) 3.653 (0.288) 6.601
70-80(LF) 4.159414 (0.052596) 4.0 (0.47) 3.707 (0.160) 7.451

SUB(%)	Zipf(Mean, SD)	Length	Concreteness	AoA
20-30(HF)	4.977205 (0.074033)	4.0 (0.47)	3.687 (0.264)	5.709
30-40	4.778746 (0.050153)	4.1 (0.88)	3.645 (0.323)	5.344
40-50	4.610735 (0.048432)	4.1 (0.57)	3.641 (0.226)	5.760
50-60	4.475714 (0.044966)	4.1 (0.57)	3.666(0.216)	7.102
60-70	4.332576 (0.043542)	4.1 (0.73)	3.653 (0.288)	6.601
70-80(LF)	4.159414 (0.052596)	4.0 (0.47)	3.707 (0.160)	7.451

Summary

위 두 코퍼스에 대해 각각의 구간 별 빈도는 퍼지게, Concreteness는 일정하게, Length는 일정하게 가 적용됨.

겹치는 단어는 9개? 즉, 111개의 단어.
저번의 그래프로도 예상가능했지만, KE는 전체적으로 동일 빈도 단어들이 코퍼스 내에서 하방으로 skewed되어 있음. 고빈도 단어이더라도 percentile이 훨씬 아래라, 이런걸 LDT 할 때 고려하라고 제언할 수 잇을지도..?

Stimuli group 간 stats-Test

만약 자극 60개씩을 각각의 코퍼스에 대해서만 회귀 분석을 수행할 것이라면, 두 그룹간 차이는 없어야 회귀 분석 시 property를 넣지 않고 원하는 main-effect만 분석하기 수월하다.
2개의 그룹 비교니까 간단하게 t-test.

AoA 말고는 원하는 방향으로 control 됨.

Stimuli merging

가능한 분석 시나리오 중 하나로 120개의 자극을 각각의 코퍼스에 대해 회귀 시키는 케이스.

Multi column

Percentile Plot

Zipf-Scale Plot

예상과 다르진 않음. 다만, 이렇게 120개에 대해 돌리면 서로 카테고리별 겹치는 영역이 많다보니, 기울기의 차이가 날거라 기대하긴 힘들지도,,

Nonwords(LDT용)

ELP에서 제공하는 Nonword를 사용함.
단어 선정 기준은
- Length
- Bi-gram Freq(mean, sum)
- Ortho_N
- 을 통제함(mean, sd).

마찬가지로, 총 111개.
t-test 돌려서 구분 안되는 정도까지 해둠.

Multi column

Real-word stats

Non-word stats

t-test:

위 4가지 기준으로 구분되지 않음.

Exp2

자극을 뽑아서 하고 싶었으나, 단어 풀이 압도적으로 통제하기 어렵기도 하고, SUBTLEX로도 구분하는 단어들이 너무 전문 용어 및 LDT 자극으로 부적합하다는 판단이 들어 보류(폐기)
- 기존 생각~으로는 구간을 SUBTLEX Zipf 기준
  - 2.0~2.5
  - 2.5~3.0
  - 3.0~3.5
    - 3.5이상에서는 KE도 같이 커버.
  - 으로 하려고 했는데, 2.0~2.5 구간에 대한 단어풀이 20개도 안되서 포기.
  - 그리고 이것 역시 하나의 실험이자, 회귀 분석을 고려 중이었는데, 20개씩해서 60개는 나왔으면 좋겠지만, 조건별 단어 필터링을 해본 결과, 친숙성이 너무 떨어져, 통제가 제대로 안될거라는 판단.

Multi column

SUBTLEX Zipf 2.0~2.5 stimuli candidate(full)

SUBTLEX Zipf 2.5~3.0 stimuli candidate(full)

가설: SUBTLEX의 저빈도 구간 (Zipf < 3.5) 단어들에 대한 L2 English leaner들의 행동을 L1 corpus 빈도가 더 잘 설명할 것인가 아니면, 차이가 없다고 하는 L2 corpus가 더 잘 설명하는가?
- 그냥 대충 생각해보며, L2도 맞을 것 같은데, 일반적으로는 극저빈도 단어들은 L2가 모르잖아. 그러면 빈도효과를 볼 수 있을까?
- KE(L2) corpus에서 1 빈도 단어들은 코퍼스의 해상력 문제인가 아니면, L2의 특징이 반영된 것인가?
Occam’s Razor 관점에서는 실제 L2의 행동 데이터가 flatten한 RT 그래프를 보여주면, L2 코퍼스가 더 좋지.
간단히 말하자면, SUBTLEX가 KE로 구분할 수 없는 즉, Zipf3.5 미만의 단어들에 대해서 아무리 구분할 수 있어도 의미가 없다 → L2 그러면 더욱 더 KE를 사용하던가 cut-off 기준으로 사용하던가 해야지.
그러며 연속형으로 단어 select.
구간은 Zipf 2.0~~2.5 / 2.5~~3.0 / 3.0 ~ 3.5 각 20개씩?

Juhyeon's Blog

탐색기

Behavior Exp design-Final

Exp1(Regression)

Stimuli Stats

KE percentile stimuli 60개

SUBTLEX percentile stimuli 60개

Stimuli group 간 stats-Test

Stimuli merging

Nonwords(LDT용)

Exp2

그래프 뷰

목차

Properties

백링크