LLM으로 렉시컬 디시전 시간을 시뮬레이션하여 메가스터디·크라우드소싱을 보완하기

Digest (CISELQ): 심리언어학 메가스터디(ELP, ECP 등)는 수만 단어의 반응시간(RT)을 제공하지만 모든 단어·참가자군을 포괄하지 못해 결측이 크다(Context). 기존 통계적 보간은 비무작위 결측에 취약하고, LLM이 단어 특성(구체성, 정서가)을 잘 추정한다는 선행 결과가 있어도 RT와 같은 “밀리초 단위의 행동 측정값”에 대한 LLM의 예측력은 미지수였다(Issue). 저자들은 GPT-4o mini를 English Lexicon Project에서 3,000–9,907 단어로 fine-tuning하여, 단어가 입력되면 정확도(%)와 표준화 RT(zRT)를 두 숫자로 출력하도록 학습시킨 뒤 6,491개 교차검증 단어에 적용했다(Solution). 결과는 인간 zRT와 r≈.88(GPT-4o·GPT-4o mini 공히), 정확도와 r≈.86이며 이는 ELP의 split-half 신뢰도 상한(~.85)에 근접한다; 3K 단어만으로도 r≈.87/.80을 달성하며 랜덤포레스트 변수 중요도 순위가 인간·GPT에서 일치한다(Evidence). 그러나 Study 4에서 6개 공지된 심리언어 효과의 가상 복제 시 3K 훈련으로는 3개만 성공·2개 실패·1개 경계선이며, GPT 출력의 표준편차가 체계적으로 축소되고 사전학습 오염은 정량화되지 않는다(Limitation). “시뮬레이션”이라는 용어가 타당한가 — 즉 텍스트 출력으로서의 숫자가 인지 과정의 지표가 될 수 있는가, 그리고 새로운 가설이 바로 LLM이 실패하는 미세한 어휘 속성에 의존할 때 어떻게 신뢰할 것인가(Question).

🧪 AI 과학자의 방법론 평가 (Critical Review)

이 섹션은 표준 paper-driller 요약 위에 사용자 요청으로 추가된 비평이다. 논문의 공헌을 인정하되, 방법론적 가정을 엄격히 점검한다.

⚠️ 경각심 프롤로그 — 타협 불가능한 타당도 문제 (One-Sentence Reductio)

“행동 결과를 자기보고 식으로 예측시킬 거라면, 애초에 행동 실험이 왜 필요한가? 참가자에게도 ‘이 단어를 보고 당신이 몇 ms에 반응할지 예측해보세요’라고 물어보면 되지 않는가?”

이 한 반문에 논문의 방법론적 타당성이 붕괴한다. 그리고 이것은 즉흥적 도발이 아니라 반세기 동안 실험심리학이 이미 거부해 온 paradigm의 재발견이다.

왜 심리학은 자기보고식 RT 예측을 거부해 왔는가

① Nisbett & Wilson (1977), Psychological Review — “Telling More Than We Can Know”
인간은 자신의 인지 과정에 직접 내관(introspection) 접근이 없다. 왜 그렇게 판단했는지, 얼마나 빨리 반응할지를 정확히 보고하지 못한다. 이 논문은 1977년 이후 실험심리학 전체의 기반이 되었으며, “자기보고”와 “행동 측정”을 서로 다른 종류의 데이터로 취급하는 습관을 확립했다.

② Procedural vs. Declarative Dissociation
암묵적 어휘 접속(implicit lexical access)은 명시적 지식과 해리되어 있다 (Reber 1989; Schacter 1987). 참가자가 "house는 익숙한 단어"라고 말할 수 있는 것과, 그 단어를 화면에서 얼마나 빨리 식별하는가는 서로 다른 인지 시스템의 산물이며 체계적으로 어긋난다.

③ 측정 시점의 유일성 (Physical Event Requirement)
RT의 본질은 "자극 제시 → 운동 반응" 사이의 물리적 경과 시간이다. 측정 주체(시계·키보드·EEG)가 없으면 RT도 없다. LLM이 "zRT = -0.42"를 출력하는 순간 시간은 아무 곳에서도 측정되지 않는다 — 그것은 숫자 토큰일 뿐이다.

논문 방법이 “성공”하는 진짜 이유 — Common-Cause 상관

[사람 RT megastudy] → [집단 평균 zRT] → [GPT fine-tuning target]
                                             ↓
                              [GPT가 zRT 값 예측 (텍스트)]
                                             ↓
                 [GPT 예측 × 사람 RT] ≈ .88 로 상관

이 상관이 높은 이유는 GPT가 인간 인지를 모사(simulate) 해서가 아니다. GPT 출력과 사람 RT가 모두 공통된 제3의 잠재변수(단어 빈도, 길이, 친숙도, 구체성, AoA, 근접 이웃 밀도 등) 의 함수이기 때문이다.

Process convergence라면: GPT가 사람과 같은 인지 단계들을 같은 순서로 거쳐 결과 도출.
Common-cause correlation에 불과: GPT 예측과 사람 RT가 별개 경로로 같은 잠재변수에 의존해 생긴 간접 일치.

이 논문이 보여준 것은 후자다. Study 3의 random forest 변수 중요도가 GPT와 사람에서 같은 순서로 나오는 것(Multilex freq > length > first phoneme > concreteness)은 process convergence의 증거가 아니라 공통 원인의 증거다.

사용자 반문의 reductio 형식

P1: LLM에게 "이 단어에 사람이 몇 ms에 반응할지 예측해"라고 묻는 것이 인지 시뮬레이션으로 타당하다면,
P2: 동일 논리로, 인간 참가자에게 "당신이 이 단어에 몇 ms에 반응할지 예측해"라고 묻는 것도 인지 측정으로 타당해야 한다.
P3: 그러나 심리언어학 전체는 P2를 거부하며, 바로 그 거부를 근거로 RT 실험(자기보고가 아닌)을 수행한다.
∴ C: P1 역시 거부되어야 한다. 그렇지 않으면 P2를 비일관적으로 받아들이게 된다.

수용 시 실험심리학의 방법론적 기초 절반이 동시에 붕괴하므로 비대칭적으로 거부될 수 없다.

경각심의 수위 — “타협 불가능”이 맞다

이 타당도 문제는 다음 이유로 정도의 차이가 아니라 범주의 차이다:

❌ 데이터 품질 개선으로 해결되지 않음 (더 많은 단어로 fine-tuning 해도 여전히 self-report).
❌ 모델 크기 확장으로 해결되지 않음 (GPT-5o가 나와도 여전히 self-report).
❌ Fine-tuning 정밀도 개선으로 해결되지 않음 (loss curve 공개가 이 문제를 풀지 못함).
⚠️ 측정의 존재론적 성격 자체의 문제 — 행동 vs. 예측은 다른 종류의 데이터.

따라서 *“타당도 문제가 타협할 수 없는 수준”*이라는 진단은 방법론적으로 정확하다. 아래 섹션 2️⃣–1️⃣4️⃣의 약점들은 개선 가능한 엔지니어링 결함이지만, 이 프롤로그의 문제는 개선으로 해결되지 않는 범주 오류다.

이후 섹션들은 이 핵심 문제의 여러 파생 형태를 구체화한다.

1️⃣ [사용자 제기 핵심 쟁점] 인간 RT vs. LLM self-report: 구성개념 불일치 (Construct Mismatch)

이 논문의 가장 근본적인 문제는 “시뮬레이션”과 “예측”의 범주 혼동이다.

인간 RT는 “과정 지표(process measure)“이다. 참가자가 “예” 버튼을 누를 때까지 걸린 실제 물리적 시간이며, 지각·어휘 접속·결정·운동 제어 같은 인지 단계들이 직렬·병렬로 펼쳐진 결과가 밀리초 단위로 응결된 것이다. 그래서 심리언어학은 RT로부터 어휘 처리의 내부 구조를 역추론한다 (예: 빈도 효과 기울기, Ex-Gaussian 분포의 τ 성분, 에러-RT trade-off).
논문의 “LLM RT”는 “숫자 텍스트 예측(numerical text prediction)“이다. 프롬프트 “For word ‘{Words}’, provide the values for accuracy and time as numbers, only two numbers separated by a comma”를 받은 fine-tuned GPT-4o mini는, 이미 표준화된 zRT 값을 문자열로 생성한다. 모델이 결정을 내리는 데 걸린 실제 추론 시간(wall-clock latency)은 측정되지 않으며 관심 대상도 아니다.

이 차이는 사소하지 않다. LLM이 “zRT = −0.42”를 출력하는 행위는 자기보고(self-report) 형식의 숫자 생성이며, 사람이 -0.42 zRT에 해당하는 속도로 실제로 반응한 것과 존재론적으로 다른 종류의 데이터다. 논문은 둘을 Pearson r로 묶지만, 이 r은 “LLM이 훈련 분포를 재생산한다”는 사실의 측정이지, “LLM이 인간 어휘 처리를 모사한다”는 증거가 아니다.

왜 이것이 치명적인가:

회귀 오라클(regression oracle)로의 환원: 10K 쌍 (단어, zRT)으로 fine-tuning 하면 어떤 충분히 큰 모델이든 이 함수를 근사할 수 있다. 저자들이 단순 ML 베이스라인 (예: 그라디언트 부스팅 on Multilex frequency + length + concreteness + AoA + neighborhood density)을 제시하지 않았기 때문에, GPT의 r=.88이 “LLM의 언어 지식 덕분”인지 “단어 특성으로부터의 회귀 성능 상한”인지 구분할 수 없다.
인지 모델의 반증 조건 상실: DRC, Interactive Activation, Naming Activation Model 같은 기존 process model은 RT 분포 형태, 에러 패턴, 빈도×친숙도 교호, priming 감쇠 등에서 예측을 낸다. 이 논문의 LLM “시뮬레이션”은 평균 zRT 점추정만 내므로, 이런 제약 중 어느 것도 위반할 여지가 없다 — 따라서 어떤 인지 이론도 검증하지 못한다.
“시뮬레이션” 어휘의 수사적 비용: 제목·본문의 “simulating”은 후속 연구자가 이를 인지 모델의 대체물로 오해하게 만든다. Kuperman (2015)의 “virtual experiment” 전통을 계승한다고 하지만, Kuperman의 virtual experiment는 이미 수집된 인간 메가스터디 데이터를 재조합하는 것이지 LLM이 가짜 RT를 “생성”하는 것이 아니다.

정직한 재구성: 이 논문은 “회귀 기반 RT 임퓨테이션(regression-based RT imputation)” 논문이며 그 자체로 가치가 있다. “시뮬레이션”으로 포장된 순간 epistemic 위험이 생긴다.

2️⃣ 사전학습 오염(Pre-training Contamination) — 측정되지 않은 치명 위협

ELP는 2007년 공개된 데이터셋으로, 공식 CSV·Excel 형식이 elexicon.wustl.edu에서 17년째 배포되고 있으며 수천 편의 후속 논문이 ELP 테이블을 인용·재게시한다. GPT-4o mini의 사전학습 코퍼스(지식 컷오프 2023-10 이전)는 거의 확실히 ELP의 원시 RT 값을 일부 포함한다.

저자들은 Discussion에서 단 한 문장으로 이를 인정한다 (“it cannot be excluded that old data were part of the training material given to the LLM”). 그러나 어떠한 정량적 점검도 수행하지 않는다:

Test set 6,491 단어의 ELP RT 값이 사전학습 코퍼스에 얼마나 포함되었는가? (추정 가능한 lower bound: arXiv/OSF/Github 검색)
Pre-training cutoff 이후 추가 수집된 단어 (예: ECP의 최신 업데이트 서브셋)에 국한한 시간적 held-out test는 없는가?
Study 1의 Table 1 “without fine-tuning” 결과(r=−.24 for zRT)가 ELP 값을 암기하지 못한 상태라는 것을 어떻게 확정하는가? 이것은 오히려 “사전학습에선 ELP의 zRT 스케일이 약하게 담겼고, fine-tuning은 그 잠재 표상을 ELP 척도로 정렬(calibrate)하는 것”일 가능성을 시사한다.

최소한 요구되는 통제: n-gram overlap 분석, test-word의 ELP 언급 빈도가 거의 0인 서브셋에서의 재평가, 동일한 fine-tuning 절차를 최신 메가스터디(예: Italian Crowdsourcing Project 2025)에 적용 — 모두 누락.

3️⃣ 회귀 붕괴(Regression Collapse) / Shrinkage-to-Mean

Study 4의 결정적 관찰 (저자들도 보고): “the standard deviations of the estimates were considerably smaller than observed in ECP. A look at the data revealed that many words got the same RT estimate.”

이것은 단순 관측이 아니라 체계적 아티팩트다:

Table 5의 각 효과별 Cohen’s d 비교 — 대부분의 경우 GPT 쪽이 인간 쪽보다 작다 (예: Family size 인간 d=.97, GPT-3K d=.49; Association freq 인간 .91, GPT-3K .72).
반대로 Orthographic uncertainty, Frequency plural 같은 미세 효과에서는 GPT가 인간보다 크거나 거의 같은 효과를 보이며 (인간 .05 → GPT-3K .08), 이는 “제대로 복제”가 아니라 노이즈 수준의 우연한 일치일 가능성이 높다.
결합하면: LLM 출력은 평균으로 강하게 수축하며, 따라서 강한 효과는 약화시키고 약한 효과는 뭉개서 구분하지 못하는 경향을 보인다.

이 패턴은 fine-tuning의 일반적 성질 (regularization + 제한된 자료에서의 smoothness bias)과 일치하며, LLM-simulated RT로 새로운 가설을 발굴하려는 Application 3, 4에 직접적 위험이 된다. 저자들이 제안하는 “먼저 in silico로 simulation 해서 효과가 있으면 사람 실험” 워크플로는, 정확히 미세 효과를 false negative로 걸러내게 된다.

4️⃣ 인지 과정 타당도(Cognitive-Process Validity) 부재

RT 데이터가 의미 있는 이유는 단순 평균뿐 아니라 분포의 형태·조건 간 상호작용·개인차가 인지 구조를 드러내기 때문이다. LLM 출력은 이 모든 차원에서 구조적으로 제공 불가능하다:

인지 과정 지표	인간 ELP	LLM 출력
Ex-Gaussian 분포 (μ, σ, τ)	✅ 재구성 가능	❌ 점추정만
개인차 (학력, 연령, 언어 배경)	✅ 서브집단 분석	❌ 단일 스칼라
순서 효과·priming·블록 효과	✅ (per-trial 분석)	❌ 컨텍스트 없음
Fast vs. slow errors	✅	❌ Acc와 zRT가 프롬프트에서 동시 생성
시행 단위(trial-level) 변동성	✅	❌ (평균만 재생산)

따라서 논문의 r=.88은 “평균 zRT 순위를 잘 맞춘다”는 것이며, 이는 “인지 시뮬레이션”이라는 주장의 지지 증거로는 매우 얇다.

5️⃣ 베이스라인 부재로 반증 불가능한 “신뢰도 상한 도달” 주장

저자들은 *“r = .85 is the reliability ceiling of ELP, and we achieve that”*로 업적을 압축한다. 이는 수사적으로 강력하지만 방법론적으로 반증 불가능하다:

ELP의 split-half reliability .85는 어떤 predictor든 도달할 수 있는 상한이다.
얼마나 단순한 모델이 이미 .85에 근접하는가? 저자들은 Brysbaert 본인의 선행연구에서 “word characteristics explain ~60% of variance” (R²=.60, r≈.77)를 인용한다. 여기에 GPT-4o가 생성한 word familiarity, concreteness, valence, arousal 추정치까지 합친 선형회귀 / XGBoost를 돌리면 얼마가 나오는가? 아마 r=.80–.85.
만약 GBM이 .82를 찍는다면 GPT의 .88은 +0.06 이득에 불과하며, 이는 fine-tuning에 드는 OpenAI API 비용과 재현 불가능성을 정당화하기 어렵다.

누락된 최소 베이스라인: (a) Multilex frequency + length + AoA + concreteness 선형회귀, (b) 같은 피처 + XGBoost/RandomForest, (c) GPT-4o zero-shot word feature 추정치를 입력으로 한 non-LLM regressor. 이 중 어느 것도 제시되지 않는다.

6️⃣ Joint Acc-RT 프롬프트로 인한 인위적 상관

프롬프트는 **“정확도와 시간을 쉼표로 구분한 두 숫자”**로 한 번에 출력하게 한다. 이로 인해:

GPT_Acc와 GPT_zRT 는 단일 토큰 시퀀스로 자기회귀적으로 생성 — 첫 번째 숫자가 두 번째를 강하게 조건화.
Fine-tuning 시 모델은 “높은 정확도 → 낮은 RT”라는 텍스트 상관을 학습하며, 이것이 결과 Table 2의 GPT_Acc × GPT_zRT = −.69 (인간 ELP에서는 −.62)로 나타남 — 인간보다 더 강한 상관.
인지적으로 Acc와 RT의 관계는 speed-accuracy trade-off라는 비자명한 현상인데, 여기서는 프롬프트 아키텍처가 이를 자동으로 encoding해버린다.

요청되는 통제: Acc와 zRT를 독립된 모델로 fine-tuning, 또는 한 번에 하나만 질문하는 프롬프트로 재실험. 결과가 거의 동일하다면 이 비판은 약해지고, 결과가 달라진다면 r=.88의 일부는 프롬프트 아티팩트로 분해된다.

7️⃣ 블랙박스 Fine-tuning — 재현성 C등급

OpenAI fine-tuning API는:

Learning rate, epochs, LoRA rank 등 전부 내부 자동.
버전(gpt-4o-mini-2024-07-18)은 고정되었다 하더라도, 같은 데이터·같은 API 호출이 수 개월 후 동일 가중치를 산출한다는 보장이 없다 (OpenAI는 내부 인프라를 변경할 수 있음).
Fine-tuning 비용·토큰·시간도 보고 안 됨.

OSF에 Python 스크립트는 있으나, 이는 호출 코드이지 훈련 재현 환경이 아니다. 저자 스스로도 *“A disadvantage of GPT-4o is that it is a commercial product that can change at any time, beyond the control of the researcher”*라고 인정한다. 그럼에도 주요 결과를 이 모델에 걸고 있다. Hussain et al. (2024)의 open-source LLM 대안을 한 번도 시도하지 않은 것은 실용적 선택이지만 과학적 약점이다.

8️⃣ Study 4의 실패 = 가장 중요한 음성 결과

저자들은 Table 5의 6개 효과 중 3개만 3K 훈련으로 복제됨을 담담히 보고한다. 실패한 효과들의 성격을 보면:

Frequency plural (New et al., 2004): 복수형의 하위-빈도가 단수 RT에 영향 — 매우 미세한 형태론적 효과.
Orthographic uncertainty (Westbury & Yang, 2025): 철자 패턴의 불확실성 — 세밀한 하위어휘 통계.

즉 LLM 시뮬레이션이 실패하는 지점은 “새로운 가설이 흥미롭게 의존할 수 있는 세밀한 어휘 구조”와 정확히 일치한다. 이는 applications 3·4 (“in silico로 먼저 검증”) 주장의 사실상 반증이다 — 발견하고자 하는 효과가 클수록 이미 알려진 효과일 확률이 높고, 발견 가치가 큰 미세 효과일수록 LLM은 그것을 재생산하지 못한다.

12K 훈련에서 대부분 복제된 점은 고무적이지만, 이는 “대형 기존 메가스터디가 있을 때만 작동”을 뜻하며, 결국 LLM은 기존 데이터의 보간기이지 새로운 데이터의 생성기가 아니다 — 저자들의 마케팅보다 더 좁은 용도다.

9️⃣ 윤리 선언의 미세한 오정렬

“The studies did not involve people and followed the General Ethical Protocol… Therefore, they need no explicit approval.”

엄밀하게는 맞다 — 신규 참가자 모집이 없으니. 그러나:

전체 검증의 ground truth는 ELP/ECP/AELP의 인간 RT. 즉 인간 데이터를 재사용한다.
이 데이터의 원 참가자들은 2000년대 중반 미국 대학생 위주. GPT-4o가 “사람의 렉시컬 디시전 시간을 잘 모사한다”는 주장은 그 특정 인구집단에 대한 주장이며, 어린이·노년층·비원어민·난독증 집단에 일반화할 보증이 전혀 없다.
그럼에도 Application 4 (“optimizing human data collection”)는 미래 연구가 LLM을 “일반 인간의 대리인”처럼 쓸 가능성을 열어둔다 — 이는 잠재적 bias 증폭 경로.

🔟 논문의 진짜 공헌과 정직한 사용처

위 비판은 논문의 엔지니어링 가치를 부정하지 않는다. 정당한 사용처:

✅ 메가스터디 RT 결측 보간 (Application 2): 특정 단어가 ELP에만 있고 ECP에 없을 때 LLM으로 채움. 통계적 imputation보다 유연하며 변수 상관 구조를 보존.
✅ 변수 공간 탐색 / 자극 선정 보조 (Application 4): 본격 실험 전 자극 후보의 RT 분포를 대강 파악해 표집 효율↑.
✅ 기존 효과의 대규모 확장 확인: AoA, family size, association frequency처럼 잘 확립된 효과를 수천 단어로 확장해 effect-size 안정성 점검.

부적절한 사용처:

❌ 새 인지 이론 검증: LLM은 관찰된 통계만 재생산하므로, 이론이 예측하는 미세 패턴을 선험적으로 확인할 수 없음.
❌ 인간 데이터 완전 대체: 저자들도 “AI-generated RTs are no substitute for human data”라고 명시하며 이는 반드시 인용되어야 할 제한선.
❌ 새로운 언어·집단으로의 일반화: fine-tuning 데이터가 없는 집단에는 성능 미보장.

1️⃣1️⃣ 프롬프트 텍스트 상세 분석 (Prompt-Level Forensics)

논문에서 fine-tuning과 inference 양쪽에 반복 사용된 프롬프트는 다음과 같다:

“You are estimating the percentage of persons who recognize a word and the time it takes them to produce the answer. For word ‘{Words}’, provide the values for accuracy and time as numbers, only two numbers separated by a comma:”

(예시 — {Words}에 house 치환. Temperature=0, 프롬프트는 매 단어마다 독립적으로 재전송됨.)

이 프롬프트는 12개의 방법론적 문제를 내장하고 있다.

A. 구성개념의 자가고백 (Construct Self-Disclosure)
첫 문장의 동사는 "estimating"이다 — “simulating”이 아니다. 저자 자신이 프롬프트에서 이 작업을 통계적 추정으로 정의하고 있다. 제목·abstract의 “Simulating”은 수사이지 방법론적 기술이 아니며, 프롬프트 한 단어가 논문 전체 framing의 내부 모순을 폭로한다.

B. 3인칭 집단 통계 (Third-Person Population Statistic)
"the percentage of persons", "the time it takes them" — 모델에게 “너 자신이 얼마나 빨리 반응하는가”가 아니라 “사람들이 어떻게 하는가”를 묻는다. 모델을 참가자가 아닌 역학자(epidemiologist) 위치에 세운다. 이로써 어떤 해석에서도 이 연구는 “LLM을 LDT 피험자로 활용”하는 시뮬레이션이 아니라 외부 예측기로서의 회귀다.

C. 단어성(wordness)을 프롬프트가 미리 해결
"For word '{Words}'" — 입력 문자열을 “word”라고 명시적으로 라벨링한다. 그런데 렉시컬 디시전 과제의 본질은 “이 문자열이 단어인가?”를 결정하는 것이다. 프롬프트는 그 결정을 이미 내려준 상태로 모델에게 전달한다. 따라서 모델이 수행하는 것은 과제(task)가 아니라 해당 단어의 RT/Acc 통계 조회다. 진짜 LDT 시뮬레이션이라면 "Is the following letter string a real word? 'HOUSE'. Answer: YES/NO, then give the time" 같은 구조여야 하며 이 논문은 그 실험을 하지 않는다.

D. Chain-of-Thought 차단
"only two numbers separated by a comma" — 중간 추론을 명시적으로 금지한다. 모델은 왜 그 값이 나왔는지 외부화할 기회가 없고, 우리는 숫자의 근거를 검증할 방법이 없다. 대안: "Before giving numbers, briefly describe what makes this word easy/hard to recognize" 같은 리즈닝 프롬프트를 추가했다면 LLM 추론 과정의 인지적 타당성을 들여다볼 수 있었을 것이다. 현 설계에서 모델은 해석 불가능한 블랙박스 회귀기가 된다.

E. 스케일(단위) 미지정
"time"이 무엇 단위인지 프롬프트에 없다 — ms? zRT? log RT? 모델은 fine-tuning 피드백에서만 출력 스케일을 학습한다. 이는 프롬프트가 의미 있는 정보를 거의 전달하지 않고, 모든 매핑이 fine-tuning에 위임됨을 의미한다. 프롬프트는 입력 인덱스 역할만 수행하는 고정 헤더이고, 사실상의 방법은 “회귀기를 LLM 위에 올린 것”이다.

F. Few-shot 예시 부재
프롬프트에 "Example: 'table' → (98, -0.3)" 같은 ICL 예시가 전혀 없다. 이것은 Table 1의 zero-shot 실패(r = −.24)를 설명함과 동시에, **“fine-tuning이 꼭 필요했는가 vs. 영리한 프롬프트로 충분했는가”**에 대한 ablation이 빠졌음을 의미한다. Few-shot으로 r=.85에 이미 도달한다면, 비싸고 재현 불가능한 fine-tuning은 정당화되기 어렵다.

G. 인구 집단 미명시 (Demographic Underspecification)
"persons"만 있지 “누구 집단”인지 없다. Fine-tuning 데이터는 2000년대 중반 미국 대학생(ELP)에서 나왔으므로 모델은 암묵적으로 그 집단을 내재화한다. 그러나 프롬프트 수정(예: "among 70-year-old native speakers")으로 집단을 전환할 수 있는지 테스트되지 않았다 — 일반적으로 불가능. 이것은 Application 4(“자극 선정 최적화”)를 다양한 참가자 집단에 적용하려는 미래 연구의 암묵적 실패 지점이다.

H. 품사·의미 모호성 통제 없음
동음이의어(bank = 은행/제방), 품사 중의적 단어(light = 가볍다/조명), 극성 변화(bad → really bad)에 대해 프롬프트는 맥락을 주지 않는다. 인간 참가자도 단어를 단독 제시받지만, 그들의 RT는 특정 의미의 활성화 상대 강도의 함수다. 모델이 어떤 의미를 “가정”하고 숫자를 내는지 프롬프트가 통제하지 않으며, 이는 Study 4의 “N senses” 효과가 3K 훈련에서 borderline으로 나온 한 이유일 가능성이 있다.

I. Joint 출력으로 Speed-Accuracy Trade-off 내재화
(섹션 6️⃣와 연결) 두 숫자가 한 토큰 시퀀스로 자기회귀적으로 생성된다. 따라서:

첫 번째 숫자(Acc)가 두 번째 숫자(zRT)를 강하게 anchoring.
Fine-tuning 시 “높은 Acc → 낮은 zRT”라는 텍스트 상관을 프롬프트 구조가 자동 주입.
결과: Table 2의 GPT_Acc × GPT_zRT = −.69 (인간 −.62보다 강한 상관) — 프롬프트-유도 아티팩트.
진짜 인지 모델이라면 Acc와 RT를 독립 측정으로 예측해야 하며, 이 프롬프트는 그 독립성을 구조적으로 파괴한다.

J. Stateless Querying — 트라이얼 다이내믹스 제거
"The prompt was repeated before each word to prevent response dilution" (논문 기술). 이는 합리적 선택이지만 부작용:

세션 내 순서 효과, priming, block effect, fatigue가 구조적으로 제거.
실제 LDT에서 RT는 선행 시행의 단어-비단어 비율, 빈도 분포에 따라 변동.
이 프롬프트로 얻은 값은 **“트라이얼 독립 평균 RT”**에 해당 — ELP zRT 정의(참가자 평균 후 z-score)와는 정렬되지만 진짜 RT 다이내믹스는 포기.

K. RLHF “Helpful Assistant” 편향 흡수
GPT-4o mini는 RLHF로 “도움되는 확신 있는 답변”에 편향되어 있다. "I don't know" 응답은 억제된다. 프롬프트는 "only two numbers"를 강제하므로 불확실성 표현 출구가 없다. 결과:

모든 단어에 확신 있는 점추정.
내부 epistemic uncertainty는 불가시.
Shrinkage-to-mean(섹션 3️⃣) 동작의 직접 원인 — 모델이 모르는 단어에 대해 확신 있는 “평균값”을 뱉음.

L. 종합 — 이 프롬프트가 실제로 측정하는 것

프롬프트 텍스트를 문자 그대로 해석하면, 이 연구의 경험적 주장은 다음으로 환원된다:

“ELP 같은 영어 단어 집합에서 GPT-4o mini를 fine-tuning 하면, 단어를 입력으로 받아 집단 평균 zRT와 정확도의 점추정을 출력하는 회귀기를 얻을 수 있다.”

이것은 유용하지만 다음이 아니다:

❌ 인지 과정 시뮬레이션
❌ 렉시컬 디시전 과제의 시뮬레이션
❌ 인간 RT의 대체 측정
❌ 새로운 인구 집단으로의 일반화
❌ 트라이얼 수준 RT 분포의 재현

프롬프트 자체가 이미 그 한계를 선언하고 있다. 논문의 추상적 주장(“simulating”, “virtual experiments”)과 프롬프트의 구체적 언어(“estimating the percentage of persons”)의 거리가, 이 논문 수용에서 발생할 수 있는 모든 오해의 근원이다. 프롬프트 수준에서 이 연구는 자신이 회귀 임퓨테이션임을 투명하게 자백한다 — 본문의 framing만이 그것을 가린다.

1️⃣2️⃣ 독자 오해 위험 (Reception Risk) — 누가 이 논문을 오독하는가

이 섹션은 대화 중 명확해진 2차 수용(secondary reception) 위험을 기록한다. 논문 자체의 실험 설계 비판이 아니라, 어떤 독자가 이 논문으로부터 잘못된 결론을 가져갈 것인가에 대한 경고다.

논문의 경험적 공헌 vs. 수사적 주장의 간극

논문이 실제로 보여준 것:
ELP로 fine-tuning 한 GPT-4o mini는 같은 메가스터디 분포 내의 held-out 단어에 대해 RT를 r=.88로 예측한다 — 즉 in-distribution 회귀 임퓨테이션(regression-based imputation within a known distribution).

논문이 수사적으로 제안하는 것:

제목의 "Simulating"
Abstract Application 3: "verifying results of virtual experiments, where AI-generated data can provide an additional layer of validation"
Application 4: "optimizing human data collection, as researchers can run simulations before conducting studies with humans"

이 두 층위 사이에 논리적 비약이 존재한다 — 보간기가 검증 도구(validation layer)로 슬쩍 승격된다.

혼동된 연구자가 빠지는 3가지 함정

함정 1 — 순환 검증 (Circular Validation)
연구자가 자신의 새 실험 결과를 “LLM-generated RT와 비교해 validate” 하려 한다면, 그 LLM은 ELP/ECP로 fine-tuning 된 모델 — 즉 이미 기존 megastudy 분포에 맞춰진 회귀기다. 새 데이터가 이 회귀기와 일치하면 “기존 분포와 비슷하다”는 뜻이지 “새 가설이 지지된다”는 뜻이 아니다. 일치는 증거가 아니라 회귀선 위에 있음의 재확인이다.

함정 2 — 인간 RT와 LLM 숫자를 같은 척도로 취급
인간 RT는 행동 측정, LLM 출력은 자기보고 형식의 숫자 예측이다. 상관을 낼 수는 있지만, 그 상관으로 인간의 인지 과정에 관해 결론을 내리는 것은 타당하지 않다. 그런데 Application 3의 언어는 정확히 그런 결론을 허용하는 것처럼 읽힌다.

함정 3 — in silico 사전 탐색의 역선택 (Adverse Selection)
Study 4는 이미 이 함정을 보여준다 — 3K fine-tuning으로 복제된 효과(AoA, family size)는 이미 잘 알려진 강한 효과이고, 실패한 효과(orthographic uncertainty, plural frequency)는 미세한 새로운 현상이다. 진짜 새 가설은 대개 후자에 있다. 연구자가 “LLM에서 효과가 안 나오니 실험 안 해야지” 하고 멈추면, 가장 발견 가치가 높은 가설을 체계적으로 버리게 된다 — 이는 Application 3·4의 구조적 실패 모드다.

수용 계층 간 번역 실패

논문은 Behavior Research Methods에, 저자는 Brysbaert라는 저명 심리언어학자. **1차 독자(메가스터디 전문가)**는 Application 2(imputation)이 실체이고 Application 3(validation)이 수사임을 구분해 읽는다. 그러나 이 논문이 2차 인용되는 곳:

ML/AI 연구자 — “LLM이 인간 RT를 시뮬레이션한다”로 받아들임
HCI/UX 연구자 — “LLM으로 사용자 반응 시간을 대리 측정”으로 받아들임
교육/심리 응용 연구자 — “AI가 인간 피험자 대체 가능”으로 받아들임

2차 독자는 Abstract만 읽고 "Simulating ... virtual experiments ... validation ... simulations before conducting studies" 같은 문장을 문자 그대로 받아들인다. 이 계층 간 번역 실패가 논문 수용의 구조적 위험이다.

”이 논문을 안전하게 읽기” 체크리스트

잠재 사용자에게 이 논문을 권하거나 검토할 때, 다음 3개 질문으로 오용을 막을 수 있다:

“LLM이 예측한 RT는 당신 실험의 참가자 집단을 대표합니까?”
ELP로 훈련된 모델은 2000년대 중반 미국 대학생을 대리한다. 표본이 다른 집단이면 비교 자체가 오정렬.
“당신이 관심 있는 효과가 Study 4의 ‘복제 성공’ 리스트에 있습니까, ‘실패’ 리스트에 있습니까?”
미세 효과 / 아직 확립되지 않은 현상이라면 LLM 출력은 정보 없음 수준이다.
“LLM과 인간 결과가 다를 때 어느 쪽을 믿겠습니까?”
답이 “인간”이라면, 비교는 애초에 검증이 아니라 참고일 뿐이다 — 그리고 그것이 이 논문이 실제로 지지하는 유일한 사용법이다.

교정 가이드 — 이 논문을 인용할 때

권장 기술어:

✅ “regression-based RT imputation for distribution-internal words”
✅ “LLM 기반 메가스터디 결측 보간”
✅ “ELP 분포 내 단어에 대한 zRT 예측기”
✅ “자극 선정 보조 도구 (not validator)”

피해야 할 표현:

❌ “cognitive simulation”
❌ “virtual validation”
❌ “LLM simulates lexical decision”
❌ “AI-generated behavioral data substitutes for human data”

저자들 자신의 “대체 불가” 고지 — 원문 위치 추적

공정성을 위해 저자들이 LLM RT의 인간 데이터 대체 불가능성을 명시적으로 고지한 부분을 원문에서 정확히 추적한다. 두 곳에 위치한다 (OSF preprint 37m6j, “Generating lexical decision times with large language models: Dynamic use of megastudy data” 기준).

🎯 위치 ①: Abstract 마지막 문장 (preprint p. 2)

“Although AI-generated RTs do not replace human data, they increase research efficiency and help understand the variables that influence lexical processing.”

정확한 맥락: Abstract의 네 가지 응용(variance explained / RT imputation / virtual experiment validation / stimulus optimization)을 열거한 직후, Abstract의 마지막 문장으로 배치.
수사적 위치: Abstract 구조상 contribution claim 뒤에 오는 disclaimer position — 독자가 Abstract를 읽고 논문을 참조할지 결정하는 시점에서 맨 끝에 나오는 한정구.

🎯 위치 ②: Discussion 본문 마지막 문장 (preprint p. 17, Application 4 설명 직후)

“AI-generated RTs are no substitute for human data, but they can make the search for human data more efficient.”

정확한 맥락: Discussion의 네 응용을 순서대로 전개한 뒤 “Finally, AI-generated RTs can be used to make the collection of human data more targeted…” 로 시작하는 마지막 문단의 최종 문장.
수사적 위치: Discussion 본문이 끝나고 Declarations/References로 넘어가기 직전의 closing caveat — 독자가 방법론적 본문을 모두 읽고 떠날 때 마지막으로 마주치는 문장.

🎯 보조 위치 ③: Discussion, footnote 1 (preprint p. 17)

“Items with extremely high or low values in one study often include measurement error away from the mean. This means that in a new validation study the item is likely to have a value closer to the mean, a phenomenon known as regression to the mean… (Biased) measurement error is less of a concern in cross-validation, because the value of the item is estimated on the basis of the wider matrix.”

LLM 출력이 인간 데이터를 대체할 수 없는 통계적 이유(regression to the mean, shrinkage)를 간접적으로 암시하나, 저자들은 이를 cross-validation의 장점으로 포장하며 LLM의 한계로 명시하지 않는다.

🎯 보조 위치 ④: Discussion 분산 해석 문단 (preprint p. 16)

“…at present we can only explain about 63% of the variance in word RTs with the predictors available to us (Study 3), which raises the question of where the remaining 20% comes from. The finding that the RT estimates generated by AI correlate .85 with the observed RTs in a cross-validation study (Table 2) confirms that the remaining 20% is distributed across the words in the lexicon, is not unique to the words being tested.”

저자들은 LLM 추정이 **“단어 간 분산이지 단어 내 고유 정보가 아님”**을 에두르게 인정한다 — 사실상 LLM이 인지 과정 자체를 모델링하지 않는다는 간접 자백이지만, “대체 불가” 고지와 명시적으로 연결되지 않는다.

이 고지 문장들이 논문 전체 framing과 불일치하는 구조

저자들의 “대체 불가” 고지는 수사학적 flanking position에 놓인다 — Abstract의 마지막, Discussion의 마지막. 반면 제목·Abstract 초반·Application 서술의 load-bearing 주장은 모두 “simulating” 방향:

위치	문구	해석 방향
제목	`"Simulating lexical decision times..."`	Simulation 주장
Abstract 첫 문장 (p.2)	`"predict lexical decision times (RTs) in humans"`	Prediction (중립)
Abstract 중반 (p.2)	`"promising correlations between AI-generated and observed RTs"`	성과 강조
Application 3 (Abstract·Discussion)	`"verifying the outcome of virtual experiments"`	Validation 주장
Application 4	`"simulating the utility of stimulus selections"` / `"simulations before conducting studies with humans"`	Simulation 주장
Abstract 마지막 (flanking)	`"Although AI-generated RTs do not replace human data..."`	Caveat
Discussion 마지막 (flanking)	`"AI-generated RTs are no substitute for human data..."`	Caveat

제목·framing·application 서술은 “simulating” 방향으로 약 6회 반복되고, “대체 불가” 고지는 끝자락 2 문장으로 퇴장한다. 이것은 학술 논문에서 흔한 “claim-heavy opening, caveat-heavy closing” 패턴이며, 독자 인지 연구가 보여주듯 초기·반복 framing이 최종 해석을 지배한다 (primacy + repetition effect).

결과적 비대칭 — 독자 계층별 해석

숙련된 심리언어학 독자 (Brysbaert 커뮤니티): closing disclaimer를 load-bearing으로 읽고, 저자의 “대체 불가” 의도를 정확히 이해함 → 오용 없음.
2차 독자 (AI/HCI/교육/인지과학 외부): 제목과 Application 서술을 load-bearing으로 읽고, closing disclaimer를 의례적 수사로 처리함 → 오용 가능.

즉 저자들은 원문에 disclaimer를 넣었지만, 그 배치 전략 자체가 cross-field 독자의 오해를 예방하지 못하는 구조다. 의도적 기만이 아니라 학계 publishing culture의 구조적 결과이며, “책임은 저자뿐 아니라 저널 framing 표준에도 있다”는 진단의 근거다.

공정성 각주: 저자의 공식 디스클레이머가 두 곳에 실제 존재함을 인정하는 것과, 그 디스클레이머가 실질적 오용 억제력을 갖지 못하는 구조적 위치에 있다는 비판은 양립 가능하다. 비평의 대상은 저자의 의도가 아니라 framing 배치의 비대칭 결과다.

논문 자체에 대한 최종 의견

해롭게 잘못 쓴 논문이 아니라, 잘한 일을 과하게 프레이밍한 논문이다. Brysbaert 커뮤니티는 Application 2가 진짜이고 Application 3가 은유임을 알고 읽는다. 그러나 2차 독자에게 Abstract의 "simulating, verifying"은 문자 그대로 작동한다. 이 계층 간 번역 실패가 관찰된 혼동의 근원이다.

만약 어떤 연구자가 “사람 RT 수집 → LLM RT와 비교해서 결론” 구조의 연구를 계획한다면, 그 연구는 설계 단계에서 중단되어야 한다 — 완성해도 말할 수 있는 것이 “내 표본이 ELP와 얼마나 비슷한지”뿐이기 때문이다.

1️⃣3️⃣ AI/ML 엔지니어링 표준 결여 (Engineering Deficit)

사용자 지적: “fine-tuning을 했다고 하면 loss curve 등을 확인해서 overfitting 여부 확인이 필수인데, 그런 검증이 없다는 건 엔지니어링이 전혀 안 된 것으로밖에 해석이 안 된다.”

이 지적은 방법론적으로 정확하며, ML 학계·업계의 최소 보고 기준과 이 논문을 나란히 놓으면 격차가 크다.

Fine-tuning 논문의 최소 보고 기준 (2024–2025)

항목	ML 커뮤니티 표준	이 논문	상태
Training loss curve (스텝·에폭별)	플롯·표로 제시	없음	❌
Validation loss curve	동반 제시, 조기 종료 기준	없음	❌
Train 성능 vs. Test 성능 보고	둘 다 필수, generalization gap 정량화	Test만	❌
Hyperparameters (LR, batch, epochs, warmup)	표로 완전 공개	전무	❌
Multiple random seeds	최소 3 seeds로 분산 추정	단일 실행	❌
K-fold cross-validation	분할 안정성	단일 60/40 split	❌
Confidence intervals on metrics	Bootstrap 또는 Fisher Z	없음	❌
Early stopping criterion	명시	언급 없음	❌
모델 크기/버전/가중치 해시	완전 명세	버전명만	🟡
Ablation beyond train-set size	LR, epochs, prompt format 등	Train size만	🟡

10개 중 8개 ❌, 1개 🟡, 1개 🟡. ML 학회의 workshop이라도 이 보고 수준으로는 통과가 어렵다.

Loss curve 부재의 구체적 귀결 — Overfitting 진단 불가

저자들은 *“We only discuss the results for the 6,491 cross-validation words”*라고 명시하며 훈련셋 성능은 일부러 보고하지 않는다. 이것은 치명적 공백이다:

만약 train r = 1.00, test r = .88 → 일반화 갭 0.12 (과적합 강력한 증후)
만약 train r = .90, test r = .88 → 일반화 갭 0.02 (건강한 학습)
만약 train r = .88, test r = .88 → 일반화 갭 0 (훈련이 거의 역할 없음; pre-training prior가 전부)

이 세 시나리오는 논문의 결과와 모두 수치상 양립 가능하지만, 각각의 방법론적 해석은 완전히 다르다. ML 리뷰어라면 이 구분을 강제 보고 요구한다. 이 논문은 그것을 회피한다.

Study 2가 역설적으로 Overfitting 증거일 가능성

저자들은 “3K 훈련으로도 r=.87, 9.9K 훈련으로 r=.88 — 훈련량 3배여도 test 성능 +.01”을 “3K가 이미 충분하다”로 해석한다. ML 관점의 대안 해석:

3K → 9.9K로 6,907 추가되는 훈련 단어는 대부분 overfitting 영역으로 흡수되며 test에 기여하지 않음.
즉 모델이 이미 3K에서 GPT-4o mini의 pre-training prior를 ELP 스케일로 calibrate하는 데 필요한 양은 확보했고, 그 이후는 훈련 데이터 암기.
극단적으로: fine-tuning이 하는 일은 “ELP의 zRT 스케일 선형 맵핑”이며, pre-training에서 획득한 word features가 예측의 실체일 가능성.
이것을 구분하려면 다시 train r을 봐야 하는데 없음.

이 논문의 설계는 **“fine-tuning 효과”**와 **“pre-training prior 효과”**를 구분할 수 없게 되어 있다 — 의도된 것이든 아니든.

OpenAI API는 훈련 로그를 반환한다 — 선택적 은닉

변호 가능한 반박: “OpenAI fine-tuning API가 블랙박스라 loss를 못 본다.” 사실과 다름:

OpenAI fine-tuning endpoint는 train_loss, train_accuracy를 step 단위로 반환.
POST /v1/fine_tuning/jobs의 events 스트림이 훈련 동역학을 실시간 제공.
Validation 파일을 제출하면 valid_loss도 반환.
즉 저자들은 이 데이터를 획득했을 수밖에 없으며, 논문에 싣지 않기로 선택한 것.

이것은 API 한계가 아니라 보고 방침의 불투명성이다.

ML 과의 방법론 수입 불균형

저자들은 ML의 파워풀한 도구(GPT-4o mini fine-tuning)는 적극 수입하면서, ML의 책임 있는 사용을 강제하는 표준(train/test gap 보고, 다중 seed, ablation, CI)은 수입하지 않는다. 이 선택적 수입은:

심리언어학의 방법론적 엄격성 (Brysbaert 자신의 선행연구는 meta-science 관점에서 매우 엄격)
ML 엔지니어링 표준 (train/test gap 공개)

두 쪽 모두에 미달한다. 저자가 자신의 본래 분야 표준조차 느슨하게 적용한 것이 문제.

결론 — AI 엔지니어 관점

이 논문을 ML/AI 커뮤니티에 제출했다면:

NeurIPS/ICML/ICLR 본 트랙: Reject (방법론적 보고 부족)
ML workshop: Reject 또는 Major revision (fine-tuning 실험의 기본 항목 부재)
Psycholinguistics 전용 저널(BRM): Accept (도메인 적합성 + imputation 틈새)

즉 동일한 논문이 어느 커뮤니티에 제출되느냐에 따라 결정이 완전히 뒤집힌다. 이것이 cross-disciplinary publishing의 구조적 증상이다.

1️⃣4️⃣ 학제간 고립: 저널·인용 분석 (Citation Disengagement)

사용자 지적: “BRM이라는 저널은 심리학자들만 있고, cite한 논문들도 주류가 심리쪽이며, AI 페이퍼는 있어도 arXiv이고, 유명한 학회나 저널이 하나도 없어서 저자들에게 AI 쪽 background가 없다.”

References 40편 전수 분석 결과, 이 지적은 사실 확인된다.

인용 분포 (총 40편)

카테고리	편수	비중
Behavior Research Methods (BRM)	14	35%
심리학/심리언어학 저널 (QJEP, JML, Mem&Cog, JEP:LMC, Psych. Aging, Lang&Cog Proc, Front. Psych., Aphasiology, Psych. Belgica, The Mental Lexicon)	15	37.5%
통계·방법론 (J. Stat. Software, R News, Educ&Psych Meas., Int J Epidemiol., Lang. Learning)	5	12.5%
arXiv preprints	3	7.5%
Cognitive Science Society Proc. (cognitive science, AI 주류 아님)	1	2.5%
PsyArXiv preprints	1	2.5%
OpenAI blog post	1	2.5%
Major AI/NLP 피어리뷰 (NeurIPS/ICML/ICLR/ACL/EMNLP/NAACL/TACL/JMLR/TMLR/COLING)	0	0%

arXiv 인용 3편의 성격 (모두 peer-reviewed 방법론 논문 아님):

Adler et al. (2024) Nemotron-4 340B technical report — Nvidia 기술 보고서
Bai et al. (2022) Training a helpful and harmless assistant with RLHF — Anthropic 기업 preprint, peer-review 미통과
Parthasarathy et al. (2024) The ultimate guide to fine-tuning LLMs from basics to breakthroughs — exhaustive review/튜토리얼

즉 저자들은 AI를 “사용”할 때 학회/저널의 피어리뷰된 지식을 참조하지 않고 기술 보고서와 서베이만 참조한다. 이는 방법론 선택의 근거가 커뮤니티 합의에서 나오지 않음을 의미한다.

반드시 인용되었어야 할 AI 문헌 — 전부 누락

이 논문의 주장(“LLM이 인간 행동 데이터를 생성”)과 정확히 같은 주제를 다루는 AI/NLP 문헌이 지난 2–3년 대량 출판되었으나 단 한 편도 인용되지 않는다.

(A) LM surprisal ↔ 인간 reading time (대안 패러다임):

Smith & Levy (2013) Cognition — “predictability log-linear in reading time”
Goodkind & Bicknell (2018) CMCL
Wilcox et al. (2020) CMCL — “On the predictive power of neural language models”
Oh & Schuler (2023) EMNLP Findings — “~2B tokens 최적” (본 summary의 비교 매트릭스에만 있음)

이 패러다임은 본 논문과 직접 경쟁한다. Fine-tuning 없이 LM surprisal 하나로 인간 처리 시간을 어느 정도 예측할 수 있음이 이미 알려져 있다. 언급하지 않는 것은 문헌 무지 혹은 은폐 중 하나.

(B) LLMs as Behavioral Simulators (핵심 Debate):

Argyle et al. (2023) Political Analysis — “Out of one, many”
Aher et al. (2023) ICML — “Using LLMs to simulate multiple humans”
Park et al. (2023) UIST — “Generative agents”
Dillion et al. (2023) Trends in Cognitive Sciences — “Can AI language models replace human participants?”
Santurkar et al. (2023) ICML — “Whose opinions do LLMs reflect?”
Hämäläinen et al. (2023) CHI
Horton (2023) NBER — “LLMs as homo silicus”
Bisbee et al. (2024) Political Analysis

이 논문 전체의 정당성이 바로 이 debate의 연장선인데 완전 침묵. 특히 Dillion et al.(2023)은 Trends in Cognitive Sciences에 실린 리뷰로 심리학 독자도 접근 가능하며 본 논문의 주장을 명시적으로 비판한다.

(C) Data Contamination (논문의 약점 스스로 인정):

Sainz et al. (2023) EMNLP — “NLP Evaluation in Trouble”
Jacovi et al. (2023) EMNLP — “Stop Uploading Test Data in Plain Text”
Deng et al. (2023) EMNLP

저자들은 Discussion에서 ELP contamination 가능성을 한 줄 언급하지만, 이 문제를 체계적으로 다루는 방법론 문헌을 전혀 인용하지 않는다 — 마치 이것이 생각하다 떠오른 고민이지 학계가 2년간 치열하게 논의 중인 주제가 아닌 것처럼.

(D) Fine-tuning Methodology:

Hu et al. (2022) ICLR — LoRA
Dettmers et al. (2023) NeurIPS — QLoRA
Mosbach et al. (2021) ICLR — “On the stability of fine-tuning BERT”
Howard & Ruder (2018) ACL — Universal LM fine-tuning

Fine-tuning을 하면서 fine-tuning 문헌을 인용하지 않는다. 이것은 방법론의 “왜”와 “어떻게”를 독자에게 설명하지 못함을 의미한다.

(E) LLM Calibration:

Kadavath et al. (2022) — “Language models (mostly) know what they know”
Lin et al. (2022) ACL — “Teaching models to express their uncertainty in words”

LLM으로부터 숫자 추정값을 뽑는 작업의 핵심 방법론이 calibration인데 한 줄도 없다.

(F) LLM 한계 논의:

McCoy et al. (2024) — “Embers of autoregression”
Bender & Koller (2020) ACL — “Climbing towards NLU”

저자 배경 확인

Marc Brysbaert (Ghent, 실험심리학): 심리언어학 거장 (40+년 경력, h-index 높음). 공표 이력은 BRM, QJEP, Cognition 중심. NeurIPS/ICML/ACL 등 AI 주류 학회 논문 이력 관찰되지 않음.
Gonzalo Martínez, Javier Conde, Pedro Reviriego (UPM, Telecom. Engineering): Reviriego의 이전 연구는 네트워크 fault tolerance·coding theory. 최근 2024–2025에 들어서야 Brysbaert와 공저로 LLM 응용을 시작. AI 주류 커뮤니티 (NeurIPS/ICML/ACL 등) 참여 이력은 관찰되지 않음.

즉 저자팀 전체에 “AI/NLP peer community의 방법론 언어를 구사하는 연구자”가 부재한다. 이것이 인용 패턴과 엔지니어링 부재를 합치시키는 구조적 원인이다.

Cross-Field Disengagement의 결과

논문이 AI 지식의 최근 2–3년을 우회한다: 2021년 이후 AI 분야가 존재하지 않았던 것처럼 쓰여 있다. LLM simulator debate, contamination, calibration, fine-tuning stability 같은 현재진행형 논쟁을 독자에게 전달하지 못한다.
심리학 저널의 피어리뷰가 AI 결함을 잡지 못한다: BRM 편집진·리뷰어 pool은 심리학자 중심이며, fine-tuning loss curve나 LM surprisal 베이스라인의 부재를 지적할 literacy가 구조적으로 부족하다. 그래서 이 논문은 “통과된” 것이지 “검증된” 것이 아니다.
하위 연구자에게 방법론 혼동을 유도한다: 심리학 전공 학생이 이 논문을 참고 모델로 삼으면 AI 엔지니어링 표준을 우회하는 관행을 학습하게 된다 — 확산 효과(propagation effect).

사용자 AI engineer 판정에 대한 균형 잡힌 평가

사용자의 “AI engineer로서는 가치 없고 오히려 안 좋은 논문” 판정에 대해:

강하게 동의하는 부분:

✅ AI 방법론적 기여 없음 — 기존 OpenAI API 호출에 불과
✅ 엔지니어링 표준 (loss curves, ablation, CI, seeds) 전면 부재
✅ AI 문헌 엔게이지먼트 없음 — cross-field disengagement 명백
✅ 주장과 증거의 괴리를 심리학 리뷰어가 잡을 수 없는 구조적 허점 악용 (의도든 아니든)

균형 잡기:

🟡 “가치 없다”는 다소 강한 판정. 심리언어학 틈새에서 imputation 도구로는 제한적 유용성 있음 (Application 2만 한정).
🟡 “나쁜 논문”이라기보다 **“AI 기준을 모르고 작성된 심리학 응용 논문”**이 정확한 진단. 악의적 오해 유도는 없으나 cross-disciplinary 수용에서 피해 발생.
🔴 그러나 AI engineer 커뮤니티에게 이 논문의 네트 효과는 부정적이라는 사용자 판단은 사실에 부합 — 오용 수문을 여는 페이퍼.

종합 판정 (AI engineer 관점):
이 논문은 actively fraudulent하지는 않지만, methodologically immature하며, epistemically hazardous하다. ML 표준을 따르지 않으면서 ML 결과를 주장하고, AI 문헌을 참조하지 않으면서 AI 토픽에 개입한다. 이런 논문이 누적되면 AI/심리학 교차 영역의 방법론적 baseline이 낮아지는 구조적 피해를 낳는다.

종합 평가

Evidence Quality: B− — (이전 B에서 하향) 예측 상관 .88은 실측이지만, train 성능 미보고·강한 non-LLM 베이스라인 부재·사전학습 오염 미검증으로 인해 주장의 증거력이 methodological reporting 부족에 의해 크게 감쇠된다.

Reproducibility: C− — (이전 C에서 하향) OSF에 데이터/Python은 있으나 (a) OpenAI 상용 API 의존, (b) hyperparameters 완전 미보고, (c) training/validation loss 미공개, (d) multiple seeds 없음, (e) train vs. test 성능 갭 미보고. OpenAI API가 training loss를 반환함에도 선택적으로 은닉.

AI Engineering Standard 대비: D (Reject from ML venue) — NeurIPS/ICML/ICLR workshop 수준에도 통과 어려움. 방법론 보고 표준(loss curves, generalization gap, multi-seed, CI)이 사실상 부재. Brysbaert 본인의 심리언어학 표준(meta-science 관점에서 엄격)과 ML 표준 양쪽 모두에 미달.

Reviewer 2 핵심 질문 3개:

fine-tuning으로 GPT가 “학습한 것”이 정말 ELP의 사전학습 오염으로 만들어진 잠재 표상의 calibration이 아니라는 증거는? (n-gram overlap 분석 or 시간적 held-out test 요구)
강한 비-LLM ML 베이스라인(XGBoost on Multilex + length + AoA + concreteness + GPT word-feature embeddings)은 r=.85를 못 찍는가? 찍는다면 LLM fine-tuning의 추가 비용은 정당화되는가?
Study 4에서 실패한 2개 효과가 “잘 알려진 효과의 한계”인가, “LLM의 변수 공간 커버리지 한계”인가? 사전학습 데이터의 해당 어휘 특성 기반 빈도를 보고하라.

섹션별 요약

Abstract

Fine-tuned LLM이 인간 렉시컬 디시전 RT를 예측할 수 있는지 조사. GPT-4o mini를 메가스터디의 3,000 단어로 fine-tuning 한 후 나머지 단어의 RT를 생성시켰을 때 관찰된 RT와 높은 상관을 보였으며, 특히 테스트 단어가 훈련 단어와 유사할 때 강했다. 잘 분포된 시드 샘플만으로도 더 넓은 단어 집합의 추정이 가능함을 시사한다. 네 가지 응용을 제시한다: (1) 메가스터디 RT의 일반 단어 특성으로 설명 가능한 분산 비율 추정, (2) 조사된 메가스터디에 없는 단어의 RT 임퓨테이션, (3) 메가스터디 기반 가상 실험의 결과 검증, (4) 자극 선정의 유용성 시뮬레이션을 통한 인간 데이터 수집 최적화. LLM 생성 RT는 인간 데이터를 대체하지 않지만 연구 효율을 높이고 어휘 처리에 영향 주는 변수 이해를 돕는다.

저자 contribution

(a) GPT-4o mini를 3K 단어로 fine-tuning 하여 held-out 6,491 단어에 대해 인간 zRT와 r=.88, 정확도와 r=.86을 달성 — ELP 신뢰도 상한 ~.85에 근접.
(b) 4개 응용 제시: 분산 설명력 측정, 결측 임퓨테이션, 가상 실험 검증, 자극 선정 최적화.
(c) 6개 심리언어학 효과의 가상 복제를 통해 방법의 강점과 한계(특히 3/6 완전 복제, 2/6 실패)를 정직하게 보고.

왜 이 연구를 하는가?

심리언어학 메가스터디(ELP, ECP, AELP 등)는 강력한 자원이지만 태생적 한계 3가지:

부분 커버리지: 영어만 해도 200,000개 이상 단어 형태 중 각 메가스터디는 수만 개만 수록.
인구집단 편향: 대부분 대학생·젊은 성인, 노년층·어린이 데이터는 극히 적음.
고비용: 새 단어·새 집단 추가마다 수만 시행의 행동 실험이 필요.

선행연구들은 LLM이 word familiarity, concreteness, valence, arousal을 잘 추정함을 보였다(Brysbaert et al., 2025; Martínez et al., 2025; Trott, 2024). 자연스러운 확장 질문: LLM은 인지 처리 시간(RT)도 생성할 수 있는가? 단어 **특성(features)**은 LLM이 텍스트 통계로부터 대리 학습할 수 있지만, 밀리초 행동 측정값은 그런 직접 신호가 없다. 이 논문은 fine-tuning이 그 격차를 메울 수 있는가를 테스트한다. 또한 저자들은 통계적 imputation이 비무작위 결측에 약하다는 점을 이용해 LLM을 대안 도구로 제안한다.

Introduction

Lexical Decision Task (LDT): 참가자에게 letter string을 제시하고 “실제 단어 vs. 비단어”를 빠르게 분류. RT와 정확도가 어휘 처리 지표.
Megastudies/Crowdsourcing: ELP(Balota et al., 2007), ECP(Mandera et al., 2020), AELP(Goh et al., 2020), Dutch·French·Italian·Spanish·Korean 프로젝트들. 단어 특성(frequency, length, prevalence, AoA, similarity, POS, semantic centrality, valence, arousal, concreteness, iconicity)이 전형적으로 어휘 인식 분산의 ~60%를 설명.
LLM 기반 단어 특성 추정의 최근 흐름: Trott (2024), Martínez et al. (2025a, 2025b), Brysbaert et al. (2025)는 GPT-4가 Likert 스케일의 단어 속성을 인간만큼 잘 추정함을 보임.
본 연구의 질문: “같은 LLM이 성능 데이터(RT, 정확도)도 생성 가능한가?” 저자들은 메가스터디가 “수동적(passive)“으로만 활용된다고 지적. LLM이 결측 데이터를 메우고 가상 실험을 지원할 수 있다면 메가스터디의 동적 활용이 열린다.
핵심 가설: LLM이 RT에 대한 강한 prior를 갖지는 않지만, fine-tuning으로 빠르게 적응할 수 있다 (Bai et al., 2022). 관건은 훈련되지 않은 새 단어로의 일반화.

Methods

모델:

gpt-4o-2024-08-06 (GPT-4o)
gpt-4o-mini-2024-07-18 (GPT-4o mini)
Temperature = 0 (결정적 출력)

데이터: English Lexicon Project (Balota et al., 2007)에서 16,398 단어. 각 단어에 표준화 RT(zRT, 참가자별 z-score)와 정확도(Acc, % 단어로 수락된 비율) 보유.

분할:

Study 1: 9,907 훈련 (60%) / 6,491 교차검증 (40%).
Study 2: 6,000 또는 3,000 단어 훈련 / 동일한 6,491 테스트.
Study 3: 3,000 훈련 후 랜덤포레스트 변수 중요도 분석.
Study 4: 3,000 / 12,000 / 60,031 단어 훈련 후 1,820 테스트 단어로 6개 효과 가상 복제.

Fine-tuning 프롬프트 (모든 단어에 반복):

“You are estimating the percentage of persons who recognize a word and the time it takes them to produce the answer. For word ‘{Words}’, provide the values for accuracy and time as numbers, only two numbers separated by a comma:”

훈련 단계에서는 이 프롬프트 뒤에 실제 ELP (Acc, zRT) 값을 “라벨”로 제공; 평가 단계에서는 모델이 두 숫자를 자기회귀적으로 생성.

평가:

Pearson correlation (zRT_GPT vs. zRT_ELP, Acc_GPT vs. Acc_ELP).
베이스라인: fine-tuning 이전 single-shot (Table 1).
교차검증 단어에 대해서만 보고 — 훈련 단어는 trivially 완벽히 맞추므로 제외.
Study 3: Boruta R 패키지(Kursa & Rudnicki, 2010)로 랜덤포레스트 변수 중요도, Multilex frequency + length (phonemes) + first phoneme + concreteness가 예측자.
Study 4: 6개 공지 효과 (AoA, compound family size, word-association frequency, number of senses, plural frequency, orthographic uncertainty)에 대해 ECP 인간 데이터 vs. GPT 생성 데이터의 Cohen’s d 비교.

차별점:

단어 특성 대신 RT를 LLM에 생성시킨 최초의 체계적 연구.
fine-tuning 데이터 크기 ablation (3K/6K/9.9K/12K/60K).
3단계 외부 타당성 점검: Study 2(훈련 크기), Study 3(변수 구조), Study 4(공지 효과 복제).

발견 (Findings)

핵심 수치 (본문/Table 직접 인용):

Fine-tuning 전 (zero-shot): zRT 상관 r = −.24 (음의 방향; 모델은 RT 스케일을 모름). Accuracy r = .67.
Fine-tuning 후 (9.9K 훈련, 6.5K 테스트): GPT-4o zRT r = .88, Accuracy r = .86. GPT-4o mini 거의 동일 (zRT r = .88).
6K 훈련: GPT-4o mini zRT r = .89, Acc r = .83.
3K 훈련: zRT r = .87, Acc r = .80. (견고성 입증)
신뢰도 상한: ELP zRT split-half reliability ≈ .85 — GPT가 이를 초과함.
Study 3 변수 중요도: Multilex freq > word length > first phoneme > concreteness, 인간·GPT 모두 동일 순위. GPT 출력의 R² (AELP .603, ELP .748)이 실제 데이터의 R² (AELP .508, ELP .631)보다 높음 — 측정오차 없음의 효과.
Study 4 (3K 훈련, Cohen’s d):
- ✅ AoA: ECP d=.78 → GPT d=.70 (p<.01)
- ✅ Family size: .97 → .49 (p<.05)
- ✅ Association frequency: .91 → .72 (p<.01)
- ⚠️ N senses: .28 (p<.10) → .11 (n.s.)
- ❌ Frequency plural: .05 → .12
- ❌ Orthographic uncertainty: .04 → .08
12K 훈련에서는 5/6, 60K 훈련에서는 4/6 유의. 훈련 크기 증가로 미세 효과 포착 가능성↑.

Results

각 Study 결과를 저자 순서대로 정리:

Study 1 (Tables 1-2): Zero-shot에서 GPT-4o의 zRT 예측은 실패(r=-.24)하지만 Accuracy는 의외로 괜찮음(r=.67). Fine-tuning 후 zRT/Acc 모두 r > .85로 도약. GPT-4o와 GPT-4o mini 성능 거의 동일 — 더 저렴한 mini가 실용적 선택.

Study 2 (Tables 3-4): 훈련 단어를 6K, 3K로 줄여도 상관은 거의 유지(.87-.89). 3K 단어가 “seed sample”로서 충분함을 시사. 훈련 데이터 크기에 대한 sub-linear dependence는 fine-tuning이 pre-trained representation 위에서 calibration 역할을 한다는 해석을 지지.

Study 3 (Figures 1-3): AELP 실제 데이터에서 Multilex freq가 가장 중요, 다음 word length, first phoneme, concreteness. GPT 추정값에서도 동일한 순위 → 같은 predictors가 같은 역할. 그러나 GPT 출력이 더 많은 분산을 설명함 (R² .748 vs ELP 실제 .631). 저자 해석: 측정오차 제거의 효과 (.63/.85≈.74, .51/.85≈.60).

Study 4 (Table 5): 1,820 훈련-외 단어로 6개 심리언어 효과 가상 복제. 3K 훈련으로 3개 성공·1개 경계선·2개 실패. 훈련 규모가 커질수록 개선되나 약한 효과는 여전히 불안정. ECP 자체에서도 복제 실패한 2개 효과 (Frequency plural, Orthographic uncertainty)는 GPT 출력에서도 재현 불가 — ECP가 이미 약한 효과를 GPT가 복구하지는 못함.

Discussion

저자 논증:

주 발견: 3K fine-tuning으로 충분히 잘 분포된 시드면 LLM이 RT를 합리적으로 생성 가능.
분산 설명 근거: 지금까지 메가스터디 RT의 systematic variance 85%가 관찰 가능(reliability), 그 중 63%가 알려진 변수들로 설명 가능. 나머지 20%(=85-63)가 어휘 전반에 분산된 일반 속성에서 오는지 혹은 단어 고유의 idiosyncratic 정보에서 오는지가 열린 문제. Study 2의 r=.85는 이 20%가 새 단어에도 일반화 가능한 구조임을 시사 — “아직 발견되지 않은 단어 특성이 존재한다”는 가설 지지.
Application 1 (분산 설명 측정): AI 생성 RT와 실제 RT의 상관이 신뢰도에 도달할수록 “모든 systematic variance는 단어 특성에서 온다” 가설 강화.
Application 2 (결측 임퓨테이션): 통계적 imputation과 달리 비무작위 결측에도 작동.
Application 3 (가상 실험 검증): 기존 실험 결과를 메가스터디로 교차검증하는 Kuperman 스타일 virtual experiment를 LLM이 확장 가능.
Application 4 (자극 선정 최적화): 인간 실험 전 시뮬레이션으로 표본 설계.

저자 명시 한계:

GPT-4o는 상용 모델로 변경/중단 위험.
fine-tuning 데이터가 훈련셋에 포함될 수 있음 (contamination 가능성 인정).
극단적 값 (early/late acquired, low/high orthographic uncertainty)은 훈련셋에서 희귀해 변동성↓.
AI 생성 RT는 인간 데이터의 대체가 아니라 보완.

Discussion Points

논쟁점: “시뮬레이션 vs. 예측/회귀”의 경계 — 논문은 명시적으로 이를 구분하지 않는다. 이 구분이 방법의 적용 한계를 정의한다.
검증해야 할 가정 1: ELP/ECP의 RT 값이 GPT-4o mini 사전학습에 누출되지 않았다는 (암묵) 가정 — n-gram 검사 필요.
검증해야 할 가정 2: fine-tuning이 “새로운 지식 주입”이지 “기존 잠재 표상의 calibration”이 아니라는 가정 — 해석 가능성 연구 필요.
후속: (a) GPT 생성 RT의 분포 형태(Ex-Gaussian 파라미터)를 인간과 비교, (b) 고령자·어린이 megastudy로 fine-tuning 후 해당 집단 RT 복제 가능성 테스트, (c) open-source LLM (Llama, Qwen)으로 동일 실험하여 결과 재현 여부, (d) Study 4 실패 효과에 대한 정밀 원인 분석 (특히 사전학습 빈도 통계와의 관계).

이론적 의의

이 연구의 이론적 기여는 “의도된 것”과 “부수적으로 드러난 것”으로 나뉜다.

의도된 기여: 메가스터디 RT의 “설명 가능한 분산” 상한을 실증적으로 탐색. 만약 r(LLM, Human) ≈ reliability라면, 모든 systematic variance는 원리적으로 단어-수준 특성에서 파생된다는 강한 주장 성립 — Brysbaert et al. (2019)의 “word characteristics가 ~60% 설명”이라는 수치의 상한이 존재하며, 그것은 이론 파라미터가 아니라 신뢰도에 의해 결정됨을 암시.

부수적으로 드러난 기여: LLM fine-tuning이 “원본 데이터셋의 통계적 재구성기”로 매우 효율적임을 보여, 심리언어학 외 영역 (인지 성능 데이터, 신경심리 측정, 행동 경제 실험)에서도 유사 파이프라인이 가능함을 시사. 그러나 이는 인지 모델이 아닌 데이터 증강 도구로서의 LLM 역할을 강조하며, 진정한 인지 시뮬레이션(DRC, BLINCS, Serial Recall Models 등)과의 구분을 강화한다.

결론적으로, 본 논문은 “인지 시뮬레이션의 진보”라기보다 “메가스터디 인프라의 ML 증강”으로 위치 지어져야 하며, 그 프레이밍을 따를 때만 후속 연구가 올바른 질문을 던질 수 있다.

실험 결과 상세

Table A. Fine-tuning 효과 (Study 1, N_train=9,907, N_test=6,491)

Correlation	Zero-shot (GPT-4o)	Fine-tuned GPT-4o	Fine-tuned GPT-4o mini
ELP_zRT × GPT_zRT	−.24	.88	.88
ELP_Acc × GPT_Acc	.67	.86	.86
ELP_zRT × GPT_Acc	−.57	−.54	−.58
ELP_Acc × GPT_zRT	.17	−.67	−.64
GPT_Acc × GPT_zRT	.17	−.69	−.62
ELP 신뢰도 상한 (split-half)		≈ .85	≈ .85

출처: Tables 1-2, pp. 6; 괄호 안은 GPT-4o mini 수치.

Table B. 훈련 크기 ablation (Study 2, GPT-4o mini, 동일 6,491 테스트)

Training words	ELP_zRT × GPT_zRT	ELP_Acc × GPT_Acc
9,907	.88	.86
6,000	.89	.83
3,000	.87	.80

출처: Tables 2-4, pp. 6-7. 3K로도 성능 대부분 유지 — “seed sample 효과”.

Table C. Study 4 가상 복제 결과 (Cohen’s d, 3K-word fine-tuning)

Effect	N (easy/diff)	ECP (human)	GPT-3K	GPT-12K	GPT-60K
AoA (Morrison&Ellis)	54/53	.78**	.70	.90**	.78**
Family size (Juhasz)	27/26	.97**	.49ˣ	.70*	.47ˣ
Association freq (Wang)	200/200	.91**	.72	.91**	.96**
N senses (Rodd)	74/75	.28ˣ	.11	.36*	.22
Freq plural (New)	300/300	.05	.12*	.14*	.19**
Ortho uncertainty (Westbury&Yang)	300/300	.04	.08	.28ˣ	.06

출처: Table 5, pp. 14. ** p<.01, * p<.05, ˣ p<.10. ECP에서 약한 4-6 효과는 GPT 시뮬레이션에서도 안정적 복제 실패.

Table D. Random-forest 변수 중요도 (Study 3)

데이터	R²	Multilex freq	Length (phonemes)	First phoneme	Concreteness
AELP (human)	.508	1st (~125)	2nd (~93)	3rd (~58)	4th (~15)
ELP (human)	.631	1st (~163)	2nd (~81)	4th (~4)	3rd (~18)
GPT est. for AELP (3K)	.603	1st	2nd	3rd	4th
GPT est. for ELP (3K)	.748	1st	2nd	3rd	4th

출처: Figures 1-3, pp. 8-10. GPT 출력은 측정오차가 없으므로 R²이 인간 데이터보다 높음.

프레임워크 다이어그램

flowchart TD
    A["English Lexicon Project<br/>16,398 words<br/>(zRT, Accuracy)"] --> B["Train split<br/>N=3,000 / 6,000 / 9,907"]
    A --> C["Test split<br/>N=6,491 held-out"]
    B --> D["GPT-4o mini<br/>fine-tuning API<br/>temperature=0"]
    D --> E["Fine-tuned model"]
    C --> F["Prompt:<br/>provide Acc and time<br/>as two numbers"]
    E --> F
    F --> G["Generated<br/>(Acc_GPT, zRT_GPT)<br/>text output"]
    C --> H["Human ELP<br/>(Acc, zRT)"]
    G --> I["Pearson r<br/>r=.88 for zRT<br/>r=.86 for Acc"]
    H --> I
    I --> J["4 Applications"]
    J --> K1["1. Variance explained"]
    J --> K2["2. RT imputation"]
    J --> K3["3. Virtual experiment<br/>validation (3/6 replicated)"]
    J --> K4["4. Stimulus optimization"]

    style A fill:#e1f5ff
    style E fill:#fff4e1
    style G fill:#ffe1e1
    style I fill:#e1ffe1

재현성 및 신뢰도 평가

종합 등급: C

항목	평가	비고
코드 공개	🟡 부분	OSF에 Python fine-tuning 스크립트와 R 분석 코드 있음 (https://osf.io/p5ybm/)
데이터 공개	🟢 양호	ELP는 공개 megastudy; 생성된 GPT RT도 OSF에 게시
모델 공개	🔴 닫힘	OpenAI `gpt-4o-mini-2024-07-18` 상용 API, 가중치 접근 불가
하이퍼파라미터 보고	🔴 부족	OpenAI API의 내부 hyperparameters 기본값 사용만 기재; learning rate, epochs, LoRA rank 미보고
랜덤 시드 / train-test split 재현성	🟡 부분	60/40 랜덤 분할, 스크립트에 시드 존재 가능하나 명시되지 않음
Temperature 명시	🟢 양호	t=0 결정적 샘플링
베이스라인 강도	🔴 약	zero-shot과만 비교; 강한 non-LLM ML 베이스라인 없음
Pre-training contamination 점검	🔴 없음	한 문장 언급뿐, 정량화 부재
통계 보고	🟡 중간	Pearson r, Cohen’s d 보고. 신뢰구간·CI 없음, 다중비교 보정 미언급
재실행 시 동일 결과 보장	🔴 약	OpenAI 상용 API 변경 위험, 동일 가중치 재생성 불가능

주장별 신뢰도:

“GPT가 reliability 상한 r=.85에 도달”: 🟢 Strong (Table 2에서 r=.88로 관찰, reliability 기준은 관행적으로 split-half).
“3K 단어 seed로 충분”: 🟢 Strong (Table 4에서 r=.87 재현, 훈련 크기 ablation 설계).
“Same predictors drive GPT and human RT”: 🟡 Moderate (Study 3 RF 순위 일치는 예상된 결과 — fine-tuning 대상 함수가 같은 predictors에 의존하기 때문; 독립 증거 아님).
“Virtual experiments can validate findings”: 🟡 Moderate (Study 4에서 3/6만 완전 복제, 나머지는 주장 약화).
“GPT estimates can impute missing RT”: 🟡 Moderate (논리적으로 건전하지만 실제 임퓨테이션 사용 사례의 downstream 영향 미검증).
“Can work for novel groups (children, elderly)”: 🔴 Weak (검증 없음; Discussion에서만 가능성 시사).

논문 (연도, venue)	문제	방법	데이터	모델	주요 결과	코드공개
본 논문 (2025, Beh Res Meth)	렉시컬 디시전 RT 생성	GPT-4o mini fine-tuning on 3K-10K words → 생성	ELP, ECP, AELP	GPT-4o, GPT-4o mini	r=.88 for zRT, 3K로도 r=.87	🟡 OSF
Martínez, Conde, Reviriego, Brysbaert (2024, QJEP) — base	스페인어 단어 특성(familiarity/valence/arousal/concreteness) 추정	GPT-4o zero-shot prompting + log-prob 기대값	6개 스페인어 rating DB	GPT-4o	Familiarity r≈.80, concreteness r≈.80	🟢 OSF frc6a
Brysbaert, Martínez, Reviriego (2025, Beh Res Meth) — base	AI-generated familiarity가 렉시컬 디시전 정확도 예측	GPT-4 single-shot prompting	ELP	GPT-4	LLM familiarity가 word frequency보다 accuracy 더 잘 예측	🟡 OSF
Trott (2024, Beh Res Meth) — direct	LLM이 인간 단어 속성 rating 대체 가능성	GPT-4 prompting, 인간 소수와 비교	영어 norming data	GPT-4	Concreteness r=.81, valence r=.76, arousal r=.66	🟢 OSF
Oh & Schuler (2023, EMNLP Findings) — alternative	LM surprisal이 인간 reading time 예측	사전학습 LM의 surprisal 계산 (fine-tuning 없음)	Dundee, GECO 등 eye-tracking	Transformer LM 여러 크기	~2B training token 시점에서 최적; 더 큰 모델은 덜 인간적	🟢 GitHub
Balota et al. (2007, Beh Res Meth) — base (GT source)	렉시컬 디시전 메가스터디 구축	40,481 단어 × 30 참가자 = 1.2M trials	영어 단어 40K	— (행동실험)	ELP 표준; reliability r≈.85	🟢 elexicon.wustl.edu

원자적 인사이트 (Zettelkasten)

💡 Insight 1: “Fine-tuning on RT is calibration, not cognition”

Fine-tuning된 LLM이 인간 RT와 r=.88이라는 것은 LLM이 렉시컬 디시전을 “이해”했다는 의미가 아니라, 사전학습에서 획득한 단어 통계적 표상을 메가스터디의 zRT 척도로 affine transform했다는 의미다. 이는 왜 3K 시드만으로도 충분한지 설명한다 — 전체 단어 표상 공간은 이미 학습되었고 fine-tuning은 출력 헤드의 선형 매핑만 조정하면 된다. 따라서 “simulation”이라는 수사는 부적절하며, **“word-to-RT regression oracle”**로 재명명해야 이 방법의 응용 범위가 명확해진다.

💡 Insight 2: Reliability ceiling은 쌍방향 제약이다

저자들은 r=.88이 ELP 신뢰도 .85를 “초과”함을 자랑스럽게 보고하지만, 이는 역설적으로 방법의 구분력 상한을 의미한다. 어떤 회귀기이든 .85 근처에서 천장에 부딪히므로, Pearson r로는 서로 다른 방법들을 구분할 수 없다. 미래 연구는 r 대신 (a) RT 분포의 Wasserstein distance, (b) 특정 효과의 Cohen’s d 재현 정확도, (c) 새로운 집단으로의 zero-shot transfer 같은 더 날카로운 메트릭을 채택해야 한다.

💡 Insight 3: LLM 시뮬레이션은 “아는 효과”에서만 작동한다

Study 4의 숨은 신호: 훈련 단어에 풍부한 통계를 지닌 효과(AoA, family size)는 3K로 복제 가능하나, **훈련 단어에 드문 미세 통계(orthographic uncertainty, plural frequency)**는 12K에서도 불안정. 즉 LLM 시뮬레이션의 기대 effect size는 훈련 셋 내 변수 커버리지의 함수이며, “먼저 in silico로 탐색하고 유망하면 사람 실험”이라는 워크플로는 탐색 공간을 훈련 분포로 수축시킨다. 이는 알려진 효과의 확장 확인에는 유용하지만 신규 발견 발견에는 역행한다.

💡 Insight 4: 프롬프트 아키텍처가 출력 상관을 encoding 한다

GPT_Acc × GPT_zRT = −.69 (인간 −.62보다 강함)는 speed-accuracy trade-off의 “자연스러운” 재현이 아닐 수 있다 — 두 숫자가 한 토큰 시퀀스로 joint 생성되도록 프롬프트가 강제하기 때문이다. 이는 LLM 실험에서 일반적으로 경계해야 할 현상: 여러 종속변수를 한 프롬프트에 담으면, 각 변수의 예측값은 독립적이지 않고 상호 conditioning. 인지 모델을 검증하려면 각 측정값을 독립 프롬프트로 분리해야 하며, 이는 본 논문이 놓친 설계 분석.

💡 Insight 5: “사람 없음” 윤리 선언의 함정

“The studies did not involve people” — 기술적으로는 맞지만, ground truth가 인간 행동 데이터인 이상 이 연구의 결론은 그 특정 인구에 대한 주장이다. ELP는 2000년대 중반 미국 대학생 데이터이며, 이 LLM “RT 시뮬레이터”를 어린이·노년·비원어민에게 쓰면 그 집단의 특성이 아니라 원래 훈련셋의 편향이 재생산된다. LLM 기반 behavioral data augmentation 논문은 명시적으로 validation population의 demographic scope를 기술해야 하며, 이 논문은 그 표준을 세우지 못했다.

핵심 용어 정리

Lexical Decision Task (LDT): 문자열을 보고 “실제 단어”인지 “비단어”인지를 최대한 빠르게 판단하는 심리언어학 표준 과제. RT와 정확도가 어휘 접근(lexical access) 효율의 대표적 지표.
zRT (standardized RT): 참가자별로 RT를 z-score 변환한 값. 참가자 간 기본 속도 차이를 제거해 단어 간 상대 처리 시간을 비교 가능하게 함.
Megastudy: 수만 단어·수백~수천 참가자 규모로 어휘 처리 데이터를 체계적으로 수집하는 대규모 행동 연구 (ELP, ECP, AELP, BLP 등).
Crowdsourcing Project (예: English Crowdsourcing Project, ECP): 온라인 플랫폼으로 수십만 명 단위 피험자를 모집, 각자 70 단어+30 비단어만 수행하는 초대형 저부하 설계. Mandera et al. (2020)의 ECP는 41.2M 응답 / 61,851 단어.
Fine-tuning: 사전학습된 LLM의 가중치를 특정 입력-출력 쌍 집합으로 추가 학습시켜 해당 태스크에 특화시키는 과정. OpenAI fine-tuning API는 LoRA 유사 기법을 내부적으로 사용(상세 비공개).
Split-half reliability: 동일 단어에 대한 두 반수의 참가자 RT 간 상관. 데이터의 측정 신뢰도 상한을 추정하는 표준 지표.
Virtual experiment (Kuperman, 2015): 실험을 물리적으로 수행하지 않고 기존 메가스터디 RT 값을 조건에 따라 조회해 효과를 계산하는 방법.
Random forest feature importance / Boruta: 비선형 상호작용을 고려한 변수 중요도 추정법. Boruta는 shadow variable과 비교해 유의한 예측자만 선별.
Ex-Gaussian 분포: RT 분포의 표준 모델. μ, σ (가우시안) + τ (지수 꼬리). 언급은 본 논문에 없으나 비평에서 중요.
Pre-training contamination: 테스트 데이터가 LLM의 사전학습 코퍼스에 이미 포함된 경우 발생하는 평가 왜곡. 본 논문에서는 ELP가 수년간 공개된 데이터라 contamination 위험이 특히 큼.

BibTeX

@article{martinez2025simulating,
  title   = {Simulating lexical decision times with large language models to supplement megastudies and crowdsourcing},
  author  = {Mart{\'\i}nez, Gonzalo and Conde, Javier and Reviriego, Pedro and Brysbaert, Marc},
  journal = {Behavior Research Methods},
  volume  = {57},
  number  = {10},
  pages   = {294},
  year    = {2025},
  doi     = {10.3758/s13428-025-02829-6},
  publisher = {Springer},
  url     = {https://link.springer.com/article/10.3758/s13428-025-02829-6},
  note    = {Preprint title: ``Generating lexical decision times with large language models: Dynamic use of megastudy data''; code/data at \url{https://osf.io/p5ybm/}}
}

Simulating lexical decision times with large language models to supplement megastudies and crowdsourcing