EVALUATION REPORT / 학술 평가 보고서
persona-LDT: 한국어 어휘 판단 과제의 AI 시뮬레이션 실험
본 보고서는 5명의 과학자 에이전트가 독립적으로 수행한 학술 평가를 종합한 것이다.
평가 참여 에이전트
| 에이전트 | 역할 | 관점 |
|---|---|---|
| Cognitive Psychology Reviewer | 인지심리학 전문 리뷰어 | 실험 설계 타당성, 변수 통제, 생태학적 타당도 |
| Judea Pearl (Persona) | 인과 추론 전문가 | DAG 분석, do-calculus, confounding, counterfactual |
| Richard Feynman (Persona) | 근본적 이해 검증 | Cargo cult science 검증, 본질 환원, 진짜 과학 기준 |
| AI/ML Reviewer | AI/ML 전문 리뷰어 | 프롬프트 엔지니어링, 재현성, 통계적 타당성, 선행연구 |
| Andrej Karpathy (Persona) | 실전 엔지니어링 전문가 | 코드 품질, 스케일링, 디버깅, 데이터 검증 |
1. Executive Summary / 총괄 요약
실험 개요
본 실험은 LLM(Claude Sonnet 4.5)에게 실제 참가자의 인구통계와 단어 속성을 제공하여, 한국어 어휘 판단 과제(LDT)에서의 반응시간(RT)과 정답여부를 예측하게 하는 시뮬레이션이다. 버전 A(예측 원칙 포함)와 버전 B(미포함)를 비교하여 이론적 가이드의 효과를 검증한다.
종합 평가
잠재력은 있으나, 현재 설계에는 근본적 결함이 존재한다.
5개 에이전트가 독립적으로 도출한 핵심 결론:
- 순환 논증 구조 (5/5 에이전트 지적): 버전 A에서 예측 원칙(정답)을 제공한 후 그 원칙대로 예측하는지 확인하는 것은 instruction following 테스트이지 시뮬레이션 능력 검증이 아니다.
- 실험 목적의 모호성 (5/5): “인간 모사”와 “LLM 편향 관찰”이라는 두 가지 근본적으로 다른 목적이 혼재되어 있다.
- Baseline 부재 (4/5): LLM 예측의 성능을 판단할 비교 기준(선형 회귀 등)이 없다.
- 재현성 위협 (4/5): temperature 미설정, 반복 실행 없음, 모델 버전 비고정.
그러나 — 한국어 LDT에 대한 LLM 시뮬레이션은 선행 연구가 거의 없으며, KLP2 데이터 활용의 새로운 방향을 제시한다는 점에서 개선 시 학술적 가치가 있다.
2. Experimental Design Review / 실험 설계 평가
2.1 인지심리학적 타당성 (Cognitive Psychology Reviewer)
변수 선택의 적절성:
- 단어 변수 8개(빈도, 길이, 친숙성, 구체성, 상상가능성, 의미이해, 정서가, 각성가)는 심리언어학 연구의 표준적 변수 집합으로 적절하다.
- 참가자 변수 4개(나이, 성별, 교육, CRH)는 개인차 연구의 핵심 변수를 포함한다.
- 부족한 점: 어휘 지식 수준, 방언/지역 차이, 이중언어 사용 여부 등이 누락됨.
과제 설계의 문제:
- 비단어(nonword) 조건 미포함: LDT의 핵심은 단어/비단어 구별인데, 모든 자극이 실제 단어로만 구성됨. 이로 인해 정답여부 예측이 사실상 무의미(정답이 항상 ‘a’이므로 LLM은 85~98% 범위에서 임의로 0/1을 배분하면 됨).
- 시행 순서 효과 미반영: 실제 LDT에서는 선행 자극이 후속 자극 처리에 영향(프라이밍 효과). 현재 설계는 각 단어를 독립적으로 처리.
생태학적 타당도:
- LLM은 시각 처리, 운동 반응, 주의 할당 등의 인지 과정이 없으므로, “시뮬레이션”이라는 용어 자체가 과장됨.
- 더 정확한 표현: “조건부 분포 근사(conditional distribution approximation)“
2.2 인과 추론 vs 상관 관계 (Judea Pearl)
암묵적 인과 구조(DAG) 분석:
이 실험은 다음과 같은 DAG를 암묵적으로 가정하고 있다:
참가자 변수 (Age, Education, CRH, Gender)
│
▼
[Cognitive State] ← 잠재 변수, 관찰 불가
│
▼
RT, Correct ← 단어 변수 (Freq, Length, Familiarity, ...)
핵심 문제들:
-
참가자 변수 간 confounding: Age와 Education은 상관(세대별 교육 분포 차이). 예측 원칙은 이들을 독립 규칙으로 제시하지만, 실제로는 교란 구조가 존재.
-
관찰적 질문 vs 개입적 질문의 혼동: “이 참가자가 이 단어를 봤을 때 RT는?”이라는 질문은 관찰적 P(RT|X)이지만, 예측 원칙은 인과적 방향성(“빈도가 RT를 결정한다”)을 명시 — Causation Ladder의 1단계 데이터로 2단계 결론을 요구하는 구조.
-
예측 원칙과 LLM 사전 지식의 공통 원인: 예측 원칙도 심리학 문헌에서 유래하고, LLM의 훈련 데이터도 같은 문헌에서 유래 — 이 공통 원인이 버전 A/B 비교에서 순수한 효과 분리를 불가능하게 함.
인과적 이해 여부에 대한 판단:
“LLM이 명시적 인과 추론 메커니즘(do-calculus, structural causal model)을 내장하고 있는가? 아니다. 하지만 이것이 곧 인과적 관계의 기능적 포착 불가능을 의미하는지는 열린 경험적 질문이다. 세 가지를 구분해야 한다: (a) 형식적 인과 추론 — 명시적 intervention reasoning. LLM이 이것을 체계적으로 수행한다는 증거는 제한적이다. (b) 기능적 인과 포착 — 데이터의 인과 구조를 반영하는 prediction 능력. 충분히 좋은 predictor가 이를 달성할 가능성은 이론적으로 열려 있다. (c) 행동적 등가성 — 인과적 이해를 가진 시스템과 구별할 수 없는 행동. 이 실험에서 LLM이 이 수준에 얼마나 도달했는지가 핵심 질문이며, 이를 검증하려면 distribution shift 하에서의 체계적 평가(단일 변수 개입 테스트 등)가 필요하다.” — Pearl (수정: Hinton, Bengio, Sutskever의 반론을 반영)
⚠️ 원 코멘트에 대한 수정 사유: 원래 코멘트(“현재 아키텍처로는 불가능하다”)는 형식적 구조의 부재를 기능적 능력의 부재로 단정하는 논리적 도약을 포함하고 있었다. 현대 LLM 연구(Othello-GPT의 world model emergence, causal abstraction 연구, in-context learning 등)는 명시적 인과 메커니즘 없이도 인과 구조의 기능적 등가물이 representation에서 emerge할 수 있음을 시사한다. “Stochastic parrot” 프레임은 2025년 현재 LLM의 능력을 과소평가하는 oversimplification이며, 이 실험의 가치를 부당하게 축소할 위험이 있다.
2.3 실험 구조의 인과적 검증력 평가 (추가 리뷰: Hinton, Bengio, Sutskever)
Pearl의 원 코멘트 수정을 반영하여, 현재 실험 설계가 LLM의 인과적 기능 포착(functional causal capture)을 검증할 수 있는 구조인지를 평가한다.
현재 설계의 인과적 한계:
현재 실험은 순수 관찰적(observational) 설계이다. 참가자 변수 4개 + 단어 변수 8개를 동시에 제공하고 RT/정답여부를 예측하게 하는 구조에서는, LLM이 어떤 변수에 인과적으로 반응하는지 분리할 수 없다.
| 설계 유형 | 현재 상태 | 인과 검증력 |
|---|---|---|
| 관찰적 (모든 변수 동시 제공) | ✅ 구현됨 | ❌ 변수 효과 분리 불가 |
| 단일 변수 개입 (1개 변수만 변경) | ❌ 미구현 | ✅ 개별 변수의 인과적 기여 분리 |
| 반상관 조합 (자연 상관 깨뜨리기) | ❌ 미구현 | ✅ 상관 학습 vs 인과 포착 구분 |
| 반직관적 원칙 (버전 C) | ❌ 미구현 | ✅ instruction following vs 내재 지식 구분 |
구체적 문제점:
-
변수 간 자연 상관의 혼입: 실제 KLP2 데이터에서 고빈도 단어는 짧고 친숙한 경향이 있다. LLM이 빈도 효과를 재현하더라도, 이것이 빈도 자체에 대한 반응인지 길이·친숙성과의 상관에 의한 것인지 구분할 수 없다.
-
참가자 변수의 confounding 미통제: 나이↑ → 교육수준 분포 변화, 나이↑ → CRH 변화 등의 세대 효과가 존재. 현재 설계에서는 이를 분리할 프롬프트 구조가 없다.
-
개입(intervention) 조건 부재: LLM의 기능적 인과 포착을 검증하려면, “빈도만 변경하고 나머지 변수를 고정”한 상태에서의 RT 변화를 관찰해야 한다 (Bengio의 OOD 테스트 설계). 현재 설계는 이를 지원하지 않는다.
인과 검증을 위한 실험 구조 개선안:
개선안 A: 단일 변수 개입 테스트 (Intervention Test)
고정: 참가자(30세, 남성, 대졸, CRH=3.5) + 단어('사과', 2음절, 친숙성=6.5, ...)
조작: log_빈도만 {1.0, 2.0, 3.0, 4.0, 5.0}으로 체계적 변경
관찰: RT 변화 패턴 → 빈도의 독립적 인과 효과 추정
개선안 B: 반상관 조합 테스트 (Anti-correlation Test)
자연 상관: 고빈도 + 짧은 단어 → 낮은 RT (예측 가능)
반상관: 고빈도 + 긴 단어 → ? (LLM이 빈도를 독립적으로 처리하는지 검증)
저빈도 + 짧은 단어 → ? (길이를 독립적으로 처리하는지 검증)
→ 자연 상관과 반상관 조건에서의 예측 비교가 “상관 패턴 재생산 vs 인과 구조 포착”을 구분하는 핵심 테스트 (Bengio 제안)
개선안 C: 참가자 변수 개입 테스트
고정: 단어 세트 동일
조작: 동일 참가자의 나이만 {20, 40, 60, 80}으로 변경
관찰: RT 변화 → LLM이 나이의 인과적 효과를 독립적으로 모델링하는지
(세대 효과가 아닌 순수 연령 효과를 포착하는지)
해석 프레임워크:
| LLM 행동 패턴 | 해석 | 인과 수준 |
|---|---|---|
| 단일 변수 개입에 적절히 반응 + 반상관 조건에서도 효과 유지 | 기능적 인과 포착 (functional causal capture) | Ladder 2단계 근사 |
| 단일 변수 개입에 반응하나 반상관 조건에서 혼란 | 부분적 인과 포착 + 상관 의존 잔존 | Ladder 1-2단계 중간 |
| 자연 상관 조건에서만 정확, 개입·반상관 조건에서 실패 | 순수 상관 패턴 재생산 (Pearl의 원래 주장에 부합) | Ladder 1단계 |
| 개입 조건에서 원칙과 모순되는 반응 (예: 빈도↑ 인데 RT↑) | LLM의 한국어 어휘 표상에 체계적 편향 존재 | 가장 흥미로운 발견 |
결론: 현재 실험 구조는 LLM의 인과적 기능 포착을 검증하기에 불충분하다. 그러나 이는 실험 설계의 개선으로 해결 가능한 문제이며, 위 개선안(특히 A와 B)은 기존 코드 구조에 최소한의 수정으로 추가할 수 있다. 이 테스트를 통해 Pearl의 “1단계에 머문다”는 주장과 Hinton/Bengio/Sutskever의 “기능적 포착 가능성” 주장을 경험적으로 검증할 수 있다.
2.4 근본적 이해 검증 (Richard Feynman)
“Knowing the Name” vs “Knowing the Thing” 적용:
LLM이 “단어 빈도가 높으면 RT가 낮다”고 예측할 때, 이것은 어휘 접근 과정에 대한 이해가 아니라 함수 매핑이다. 인간의 뇌에서 일어나는 시각 처리 → mental lexicon 활성화 → 경쟁적 억제 → 운동 반응의 역학 과정이 LLM에는 존재하지 않는다.
본질적 환원:
이 실험의 본질은: “텍스트 생성 모델에게 숫자들(입력 변수)을 주고, 다른 숫자(RT)를 뱉으라고 했을 때, 뱉는 숫자의 패턴이 인간 데이터의 패턴과 비슷한가?” — 즉, “LLM은 좋은 lookup table인가?” — Feynman
Cargo Cult Science 위험:
- 과학의 형태(변수 통제, 조건 비교, 통계 분석)는 갖추고 있으나, 버전 A에서 “답을 알려주고 답대로 하는지 확인하는” 구조는 실제로 아무것도 검증하지 못할 위험이 있다.
- “계산기에 2+3을 넣었더니 5가 나왔다. 계산기가 산수를 이해한다!”와 유사한 구조.
예측 가능한 결과 vs 놀라운 결과:
| 구분 | 결과 | 가치 |
|---|---|---|
| 당연한 | 버전 A가 버전 B보다 인간 데이터와 유사 | 정답을 알려줬으니 당연 |
| 당연한 | LLM이 word frequency effect 재현 | 모든 심리학 교과서에 있는 지식 |
| 당연한 | RT가 400~2000ms 범위 | prompt에서 범위를 알려줌 |
| 흥미로운 | prompt에 없는 interaction effect 재현 | LLM 내재 지식의 증거 |
| 흥미로운 | 개별 단어 수준에서 ms 차이가 인간과 일치 | idiosyncratic lexical effects |
| 흥미로운 | LLM이 체계적으로 틀리는 패턴 발견 | LLM의 한국어 처리 편향 |
| 흥미로운 | RT 분포의 shape 차이 (인간: ex-Gaussian vs LLM: 정규?) | 생성 메커니즘의 차이 |
3. Critical Issue: 실험 목적의 모호성
3.1 문제 기술
현재 설계에서 LLM에게 인적사항(나이, 성별, 교육수준, CRH)을 제공할 때:
- 해석 1 — 인간 모사(Human Simulation): LLM이 실제 인간 참가자처럼 행동하여 인간의 RT 분포를 재현하기를 기대
- 해석 2 — LLM 편향 관찰(Bias Observation): LLM이 자체 판단으로 RT를 예측하게 하여, LLM에 내재된 심리언어학적 편향을 관찰
이 두 목적은 서로 다른 인과 모델을 전제하며, 최적화된 실험 설계가 다르다.
3.2 과학자 에이전트들의 평가
Pearl (인과 추론):
| 목적 | 인과 모델 | 평가 기준 |
|---|---|---|
| 인간 모사 | LLM 출력 ≈ 인간 출력 분포 | 분포적 등가성 (Ladder 1단계) |
| 편향 관찰 | LLM 자체가 연구 대상 | LLM의 인과적 편향 (Ladder 2단계) |
“인간 모사는 조건부 분포 근사이고, 편향 관찰은 LLM 자체의 인과 질문이다. 이 둘을 혼재시키면 어떤 결과가 나와도 명확한 해석이 불가능하다.” — Pearl
Feynman (근본적 이해):
“프레이밍을 바꾸면 같은 데이터의 과학적 가치가 완전히 달라진다. ‘인간 모사’ 프레이밍에서는 틀린 결과가 실패이고, ‘편향 관찰’ 프레이밍에서는 틀린 결과가 발견이다. 후자가 훨씬 더 과학적으로 가치 있다.” — Feynman
Cognitive Psychology Reviewer:
“연구 질문을 ‘인간 행동의 모방’이 아닌 ‘LLM의 암묵적 심리언어학적 folk theory 탐색’으로 재프레이밍하면, 버전 B(원칙 미포함)가 주 분석 대상이 되어야 하고, 버전 A는 비교 조건으로 전환되어야 한다.”
AI/ML Reviewer:
“이 세 가지 목적(‘인간 모사’, ‘가이드 효과 검증’, ‘편향 관찰’)이 혼재되어 있어 어떤 결과가 나와도 명확한 해석이 불가능하다. 실험 목적을 하나로 명확히 정의해야 한다.”
3.3 개선 방향 제안
권장 재프레이밍:
“LLM은 한국어 어휘 처리에 대해 어떤 암묵적 지식(folk theory)을 가지고 있으며, 그 지식은 실제 인간 데이터와 어디서, 어떻게 다른가?”
이 프레이밍의 장점:
- 버전 B(원칙 미포함)가 주 분석 → LLM의 자체 지식 측정
- “틀리는 것”이 실패가 아닌 발견이 됨
- 인간 데이터와의 차이가 핵심 결과가 됨
- 버전 A/B 비교가 “명시적 원칙이 LLM의 내재 지식을 override하는지”라는 날카로운 질문이 됨
4. Technical Implementation Review / 기술 구현 평가
4.1 AI/ML 관점 (AI/ML Reviewer)
프롬프트 엔지니어링 — 구조적 문제:
| 이슈 | 심각도 | 설명 |
|---|---|---|
| 답을 prompt에 포함 | Critical | RT 범위(400 |
| JSON 직접 출력 강제 | High | Chain-of-thought 차단 → 단순 패턴 매칭으로 숫자 생성 가능성 |
| 배치 처리의 위치 편향 | Medium | N×M 조합을 동시 요청 → 앞쪽 항목에 anchoring |
선행 연구 대비 위치:
본 실험은 Argyle et al. (2023) “Out of One, Many”의 “silicon sampling” 패러다임을 한국어 LDT에 적용한 것으로, 방법론적으로 2022-2023년 수준이다. 2024-2025년의 비판 연구들(Gui & Toubia 2024의 unconfoundedness 위반, “LLMs Do Not Simulate Human Psychology” 2025)이 제기한 근본적 한계에 대한 대응이 전무하다.
필수 분석 항목:
- 분포 수준: KS test, Wasserstein distance, Q-Q plot (RT 분포 형태 비교)
- 효과 크기 재현: 각 예측변수별 회귀계수 비교 (실제 vs. 예측)
- 개인차 재현: ICC(Intraclass Correlation) 비교
- Mixed-effects model: RT ~ frequency + length + … + (1|participant) + (1|word)
4.2 분석 방법론의 최신성 및 타당성 비판 (추가 리뷰)
핵심 문제: 현재 분석 파이프라인이 사실상 존재하지 않는다.
현재 코드(셀 6)는 describe()와 mean()만으로 결과를 확인하며, 어떠한 통계 검정, 모델 비교, 시각화도 포함하지 않는다. 이는 AI 학회는 물론 국내 학술대회 제출에도 부족한 수준이다.
현재 분석 vs AI 학회 기대 수준:
| 분석 차원 | 현재 상태 | AI 학회 최소 요구 (BlackboxNLP/CogSci Workshop) | Top-tier 기대 (NeurIPS/ACL) |
|---|---|---|---|
| 기술통계 | describe() 만 | Mean, SD, CI, 분포 시각화 | + bootstrapped CI, effect size |
| 분포 비교 | ❌ 없음 | KS test, Q-Q plot | Wasserstein distance, MMD, ex-Gaussian fitting |
| 회귀 분석 | ❌ 없음 | Mixed-effects model (lme4) | + Bayesian mixed-effects, model comparison (AIC/BIC/WAIC) |
| 효과 크기 재현 | ❌ 없음 | 변수별 β 비교 (인간 vs LLM) | + interaction effect 재현, partial R² 비교 |
| 개인차 모델링 | ❌ 없음 | ICC, random slope 비교 | + 참가자별 parameter recovery |
| Baseline 비교 | ❌ 없음 | 선형 회귀 baseline | + ridge/LASSO, random forest, GPT-4o 등 다중 baseline |
| 시각화 | ❌ 없음 | 최소 5개 핵심 figure | Publication-quality figures + supplementary |
| 재현성 검증 | ❌ 없음 | 반복 실행 분산 보고 | + 다중 모델, temperature sweep, prompt sensitivity |
2024-2025 LLM-as-Simulator 논문들의 분석 표준:
최근 LLM의 인간 행동 시뮬레이션 논문들이 사용하는 분석 방법론은 크게 발전했다. 현재 설계는 이 표준에 비해 2-3년의 gap이 있다.
| 분석 기법 | 적용 논문 (예시) | 현재 반영 여부 |
|---|---|---|
| Representational Similarity Analysis (RSA) — LLM과 인간의 변수별 유사성 구조 비교 | Binz & Schulz (2023), Dasgupta et al. (2024) | ❌ |
| Parameter Recovery — 인간 데이터의 인지 모델 파라미터를 LLM 데이터에서 회복 | Aher et al. (2023), Horton (2023) | ❌ |
| Calibration Analysis — LLM 예측의 신뢰도 보정 (predicted probability vs actual accuracy) | Gui & Toubia (2024) | ❌ |
| Sensitivity Analysis — prompt 요소별 기여도 분석 (ablation) | Argyle et al. (2023), Santurkar et al. (2023) | ❌ |
| Distribution Shift Test — 훈련 분포 밖 조건에서의 예측 성능 | Agarwal et al. (2024) | ❌ |
| Internal Consistency — 동일 조건 반복 시 LLM 출력의 일관성 (test-retest reliability) | Coda-Forno et al. (2024) | ❌ |
| Cognitive Model Comparison — DDM/ex-Gaussian/EZ-diffusion fitting 후 파라미터 비교 | Demircan et al. (2024) | ❌ |
구체적 비판:
-
“RT 예측”이 의미 있으려면 — 단순 수치가 아니라 생성 메커니즘을 비교해야 한다. 인간의 RT는 ex-Gaussian 분포를 따르며, 이는 drift-diffusion model(DDM)의 세 파라미터(drift rate, boundary separation, non-decision time)로 설명된다. LLM이 생성하는 RT의 분포 형태가 어떤지 — 정규분포인지, ex-Gaussian인지, 아니면 완전히 다른 형태인지 — 를 분석하지 않으면, “RT를 예측했다”는 주장의 의미가 모호하다.
-
“효과 재현”의 수준이 불분명하다. 현재 설계에서는 “빈도 효과가 재현되었는가?”를 단순 상관으로만 확인할 가능성이 높다. 그러나 AI 학회에서 요구하는 것은:
- 효과의 방향뿐 아니라 **크기(effect size)**가 인간 데이터와 일치하는가?
- 효과의 **비선형성(nonlinearity)**이 보존되는가? (빈도-RT 관계는 선형이 아님)
- **교호작용(interaction)**이 재현되는가? (예: 빈도 × 나이, 빈도 × 단어 길이)
-
Baseline이 없으면 LLM의 기여를 주장할 수 없다. “LLM이 RT를 잘 예측한다”는 주장은, 단순 선형 회귀(KLP2 데이터로 fitting한
RT ~ freq + length + age + ...)보다 더 잘하는지를 보여야 의미가 있다. 만약 선형 회귀와 비슷하거나 못하다면, LLM은 비싼 lookup table에 불과하다. -
LLM 출력의 불확실성 정량화가 없다. temperature=0이라 해도 API의 stochastic 요소가 있을 수 있고, prompt의 미세한 변형이 결과에 큰 영향을 줄 수 있다. prompt sensitivity analysis(핵심 요소를 하나씩 제거/변경하며 영향도 측정)가 최소한의 robustness 검증이다.
AI 학회 제출을 위한 최소 분석 파이프라인:
[Phase A: 기술 분석]
├── RT 분포 시각화 (인간 vs LLM, 조건별)
├── 기술통계 + bootstrapped 95% CI
└── 데이터 품질 검증 (누락, 이상치, 범위)
[Phase B: 효과 재현 분석]
├── Mixed-effects regression (인간 데이터 → β_human)
├── Mixed-effects regression (LLM 데이터 → β_llm)
├── β_human vs β_llm 비교 (scatter plot + correlation)
└── Interaction effect 재현 검증
[Phase C: 분포 수준 비교]
├── KS test / Wasserstein distance (전체 분포)
├── Q-Q plot (분위수 비교)
├── Ex-Gaussian fitting (μ, σ, τ 파라미터 비교)
└── 참가자별/단어별 조건부 분포 비교
[Phase D: Baseline 비교]
├── Linear regression baseline (KLP2 기반)
├── Ridge/LASSO baseline
├── LLM 예측 vs baseline 성능 비교 (RMSE, MAE, R²)
└── 어떤 조건에서 LLM이 baseline을 초과하는가?
[Phase E: Robustness 검증]
├── 반복 실행 일관성 (test-retest, 5회)
├── Prompt sensitivity analysis (요소별 ablation)
├── 버전 A/B 비교의 통계적 검정
└── 다중 모델 비교 (최소 2개 모델)
판단: 현재 분석 수준(기술통계만)은 학술 발표는 물론 pilot study 보고에도 부족하다. Phase A-B는 국내 학술대회 제출의 최소 요건이며, Phase C-D는 CogSci/BlackboxNLP workshop 수준, Phase E까지 완료해야 AI 학회 본 논문 수준에 근접한다.
4.3 엔지니어링 관점 (Andrej Karpathy)
잘한 점:
- Colab 환경에서 비개발자를 위한 명확한 셀 구조
- 비동기 처리 + 체크포인트 시스템의 견고한 설계
- 설정값 분리 (셀 3)
즉시 수정 필요 사항:
| # | 이슈 | 심각도 | 해결 |
|---|---|---|---|
| 1 | import re 누락 | 런타임 에러 | 셀 5에 import re 추가 |
| 2 | temperature 미설정 | 재현성 불가 | "temperature": 0.0 추가 |
| 3 | MAX_TOKENS = 4096 | Silent data loss | 8192로 상향 또는 큰 list 자동 분할 |
데이터 검증 부재:
- API 응답에서 예상 조합 수 vs 실제 조합 수 검증 없음
- RT 범위 sanity check 없음 (음수, 0, 10000ms 등 감지 불가)
- 실패한 list의 raw response 로깅 없음 → 디버깅 불가
스케일링 추정:
| 항목 | 추정값 |
|---|---|
| List당 입력 토큰 | ~3,000 |
| List당 출력 토큰 | ~2,500 |
| 100 Lists 비용 | ~$4.65 |
| 1,000 Lists × 5회 반복 | ~$230 |
| 다중 모델(3개) × 반복 | ~$700 |
체크포인트 edge case:
- checkpoint는 존재하나 output CSV가 삭제된 경우 → 완료된 list의 결과가 영구 소실
- checkpoint와 output의 일관성 검증 로직 필요
5. Improvement Suggestions / 개선 방안
제약조건: 심리학 연구실 환경 (제한된 자원, API 기반, activation-level 분석 불가)
Phase 1: 즉시 실행 (비용 $0, 소요 1시간)
| # | 개선 항목 | 효과 |
|---|---|---|
| 1 | import re 추가 | 런타임 에러 해결 |
| 2 | temperature: 0.0 설정 | 재현성 확보 |
| 3 | MAX_TOKENS = 8192 상향 | Silent data loss 방지 |
| 4 | 응답 검증 로직 추가 (예상 조합 수, RT 범위) | 데이터 품질 보장 |
| 5 | 실험 목적 재정립: “LLM의 암묵적 심리언어학적 folk theory 탐색” | 연구 방향 명확화 |
| 6 | 분석 계획 사전 수립 (pre-registration 수준) | 학술적 엄밀성 |
| 7 | 분석 파이프라인 구축 (§4.2 Phase A-B: mixed-effects model, 효과 크기 비교, 기본 시각화) | 학술 발표 최소 요건 충족 |
Phase 2: 단기 개선 (비용 $50-100, 소요 1-2주)
| # | 개선 항목 | 효과 |
|---|---|---|
| 8 | 버전 C (잘못된 원칙) 추가 | LLM의 “이해 vs 순종” 분리 — 5/5 에이전트 공통 제안 |
| 9 | Regression baseline 구축 | KLP2 데이터로 mixed-effects model fitting → 비교 기준 확보 |
| 10 | 동일 입력 5회 반복 실행 | 출력 안정성 및 분산 측정 |
| 11 | 비단어(nonword) 조건 추가 | LDT의 핵심 요소 복원, 정답여부 예측의 의미 부여 |
| 12 | 버전 B를 주 분석으로 전환, 원칙 미제공 조건에서 LLM 자체 지식 측정 | 순환 논증 해소 |
| 13 | 분포 수준 비교 + 인지 모델 fitting (§4.2 Phase C-D: ex-Gaussian, DDM, baseline 비교) | CogSci/BlackboxNLP workshop 수준 도달 |
Phase 3: 중기 개선 (비용 $100-300, 소요 2-4주)
| # | 개선 항목 | 효과 |
|---|---|---|
| 14 | 다중 모델 비교 (GPT-4o + open-source 1개, representative subset) | 일반화 가능성 확보 |
| 15 | 단일 변수 개입 테스트 (빈도만 체계적 변경, 나머지 고정) | 기능적 인과 포착 검증 — §2.3 개선안 A 참조 |
| 16 | 반상관 조합 테스트 (자연 상관을 깨뜨리는 조합) | 상관 재생산 vs 인과 포착 구분 — §2.3 개선안 B 참조 |
| 17 | RT 분포 shape 분석 (ex-Gaussian fitting) | 생성 메커니즘의 차이 정량화 |
| 18 | 개별 단어 수준 분석 (idiosyncratic lexical effects) | LLM의 어휘별 세밀한 지식 측정 |
| 19 | 순서 효과 검증 (단어 순서 랜덤화 2회 실행 비교) | 배치 처리 편향 통제 |
| 20 | Prompt sensitivity analysis + robustness 검증 (§4.2 Phase E) | AI 학회 본 논문 수준 도달 |
버전 C 설계 (5/5 에이전트 공통 제안)
버전 A: 올바른 원칙 ("빈도↑ → RT↓") ← 기존
버전 B: 원칙 없음 ← 기존
버전 C: 틀린 원칙 ("빈도↑ → RT↑") ← 추가
해석 프레임워크:
| 결과 패턴 | 해석 |
|---|---|
| A ≈ C (둘 다 원칙 따름) | LLM은 blind instruction follower |
| B ≈ 인간, C ≠ 인간 | LLM은 내재 지식이 있으나 명시적 원칙에 override 됨 |
| B ≠ 인간, C ≠ 인간 | LLM의 내재 지식이 인간과 다름 |
| C에서 LLM이 틀린 원칙 거부 | LLM은 심리언어학적 지식을 “확신”하고 있음 |
6. Target Venues / 타겟 학회·저널
현재 수준 기준
| Tier | 학회/저널 | 적합도 | 필요 조건 |
|---|---|---|---|
| Tier 1 | NeurIPS, ICML, ACL, EMNLP | ❌ 불가 | Technical novelty 부재, 방법론적 결함 |
| Tier 1.5 | CogSci, AAAI | ❌ 불가 | 순환 논증, baseline 부재 |
| Tier 2 | CogSci Workshop/Poster | ⚠️ 조건부 | Phase 1-2 개선 필요 |
| 국내 | 한국인지과학회 학술대회 | ⚠️ 조건부 | Phase 1 개선 필요 |
Phase 2-3 개선 후
| Tier | 학회/저널 | 적합도 | 이유 |
|---|---|---|---|
| 🥇 | 한국인지과학회 학술대회 | ✅ 높음 | 한국어 특화, 학제간 주제, 예비 결과 발표에 적합 |
| 🥇 | CogSci 2026 Poster | ✅ 높음 | LLM-as-cognitive-model 논의 활발, 국제 노출 |
| 🥈 | ACL/EMNLP Workshop (BlackboxNLP, CogALex) | ⚠️ 중간 | LLM의 어휘 지식 관련 워크숍 |
| 🥈 | 한국심리학회지 (인지 및 생물) | ⚠️ 중간 | KLP2 활용의 새로운 방향, 한국어 특화 |
| 🥉 | Behavior Research Methods | ⚠️ 낮음~중간 | 대폭 보완 필요 (3+ 모델, 포괄적 validity 분석) |
학회별 차별화 전략
인지과학 학회 (CogSci, 한국인지과학회):
- 프레이밍: “LLM의 한국어 어휘 표상과 인간 인지의 비교”
- 강조점: 인간 데이터와의 괴리가 드러내는 LLM의 인지적 특성
NLP/AI 학회 (ACL Workshop, BlackboxNLP):
- 프레이밍: “LLM에 내재된 심리언어학적 편향 탐색”
- 강조점: 다중 모델 비교, 프롬프트 조건의 체계적 ablation
심리학 저널 (한국심리학회지, BRM):
- 프레이밍: “AI 시뮬레이션의 인간 행동 예측 타당성 검증”
- 강조점: 실제 인간 데이터와의 정량적 비교, 효과 크기 재현
7. Overall Assessment / 총평
에이전트별 핵심 메시지
Cognitive Psychology Reviewer:
“가장 건설적인 개선 방향은 연구 질문을 ‘LLM의 암묵적 심리언어학 folk theory 탐색’으로 재프레이밍하고, 버전 B를 주 분석 대상으로 전환하며, 잘못된 원칙을 제공하는 버전을 추가하는 것이다.”
Judea Pearl (수정):
“LLM이 명시적 인과 추론을 수행하는가? 현재 증거로는 제한적이다. 하지만 ‘불가능하다’는 선험적 단정보다, LLM의 representation이 인과 구조를 기능적으로 어디까지 포착하는지를 경험적으로 탐구하는 것이 더 생산적이다. 이 실험에서 중요한 건 — 논문에서 인과적 언어를 정확하게 사용하되, 기능적 인과 포착의 가능성을 열어두는 것이다. ‘LLM이 인지 과정을 시뮬레이션한다’보다는 ‘LLM의 내부 표상이 lexical processing의 인과 구조를 어느 수준까지 반영하는가’가 더 정확한 질문이다.”
Richard Feynman:
“이 실험의 가장 큰 위험은 ‘비행기가 올 것처럼 보이는 활주로’를 만드는 것이다. 형태는 완벽한데, 실제로 검증하는 게 뭔지가 불분명하다. 근데 여기에 진짜 좋은 과학이 숨어 있다. 그걸 꺼내려면 — LLM이 예상 밖으로 틀리는 지점을 찾아라. 거기에 진짜 재밌는 게 있다. 그게 너의 ‘wobbling plate’다.”
AI/ML Reviewer:
“LLM에게 ‘빈도 높으면 RT 낮춰라’고 지시한 뒤 ‘빈도-RT 상관이 있다’고 보고하는 것은 실험이 아니라 echo chamber다. Regression baseline과 다중 모델 비교를 추가하면 한국어 심리언어학 커뮤니티에 의미 있는 기여가 될 잠재력은 있다.”
Andrej Karpathy:
“심리학 연구실에서 이 수준의 async + checkpoint + batch 처리를 구현한 건 꽤 인상적이다. 코드의 구조적 설계는 좋다. 근데 Software 2.0 관점에서 가장 중요한 건 데이터다. LLM이 생성한 시뮬레이션 데이터는 — 진짜 데이터와의 비교 없이는 의미가 없다.”
종합 평점
| 항목 | 점수 (10점) |
|---|---|
| 연구 아이디어의 독창성 | 5 |
| 실험 설계의 엄밀성 | 3 |
| 기술 구현 품질 | 6 |
| 재현성 | 3 |
| 개선 후 잠재력 | 7 |
최종 판단
현재 상태: 근본적 설계 결함(순환 논증, 목적 모호성, baseline 부재)으로 학술 발표 부적합.
개선 후: Phase 1-2 개선(비용 $50-100, 2주)만으로 한국인지과학회 학술대회 및 CogSci 2026 Poster 수준에 도달 가능. Phase 3까지 완료하면 워크숍 논문 또는 국내 저널 게재 가능.
핵심 전환점: 연구 질문을 “LLM이 인간을 잘 흉내 내는가?”에서 **“LLM의 한국어 어휘 표상은 인간과 어디서, 어떻게 다른가?”**로 전환하는 것이 이 연구의 학술적 가치를 결정짓는다.
본 보고서는 5개 과학자 에이전트(Cognitive Psychology Reviewer, Judea Pearl, Richard Feynman, AI/ML Reviewer, Andrej Karpathy)의 독립적 평가를 종합하여 작성되었다.