EVALUATION REPORT / 학술 평가 보고서

persona-LDT: 한국어 어휘 판단 과제의 AI 시뮬레이션 실험

본 보고서는 5명의 과학자 에이전트가 독립적으로 수행한 학술 평가를 종합한 것이다.

평가 참여 에이전트

에이전트역할관점
Cognitive Psychology Reviewer인지심리학 전문 리뷰어실험 설계 타당성, 변수 통제, 생태학적 타당도
Judea Pearl (Persona)인과 추론 전문가DAG 분석, do-calculus, confounding, counterfactual
Richard Feynman (Persona)근본적 이해 검증Cargo cult science 검증, 본질 환원, 진짜 과학 기준
AI/ML ReviewerAI/ML 전문 리뷰어프롬프트 엔지니어링, 재현성, 통계적 타당성, 선행연구
Andrej Karpathy (Persona)실전 엔지니어링 전문가코드 품질, 스케일링, 디버깅, 데이터 검증

1. Executive Summary / 총괄 요약

실험 개요

본 실험은 LLM(Claude Sonnet 4.5)에게 실제 참가자의 인구통계와 단어 속성을 제공하여, 한국어 어휘 판단 과제(LDT)에서의 반응시간(RT)과 정답여부를 예측하게 하는 시뮬레이션이다. 버전 A(예측 원칙 포함)와 버전 B(미포함)를 비교하여 이론적 가이드의 효과를 검증한다.

종합 평가

잠재력은 있으나, 현재 설계에는 근본적 결함이 존재한다.

5개 에이전트가 독립적으로 도출한 핵심 결론:

  1. 순환 논증 구조 (5/5 에이전트 지적): 버전 A에서 예측 원칙(정답)을 제공한 후 그 원칙대로 예측하는지 확인하는 것은 instruction following 테스트이지 시뮬레이션 능력 검증이 아니다.
  2. 실험 목적의 모호성 (5/5): “인간 모사”와 “LLM 편향 관찰”이라는 두 가지 근본적으로 다른 목적이 혼재되어 있다.
  3. Baseline 부재 (4/5): LLM 예측의 성능을 판단할 비교 기준(선형 회귀 등)이 없다.
  4. 재현성 위협 (4/5): temperature 미설정, 반복 실행 없음, 모델 버전 비고정.

그러나 — 한국어 LDT에 대한 LLM 시뮬레이션은 선행 연구가 거의 없으며, KLP2 데이터 활용의 새로운 방향을 제시한다는 점에서 개선 시 학술적 가치가 있다.


2. Experimental Design Review / 실험 설계 평가

2.1 인지심리학적 타당성 (Cognitive Psychology Reviewer)

변수 선택의 적절성:

  • 단어 변수 8개(빈도, 길이, 친숙성, 구체성, 상상가능성, 의미이해, 정서가, 각성가)는 심리언어학 연구의 표준적 변수 집합으로 적절하다.
  • 참가자 변수 4개(나이, 성별, 교육, CRH)는 개인차 연구의 핵심 변수를 포함한다.
  • 부족한 점: 어휘 지식 수준, 방언/지역 차이, 이중언어 사용 여부 등이 누락됨.

과제 설계의 문제:

  • 비단어(nonword) 조건 미포함: LDT의 핵심은 단어/비단어 구별인데, 모든 자극이 실제 단어로만 구성됨. 이로 인해 정답여부 예측이 사실상 무의미(정답이 항상 ‘a’이므로 LLM은 85~98% 범위에서 임의로 0/1을 배분하면 됨).
  • 시행 순서 효과 미반영: 실제 LDT에서는 선행 자극이 후속 자극 처리에 영향(프라이밍 효과). 현재 설계는 각 단어를 독립적으로 처리.

생태학적 타당도:

  • LLM은 시각 처리, 운동 반응, 주의 할당 등의 인지 과정이 없으므로, “시뮬레이션”이라는 용어 자체가 과장됨.
  • 더 정확한 표현: “조건부 분포 근사(conditional distribution approximation)“

2.2 인과 추론 vs 상관 관계 (Judea Pearl)

암묵적 인과 구조(DAG) 분석:

이 실험은 다음과 같은 DAG를 암묵적으로 가정하고 있다:

참가자 변수 (Age, Education, CRH, Gender)
        │
        ▼
  [Cognitive State] ← 잠재 변수, 관찰 불가
        │
        ▼
      RT, Correct ← 단어 변수 (Freq, Length, Familiarity, ...)

핵심 문제들:

  1. 참가자 변수 간 confounding: Age와 Education은 상관(세대별 교육 분포 차이). 예측 원칙은 이들을 독립 규칙으로 제시하지만, 실제로는 교란 구조가 존재.

  2. 관찰적 질문 vs 개입적 질문의 혼동: “이 참가자가 이 단어를 봤을 때 RT는?”이라는 질문은 관찰적 P(RT|X)이지만, 예측 원칙은 인과적 방향성(“빈도가 RT를 결정한다”)을 명시 — Causation Ladder의 1단계 데이터로 2단계 결론을 요구하는 구조.

  3. 예측 원칙과 LLM 사전 지식의 공통 원인: 예측 원칙도 심리학 문헌에서 유래하고, LLM의 훈련 데이터도 같은 문헌에서 유래 — 이 공통 원인이 버전 A/B 비교에서 순수한 효과 분리를 불가능하게 함.

인과적 이해 여부에 대한 판단:

“LLM이 명시적 인과 추론 메커니즘(do-calculus, structural causal model)을 내장하고 있는가? 아니다. 하지만 이것이 곧 인과적 관계의 기능적 포착 불가능을 의미하는지는 열린 경험적 질문이다. 세 가지를 구분해야 한다: (a) 형식적 인과 추론 — 명시적 intervention reasoning. LLM이 이것을 체계적으로 수행한다는 증거는 제한적이다. (b) 기능적 인과 포착 — 데이터의 인과 구조를 반영하는 prediction 능력. 충분히 좋은 predictor가 이를 달성할 가능성은 이론적으로 열려 있다. (c) 행동적 등가성 — 인과적 이해를 가진 시스템과 구별할 수 없는 행동. 이 실험에서 LLM이 이 수준에 얼마나 도달했는지가 핵심 질문이며, 이를 검증하려면 distribution shift 하에서의 체계적 평가(단일 변수 개입 테스트 등)가 필요하다.” — Pearl (수정: Hinton, Bengio, Sutskever의 반론을 반영)

⚠️ 원 코멘트에 대한 수정 사유: 원래 코멘트(“현재 아키텍처로는 불가능하다”)는 형식적 구조의 부재를 기능적 능력의 부재로 단정하는 논리적 도약을 포함하고 있었다. 현대 LLM 연구(Othello-GPT의 world model emergence, causal abstraction 연구, in-context learning 등)는 명시적 인과 메커니즘 없이도 인과 구조의 기능적 등가물이 representation에서 emerge할 수 있음을 시사한다. “Stochastic parrot” 프레임은 2025년 현재 LLM의 능력을 과소평가하는 oversimplification이며, 이 실험의 가치를 부당하게 축소할 위험이 있다.

2.3 실험 구조의 인과적 검증력 평가 (추가 리뷰: Hinton, Bengio, Sutskever)

Pearl의 원 코멘트 수정을 반영하여, 현재 실험 설계가 LLM의 인과적 기능 포착(functional causal capture)을 검증할 수 있는 구조인지를 평가한다.

현재 설계의 인과적 한계:

현재 실험은 순수 관찰적(observational) 설계이다. 참가자 변수 4개 + 단어 변수 8개를 동시에 제공하고 RT/정답여부를 예측하게 하는 구조에서는, LLM이 어떤 변수에 인과적으로 반응하는지 분리할 수 없다.

설계 유형현재 상태인과 검증력
관찰적 (모든 변수 동시 제공)✅ 구현됨❌ 변수 효과 분리 불가
단일 변수 개입 (1개 변수만 변경)❌ 미구현✅ 개별 변수의 인과적 기여 분리
반상관 조합 (자연 상관 깨뜨리기)❌ 미구현✅ 상관 학습 vs 인과 포착 구분
반직관적 원칙 (버전 C)❌ 미구현✅ instruction following vs 내재 지식 구분

구체적 문제점:

  1. 변수 간 자연 상관의 혼입: 실제 KLP2 데이터에서 고빈도 단어는 짧고 친숙한 경향이 있다. LLM이 빈도 효과를 재현하더라도, 이것이 빈도 자체에 대한 반응인지 길이·친숙성과의 상관에 의한 것인지 구분할 수 없다.

  2. 참가자 변수의 confounding 미통제: 나이↑ → 교육수준 분포 변화, 나이↑ → CRH 변화 등의 세대 효과가 존재. 현재 설계에서는 이를 분리할 프롬프트 구조가 없다.

  3. 개입(intervention) 조건 부재: LLM의 기능적 인과 포착을 검증하려면, “빈도만 변경하고 나머지 변수를 고정”한 상태에서의 RT 변화를 관찰해야 한다 (Bengio의 OOD 테스트 설계). 현재 설계는 이를 지원하지 않는다.

인과 검증을 위한 실험 구조 개선안:

개선안 A: 단일 변수 개입 테스트 (Intervention Test)

고정: 참가자(30세, 남성, 대졸, CRH=3.5) + 단어('사과', 2음절, 친숙성=6.5, ...)
조작: log_빈도만 {1.0, 2.0, 3.0, 4.0, 5.0}으로 체계적 변경
관찰: RT 변화 패턴 → 빈도의 독립적 인과 효과 추정

개선안 B: 반상관 조합 테스트 (Anti-correlation Test)

자연 상관: 고빈도 + 짧은 단어 → 낮은 RT (예측 가능)
반상관:    고빈도 + 긴 단어   → ? (LLM이 빈도를 독립적으로 처리하는지 검증)
           저빈도 + 짧은 단어 → ? (길이를 독립적으로 처리하는지 검증)

→ 자연 상관과 반상관 조건에서의 예측 비교가 “상관 패턴 재생산 vs 인과 구조 포착”을 구분하는 핵심 테스트 (Bengio 제안)

개선안 C: 참가자 변수 개입 테스트

고정: 단어 세트 동일
조작: 동일 참가자의 나이만 {20, 40, 60, 80}으로 변경
관찰: RT 변화 → LLM이 나이의 인과적 효과를 독립적으로 모델링하는지
      (세대 효과가 아닌 순수 연령 효과를 포착하는지)

해석 프레임워크:

LLM 행동 패턴해석인과 수준
단일 변수 개입에 적절히 반응 + 반상관 조건에서도 효과 유지기능적 인과 포착 (functional causal capture)Ladder 2단계 근사
단일 변수 개입에 반응하나 반상관 조건에서 혼란부분적 인과 포착 + 상관 의존 잔존Ladder 1-2단계 중간
자연 상관 조건에서만 정확, 개입·반상관 조건에서 실패순수 상관 패턴 재생산 (Pearl의 원래 주장에 부합)Ladder 1단계
개입 조건에서 원칙과 모순되는 반응 (예: 빈도↑ 인데 RT↑)LLM의 한국어 어휘 표상에 체계적 편향 존재가장 흥미로운 발견

결론: 현재 실험 구조는 LLM의 인과적 기능 포착을 검증하기에 불충분하다. 그러나 이는 실험 설계의 개선으로 해결 가능한 문제이며, 위 개선안(특히 A와 B)은 기존 코드 구조에 최소한의 수정으로 추가할 수 있다. 이 테스트를 통해 Pearl의 “1단계에 머문다”는 주장과 Hinton/Bengio/Sutskever의 “기능적 포착 가능성” 주장을 경험적으로 검증할 수 있다.

2.4 근본적 이해 검증 (Richard Feynman)

“Knowing the Name” vs “Knowing the Thing” 적용:

LLM이 “단어 빈도가 높으면 RT가 낮다”고 예측할 때, 이것은 어휘 접근 과정에 대한 이해가 아니라 함수 매핑이다. 인간의 뇌에서 일어나는 시각 처리 → mental lexicon 활성화 → 경쟁적 억제 → 운동 반응의 역학 과정이 LLM에는 존재하지 않는다.

본질적 환원:

이 실험의 본질은: “텍스트 생성 모델에게 숫자들(입력 변수)을 주고, 다른 숫자(RT)를 뱉으라고 했을 때, 뱉는 숫자의 패턴이 인간 데이터의 패턴과 비슷한가?” — 즉, “LLM은 좋은 lookup table인가?” — Feynman

Cargo Cult Science 위험:

  • 과학의 형태(변수 통제, 조건 비교, 통계 분석)는 갖추고 있으나, 버전 A에서 “답을 알려주고 답대로 하는지 확인하는” 구조는 실제로 아무것도 검증하지 못할 위험이 있다.
  • “계산기에 2+3을 넣었더니 5가 나왔다. 계산기가 산수를 이해한다!”와 유사한 구조.

예측 가능한 결과 vs 놀라운 결과:

구분결과가치
당연한버전 A가 버전 B보다 인간 데이터와 유사정답을 알려줬으니 당연
당연한LLM이 word frequency effect 재현모든 심리학 교과서에 있는 지식
당연한RT가 400~2000ms 범위prompt에서 범위를 알려줌
흥미로운prompt에 없는 interaction effect 재현LLM 내재 지식의 증거
흥미로운개별 단어 수준에서 ms 차이가 인간과 일치idiosyncratic lexical effects
흥미로운LLM이 체계적으로 틀리는 패턴 발견LLM의 한국어 처리 편향
흥미로운RT 분포의 shape 차이 (인간: ex-Gaussian vs LLM: 정규?)생성 메커니즘의 차이

3. Critical Issue: 실험 목적의 모호성

3.1 문제 기술

현재 설계에서 LLM에게 인적사항(나이, 성별, 교육수준, CRH)을 제공할 때:

  • 해석 1 — 인간 모사(Human Simulation): LLM이 실제 인간 참가자처럼 행동하여 인간의 RT 분포를 재현하기를 기대
  • 해석 2 — LLM 편향 관찰(Bias Observation): LLM이 자체 판단으로 RT를 예측하게 하여, LLM에 내재된 심리언어학적 편향을 관찰

이 두 목적은 서로 다른 인과 모델을 전제하며, 최적화된 실험 설계가 다르다.

3.2 과학자 에이전트들의 평가

Pearl (인과 추론):

목적인과 모델평가 기준
인간 모사LLM 출력 ≈ 인간 출력 분포분포적 등가성 (Ladder 1단계)
편향 관찰LLM 자체가 연구 대상LLM의 인과적 편향 (Ladder 2단계)

“인간 모사는 조건부 분포 근사이고, 편향 관찰은 LLM 자체의 인과 질문이다. 이 둘을 혼재시키면 어떤 결과가 나와도 명확한 해석이 불가능하다.” — Pearl

Feynman (근본적 이해):

“프레이밍을 바꾸면 같은 데이터의 과학적 가치가 완전히 달라진다. ‘인간 모사’ 프레이밍에서는 틀린 결과가 실패이고, ‘편향 관찰’ 프레이밍에서는 틀린 결과가 발견이다. 후자가 훨씬 더 과학적으로 가치 있다.” — Feynman

Cognitive Psychology Reviewer:

“연구 질문을 ‘인간 행동의 모방’이 아닌 ‘LLM의 암묵적 심리언어학적 folk theory 탐색’으로 재프레이밍하면, 버전 B(원칙 미포함)가 주 분석 대상이 되어야 하고, 버전 A는 비교 조건으로 전환되어야 한다.”

AI/ML Reviewer:

“이 세 가지 목적(‘인간 모사’, ‘가이드 효과 검증’, ‘편향 관찰’)이 혼재되어 있어 어떤 결과가 나와도 명확한 해석이 불가능하다. 실험 목적을 하나로 명확히 정의해야 한다.”

3.3 개선 방향 제안

권장 재프레이밍:

“LLM은 한국어 어휘 처리에 대해 어떤 암묵적 지식(folk theory)을 가지고 있으며, 그 지식은 실제 인간 데이터와 어디서, 어떻게 다른가?”

이 프레이밍의 장점:

  1. 버전 B(원칙 미포함)가 주 분석 → LLM의 자체 지식 측정
  2. “틀리는 것”이 실패가 아닌 발견이 됨
  3. 인간 데이터와의 차이가 핵심 결과가 됨
  4. 버전 A/B 비교가 “명시적 원칙이 LLM의 내재 지식을 override하는지”라는 날카로운 질문이 됨

4. Technical Implementation Review / 기술 구현 평가

4.1 AI/ML 관점 (AI/ML Reviewer)

프롬프트 엔지니어링 — 구조적 문제:

이슈심각도설명
답을 prompt에 포함CriticalRT 범위(4002000ms), 정답률(8598%), 변수 방향성을 모두 제공 → instruction following 테스트
JSON 직접 출력 강제HighChain-of-thought 차단 → 단순 패턴 매칭으로 숫자 생성 가능성
배치 처리의 위치 편향MediumN×M 조합을 동시 요청 → 앞쪽 항목에 anchoring

선행 연구 대비 위치:

본 실험은 Argyle et al. (2023) “Out of One, Many”의 “silicon sampling” 패러다임을 한국어 LDT에 적용한 것으로, 방법론적으로 2022-2023년 수준이다. 2024-2025년의 비판 연구들(Gui & Toubia 2024의 unconfoundedness 위반, “LLMs Do Not Simulate Human Psychology” 2025)이 제기한 근본적 한계에 대한 대응이 전무하다.

필수 분석 항목:

  • 분포 수준: KS test, Wasserstein distance, Q-Q plot (RT 분포 형태 비교)
  • 효과 크기 재현: 각 예측변수별 회귀계수 비교 (실제 vs. 예측)
  • 개인차 재현: ICC(Intraclass Correlation) 비교
  • Mixed-effects model: RT ~ frequency + length + … + (1|participant) + (1|word)

4.2 분석 방법론의 최신성 및 타당성 비판 (추가 리뷰)

핵심 문제: 현재 분석 파이프라인이 사실상 존재하지 않는다.

현재 코드(셀 6)는 describe()mean()만으로 결과를 확인하며, 어떠한 통계 검정, 모델 비교, 시각화도 포함하지 않는다. 이는 AI 학회는 물론 국내 학술대회 제출에도 부족한 수준이다.

현재 분석 vs AI 학회 기대 수준:

분석 차원현재 상태AI 학회 최소 요구 (BlackboxNLP/CogSci Workshop)Top-tier 기대 (NeurIPS/ACL)
기술통계describe()Mean, SD, CI, 분포 시각화+ bootstrapped CI, effect size
분포 비교❌ 없음KS test, Q-Q plotWasserstein distance, MMD, ex-Gaussian fitting
회귀 분석❌ 없음Mixed-effects model (lme4)+ Bayesian mixed-effects, model comparison (AIC/BIC/WAIC)
효과 크기 재현❌ 없음변수별 β 비교 (인간 vs LLM)+ interaction effect 재현, partial R² 비교
개인차 모델링❌ 없음ICC, random slope 비교+ 참가자별 parameter recovery
Baseline 비교❌ 없음선형 회귀 baseline+ ridge/LASSO, random forest, GPT-4o 등 다중 baseline
시각화❌ 없음최소 5개 핵심 figurePublication-quality figures + supplementary
재현성 검증❌ 없음반복 실행 분산 보고+ 다중 모델, temperature sweep, prompt sensitivity

2024-2025 LLM-as-Simulator 논문들의 분석 표준:

최근 LLM의 인간 행동 시뮬레이션 논문들이 사용하는 분석 방법론은 크게 발전했다. 현재 설계는 이 표준에 비해 2-3년의 gap이 있다.

분석 기법적용 논문 (예시)현재 반영 여부
Representational Similarity Analysis (RSA) — LLM과 인간의 변수별 유사성 구조 비교Binz & Schulz (2023), Dasgupta et al. (2024)
Parameter Recovery — 인간 데이터의 인지 모델 파라미터를 LLM 데이터에서 회복Aher et al. (2023), Horton (2023)
Calibration Analysis — LLM 예측의 신뢰도 보정 (predicted probability vs actual accuracy)Gui & Toubia (2024)
Sensitivity Analysis — prompt 요소별 기여도 분석 (ablation)Argyle et al. (2023), Santurkar et al. (2023)
Distribution Shift Test — 훈련 분포 밖 조건에서의 예측 성능Agarwal et al. (2024)
Internal Consistency — 동일 조건 반복 시 LLM 출력의 일관성 (test-retest reliability)Coda-Forno et al. (2024)
Cognitive Model Comparison — DDM/ex-Gaussian/EZ-diffusion fitting 후 파라미터 비교Demircan et al. (2024)

구체적 비판:

  1. “RT 예측”이 의미 있으려면 — 단순 수치가 아니라 생성 메커니즘을 비교해야 한다. 인간의 RT는 ex-Gaussian 분포를 따르며, 이는 drift-diffusion model(DDM)의 세 파라미터(drift rate, boundary separation, non-decision time)로 설명된다. LLM이 생성하는 RT의 분포 형태가 어떤지 — 정규분포인지, ex-Gaussian인지, 아니면 완전히 다른 형태인지 — 를 분석하지 않으면, “RT를 예측했다”는 주장의 의미가 모호하다.

  2. “효과 재현”의 수준이 불분명하다. 현재 설계에서는 “빈도 효과가 재현되었는가?”를 단순 상관으로만 확인할 가능성이 높다. 그러나 AI 학회에서 요구하는 것은:

    • 효과의 방향뿐 아니라 **크기(effect size)**가 인간 데이터와 일치하는가?
    • 효과의 **비선형성(nonlinearity)**이 보존되는가? (빈도-RT 관계는 선형이 아님)
    • **교호작용(interaction)**이 재현되는가? (예: 빈도 × 나이, 빈도 × 단어 길이)
  3. Baseline이 없으면 LLM의 기여를 주장할 수 없다. “LLM이 RT를 잘 예측한다”는 주장은, 단순 선형 회귀(KLP2 데이터로 fitting한 RT ~ freq + length + age + ...)보다 더 잘하는지를 보여야 의미가 있다. 만약 선형 회귀와 비슷하거나 못하다면, LLM은 비싼 lookup table에 불과하다.

  4. LLM 출력의 불확실성 정량화가 없다. temperature=0이라 해도 API의 stochastic 요소가 있을 수 있고, prompt의 미세한 변형이 결과에 큰 영향을 줄 수 있다. prompt sensitivity analysis(핵심 요소를 하나씩 제거/변경하며 영향도 측정)가 최소한의 robustness 검증이다.

AI 학회 제출을 위한 최소 분석 파이프라인:

[Phase A: 기술 분석]
├── RT 분포 시각화 (인간 vs LLM, 조건별)
├── 기술통계 + bootstrapped 95% CI
└── 데이터 품질 검증 (누락, 이상치, 범위)

[Phase B: 효과 재현 분석]
├── Mixed-effects regression (인간 데이터 → β_human)
├── Mixed-effects regression (LLM 데이터 → β_llm)
├── β_human vs β_llm 비교 (scatter plot + correlation)
└── Interaction effect 재현 검증

[Phase C: 분포 수준 비교]
├── KS test / Wasserstein distance (전체 분포)
├── Q-Q plot (분위수 비교)
├── Ex-Gaussian fitting (μ, σ, τ 파라미터 비교)
└── 참가자별/단어별 조건부 분포 비교

[Phase D: Baseline 비교]
├── Linear regression baseline (KLP2 기반)
├── Ridge/LASSO baseline
├── LLM 예측 vs baseline 성능 비교 (RMSE, MAE, R²)
└── 어떤 조건에서 LLM이 baseline을 초과하는가?

[Phase E: Robustness 검증]
├── 반복 실행 일관성 (test-retest, 5회)
├── Prompt sensitivity analysis (요소별 ablation)
├── 버전 A/B 비교의 통계적 검정
└── 다중 모델 비교 (최소 2개 모델)

판단: 현재 분석 수준(기술통계만)은 학술 발표는 물론 pilot study 보고에도 부족하다. Phase A-B는 국내 학술대회 제출의 최소 요건이며, Phase C-D는 CogSci/BlackboxNLP workshop 수준, Phase E까지 완료해야 AI 학회 본 논문 수준에 근접한다.

4.3 엔지니어링 관점 (Andrej Karpathy)

잘한 점:

  • Colab 환경에서 비개발자를 위한 명확한 셀 구조
  • 비동기 처리 + 체크포인트 시스템의 견고한 설계
  • 설정값 분리 (셀 3)

즉시 수정 필요 사항:

#이슈심각도해결
1import re 누락런타임 에러셀 5에 import re 추가
2temperature 미설정재현성 불가"temperature": 0.0 추가
3MAX_TOKENS = 4096Silent data loss8192로 상향 또는 큰 list 자동 분할

데이터 검증 부재:

  • API 응답에서 예상 조합 수 vs 실제 조합 수 검증 없음
  • RT 범위 sanity check 없음 (음수, 0, 10000ms 등 감지 불가)
  • 실패한 list의 raw response 로깅 없음 → 디버깅 불가

스케일링 추정:

항목추정값
List당 입력 토큰~3,000
List당 출력 토큰~2,500
100 Lists 비용~$4.65
1,000 Lists × 5회 반복~$230
다중 모델(3개) × 반복~$700

체크포인트 edge case:

  • checkpoint는 존재하나 output CSV가 삭제된 경우 → 완료된 list의 결과가 영구 소실
  • checkpoint와 output의 일관성 검증 로직 필요

5. Improvement Suggestions / 개선 방안

제약조건: 심리학 연구실 환경 (제한된 자원, API 기반, activation-level 분석 불가)

Phase 1: 즉시 실행 (비용 $0, 소요 1시간)

#개선 항목효과
1import re 추가런타임 에러 해결
2temperature: 0.0 설정재현성 확보
3MAX_TOKENS = 8192 상향Silent data loss 방지
4응답 검증 로직 추가 (예상 조합 수, RT 범위)데이터 품질 보장
5실험 목적 재정립: “LLM의 암묵적 심리언어학적 folk theory 탐색”연구 방향 명확화
6분석 계획 사전 수립 (pre-registration 수준)학술적 엄밀성
7분석 파이프라인 구축 (§4.2 Phase A-B: mixed-effects model, 효과 크기 비교, 기본 시각화)학술 발표 최소 요건 충족

Phase 2: 단기 개선 (비용 $50-100, 소요 1-2주)

#개선 항목효과
8버전 C (잘못된 원칙) 추가LLM의 “이해 vs 순종” 분리 — 5/5 에이전트 공통 제안
9Regression baseline 구축KLP2 데이터로 mixed-effects model fitting → 비교 기준 확보
10동일 입력 5회 반복 실행출력 안정성 및 분산 측정
11비단어(nonword) 조건 추가LDT의 핵심 요소 복원, 정답여부 예측의 의미 부여
12버전 B를 주 분석으로 전환, 원칙 미제공 조건에서 LLM 자체 지식 측정순환 논증 해소
13분포 수준 비교 + 인지 모델 fitting (§4.2 Phase C-D: ex-Gaussian, DDM, baseline 비교)CogSci/BlackboxNLP workshop 수준 도달

Phase 3: 중기 개선 (비용 $100-300, 소요 2-4주)

#개선 항목효과
14다중 모델 비교 (GPT-4o + open-source 1개, representative subset)일반화 가능성 확보
15단일 변수 개입 테스트 (빈도만 체계적 변경, 나머지 고정)기능적 인과 포착 검증 — §2.3 개선안 A 참조
16반상관 조합 테스트 (자연 상관을 깨뜨리는 조합)상관 재생산 vs 인과 포착 구분 — §2.3 개선안 B 참조
17RT 분포 shape 분석 (ex-Gaussian fitting)생성 메커니즘의 차이 정량화
18개별 단어 수준 분석 (idiosyncratic lexical effects)LLM의 어휘별 세밀한 지식 측정
19순서 효과 검증 (단어 순서 랜덤화 2회 실행 비교)배치 처리 편향 통제
20Prompt sensitivity analysis + robustness 검증 (§4.2 Phase E)AI 학회 본 논문 수준 도달

버전 C 설계 (5/5 에이전트 공통 제안)

버전 A: 올바른 원칙 ("빈도↑ → RT↓")  ← 기존
버전 B: 원칙 없음                      ← 기존
버전 C: 틀린 원칙 ("빈도↑ → RT↑")    ← 추가

해석 프레임워크:

결과 패턴해석
A ≈ C (둘 다 원칙 따름)LLM은 blind instruction follower
B ≈ 인간, C ≠ 인간LLM은 내재 지식이 있으나 명시적 원칙에 override 됨
B ≠ 인간, C ≠ 인간LLM의 내재 지식이 인간과 다름
C에서 LLM이 틀린 원칙 거부LLM은 심리언어학적 지식을 “확신”하고 있음

6. Target Venues / 타겟 학회·저널

현재 수준 기준

Tier학회/저널적합도필요 조건
Tier 1NeurIPS, ICML, ACL, EMNLP❌ 불가Technical novelty 부재, 방법론적 결함
Tier 1.5CogSci, AAAI❌ 불가순환 논증, baseline 부재
Tier 2CogSci Workshop/Poster⚠️ 조건부Phase 1-2 개선 필요
국내한국인지과학회 학술대회⚠️ 조건부Phase 1 개선 필요

Phase 2-3 개선 후

Tier학회/저널적합도이유
🥇한국인지과학회 학술대회✅ 높음한국어 특화, 학제간 주제, 예비 결과 발표에 적합
🥇CogSci 2026 Poster✅ 높음LLM-as-cognitive-model 논의 활발, 국제 노출
🥈ACL/EMNLP Workshop (BlackboxNLP, CogALex)⚠️ 중간LLM의 어휘 지식 관련 워크숍
🥈한국심리학회지 (인지 및 생물)⚠️ 중간KLP2 활용의 새로운 방향, 한국어 특화
🥉Behavior Research Methods⚠️ 낮음~중간대폭 보완 필요 (3+ 모델, 포괄적 validity 분석)

학회별 차별화 전략

인지과학 학회 (CogSci, 한국인지과학회):

  • 프레이밍: “LLM의 한국어 어휘 표상과 인간 인지의 비교”
  • 강조점: 인간 데이터와의 괴리가 드러내는 LLM의 인지적 특성

NLP/AI 학회 (ACL Workshop, BlackboxNLP):

  • 프레이밍: “LLM에 내재된 심리언어학적 편향 탐색”
  • 강조점: 다중 모델 비교, 프롬프트 조건의 체계적 ablation

심리학 저널 (한국심리학회지, BRM):

  • 프레이밍: “AI 시뮬레이션의 인간 행동 예측 타당성 검증”
  • 강조점: 실제 인간 데이터와의 정량적 비교, 효과 크기 재현

7. Overall Assessment / 총평

에이전트별 핵심 메시지

Cognitive Psychology Reviewer:

“가장 건설적인 개선 방향은 연구 질문을 ‘LLM의 암묵적 심리언어학 folk theory 탐색’으로 재프레이밍하고, 버전 B를 주 분석 대상으로 전환하며, 잘못된 원칙을 제공하는 버전을 추가하는 것이다.”

Judea Pearl (수정):

“LLM이 명시적 인과 추론을 수행하는가? 현재 증거로는 제한적이다. 하지만 ‘불가능하다’는 선험적 단정보다, LLM의 representation이 인과 구조를 기능적으로 어디까지 포착하는지를 경험적으로 탐구하는 것이 더 생산적이다. 이 실험에서 중요한 건 — 논문에서 인과적 언어를 정확하게 사용하되, 기능적 인과 포착의 가능성을 열어두는 것이다. ‘LLM이 인지 과정을 시뮬레이션한다’보다는 ‘LLM의 내부 표상이 lexical processing의 인과 구조를 어느 수준까지 반영하는가’가 더 정확한 질문이다.”

Richard Feynman:

“이 실험의 가장 큰 위험은 ‘비행기가 올 것처럼 보이는 활주로’를 만드는 것이다. 형태는 완벽한데, 실제로 검증하는 게 뭔지가 불분명하다. 근데 여기에 진짜 좋은 과학이 숨어 있다. 그걸 꺼내려면 — LLM이 예상 밖으로 틀리는 지점을 찾아라. 거기에 진짜 재밌는 게 있다. 그게 너의 ‘wobbling plate’다.”

AI/ML Reviewer:

“LLM에게 ‘빈도 높으면 RT 낮춰라’고 지시한 뒤 ‘빈도-RT 상관이 있다’고 보고하는 것은 실험이 아니라 echo chamber다. Regression baseline과 다중 모델 비교를 추가하면 한국어 심리언어학 커뮤니티에 의미 있는 기여가 될 잠재력은 있다.”

Andrej Karpathy:

“심리학 연구실에서 이 수준의 async + checkpoint + batch 처리를 구현한 건 꽤 인상적이다. 코드의 구조적 설계는 좋다. 근데 Software 2.0 관점에서 가장 중요한 건 데이터다. LLM이 생성한 시뮬레이션 데이터는 — 진짜 데이터와의 비교 없이는 의미가 없다.”

종합 평점

항목점수 (10점)
연구 아이디어의 독창성5
실험 설계의 엄밀성3
기술 구현 품질6
재현성3
개선 후 잠재력7

최종 판단

현재 상태: 근본적 설계 결함(순환 논증, 목적 모호성, baseline 부재)으로 학술 발표 부적합.

개선 후: Phase 1-2 개선(비용 $50-100, 2주)만으로 한국인지과학회 학술대회 및 CogSci 2026 Poster 수준에 도달 가능. Phase 3까지 완료하면 워크숍 논문 또는 국내 저널 게재 가능.

핵심 전환점: 연구 질문을 “LLM이 인간을 잘 흉내 내는가?”에서 **“LLM의 한국어 어휘 표상은 인간과 어디서, 어떻게 다른가?”**로 전환하는 것이 이 연구의 학술적 가치를 결정짓는다.


본 보고서는 5개 과학자 에이전트(Cognitive Psychology Reviewer, Judea Pearl, Richard Feynman, AI/ML Reviewer, Andrej Karpathy)의 독립적 평가를 종합하여 작성되었다.