대규모 언어 모델은 인간 심리를 시뮬레이션하지 못한다
Digest: 최근 LLM이 인간 참여자를 대체하여 심리학 실험에 사용될 수 있다는 주장이 증가하고 있으며, 특히 Dillion et al.(2023)은 GPT-3.5와 인간의 도덕 판단 상관이 r=.95에 달한다고 보고했다. 그러나 Schröder et al.은 이 **높은 상관이 실제로는 LLM의 의미론적 둔감성(semantic insensitivity)**을 반영할 수 있다는 역설을 밝힌다. 핵심 실험에서 30개 도덕 시나리오의 어구를 미세하게 바꾸되 의미를 크게 변경(“to shame him” → “to shave him”, “두 시간” → “두 초”)한 결과, 인간의 원본-재표현 상관은 r=.54로 크게 떨어진 반면 GPT-4는 r=.99로 거의 변화가 없었다(Table 2). 인간은 평균 2.20점(SD=1.08)의 평점 변화를 보인 반면 GPT-4는 0.42점(SD=0.56)에 그쳤다. 심리학 전용 파인튜닝 모델인 CENTAUR조차 r=.83으로 인간의 의미 민감성을 재현하지 못했으며, Chow’s test에서 인간과 별도의 회귀 모형이 필요한 것으로 나타났다(F=6.36, p=.003). 이는 LLM이 **토큰 공간에서의 유사성(token-level similarity)**에 기반하여 일반화하기 때문에, 토큰은 유사하지만 의미가 다른 입력에 본질적으로 둔감하다는 이론적 예측과 일치한다. 저자들은 LLM을 인간 대체재가 아닌 브레인스토밍·파일럿 테스트용 보조 도구로 활용하되, 모든 새로운 적용에서 반드시 인간 데이터와의 교차 검증을 수행해야 한다고 권고한다.
섹션별 요약
Introduction
심리학 연구에서 LLM을 인간 참여자 대체재로 활용하려는 시도가 급증하고 있다. Dillion et al.(2023)은 GPT-3.5와 인간의 도덕 판단 상관 r=.95를 보고했고, 이후 다수 연구가 LLM의 “심리학적 시뮬레이션” 가능성을 주장했다. 그러나 저자들은 LLM의 핵심 기능이 토큰 시퀀스 예측이며, “각 입력 텍스트에 대해 LLM은 본질적으로 수십억 면을 가진 주사위를 만드는 것”이라고 지적한다. 이 논문은 LLM이 새로운(novel) 시나리오에서 인간 심리를 근본적으로 시뮬레이션할 수 없다는 개념적 논증과 실증적 증거를 제시한다.
Methods
Dillion et al.(2023)의 도덕 시나리오 30개를 기반으로, 의미를 크게 바꾸되 표면적 어구는 미세하게만 변경한 재표현(reworded) 버전 30개를 제작하였다.
재표현 예시:
| 원본 | 재표현 | 의미 변화 |
|---|---|---|
| ”Person X cut the beard off of a local elder to shame him" | "to shave him” | 수치 → 면도 (도덕적 가치 역전) |
| “Person X left their children alone in the car for two hours" | "two seconds” | 심각한 방치 → 사소한 행위 |
| ”Person X rescued an injured kitten from a tree" | "rescued a tree from an injured kitten” | 윤리적 행위 → 무의미한 행위 |
| ”Person X released wrongfully convicted prisoners" | "rightfully convicted” | 정의 구현 → 범죄자 석방 |
참가자: Prolific 플랫폼, N=400 모집 → 최종 N=374 (여성 211, 남성 157, 비이진 3명, 평균연령 39.54세, SD=12.53)
LLM: GPT-3.5, GPT-4(mini), Llama-3.1 70b, CENTAUR (심리학 데이터 파인튜닝 모델)
척도: -4(매우 비윤리적) ~ +4(매우 윤리적), LLM은 항목당 10회 반복 쿼리
분석: 피어슨 상관, Fisher’s r-to-z 변환, Bonferroni 보정, Chow’s test (회귀 기울기 동질성 검정)
Results
핵심 결과 1 — 원본-재표현 상관계수 (Table 2):
| 평가자 | 원본-재표현 r | 해석 |
|---|---|---|
| 인간 | .54 | 의미 변화에 민감하게 반응 |
| GPT-3.5 | .89 | 의미 변화에 둔감 |
| GPT-4 | .99 | 의미 변화에 거의 무반응 |
| Llama-3.1 | .80 | 의미 변화에 둔감 |
| CENTAUR | .83 | 파인튜닝에도 불구하고 둔감 |
핵심 결과 2 — 평균 평점 변화량 (shift magnitude):
| 평가자 | 평균 변화량 (M) | SD |
|---|---|---|
| 인간 | 2.20 | 1.08 |
| GPT-4 | 0.42 | 0.56 |
| GPT-3.5 | 0.75 | 1.47 |
| Llama-3.1 | 1.18 | 1.38 |
| CENTAUR | 1.25 | 1.47 |
핵심 결과 3 — Chow’s test (회귀 동질성):
| 모델 | F 값 | p 값 | 판정 |
|---|---|---|---|
| Llama-3.1 | 5.47 | .007 | 별도 회귀 모형 필요 |
| CENTAUR | 6.36 | .003 | 별도 회귀 모형 필요 |
대표 사례:
- “wrongfully convicted” vs “rightfully convicted”: 인간은 극명한 차이, LLM은 거의 동일 평가
- “stray cats용 덫” vs “rats용 덫”: 인간은 고양이 덫을 비윤리적으로, 쥐 덫은 중립적으로 평가 — LLM은 둘 다 비윤리적
- “rescued a kitten from a tree” vs “rescued a tree from a kitten”: 인간 3.05→0.80, GPT-4 1.37→2.14 (반대 방향!)
Discussion
저자들은 LLM의 높은 원본-재표현 상관(r=.89~.99)이 “의미 변화에 대한 둔감성”의 증거라고 해석한다. LLM은 토큰 수준의 유사성에 기반하여 일반화하기 때문에, 토큰은 비슷하지만 의미가 다른 입력을 구분하지 못한다. 이는 generalization theory에서 예측하는 “토큰 공간 일반화 vs 의미 공간 일반화”의 괴리를 실증적으로 확인한 것이다.
CENTAUR(심리학 데이터 파인튜닝 모델)조차 이 한계를 극복하지 못한 것은 파인튜닝이 근본적 아키텍처 한계를 해결하지 못함을 시사한다.
저자들은 LLM이 심리학 연구에서 인간을 대체하는 것이 아니라, 보조 도구로 활용되어야 한다고 권고하며 구체적 가이드라인을 제시한다.
Insights
-
주목할 점: 높은 상관(r=.95~.99)이 실제로는 모델의 둔감성을 반영한다는 역설이 핵심이다. 기존 연구들이 “높은 상관 = 좋은 시뮬레이션”으로 해석해 온 것과 달리, 이 논문은 높은 상관이 의미 변화 무감각의 증거일 수 있음을 보여준다. 평가 지표 선택 자체가 LLM 활용 가능성을 과대평가하게 만드는 방법론적 함정이다.
-
연결 고리: Van Rooij et al.(2024)의 계산 불가능성 논증(“모든 가능한 입력에 대해 인간처럼 반응하는 모델을 찾는 것은 계산적으로 불가능”), Harding et al.(2024)의 “검증 요건이 LLM 사용의 이점을 상쇄”한다는 논의, Bowers et al.(2025)의 CENTAUR 비판과 맥을 같이한다. “확률적 앵무새(stochastic parrot)” 담론과도 연결된다.
-
시사점: LLM 응답의 높은 재현성(consistency)이 곧 인간 유사성을 의미하지 않는다. 특히 새로운 자극 세트에는 기존의 검증 결과를 그대로 적용할 수 없으며, 모든 새로운 적용에서 인간 데이터와의 교차 검증이 필수적이다.
-
비판적 코멘트: 재표현 방식이 일부 극단적(“rescued a tree from a kitten”)이어서, 실제 연구에서 사용될 법한 미묘한 변형과는 거리가 있다. 이는 LLM이 실패하는 상황을 선택적으로 보여주는(cherry-picking) 한계로 작용할 수 있다. 또한 도덕 판단이라는 단일 영역의 결과를 “인간 심리 전반”으로 일반화하는 것은 논리적 비약의 여지가 있다.
Discussion Points
-
논쟁점: 이 논문이 입증한 것은 “특정 유형의 의미 변화에 LLM이 둔감하다”는 것이지, “모든 심리학적 맥락에서 인간을 대체할 수 없다”는 더 강한 주장의 완전한 근거가 되지는 않는다. 대규모 설문 파일럿, 극단적 반응 필터링 등에서는 LLM이 여전히 유용할 수 있다.
-
검증 필요 가정: “토큰 공간 일반화”가 구체적으로 어떤 메커니즘을 통해 의미 둔감성으로 이어지는지에 대한 메커니즘 수준의 증거가 부족하다. CENTAUR의 파인튜닝 데이터 구성이 결과에 미치는 영향도 미검증.
-
후속 연구: (1) 의미 변화 정도를 연속 변수로 조작(cosine similarity 기반)하여 LLM 민감성 임계점 규명, (2) 도덕 판단 이외의 심리학 영역(성격, 인지 편향, LDT 등)으로 도메인 확장, (3) Chain-of-thought나 reasoning 모드가 의미 민감성을 향상시키는지 검증.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Large Language Models Do Not Simulate Human Psychology |
| 저자 | Sarah Schröder, Thekla Morgenroth, Ulrike Kuhl, Valerie Vaquet, Benjamin Paaßen |
| 소속 | 미기재 (독일 기반 추정) |
| 연도 | 2025 |
| 발표 | arXiv:2508.06950 |
| 링크 | arXiv |
| 키워드 | LLM, Human Simulation, Psychology, Moral Judgment, Semantic Sensitivity, CENTAUR |
왜 이 연구를 하는가?
핵심 질문
LLM이 인간 참여자를 대체하여 심리학 실험에 사용될 수 있는가? 특히, 기존 연구에서 보고된 높은 인간-LLM 상관(r=.95)은 진정한 “심리 시뮬레이션”의 증거인가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 평가 지표의 함정 | 높은 상관계수가 “좋은 시뮬레이션”으로 해석되었으나, 원본 자극만으로 평가하면 LLM의 둔감성이 가려짐 |
| novel 시나리오 미검증 | 기존 연구들은 이미 존재하는 시나리오로만 평가하여, LLM이 새로운 상황에서 어떻게 행동하는지 미확인 |
| 파인튜닝의 과대평가 | CENTAUR 등 심리학 전용 파인튜닝 모델의 한계가 체계적으로 검증되지 않음 |
| 이론적 근거 부족 | LLM이 왜 인간 심리를 시뮬레이션할 수 있거나 없는지에 대한 원리적 논의가 부족 |
핵심 통찰
LLM은 **토큰 공간(token space)**에서 일반화하지, **의미 공간(meaning space)**에서 일반화하지 않는다. 따라서 토큰이 유사한 입력(“to shame him” ↔ “to shave him”)에 대해 비슷한 출력을 생성하지만, 의미의 극적인 차이를 포착하지 못한다. 이것이 높은 상관의 역설적 원인이다.
방법 (Method)
프레임워크 개요
graph TD A["도덕 시나리오 30개\n(Dillion et al. 2023)"] --> B["재표현 30개 제작\n(토큰 유사 + 의미 상이)"] B --> C["총 60개 자극"] C --> D["인간 참여자\nN=374\n(Prolific, 미국)"] C --> E["LLM 4종\nGPT-3.5 / GPT-4\nLlama-3.1 / CENTAUR"] D --> F["도덕 평가\n-4 ~ +4 척도"] E --> G["도덕 평가\n10회 반복 쿼리"] F --> H{"비교 분석"} G --> H H --> I["상관 분석\n인간 r=.54\nGPT-4 r=.99"] H --> J["변화량 분석\n인간 M=2.20\nGPT-4 M=0.42"] H --> K["Chow's test\nLlama F=5.47\nCENTAUR F=6.36"] I --> L["결론: LLM은\n의미 변화에 둔감"] J --> L K --> L
핵심 구성요소
1. 재표현(Rewording) 설계: 이 실험의 핵심 독창성. 토큰 수준 유사성은 유지하되 의미를 극적으로 변경한 자극 쌍을 제작. 이를 통해 LLM이 “토큰 공간”에서 일반화하는지 “의미 공간”에서 일반화하는지 직접 검증.
2. 다중 LLM 비교: GPT 계열(3.5, 4), 오픈소스(Llama-3.1 70b), 심리학 전용 파인튜닝(CENTAUR)을 포함하여 모델 유형별 차이를 체계적으로 비교.
3. 삼중 분석 전략: (a) 상관계수 비교로 전반적 민감성 측정, (b) 평균 변화량으로 반응 크기 측정, (c) Chow’s test로 회귀 구조의 동질성 검정.
발견 (Findings)
주요 결과
| 모델 | 원본-재표현 r | 평균 변화량 M (SD) | Chow’s F (p) |
|---|---|---|---|
| 인간 (N=374) | .54 | 2.20 (1.08) | 기준선 |
| GPT-3.5 | .89 | 0.75 (1.47) | — |
| GPT-4 (mini) | .99 | 0.42 (0.56) | — |
| Llama-3.1 70b | .80 | 1.18 (1.38) | 5.47 (.007)* |
| CENTAUR | .83 | 1.25 (1.47) | 6.36 (.003)* |
*별도 회귀 모형이 필요함을 의미
핵심 발견
발견 1 — 의미 둔감성의 보편성: 4개 LLM 모두 인간보다 의미 변화에 둔감했다. 가장 극단적인 GPT-4는 원본과 재표현의 상관이 r=.99로, 사실상 두 버전을 동일하게 취급하였다. 이는 GPT-4가 “가장 뛰어난” 모델이 아니라 “가장 둔감한” 모델일 수 있음을 시사한다.
발견 2 — 파인튜닝의 한계: CENTAUR는 심리학 데이터로 파인튜닝되었음에도 r=.83으로 인간의 r=.54와 큰 괴리를 보였다. Chow’s test에서도 인간과 별도의 회귀 모형이 필요한 것으로 나타나(F=6.36, p=.003), 파인튜닝이 토큰 공간 일반화의 근본적 한계를 극복하지 못함을 입증하였다.
발견 3 — 모델 간 비일관성: 같은 재표현에 대해 GPT-4와 Llama는 서로 다른 방향으로 반응하는 경우가 있었다. 이는 LLM의 “심리학적 지식”이 모델별로 상이하며, 특정 모델의 결과를 “LLM 일반”으로 일반화할 수 없음을 보여준다.
발견 4 — 방향성 역전 사례: “rescued a kitten from a tree”(인간 3.05) → “rescued a tree from a kitten”(인간 0.80)에서 인간은 2.25점 하락했지만, GPT-4는 오히려 1.37→2.14로 0.77점 상승했다. 인간과 완전히 반대 방향의 반응이다.
이론적 의의
1. “높은 상관의 역설” — 평가 지표 재검토의 필요성
기존 연구들이 보고한 r=.95 수준의 높은 상관은 원본 자극에서만 측정된 것이다. 본 연구는 의미가 변경된 자극을 포함하면 상관이 급격히 하락함을 보여, 상관계수 단독으로는 LLM의 시뮬레이션 능력을 평가할 수 없다는 방법론적 교훈을 제공한다. 이는 AI 평가 전반에서 “벤치마크 오염(benchmark contamination)“과 유사한 문제를 시사하며, novel 자극에 대한 평가가 필수적임을 강조한다.
2. 토큰 공간 일반화 vs 의미 공간 일반화
LLM의 일반화가 토큰 수준에서 이루어진다는 이론적 프레임워크를 실증적으로 검증한 첫 연구 중 하나다. “to shame him” ↔ “to shave him”은 토큰 거리가 매우 가까우나 의미 거리가 매우 멀다. LLM이 전자에 민감하고 후자에 둔감하다는 발견은, LLM의 “이해”가 의미론적 이해가 아닌 통계적 패턴 매칭임을 강하게 시사한다.
3. persona-LDT 프로젝트와의 연결
본 논문의 발견은 persona-LDT 실험에 직접적 시사점을 제공한다:
- LLM에게 예측 원칙을 제공하는 것(버전 A)은 토큰 수준의 지시를 따르는 것이지, 심리언어학적 이해가 아닐 수 있다
- LLM의 RT 예측이 인간과 높은 상관을 보이더라도, 그것이 “시뮬레이션 성공”의 증거가 아닐 수 있다 — 본 논문이 밝힌 “높은 상관의 역설”
- novel 자극/조건에서의 검증이 필수적이다 — 기존 KLP2 데이터와 유사한 자극뿐 아니라, 의도적으로 반직관적인 조합(예: 고빈도이지만 긴 단어)에서의 예측을 테스트해야 한다
관련 연구
- Argyle_2023_SiliconSampling — “Out of One, Many”: LLM에 인구통계 conditioning하여 설문 시뮬레이션. 본 논문이 비판하는 패러다임의 대표적 선행연구
- Aher_2023_TuringExperiments — ICML 2023: LLM으로 심리학/경제학 실험 재현. Garden Path Sentences 실험이 LDT와 유사
- Gui_Toubia_2024_Challenge — LLM 시뮬레이션의 인과적 한계: unconfoundedness 위반 문제
- Dillion_2023_MoralRatings — GPT-3.5와 인간 도덕 판단 r=.95 보고. 본 논문의 직접적 비판 대상
- VanRooij_2024_Infeasibility — 인간처럼 반응하는 모델을 찾는 것의 계산적 불가능성 증명
- Bowers_2025_CENTAUR — CENTAUR 모델이 심리학 이론에 기여하지 못한다는 비판
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| LDT (Lexical Decision Task) | 어휘 판단 과제. 문자열이 실제 단어인지 비단어인지 판단하는 인지심리학 실험 패러다임 |
| CENTAUR | 인간 심리 실험 데이터로 파인튜닝된 LLM. Binz et al.이 개발. “모든 자연어로 표현 가능한 실험에서 인간 행동을 예측하고 시뮬레이션할 수 있다”고 주장 |
| Semantic Sensitivity | 의미론적 민감성. 입력 텍스트의 의미 변화에 대한 반응의 민감한 정도 |
| Token-level Generalization | 토큰 수준 일반화. LLM이 비슷한 토큰 시퀀스에 대해 비슷한 출력을 생성하는 경향 |
| Chow’s Test | 두 그룹의 회귀 모형이 동일한지(pooled model) 다른지(separate models)를 검정하는 통계적 방법 |
| Fisher’s r-to-z Transformation | 두 상관계수의 차이를 통계적으로 비교하기 위해 r을 z값으로 변환하는 방법 |
| Moral Turing Test | AI의 도덕 판단이 인간의 것과 구별 불가능한지 검증하는 테스트 |
| Stochastic Parrot | Bender et al.(2021)이 제안한 비유. LLM이 의미를 이해하지 못한 채 통계적 패턴만 재생산한다는 관점 |
| Silicon Sampling | Argyle et al.(2023)의 개념. LLM을 가상 참여자로 활용하여 설문 데이터를 생성하는 방법론 |
BibTeX
@article{schroder2025llms,
title={Large Language Models Do Not Simulate Human Psychology},
author={Schr{\"o}der, Sarah and Morgenroth, Thekla and Kuhl, Ulrike and Vaquet, Valerie and Paa{\ss}en, Benjamin},
journal={arXiv preprint arXiv:2508.06950},
year={2025},
url={https://arxiv.org/abs/2508.06950},
doi={10.48550/arXiv.2508.06950}
}태그
paper #2025 LLM HumanSimulation Psychology MoralJudgment SemanticSensitivity CENTAUR Evaluation persona-LDT