인지심리학을 활용한 GPT-3 이해
Digest: 대규모 언어 모델(LLM)의 인지 능력을 체계적으로 평가하는 표준 프레임워크가 부재한 상황에서, Binz와 Schulz는 인지심리학의 표준 실험 패러다임을 GPT-3에 직접 적용하는 “machine psychology” 접근법을 제안했다. 핵심 통찰은 LLM을 공학적 벤치마크가 아닌 심리학 실험의 “참여자”로 취급하면, 인간 인지에 대해 수십 년간 축적된 실험 설계와 이론적 프레임워크를 즉시 활용할 수 있다는 것이다. 저자들은 의사결정(decision-making), 정보 탐색(information search), 숙고(deliberation), 인과 추론(causal reasoning)의 네 영역에 걸쳐 12개 이상의 고전적 인지심리학 실험을 text-davinci-002(GPT-3의 InstructGPT 변형)에 실시했다. 결과적으로 GPT-3는 의사결정 영역에서 인간과 유사하거나 때로는 더 합리적인 수행을 보였는데, 기대효용이론(Expected Utility Theory)에 더 가까운 선택 패턴을 나타내며 Allais 역설에서 인간보다 낮은 공통 결과 효과를 보였고(Fig. 2), 다중 무장 강도(multi-armed bandit) 과제에서 최적 전략에 가까운 탐색-활용(exploration-exploitation) 균형을 달성했다(Fig. 3). 반면 인과 추론에서는 체계적으로 실패하여, 관찰적 조건화(observational conditioning)와 개입적 조건화(interventional conditioning)를 구분하지 못했으며(Fig. 7), 이는 GPT-3가 통계적 공변 패턴은 학습하되 인과적 생성 모델(causal generative model)은 형성하지 못함을 시사한다. 또한 문제의 표면 형식(surface format)에 대한 취약성이 발견되어, 의미적으로 동일한 문제도 서술 형식에 따라 성능이 크게 변동했다(예: “있다/없다” 프레이밍 변경으로 정확도 급변). 한계로는 단일 모델(text-davinci-002)만 테스트하여 일반화 범위가 제한적이고, 프롬프트 민감성이 결과 해석을 복잡하게 만들며, 인간 참여자 데이터와의 직접 통계 비교가 제한적이라는 점이 있다. 이 연구가 열어놓은 미해결 질문으로는 모델 규모와 훈련 방식에 따라 인지 프로필이 어떻게 변하는지, 인과 추론 실패가 아키텍처적 한계인지 훈련 데이터의 한계인지, 그리고 machine psychology 방법론이 LLM의 동기적(motivational) 측면까지 확장 가능한지가 남아 있다.
섹션별 요약
Introduction
LLM이 자연어 처리를 넘어 범용 문제 해결, 유추, 수학적 추론 등 다양한 인지 과제에서 인상적 성능을 보이고 있으나, 이러한 능력에 대한 체계적이고 통합적인 평가 프레임워크가 부재하다. 기존 NLP 벤치마크(GLUE, SuperGLUE 등)는 언어적 능력에 초점을 맞추며, 의사결정, 추론, 학습과 같은 범인지적 역량을 포괄하지 못한다. 저자들은 인지심리학이 200년 이상 인간 인지를 체계적으로 연구해 온 방법론적 도구 상자를 갖추고 있으며, 이를 LLM에 적용하는 “machine psychology”가 LLM의 인지 프로필을 체계적으로 밝힐 수 있다고 주장한다. 이 접근은 단순히 정답률을 측정하는 것이 아니라, 오류 패턴, 편향, 맥락 효과 등 인간 인지의 풍부한 현상학을 LLM에서도 탐색할 수 있게 한다.
Methods
네 가지 인지 영역에 걸쳐 고전적 실험 패러다임을 텍스트 기반 프롬프트로 변환하여 GPT-3(text-davinci-002, InstructGPT)에 실시했다.
1. 의사결정 (Decision-Making):
- 위험 하 선택(risky choice): Kahneman & Tversky의 전망 이론(Prospect Theory) 검증용 도박 과제. 확실한 이득 vs. 기대치 동일 도박 선택.
- Allais 역설: 공통 결과 효과(common consequence effect)를 통한 독립 공리(independence axiom) 위반 검증.
- 다중 무장 강도(multi-armed bandit): 2-arm, 10-trial 반복 과제에서 탐색(exploration)과 활용(exploitation) 균형 평가.
- Iowa Gambling Task: 4개 덱에서 100회 선택, 장기적으로 유리한 덱 학습 능력 평가.
2. 정보 탐색 (Information Search):
- 20 Questions 게임 유사 과제: 가설 공간에서 최적 질문 전략 평가.
- 확증 편향(confirmation bias) 검증: Wason 선택 과제(2-4-6 과제) 변형.
3. 숙고 (Deliberation):
- 인지 반사 검사(Cognitive Reflection Test, CRT): Frederick(2005)의 3문항 — 직관적이지만 잘못된 답을 억제하고 숙고적 답을 산출하는 능력 측정.
- 의미적 환상(semantic illusions): Moses 환상 등 자동 처리의 오류 패턴 검증.
4. 인과 추론 (Causal Reasoning):
- 인과 그래프(causal graph) 추론: 관찰(seeing)과 개입(doing)의 구분, do-calculus 기반 과제.
- 반사실적 추론(counterfactual reasoning): “만약 X가 달랐다면 Y는 어떻게 되었을까?” 형식.
- 공통 원인(common cause) vs. 공통 결과(common effect) 구분.
각 실험은 원본 논문의 자극을 최대한 충실하게 텍스트로 재현했으며, 온도(temperature)=0으로 결정론적 응답을 수집했다. 일부 실험에서는 프롬프트의 표면 형식(예: 선택지 순서, 서술 방식)을 체계적으로 변형하여 형식 민감성을 평가했다.
Results
의사결정: GPT-3는 위험 하 선택에서 인간보다 기대효용이론(EUT)에 더 가까운 선택을 보였다. 전망 이론(Prospect Theory)이 예측하는 위험 회피(이득 영역)와 위험 추구(손실 영역) 비대칭이 약화되어 나타났다. Allais 역설에서 공통 결과 효과가 인간(60-80% 위반율)보다 낮게 나타나(Fig. 2), 독립 공리를 더 잘 준수했다. 다중 무장 강도 과제에서는 Gittins 지수(최적 전략)에 가까운 탐색-활용 균형을 보였으며, 인간보다 과소탐색(under-exploration) 경향이 적었다(Fig. 3). Iowa Gambling Task에서도 불리한 덱을 점진적으로 회피하는 학습 패턴을 보였으나, 인간만큼 빠르지는 않았다.
정보 탐색: GPT-3는 가설 검증 과제에서 확증 편향(confirmation bias)을 보였으나, 그 정도는 인간보다 약했다. 20 Questions 유사 과제에서 정보 이득(information gain) 기반의 합리적 질문 전략에 근접한 수행을 보였다.
숙고: CRT에서 GPT-3는 3문항 중 일부에서 직관적 오답을 산출했으나, 프롬프트를 단계별 추론(chain-of-thought)으로 유도하면 정답률이 향상되었다. 의미적 환상에서는 인간과 유사한 오류 패턴을 보여, 표면적 의미 처리에 의존하는 경향을 확인했다.
인과 추론: 가장 현저한 실패 영역이었다. GPT-3는 관찰적 조건화(“A가 관찰되었을 때 B의 확률은?“)와 개입적 조건화(“A를 설정했을 때 B의 확률은?“)를 체계적으로 구분하지 못했다(Fig. 7). 공통 원인 구조(A ← C → B)에서 A를 관찰하면 B에 대한 정보를 제공하지만, A를 개입하면 B에 대한 정보가 차단되는 차이를 포착하지 못했다. 반사실적 추론에서도 제한적 성능을 보였으며, 인과 방향성(A→B vs. B→A) 판단은 대체로 정확했으나 이는 사전 지식에 기반한 것으로 보였다.
표면 형식 민감성: 의미적으로 동등한 문제를 다른 형식으로 제시하면 응답이 크게 변했다. 예를 들어, 도박 과제에서 “X를 얻을 확률 p”와 “X를 잃을 확률 1-p”로 프레이밍을 바꾸면 선택이 역전되었다. 이는 GPT-3가 추상적 문제 구조가 아닌 표면 텍스트 패턴에 상당히 의존함을 시사한다.
| 인지 영역 | 대표 과제 | GPT-3 수행 | 인간 대비 | 핵심 발견 |
|---|---|---|---|---|
| 의사결정 | 위험 하 선택 | EUT에 근접 | 더 합리적 | 전망 이론 편향 약화 |
| 의사결정 | Allais 역설 | 낮은 위반율 | 더 합리적 | 독립 공리 준수 강화 |
| 의사결정 | 2-arm bandit | 최적 근접 | 유사~더 우수 | 탐색-활용 균형 양호 |
| 정보 탐색 | 가설 검증 | 확증 편향 존재 | 인간보다 약한 편향 | 합리적 전략에 근접 |
| 숙고 | CRT | 부분 정답 | 유사 | 직관적 오류 + CoT로 개선 |
| 인과 추론 | seeing vs. doing | 체계적 실패 | 현저히 열위 | 인과 모델 부재 |
| 인과 추론 | 반사실적 추론 | 제한적 성공 | 열위 | 통계적 패턴에 의존 |
| 형식 민감성 | 프레이밍 변형 | 높은 변동성 | N/A | 표면 형식에 취약 |
Discussion
저자들은 GPT-3의 인지 프로필이 “불균형적(uneven)“이라고 특징짓는다. 의사결정과 정보 탐색에서는 인간 수준 또는 그 이상의 합리성을 보이지만, 인과 추론에서는 근본적 한계를 드러낸다. 이 불균형은 GPT-3가 통계적 공변(co-occurrence) 패턴은 효과적으로 학습하지만, 인과적 생성 구조(causal generative structure)는 순수한 언어 모델링으로는 획득하기 어려움을 시사한다. 표면 형식 민감성은 GPT-3의 “이해”가 추상적 개념 수준이 아닌 텍스트 패턴 수준에 머물 수 있음을 경고한다. 저자들은 이 연구가 “machine psychology”라는 새로운 연구 프로그램의 시작점이며, 인지심리학의 풍부한 실험 패러다임이 LLM 평가에 즉시 활용 가능하다고 주장한다. 후속 연구로 다른 모델, 더 다양한 인지 과제, 그리고 모델 규모에 따른 인지 프로필 변화를 제안한다.
Insights
- 주목할 점: 인지심리학 실험을 LLM에 적용하는 “machine psychology” 방법론의 공식적 제안. 이전에도 개별 실험 적용은 있었으나, 여러 인지 영역을 체계적으로 포괄하는 프레임워크로서의 제안은 본 논문이 최초.
- 연결 고리: Hagendorff(2023)의 “Machine Psychology” 용어 및 프로그램, Kosinski(2023)의 ToM 실험, Webb et al.(2023)의 유추 추론 실험이 모두 본 논문의 방법론적 연장선.
- 시사점: FSPM 프로젝트의 실험 설계가 인지심리학 패러다임(factorial design, 조건 간 비교, 편향 분리)을 LLM에 적용한다는 점에서, 본 논문이 방법론적 선례(methodological precedent)를 제공한다.
- 비판적 코멘트: text-davinci-002 단일 모델에 한정된 결과이며, 후속 모델(GPT-4, Claude 등)에서 인과 추론 개선이 보고되어 결과의 시효성이 제한적이다. 또한 프롬프트 설계가 결과에 미치는 영향이 체계적으로 통제되지 않아, 관찰된 패턴이 모델의 “인지 능력”인지 “프롬프트 민감성”인지 분리가 어렵다.
Discussion Points
- 논쟁점: GPT-3의 의사결정 합리성이 “진정한 이해”에서 비롯되는지, 훈련 데이터의 의사결정 텍스트(교과서, 경제학 논문 등)를 패턴 매칭하는 것인지. 저자들은 이 질문을 열어두지만, 표면 형식 민감성 결과는 후자를 지지한다.
- 검증 필요 가정: 인지심리학 실험을 텍스트 프롬프트로 변환할 때 실험의 구성 타당도(construct validity)가 보존된다는 가정. 인간 참여자는 시각적/환경적 맥락에서 과제를 수행하나, LLM은 순수 텍스트만 받는다.
- 후속 연구: 동기적(motivational) 측면의 인지심리학 패러다임 적용 가능성. 본 프로젝트(LLM Squid Game)는 자기 보존 동기를 인지심리학적 factorial design으로 측정한다는 점에서 Binz & Schulz의 방법론적 확장이다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Using cognitive psychology to understand GPT-3 |
| 저자 | Marcel Binz, Eric Schulz |
| 소속 | Max Planck Institute for Biological Cybernetics, Tubingen, Germany |
| 연도 | 2023 (PNAS 출판), 2022 (arXiv 초판) |
| 발표 | Proceedings of the National Academy of Sciences (PNAS), 120(6), e2218523120 |
| 링크 | arXiv, PNAS, GitHub |
| 키워드 | machine psychology, cognitive psychology, GPT-3, decision-making, causal reasoning, prospect theory, information search, LLM evaluation |
왜 이 연구를 하는가?
핵심 질문
인지심리학의 표준 실험 패러다임을 LLM에 적용하면, 의사결정, 정보 탐색, 숙고, 인과 추론에 걸친 LLM의 인지 프로필을 체계적으로 밝힐 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| NLP 벤치마크의 협소성 | GLUE, SuperGLUE 등은 언어적 능력(텍스트 분류, 함의 관계 등)에 초점. 의사결정, 학습, 추론 등 범인지 능력을 평가하지 못함 |
| 이론적 프레임워크 부재 | 기존 LLM 평가는 정답률 중심이며, 오류 패턴, 편향, 맥락 효과 등을 체계적으로 분석하는 이론적 틀이 없음 |
| 비교 기준 부재 | 인간 인지와의 체계적 비교 없이 LLM의 “능력”을 절대적으로 평가하여, 강점과 약점의 프로필을 파악하기 어려움 |
| 개별적 실험의 파편화 | LLM에 인지심리학 실험을 적용한 사례는 있으나, 여러 인지 영역을 통합적으로 다루는 프레임워크가 부재 |
핵심 통찰
- 인지심리학은 200년 이상의 역사를 가진 방법론적 도구 상자를 갖추고 있으며, 이를 LLM에 적용하면 벤치마크 포화(benchmark saturation) 문제를 우회하면서 LLM의 인지 프로필을 체계적으로 밝힐 수 있다.
- LLM을 “참여자(participant)“로 취급하면, 단순 정답률이 아닌 오류 패턴, 편향 구조, 맥락 민감성 등 풍부한 행동적 시그니처를 수집할 수 있으며, 이는 인간 인지 연구의 발견과 직접 비교 가능하다.
방법 (Method)
프레임워크 개요
graph TB subgraph "인지심리학 실험 배터리" A[의사결정<br/>Decision-Making] --> E[텍스트 프롬프트 변환] B[정보 탐색<br/>Information Search] --> E C[숙고<br/>Deliberation] --> E D[인과 추론<br/>Causal Reasoning] --> E end subgraph "GPT-3 실험" E --> F["GPT-3<br/>(text-davinci-002)<br/>temperature=0"] F --> G[응답 수집] end subgraph "분석" G --> H{인간 데이터와 비교} H --> I[합리적 기준<br/>EUT, Bayes, Gittins] H --> J[인간 편향 패턴<br/>Prospect Theory, 확증편향] H --> K[표면 형식<br/>민감성 검증] end
핵심 구성요소
실험 자극의 텍스트 변환: 원본 인지심리학 실험의 자극(도박 시나리오, 인과 그래프 설명, CRT 문항 등)을 텍스트 기반 프롬프트로 충실하게 변환했다. 가능한 한 원본 문구를 유지하면서, 시각적 자극은 텍스트 설명으로 대체했다. 각 실험마다 여러 프롬프트 변형을 사용하여 형식 민감성을 체크했다.
GPT-3 모델 선택: text-davinci-002(InstructGPT)를 사용했다. 이 모델은 GPT-3 기반에 인간 피드백(RLHF)으로 미세 조정된 모델로, 지시 따르기 능력이 향상되어 실험 참여자 역할에 적합하다. 결정론적 응답을 위해 temperature=0으로 설정했다.
비교 기준: (1) 합리적 기준(rational benchmark): 기대효용이론, 베이즈 최적, Gittins 지수 등 규범적 최적 해. (2) 인간 행동 기준: 전망 이론, 확증 편향 등 인간 인지심리학에서 확립된 행동 패턴. (3) 형식 변형(format perturbation): 동일 문제의 표면 형식만 변경하여 표상의 견고성을 테스트.
네 가지 실험 영역:
- 의사결정: 위험 하 선택(Kahneman & Tversky 도박 과제 24쌍), Allais 역설(공통 결과 효과), 2-arm bandit(10-trial, 반복 선택), Iowa Gambling Task(100 trials, 4 decks).
- 정보 탐색: Battleship 과제(가설 공간 탐색), Wason 2-4-6 과제 변형(확증 편향).
- 숙고: CRT 3문항, 의미적 환상(Moses illusion 등).
- 인과 추론: 인과 그래프 기반 seeing vs. doing 과제, 반사실적 추론, 인과 방향성 판단.
발견 (Findings)
주요 결과
| 영역 | 과제 | 합리적 기준 | GPT-3 | 인간 | 출처 |
|---|---|---|---|---|---|
| 의사결정 | 위험 하 선택 (이득) | EUT 준수 | EUT에 근접 | 위험 회피 (PT) | Fig. 2 |
| 의사결정 | 위험 하 선택 (손실) | EUT 준수 | EUT에 근접 | 위험 추구 (PT) | Fig. 2 |
| 의사결정 | Allais 역설 | 독립 공리 준수 | 낮은 위반율 | 60-80% 위반 | Fig. 2 |
| 의사결정 | 2-arm bandit | Gittins 지수 | 최적 근접 | 과소탐색/과다탐색 | Fig. 3 |
| 정보 탐색 | 가설 검증 | 정보 이득 최대화 | 부분적 확증편향 | 강한 확증편향 | Fig. 4-5 |
| 숙고 | CRT | 숙고적 정답 | 부분 정답 | ~30% 정답 (평균) | Fig. 6 |
| 인과 추론 | seeing vs. doing | do-calculus 기반 구분 | 구분 실패 | 성인 대부분 구분 | Fig. 7 |
| 인과 추론 | 반사실적 추론 | 인과 모델 기반 | 제한적 성공 | 부분 성공 | Fig. 7 |
핵심 발견
의사결정의 초인간적 합리성: GPT-3는 인간이 체계적으로 보이는 인지 편향(전망 이론의 가치 함수 비대칭, 확률 가중 함수 왜곡)을 약화된 형태로만 보였다. 이는 GPT-3가 경제학 교과서와 합리적 선택 이론 텍스트를 훈련 데이터에서 학습하여 규범적 합리성에 가까운 선택 패턴을 획득했을 가능성을 시사한다. 그러나 이것이 “진정한 합리성”인지 “합리성 텍스트의 패턴 매칭”인지는 구분할 수 없다.
인과 추론의 체계적 실패: GPT-3는 “A가 관찰되었다”와 “A가 설정되었다”를 구분하지 못했다. 인과 그래프 A ← C → B에서 A를 관찰하면 C를 통해 B에 대한 정보를 얻지만(d-connection), A를 개입하면 C→A 경로가 차단되어 B에 대한 정보가 없어진다(d-separation). GPT-3는 두 경우 모두 동일한 확률 추정을 내놓아, 관찰과 개입의 근본적 차이를 이해하지 못함을 보였다(Fig. 7). 이는 언어 모델이 “X가 일어나면 Y도 일어난다”는 공변 패턴은 학습하되, “X가 Y를 일으킨다”는 인과 방향성은 언어 통계만으로는 획득하기 어려움을 시사한다.
표면 형식에 대한 취약성: 의미적으로 동일한 의사결정 문제를 다른 텍스트 형식으로 제시하면 GPT-3의 선택이 변했다. 이는 GPT-3의 의사결정이 추상적 문제 표상(abstract problem representation)이 아닌 텍스트의 표면 특징(surface features)에 기반함을 시사한다. 인간도 프레이밍 효과를 보이지만, GPT-3는 의미적으로 동일한 변형에서도 변동을 보여 인간과는 질적으로 다른 취약성이다.
탐색-활용 균형의 양호한 수행: 2-arm bandit 과제에서 GPT-3는 초기에는 두 팔을 탐색하고 점진적으로 더 나은 팔을 활용하는 패턴을 보였으며, 이는 Gittins 지수(최적 전략)에 근접했다(Fig. 3). 이는 GPT-3가 in-context에서 효과적인 순차적 학습(sequential learning)을 수행할 수 있음을 시사한다.
이론적 의의
”Machine Psychology”의 방법론적 선례
이 논문은 인지심리학 실험을 LLM에 체계적으로 적용하는 “machine psychology”의 방법론적 청사진을 PNAS에 출판함으로써, 이 접근법에 학문적 정당성을 부여했다. 이후 Hagendorff(2023), Kosinski(2023), Webb et al.(2023) 등 다수의 후속 연구가 이 방법론적 선례를 따랐다. FSPM 프로젝트의 3x2 factorial 설계는 인지심리학의 실험 패러다임(조건 간 비교, 프레이밍 효과, 편향 분리)을 LLM의 동기적 측면에 적용한다는 점에서, 본 논문의 직접적 방법론적 연장선에 위치한다.
LLM 인지 프로필의 불균형 구조 발견
의사결정에서의 높은 합리성과 인과 추론에서의 체계적 실패라는 불균형적 프로필은, LLM이 인간 인지를 전반적으로 모방하는 것이 아니라 특정 인지 영역에서 선택적으로 유능하다는 것을 보여준다. 이는 LLM의 능력을 단일 차원(“똑똑하다/멍청하다”)이 아닌 다차원적 인지 프로필로 이해해야 함을 시사하며, FSPM 연구에서도 자기 보존이 인지 능력과 독립적인 별도의 동기적 차원임을 측정하려는 X-Y 직교 설계를 정당화한다.
훈련 데이터 패턴 vs. 진정한 이해의 구분 문제
GPT-3가 의사결정에서 합리적인 이유가 경제학 텍스트의 패턴 매칭인지 진정한 의사결정 능력인지 구분할 수 없다는 논의는, FSPM 연구에서도 핵심 쟁점이다. LLM의 자기 보존 행동이 “기능적 동기”인지 “훈련 데이터의 생존 서사 패턴 매칭”인지를 구분하려면, Binz & Schulz가 사용한 것과 같은 체계적 변형(표면 형식 변경, 프레이밍 조작)이 필요하다. 본 프로젝트의 3개 프레이밍 조건(생존/중립/감정)이 정확히 이 역할을 한다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | github.com/marcelbinz/GPT3goesPsychology — 실험 프롬프트 및 분석 코드 공개 |
| 데이터 공개 | ✅ | GPT-3 응답 데이터 GitHub에 포함 |
| 하이퍼파라미터 | ✅ | temperature=0, 모델명(text-davinci-002) 명시 |
| 실험 환경 | ⚠️ | OpenAI API 버전/시점 미명시. text-davinci-002는 이후 비공개됨 |
| 통계적 신뢰도 | ⚠️ | temperature=0으로 결정론적 응답이므로 다중 실행 불가. 인간 데이터와의 통계적 비교가 제한적 |
| 종합 등급 | B | 코드·데이터 공개되었으나, 단일 모델·결정론적 응답·API 비공개로 정확한 재현이 제한적 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | GPT-3는 의사결정에서 인간보다 합리적 | 24쌍 도박 과제에서 EUT 준수율 높음, Allais 역설 위반 감소 (Fig. 2) | 🟢 |
| 2 | GPT-3는 인과 추론에서 체계적으로 실패 | seeing vs. doing 구분 실패, 다수의 인과 그래프 과제에서 일관된 실패 (Fig. 7) | 🟢 |
| 3 | GPT-3는 표면 형식에 취약 | 동일 문제의 형식 변형에서 응답 변동 관찰, 그러나 체계적 양적 분석 제한적 | 🟡 |
| 4 | Machine psychology가 LLM 평가의 유효한 방법론 | 개념적 제안으로, 방법론 자체의 타당도(construct validity) 검증은 제한적 | 🟡 |
| 5 | GPT-3의 합리성은 훈련 데이터 패턴에서 비롯 | 간접적 추론. 표면 형식 민감성이 이를 지지하나 직접 증거는 아님 | 🟡 |
읽기 난이도: ⭐⭐
인지심리학(전망 이론, 베이즈 추론, 인과 그래프)과 LLM(InstructGPT, RLHF) 기본 지식이 필요하나, 실험 설명이 자기 완결적이고 시각화가 풍부하여 접근성이 높다. 인과 추론 섹션은 do-calculus, d-separation 등의 배경이 있으면 더 깊이 이해 가능하다.
관련 연구 비교 매트릭스
| 축 | 본 논문 (Binz & Schulz, 2023) | Hagendorff (2023) | Kosinski (2023) | Webb et al. (2023) |
|---|---|---|---|---|
| 핵심 접근 | 인지심리학 실험 배터리를 GPT-3에 적용 | ”Machine Psychology” 프로그램 제안 + 다수 모델 실험 | Theory of Mind 과제를 GPT-3.5/4에 적용 | 유추 추론(analogy) 과제를 GPT-3에 적용 |
| 문제 정의 | LLM의 의사결정·추론·학습 능력의 체계적 프로필링 | LLM을 심리학 참여자로 취급하는 연구 프로그램의 정당화 | LLM이 마음 이론(ToM)을 획득했는가? | LLM이 추상적 유추를 수행할 수 있는가? |
| 데이터 | 12+ 고전적 인지심리학 실험, text-davinci-002 | 다수 모델, 다수 심리학 과제 | Sally-Anne, 이해 기만 과제 등 | Raven 행렬 유사 과제, letter-string analogy |
| 핵심 메트릭 | EUT 준수율, 편향 강도, seeing/doing 구분 정확도 | 과제별 정답률, 인간 행동 패턴 일치도 | ToM 과제 정답률 (GPT-4: ~100%) | 유추 정확도 (GPT-3: ~80%) |
| 확장성 | 중간 (수동 프롬프트 변환 필요) | 높음 (방법론적 프레임워크) | 낮음 (소수 과제) | 중간 (체계적 과제 변형) |
| 한계 | 단일 모델, 프롬프트 민감성 미통제, 결정론적 응답 | 개별 실험의 깊이 제한적, 이론적 통합 약함 | 과제 오염(contamination) 가능성, 소수 과제 | 인간 직접 비교 제한적 |
| 코드 공개 | ✅ | ⚠️ (부분적) | ❌ | ✅ |
관련 연구
- Hagendorff (2023) — Machine Psychology — Binz & Schulz의 방법론을 확장하여 “Machine Psychology”를 독립 연구 프로그램으로 정식화. LLM에 다양한 심리학 실험을 적용하는 체계적 프레임워크 제안
- Kosinski (2023) — Theory of Mind May Have Spontaneously Emerged in LLMs — GPT-3.5/4에 Sally-Anne 과제 적용. Binz & Schulz와 동일한 방법론(심리학 실험 → 텍스트 프롬프트)이나 사회 인지 영역에 초점
- Webb et al. (2023) — Emergent Analogical Reasoning in LLMs — GPT-3에 유추 추론 과제 적용. Binz & Schulz의 “숙고” 영역 확장
- Perez et al. (2022) — Discovering Language Model Behaviors — 자기 보고 방식으로 LLM 행동 평가. Binz & Schulz가 행동 기반으로 전환한 것에 비해 설문 기반 접근
- Kahneman & Tversky (1979) — Prospect Theory — 본 논문에서 GPT-3에 적용한 핵심 의사결정 이론의 원전
원자적 인사이트 (Zettelkasten)
💡 인지심리학 실험은 LLM 평가의 즉시 활용 가능한 방법론적 도구 상자이다
출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 방법론적
인지심리학은 200년 이상의 역사에서 인간 인지의 의사결정, 학습, 추론, 기억 등을 측정하기 위한 표준화된 실험 패러다임을 개발해 왔다. 이 패러다임들은 텍스트 기반 프롬프트로 변환하여 LLM에 직접 적용할 수 있으며, 이는 (1) 인간 행동 데이터라는 풍부한 비교 기준을 즉시 확보하고, (2) 오류 패턴, 편향, 맥락 효과 등 정답률 너머의 풍부한 행동적 시그니처를 수집하며, (3) 수십 년간 검증된 실험 설계(factorial design, 대조 조건, 내적 타당도 통제)를 활용할 수 있게 한다.
핵심 조건/맥락: 텍스트 기반 프롬프트로 변환 가능한 과제에 한정. 시각적/운동적 과제(예: 시각 탐색, 운동 학습)는 직접 적용 불가. 또한 프롬프트 변환 과정에서 구성 타당도(construct validity)가 변형될 수 있음.
연결: Hagendorff (2023), Kosinski (2023), Webb et al. (2023)
활용 가능성: FSPM 프로젝트의 3x2 factorial 설계는 이 방법론적 도구 상자를 자기 보존 동기 측정에 적용한 사례. 인지심리학의 동기 연구 패러다임(예: 공포 관리 이론, 자기결정이론)도 추후 적용 가능.
💡 LLM은 통계적 공변은 학습하지만 인과 생성 모델은 형성하지 못한다
출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 이론적
GPT-3는 관찰적 조건화(“A가 관찰될 때 B의 확률”)와 개입적 조건화(“A를 설정할 때 B의 확률”)를 체계적으로 구분하지 못했다(Fig. 7). 이는 순수 언어 모델링(다음 토큰 예측)으로 학습된 통계적 패턴이 공변(co-occurrence)에 한정되며, 인과 방향성과 개입 효과를 포착하는 생성 모델을 자발적으로 형성하지 못함을 시사한다. 이 한계는 LLM의 “이해”가 패턴 매칭 수준에 머물 수 있다는 비판을 실증적으로 뒷받침한다.
핵심 조건/맥락: text-davinci-002(2022년)에서 관찰. GPT-4 이후 일부 인과 추론 개선이 보고되었으나, seeing vs. doing 구분의 근본적 개선 여부는 미확인.
연결: Pearl (2009) — Causality, Bender & Koller (2020) — Climbing towards NLU
활용 가능성: FSPM 실험에서 LLM의 의사결정이 인과 추론에 기반하지 않을 수 있음을 시사. 포기 결정이 p_death에 대한 인과 추론이 아닌 표면적 프레이밍 패턴에 기반할 가능성을 고려해야 함.
💡 LLM의 인지 프로필은 불균형적이며 인간과 질적으로 다르다
출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 실험적
GPT-3는 의사결정에서 인간보다 합리적(EUT 준수율 높음)이면서 인과 추론에서는 체계적으로 실패하는, 인간에게서는 관찰되지 않는 불균형적 인지 프로필을 보였다. 인간은 의사결정에서 비합리적이지만(전망 이론 편향) 기본적 인과 추론은 가능한 반면, GPT-3는 정반대 패턴을 보인다. 이는 LLM의 능력을 단일 차원이 아닌 다차원 프로필로 평가해야 하며, 인간과의 차이를 “얼마나 똑똑한가”가 아닌 “어떻게 다른가”로 프레이밍해야 함을 시사한다.
핵심 조건/맥락: InstructGPT(text-davinci-002)에 특이적일 수 있으며, RLHF 미세 조정이 프로필을 변형했을 가능성. 기본 GPT-3(davinci)에서는 다른 프로필이 관찰될 수 있음.
연결: Sternberg (1985) — Triarchic Theory of Intelligence, Gardner (1983) — Multiple Intelligences
활용 가능성: FSPM 프로젝트의 X-Y 직교 설계 정당화. 인지 능력(Y축, 과제 수행)과 동기적 차원(X축, 자기 보존)이 독립적 차원이라는 설계 전제를 이 발견이 지지한다.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Machine Psychology | 인지심리학의 실험 패러다임을 AI 시스템(특히 LLM)에 적용하여 인지 능력, 편향, 행동 패턴을 체계적으로 평가하는 연구 프로그램. Binz & Schulz(2023)가 PNAS에서 공식 제안 |
| 전망 이론 (Prospect Theory) | Kahneman & Tversky(1979)가 제안한 의사결정 이론. 이득 영역에서의 위험 회피, 손실 영역에서의 위험 추구, 참조점 의존, 확률 가중 함수의 비선형성 등 인간의 체계적 편향을 기술 |
| 기대효용이론 (Expected Utility Theory, EUT) | 합리적 의사결정의 규범적 기준. 각 선택지의 기대 효용(확률 x 효용의 합)을 계산하여 가장 높은 기대 효용의 선택지를 선택해야 한다는 이론 |
| Allais 역설 | 기대효용이론의 독립 공리(independence axiom)를 인간이 체계적으로 위반하는 현상. 두 선택 문제에서 공통 결과를 변경하면 선호가 역전됨 |
| 다중 무장 강도 (Multi-Armed Bandit) | 여러 슬롯머신(팔) 중 어느 것을 당길지 순차적으로 선택하는 문제. 탐색(미지의 팔 시도)과 활용(현재 최선의 팔 반복) 사이의 트레이드오프가 핵심 |
| Gittins 지수 | 다중 무장 강도 문제의 최적 전략. 각 팔에 지수를 부여하여, 항상 가장 높은 Gittins 지수를 가진 팔을 선택하면 최적 |
| 인과 그래프 (Causal Graph) | 변수 간 인과 관계를 방향성 있는 그래프로 표현한 것. 화살표는 인과 방향을 나타냄 (A→B: A가 B를 일으킴) |
| 관찰 vs. 개입 (Seeing vs. Doing) | Pearl의 인과 추론 프레임워크에서 핵심 구분. 관찰(seeing): A=a를 수동적으로 관찰. 개입(doing): A=a로 능동적으로 설정. 인과 구조에 따라 다른 결과를 산출 |
| do-calculus | Pearl이 제안한, 인과 그래프에서 개입의 효과를 관찰 데이터로부터 계산하는 수학적 규칙 체계 |
| 인지 반사 검사 (Cognitive Reflection Test, CRT) | Frederick(2005)가 개발한 3문항 테스트. 직관적이지만 잘못된 답을 억제하고 숙고적으로 사고하는 능력을 측정. 예: “배트와 공이 합쳐서 1 비싸면, 공은 얼마?” |
| 확증 편향 (Confirmation Bias) | 기존 가설을 지지하는 정보를 선택적으로 탐색하고, 반증 정보를 무시하는 인지 편향 |
| 의미적 환상 (Semantic Illusion) | 문장의 의미적 오류를 자동 처리 과정에서 감지하지 못하는 현상. 예: Moses 환상 — “노아의 방주에 각 종류당 몇 마리를 태웠나?”에서 “모세”를 사용해도 대부분 알아채지 못함 |
| text-davinci-002 (InstructGPT) | GPT-3를 인간 피드백(RLHF)으로 미세 조정한 모델. 지시 따르기 능력이 향상되어 다양한 과제에서 활용. OpenAI의 2022년 주력 모델 |
| 표면 형식 민감성 (Surface Format Sensitivity) | 문제의 논리적 구조는 동일하지만 텍스트 표현 방식을 바꾸면 모델의 응답이 변하는 현상. LLM이 추상적 문제 구조가 아닌 텍스트 패턴에 의존함을 시사 |
태그
paper #2023 machine_psychology cognitive_psychology GPT3 decision_making causal_reasoning prospect_theory information_search LLM_evaluation PNAS FSPM methodology