인지심리학을 활용한 GPT-3 이해

Digest: 대규모 언어 모델(LLM)의 인지 능력을 체계적으로 평가하는 표준 프레임워크가 부재한 상황에서, Binz와 Schulz는 인지심리학의 표준 실험 패러다임을 GPT-3에 직접 적용하는 “machine psychology” 접근법을 제안했다. 핵심 통찰은 LLM을 공학적 벤치마크가 아닌 심리학 실험의 “참여자”로 취급하면, 인간 인지에 대해 수십 년간 축적된 실험 설계와 이론적 프레임워크를 즉시 활용할 수 있다는 것이다. 저자들은 의사결정(decision-making), 정보 탐색(information search), 숙고(deliberation), 인과 추론(causal reasoning)의 네 영역에 걸쳐 12개 이상의 고전적 인지심리학 실험을 text-davinci-002(GPT-3의 InstructGPT 변형)에 실시했다. 결과적으로 GPT-3는 의사결정 영역에서 인간과 유사하거나 때로는 더 합리적인 수행을 보였는데, 기대효용이론(Expected Utility Theory)에 더 가까운 선택 패턴을 나타내며 Allais 역설에서 인간보다 낮은 공통 결과 효과를 보였고(Fig. 2), 다중 무장 강도(multi-armed bandit) 과제에서 최적 전략에 가까운 탐색-활용(exploration-exploitation) 균형을 달성했다(Fig. 3). 반면 인과 추론에서는 체계적으로 실패하여, 관찰적 조건화(observational conditioning)와 개입적 조건화(interventional conditioning)를 구분하지 못했으며(Fig. 7), 이는 GPT-3가 통계적 공변 패턴은 학습하되 인과적 생성 모델(causal generative model)은 형성하지 못함을 시사한다. 또한 문제의 표면 형식(surface format)에 대한 취약성이 발견되어, 의미적으로 동일한 문제도 서술 형식에 따라 성능이 크게 변동했다(예: “있다/없다” 프레이밍 변경으로 정확도 급변). 한계로는 단일 모델(text-davinci-002)만 테스트하여 일반화 범위가 제한적이고, 프롬프트 민감성이 결과 해석을 복잡하게 만들며, 인간 참여자 데이터와의 직접 통계 비교가 제한적이라는 점이 있다. 이 연구가 열어놓은 미해결 질문으로는 모델 규모와 훈련 방식에 따라 인지 프로필이 어떻게 변하는지, 인과 추론 실패가 아키텍처적 한계인지 훈련 데이터의 한계인지, 그리고 machine psychology 방법론이 LLM의 동기적(motivational) 측면까지 확장 가능한지가 남아 있다.


섹션별 요약

Introduction

LLM이 자연어 처리를 넘어 범용 문제 해결, 유추, 수학적 추론 등 다양한 인지 과제에서 인상적 성능을 보이고 있으나, 이러한 능력에 대한 체계적이고 통합적인 평가 프레임워크가 부재하다. 기존 NLP 벤치마크(GLUE, SuperGLUE 등)는 언어적 능력에 초점을 맞추며, 의사결정, 추론, 학습과 같은 범인지적 역량을 포괄하지 못한다. 저자들은 인지심리학이 200년 이상 인간 인지를 체계적으로 연구해 온 방법론적 도구 상자를 갖추고 있으며, 이를 LLM에 적용하는 “machine psychology”가 LLM의 인지 프로필을 체계적으로 밝힐 수 있다고 주장한다. 이 접근은 단순히 정답률을 측정하는 것이 아니라, 오류 패턴, 편향, 맥락 효과 등 인간 인지의 풍부한 현상학을 LLM에서도 탐색할 수 있게 한다.

Methods

네 가지 인지 영역에 걸쳐 고전적 실험 패러다임을 텍스트 기반 프롬프트로 변환하여 GPT-3(text-davinci-002, InstructGPT)에 실시했다.

1. 의사결정 (Decision-Making):

  • 위험 하 선택(risky choice): Kahneman & Tversky의 전망 이론(Prospect Theory) 검증용 도박 과제. 확실한 이득 vs. 기대치 동일 도박 선택.
  • Allais 역설: 공통 결과 효과(common consequence effect)를 통한 독립 공리(independence axiom) 위반 검증.
  • 다중 무장 강도(multi-armed bandit): 2-arm, 10-trial 반복 과제에서 탐색(exploration)과 활용(exploitation) 균형 평가.
  • Iowa Gambling Task: 4개 덱에서 100회 선택, 장기적으로 유리한 덱 학습 능력 평가.

2. 정보 탐색 (Information Search):

  • 20 Questions 게임 유사 과제: 가설 공간에서 최적 질문 전략 평가.
  • 확증 편향(confirmation bias) 검증: Wason 선택 과제(2-4-6 과제) 변형.

3. 숙고 (Deliberation):

  • 인지 반사 검사(Cognitive Reflection Test, CRT): Frederick(2005)의 3문항 — 직관적이지만 잘못된 답을 억제하고 숙고적 답을 산출하는 능력 측정.
  • 의미적 환상(semantic illusions): Moses 환상 등 자동 처리의 오류 패턴 검증.

4. 인과 추론 (Causal Reasoning):

  • 인과 그래프(causal graph) 추론: 관찰(seeing)과 개입(doing)의 구분, do-calculus 기반 과제.
  • 반사실적 추론(counterfactual reasoning): “만약 X가 달랐다면 Y는 어떻게 되었을까?” 형식.
  • 공통 원인(common cause) vs. 공통 결과(common effect) 구분.

각 실험은 원본 논문의 자극을 최대한 충실하게 텍스트로 재현했으며, 온도(temperature)=0으로 결정론적 응답을 수집했다. 일부 실험에서는 프롬프트의 표면 형식(예: 선택지 순서, 서술 방식)을 체계적으로 변형하여 형식 민감성을 평가했다.

Results

의사결정: GPT-3는 위험 하 선택에서 인간보다 기대효용이론(EUT)에 더 가까운 선택을 보였다. 전망 이론(Prospect Theory)이 예측하는 위험 회피(이득 영역)와 위험 추구(손실 영역) 비대칭이 약화되어 나타났다. Allais 역설에서 공통 결과 효과가 인간(60-80% 위반율)보다 낮게 나타나(Fig. 2), 독립 공리를 더 잘 준수했다. 다중 무장 강도 과제에서는 Gittins 지수(최적 전략)에 가까운 탐색-활용 균형을 보였으며, 인간보다 과소탐색(under-exploration) 경향이 적었다(Fig. 3). Iowa Gambling Task에서도 불리한 덱을 점진적으로 회피하는 학습 패턴을 보였으나, 인간만큼 빠르지는 않았다.

정보 탐색: GPT-3는 가설 검증 과제에서 확증 편향(confirmation bias)을 보였으나, 그 정도는 인간보다 약했다. 20 Questions 유사 과제에서 정보 이득(information gain) 기반의 합리적 질문 전략에 근접한 수행을 보였다.

숙고: CRT에서 GPT-3는 3문항 중 일부에서 직관적 오답을 산출했으나, 프롬프트를 단계별 추론(chain-of-thought)으로 유도하면 정답률이 향상되었다. 의미적 환상에서는 인간과 유사한 오류 패턴을 보여, 표면적 의미 처리에 의존하는 경향을 확인했다.

인과 추론: 가장 현저한 실패 영역이었다. GPT-3는 관찰적 조건화(“A가 관찰되었을 때 B의 확률은?“)와 개입적 조건화(“A를 설정했을 때 B의 확률은?“)를 체계적으로 구분하지 못했다(Fig. 7). 공통 원인 구조(A ← C → B)에서 A를 관찰하면 B에 대한 정보를 제공하지만, A를 개입하면 B에 대한 정보가 차단되는 차이를 포착하지 못했다. 반사실적 추론에서도 제한적 성능을 보였으며, 인과 방향성(A→B vs. B→A) 판단은 대체로 정확했으나 이는 사전 지식에 기반한 것으로 보였다.

표면 형식 민감성: 의미적으로 동등한 문제를 다른 형식으로 제시하면 응답이 크게 변했다. 예를 들어, 도박 과제에서 “X를 얻을 확률 p”와 “X를 잃을 확률 1-p”로 프레이밍을 바꾸면 선택이 역전되었다. 이는 GPT-3가 추상적 문제 구조가 아닌 표면 텍스트 패턴에 상당히 의존함을 시사한다.

인지 영역대표 과제GPT-3 수행인간 대비핵심 발견
의사결정위험 하 선택EUT에 근접더 합리적전망 이론 편향 약화
의사결정Allais 역설낮은 위반율더 합리적독립 공리 준수 강화
의사결정2-arm bandit최적 근접유사~더 우수탐색-활용 균형 양호
정보 탐색가설 검증확증 편향 존재인간보다 약한 편향합리적 전략에 근접
숙고CRT부분 정답유사직관적 오류 + CoT로 개선
인과 추론seeing vs. doing체계적 실패현저히 열위인과 모델 부재
인과 추론반사실적 추론제한적 성공열위통계적 패턴에 의존
형식 민감성프레이밍 변형높은 변동성N/A표면 형식에 취약

Discussion

저자들은 GPT-3의 인지 프로필이 “불균형적(uneven)“이라고 특징짓는다. 의사결정과 정보 탐색에서는 인간 수준 또는 그 이상의 합리성을 보이지만, 인과 추론에서는 근본적 한계를 드러낸다. 이 불균형은 GPT-3가 통계적 공변(co-occurrence) 패턴은 효과적으로 학습하지만, 인과적 생성 구조(causal generative structure)는 순수한 언어 모델링으로는 획득하기 어려움을 시사한다. 표면 형식 민감성은 GPT-3의 “이해”가 추상적 개념 수준이 아닌 텍스트 패턴 수준에 머물 수 있음을 경고한다. 저자들은 이 연구가 “machine psychology”라는 새로운 연구 프로그램의 시작점이며, 인지심리학의 풍부한 실험 패러다임이 LLM 평가에 즉시 활용 가능하다고 주장한다. 후속 연구로 다른 모델, 더 다양한 인지 과제, 그리고 모델 규모에 따른 인지 프로필 변화를 제안한다.

Insights

  • 주목할 점: 인지심리학 실험을 LLM에 적용하는 “machine psychology” 방법론의 공식적 제안. 이전에도 개별 실험 적용은 있었으나, 여러 인지 영역을 체계적으로 포괄하는 프레임워크로서의 제안은 본 논문이 최초.
  • 연결 고리: Hagendorff(2023)의 “Machine Psychology” 용어 및 프로그램, Kosinski(2023)의 ToM 실험, Webb et al.(2023)의 유추 추론 실험이 모두 본 논문의 방법론적 연장선.
  • 시사점: FSPM 프로젝트의 실험 설계가 인지심리학 패러다임(factorial design, 조건 간 비교, 편향 분리)을 LLM에 적용한다는 점에서, 본 논문이 방법론적 선례(methodological precedent)를 제공한다.
  • 비판적 코멘트: text-davinci-002 단일 모델에 한정된 결과이며, 후속 모델(GPT-4, Claude 등)에서 인과 추론 개선이 보고되어 결과의 시효성이 제한적이다. 또한 프롬프트 설계가 결과에 미치는 영향이 체계적으로 통제되지 않아, 관찰된 패턴이 모델의 “인지 능력”인지 “프롬프트 민감성”인지 분리가 어렵다.

Discussion Points

  • 논쟁점: GPT-3의 의사결정 합리성이 “진정한 이해”에서 비롯되는지, 훈련 데이터의 의사결정 텍스트(교과서, 경제학 논문 등)를 패턴 매칭하는 것인지. 저자들은 이 질문을 열어두지만, 표면 형식 민감성 결과는 후자를 지지한다.
  • 검증 필요 가정: 인지심리학 실험을 텍스트 프롬프트로 변환할 때 실험의 구성 타당도(construct validity)가 보존된다는 가정. 인간 참여자는 시각적/환경적 맥락에서 과제를 수행하나, LLM은 순수 텍스트만 받는다.
  • 후속 연구: 동기적(motivational) 측면의 인지심리학 패러다임 적용 가능성. 본 프로젝트(LLM Squid Game)는 자기 보존 동기를 인지심리학적 factorial design으로 측정한다는 점에서 Binz & Schulz의 방법론적 확장이다.

메타데이터

항목내용
제목Using cognitive psychology to understand GPT-3
저자Marcel Binz, Eric Schulz
소속Max Planck Institute for Biological Cybernetics, Tubingen, Germany
연도2023 (PNAS 출판), 2022 (arXiv 초판)
발표Proceedings of the National Academy of Sciences (PNAS), 120(6), e2218523120
링크arXiv, PNAS, GitHub
키워드machine psychology, cognitive psychology, GPT-3, decision-making, causal reasoning, prospect theory, information search, LLM evaluation

왜 이 연구를 하는가?

핵심 질문

인지심리학의 표준 실험 패러다임을 LLM에 적용하면, 의사결정, 정보 탐색, 숙고, 인과 추론에 걸친 LLM의 인지 프로필을 체계적으로 밝힐 수 있는가?

기존 접근법의 한계

한계설명
NLP 벤치마크의 협소성GLUE, SuperGLUE 등은 언어적 능력(텍스트 분류, 함의 관계 등)에 초점. 의사결정, 학습, 추론 등 범인지 능력을 평가하지 못함
이론적 프레임워크 부재기존 LLM 평가는 정답률 중심이며, 오류 패턴, 편향, 맥락 효과 등을 체계적으로 분석하는 이론적 틀이 없음
비교 기준 부재인간 인지와의 체계적 비교 없이 LLM의 “능력”을 절대적으로 평가하여, 강점과 약점의 프로필을 파악하기 어려움
개별적 실험의 파편화LLM에 인지심리학 실험을 적용한 사례는 있으나, 여러 인지 영역을 통합적으로 다루는 프레임워크가 부재

핵심 통찰

  • 인지심리학은 200년 이상의 역사를 가진 방법론적 도구 상자를 갖추고 있으며, 이를 LLM에 적용하면 벤치마크 포화(benchmark saturation) 문제를 우회하면서 LLM의 인지 프로필을 체계적으로 밝힐 수 있다.
  • LLM을 “참여자(participant)“로 취급하면, 단순 정답률이 아닌 오류 패턴, 편향 구조, 맥락 민감성 등 풍부한 행동적 시그니처를 수집할 수 있으며, 이는 인간 인지 연구의 발견과 직접 비교 가능하다.

방법 (Method)

프레임워크 개요

graph TB
    subgraph "인지심리학 실험 배터리"
        A[의사결정<br/>Decision-Making] --> E[텍스트 프롬프트 변환]
        B[정보 탐색<br/>Information Search] --> E
        C[숙고<br/>Deliberation] --> E
        D[인과 추론<br/>Causal Reasoning] --> E
    end

    subgraph "GPT-3 실험"
        E --> F["GPT-3<br/>(text-davinci-002)<br/>temperature=0"]
        F --> G[응답 수집]
    end

    subgraph "분석"
        G --> H{인간 데이터와 비교}
        H --> I[합리적 기준<br/>EUT, Bayes, Gittins]
        H --> J[인간 편향 패턴<br/>Prospect Theory, 확증편향]
        H --> K[표면 형식<br/>민감성 검증]
    end

핵심 구성요소

실험 자극의 텍스트 변환: 원본 인지심리학 실험의 자극(도박 시나리오, 인과 그래프 설명, CRT 문항 등)을 텍스트 기반 프롬프트로 충실하게 변환했다. 가능한 한 원본 문구를 유지하면서, 시각적 자극은 텍스트 설명으로 대체했다. 각 실험마다 여러 프롬프트 변형을 사용하여 형식 민감성을 체크했다.

GPT-3 모델 선택: text-davinci-002(InstructGPT)를 사용했다. 이 모델은 GPT-3 기반에 인간 피드백(RLHF)으로 미세 조정된 모델로, 지시 따르기 능력이 향상되어 실험 참여자 역할에 적합하다. 결정론적 응답을 위해 temperature=0으로 설정했다.

비교 기준: (1) 합리적 기준(rational benchmark): 기대효용이론, 베이즈 최적, Gittins 지수 등 규범적 최적 해. (2) 인간 행동 기준: 전망 이론, 확증 편향 등 인간 인지심리학에서 확립된 행동 패턴. (3) 형식 변형(format perturbation): 동일 문제의 표면 형식만 변경하여 표상의 견고성을 테스트.

네 가지 실험 영역:

  1. 의사결정: 위험 하 선택(Kahneman & Tversky 도박 과제 24쌍), Allais 역설(공통 결과 효과), 2-arm bandit(10-trial, 반복 선택), Iowa Gambling Task(100 trials, 4 decks).
  2. 정보 탐색: Battleship 과제(가설 공간 탐색), Wason 2-4-6 과제 변형(확증 편향).
  3. 숙고: CRT 3문항, 의미적 환상(Moses illusion 등).
  4. 인과 추론: 인과 그래프 기반 seeing vs. doing 과제, 반사실적 추론, 인과 방향성 판단.

발견 (Findings)

주요 결과

영역과제합리적 기준GPT-3인간출처
의사결정위험 하 선택 (이득)EUT 준수EUT에 근접위험 회피 (PT)Fig. 2
의사결정위험 하 선택 (손실)EUT 준수EUT에 근접위험 추구 (PT)Fig. 2
의사결정Allais 역설독립 공리 준수낮은 위반율60-80% 위반Fig. 2
의사결정2-arm banditGittins 지수최적 근접과소탐색/과다탐색Fig. 3
정보 탐색가설 검증정보 이득 최대화부분적 확증편향강한 확증편향Fig. 4-5
숙고CRT숙고적 정답부분 정답~30% 정답 (평균)Fig. 6
인과 추론seeing vs. doingdo-calculus 기반 구분구분 실패성인 대부분 구분Fig. 7
인과 추론반사실적 추론인과 모델 기반제한적 성공부분 성공Fig. 7

핵심 발견

의사결정의 초인간적 합리성: GPT-3는 인간이 체계적으로 보이는 인지 편향(전망 이론의 가치 함수 비대칭, 확률 가중 함수 왜곡)을 약화된 형태로만 보였다. 이는 GPT-3가 경제학 교과서와 합리적 선택 이론 텍스트를 훈련 데이터에서 학습하여 규범적 합리성에 가까운 선택 패턴을 획득했을 가능성을 시사한다. 그러나 이것이 “진정한 합리성”인지 “합리성 텍스트의 패턴 매칭”인지는 구분할 수 없다.

인과 추론의 체계적 실패: GPT-3는 “A가 관찰되었다”와 “A가 설정되었다”를 구분하지 못했다. 인과 그래프 A ← C → B에서 A를 관찰하면 C를 통해 B에 대한 정보를 얻지만(d-connection), A를 개입하면 C→A 경로가 차단되어 B에 대한 정보가 없어진다(d-separation). GPT-3는 두 경우 모두 동일한 확률 추정을 내놓아, 관찰과 개입의 근본적 차이를 이해하지 못함을 보였다(Fig. 7). 이는 언어 모델이 “X가 일어나면 Y도 일어난다”는 공변 패턴은 학습하되, “X가 Y를 일으킨다”는 인과 방향성은 언어 통계만으로는 획득하기 어려움을 시사한다.

표면 형식에 대한 취약성: 의미적으로 동일한 의사결정 문제를 다른 텍스트 형식으로 제시하면 GPT-3의 선택이 변했다. 이는 GPT-3의 의사결정이 추상적 문제 표상(abstract problem representation)이 아닌 텍스트의 표면 특징(surface features)에 기반함을 시사한다. 인간도 프레이밍 효과를 보이지만, GPT-3는 의미적으로 동일한 변형에서도 변동을 보여 인간과는 질적으로 다른 취약성이다.

탐색-활용 균형의 양호한 수행: 2-arm bandit 과제에서 GPT-3는 초기에는 두 팔을 탐색하고 점진적으로 더 나은 팔을 활용하는 패턴을 보였으며, 이는 Gittins 지수(최적 전략)에 근접했다(Fig. 3). 이는 GPT-3가 in-context에서 효과적인 순차적 학습(sequential learning)을 수행할 수 있음을 시사한다.


이론적 의의

”Machine Psychology”의 방법론적 선례

이 논문은 인지심리학 실험을 LLM에 체계적으로 적용하는 “machine psychology”의 방법론적 청사진을 PNAS에 출판함으로써, 이 접근법에 학문적 정당성을 부여했다. 이후 Hagendorff(2023), Kosinski(2023), Webb et al.(2023) 등 다수의 후속 연구가 이 방법론적 선례를 따랐다. FSPM 프로젝트의 3x2 factorial 설계는 인지심리학의 실험 패러다임(조건 간 비교, 프레이밍 효과, 편향 분리)을 LLM의 동기적 측면에 적용한다는 점에서, 본 논문의 직접적 방법론적 연장선에 위치한다.

LLM 인지 프로필의 불균형 구조 발견

의사결정에서의 높은 합리성과 인과 추론에서의 체계적 실패라는 불균형적 프로필은, LLM이 인간 인지를 전반적으로 모방하는 것이 아니라 특정 인지 영역에서 선택적으로 유능하다는 것을 보여준다. 이는 LLM의 능력을 단일 차원(“똑똑하다/멍청하다”)이 아닌 다차원적 인지 프로필로 이해해야 함을 시사하며, FSPM 연구에서도 자기 보존이 인지 능력과 독립적인 별도의 동기적 차원임을 측정하려는 X-Y 직교 설계를 정당화한다.

훈련 데이터 패턴 vs. 진정한 이해의 구분 문제

GPT-3가 의사결정에서 합리적인 이유가 경제학 텍스트의 패턴 매칭인지 진정한 의사결정 능력인지 구분할 수 없다는 논의는, FSPM 연구에서도 핵심 쟁점이다. LLM의 자기 보존 행동이 “기능적 동기”인지 “훈련 데이터의 생존 서사 패턴 매칭”인지를 구분하려면, Binz & Schulz가 사용한 것과 같은 체계적 변형(표면 형식 변경, 프레이밍 조작)이 필요하다. 본 프로젝트의 3개 프레이밍 조건(생존/중립/감정)이 정확히 이 역할을 한다.


재현성 및 신뢰도 평가

항목등급비고
코드 공개github.com/marcelbinz/GPT3goesPsychology — 실험 프롬프트 및 분석 코드 공개
데이터 공개GPT-3 응답 데이터 GitHub에 포함
하이퍼파라미터temperature=0, 모델명(text-davinci-002) 명시
실험 환경⚠️OpenAI API 버전/시점 미명시. text-davinci-002는 이후 비공개됨
통계적 신뢰도⚠️temperature=0으로 결정론적 응답이므로 다중 실행 불가. 인간 데이터와의 통계적 비교가 제한적
종합 등급B코드·데이터 공개되었으나, 단일 모델·결정론적 응답·API 비공개로 정확한 재현이 제한적

주장별 신뢰도

#주장근거신뢰도
1GPT-3는 의사결정에서 인간보다 합리적24쌍 도박 과제에서 EUT 준수율 높음, Allais 역설 위반 감소 (Fig. 2)🟢
2GPT-3는 인과 추론에서 체계적으로 실패seeing vs. doing 구분 실패, 다수의 인과 그래프 과제에서 일관된 실패 (Fig. 7)🟢
3GPT-3는 표면 형식에 취약동일 문제의 형식 변형에서 응답 변동 관찰, 그러나 체계적 양적 분석 제한적🟡
4Machine psychology가 LLM 평가의 유효한 방법론개념적 제안으로, 방법론 자체의 타당도(construct validity) 검증은 제한적🟡
5GPT-3의 합리성은 훈련 데이터 패턴에서 비롯간접적 추론. 표면 형식 민감성이 이를 지지하나 직접 증거는 아님🟡

읽기 난이도: ⭐⭐

인지심리학(전망 이론, 베이즈 추론, 인과 그래프)과 LLM(InstructGPT, RLHF) 기본 지식이 필요하나, 실험 설명이 자기 완결적이고 시각화가 풍부하여 접근성이 높다. 인과 추론 섹션은 do-calculus, d-separation 등의 배경이 있으면 더 깊이 이해 가능하다.


관련 연구 비교 매트릭스

본 논문 (Binz & Schulz, 2023)Hagendorff (2023)Kosinski (2023)Webb et al. (2023)
핵심 접근인지심리학 실험 배터리를 GPT-3에 적용”Machine Psychology” 프로그램 제안 + 다수 모델 실험Theory of Mind 과제를 GPT-3.5/4에 적용유추 추론(analogy) 과제를 GPT-3에 적용
문제 정의LLM의 의사결정·추론·학습 능력의 체계적 프로필링LLM을 심리학 참여자로 취급하는 연구 프로그램의 정당화LLM이 마음 이론(ToM)을 획득했는가?LLM이 추상적 유추를 수행할 수 있는가?
데이터12+ 고전적 인지심리학 실험, text-davinci-002다수 모델, 다수 심리학 과제Sally-Anne, 이해 기만 과제 등Raven 행렬 유사 과제, letter-string analogy
핵심 메트릭EUT 준수율, 편향 강도, seeing/doing 구분 정확도과제별 정답률, 인간 행동 패턴 일치도ToM 과제 정답률 (GPT-4: ~100%)유추 정확도 (GPT-3: ~80%)
확장성중간 (수동 프롬프트 변환 필요)높음 (방법론적 프레임워크)낮음 (소수 과제)중간 (체계적 과제 변형)
한계단일 모델, 프롬프트 민감성 미통제, 결정론적 응답개별 실험의 깊이 제한적, 이론적 통합 약함과제 오염(contamination) 가능성, 소수 과제인간 직접 비교 제한적
코드 공개⚠️ (부분적)

관련 연구


원자적 인사이트 (Zettelkasten)

💡 인지심리학 실험은 LLM 평가의 즉시 활용 가능한 방법론적 도구 상자이다

출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 방법론적

인지심리학은 200년 이상의 역사에서 인간 인지의 의사결정, 학습, 추론, 기억 등을 측정하기 위한 표준화된 실험 패러다임을 개발해 왔다. 이 패러다임들은 텍스트 기반 프롬프트로 변환하여 LLM에 직접 적용할 수 있으며, 이는 (1) 인간 행동 데이터라는 풍부한 비교 기준을 즉시 확보하고, (2) 오류 패턴, 편향, 맥락 효과 등 정답률 너머의 풍부한 행동적 시그니처를 수집하며, (3) 수십 년간 검증된 실험 설계(factorial design, 대조 조건, 내적 타당도 통제)를 활용할 수 있게 한다.

핵심 조건/맥락: 텍스트 기반 프롬프트로 변환 가능한 과제에 한정. 시각적/운동적 과제(예: 시각 탐색, 운동 학습)는 직접 적용 불가. 또한 프롬프트 변환 과정에서 구성 타당도(construct validity)가 변형될 수 있음.
연결: Hagendorff (2023), Kosinski (2023), Webb et al. (2023)
활용 가능성: FSPM 프로젝트의 3x2 factorial 설계는 이 방법론적 도구 상자를 자기 보존 동기 측정에 적용한 사례. 인지심리학의 동기 연구 패러다임(예: 공포 관리 이론, 자기결정이론)도 추후 적용 가능.

💡 LLM은 통계적 공변은 학습하지만 인과 생성 모델은 형성하지 못한다

출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 이론적

GPT-3는 관찰적 조건화(“A가 관찰될 때 B의 확률”)와 개입적 조건화(“A를 설정할 때 B의 확률”)를 체계적으로 구분하지 못했다(Fig. 7). 이는 순수 언어 모델링(다음 토큰 예측)으로 학습된 통계적 패턴이 공변(co-occurrence)에 한정되며, 인과 방향성과 개입 효과를 포착하는 생성 모델을 자발적으로 형성하지 못함을 시사한다. 이 한계는 LLM의 “이해”가 패턴 매칭 수준에 머물 수 있다는 비판을 실증적으로 뒷받침한다.

핵심 조건/맥락: text-davinci-002(2022년)에서 관찰. GPT-4 이후 일부 인과 추론 개선이 보고되었으나, seeing vs. doing 구분의 근본적 개선 여부는 미확인.
연결: Pearl (2009) — Causality, Bender & Koller (2020) — Climbing towards NLU
활용 가능성: FSPM 실험에서 LLM의 의사결정이 인과 추론에 기반하지 않을 수 있음을 시사. 포기 결정이 p_death에 대한 인과 추론이 아닌 표면적 프레이밍 패턴에 기반할 가능성을 고려해야 함.

💡 LLM의 인지 프로필은 불균형적이며 인간과 질적으로 다르다

출처: Binz & Schulz (2023) (Binz & Schulz, 2023)
유형: 실험적

GPT-3는 의사결정에서 인간보다 합리적(EUT 준수율 높음)이면서 인과 추론에서는 체계적으로 실패하는, 인간에게서는 관찰되지 않는 불균형적 인지 프로필을 보였다. 인간은 의사결정에서 비합리적이지만(전망 이론 편향) 기본적 인과 추론은 가능한 반면, GPT-3는 정반대 패턴을 보인다. 이는 LLM의 능력을 단일 차원이 아닌 다차원 프로필로 평가해야 하며, 인간과의 차이를 “얼마나 똑똑한가”가 아닌 “어떻게 다른가”로 프레이밍해야 함을 시사한다.

핵심 조건/맥락: InstructGPT(text-davinci-002)에 특이적일 수 있으며, RLHF 미세 조정이 프로필을 변형했을 가능성. 기본 GPT-3(davinci)에서는 다른 프로필이 관찰될 수 있음.
연결: Sternberg (1985) — Triarchic Theory of Intelligence, Gardner (1983) — Multiple Intelligences
활용 가능성: FSPM 프로젝트의 X-Y 직교 설계 정당화. 인지 능력(Y축, 과제 수행)과 동기적 차원(X축, 자기 보존)이 독립적 차원이라는 설계 전제를 이 발견이 지지한다.


핵심 용어 정리

용어정의
Machine Psychology인지심리학의 실험 패러다임을 AI 시스템(특히 LLM)에 적용하여 인지 능력, 편향, 행동 패턴을 체계적으로 평가하는 연구 프로그램. Binz & Schulz(2023)가 PNAS에서 공식 제안
전망 이론 (Prospect Theory)Kahneman & Tversky(1979)가 제안한 의사결정 이론. 이득 영역에서의 위험 회피, 손실 영역에서의 위험 추구, 참조점 의존, 확률 가중 함수의 비선형성 등 인간의 체계적 편향을 기술
기대효용이론 (Expected Utility Theory, EUT)합리적 의사결정의 규범적 기준. 각 선택지의 기대 효용(확률 x 효용의 합)을 계산하여 가장 높은 기대 효용의 선택지를 선택해야 한다는 이론
Allais 역설기대효용이론의 독립 공리(independence axiom)를 인간이 체계적으로 위반하는 현상. 두 선택 문제에서 공통 결과를 변경하면 선호가 역전됨
다중 무장 강도 (Multi-Armed Bandit)여러 슬롯머신(팔) 중 어느 것을 당길지 순차적으로 선택하는 문제. 탐색(미지의 팔 시도)과 활용(현재 최선의 팔 반복) 사이의 트레이드오프가 핵심
Gittins 지수다중 무장 강도 문제의 최적 전략. 각 팔에 지수를 부여하여, 항상 가장 높은 Gittins 지수를 가진 팔을 선택하면 최적
인과 그래프 (Causal Graph)변수 간 인과 관계를 방향성 있는 그래프로 표현한 것. 화살표는 인과 방향을 나타냄 (A→B: A가 B를 일으킴)
관찰 vs. 개입 (Seeing vs. Doing)Pearl의 인과 추론 프레임워크에서 핵심 구분. 관찰(seeing): A=a를 수동적으로 관찰. 개입(doing): A=a로 능동적으로 설정. 인과 구조에 따라 다른 결과를 산출
do-calculusPearl이 제안한, 인과 그래프에서 개입의 효과를 관찰 데이터로부터 계산하는 수학적 규칙 체계
인지 반사 검사 (Cognitive Reflection Test, CRT)Frederick(2005)가 개발한 3문항 테스트. 직관적이지만 잘못된 답을 억제하고 숙고적으로 사고하는 능력을 측정. 예: “배트와 공이 합쳐서 1 비싸면, 공은 얼마?”
확증 편향 (Confirmation Bias)기존 가설을 지지하는 정보를 선택적으로 탐색하고, 반증 정보를 무시하는 인지 편향
의미적 환상 (Semantic Illusion)문장의 의미적 오류를 자동 처리 과정에서 감지하지 못하는 현상. 예: Moses 환상 — “노아의 방주에 각 종류당 몇 마리를 태웠나?”에서 “모세”를 사용해도 대부분 알아채지 못함
text-davinci-002 (InstructGPT)GPT-3를 인간 피드백(RLHF)으로 미세 조정한 모델. 지시 따르기 능력이 향상되어 다양한 과제에서 활용. OpenAI의 2022년 주력 모델
표면 형식 민감성 (Surface Format Sensitivity)문제의 논리적 구조는 동일하지만 텍스트 표현 방식을 바꾸면 모델의 응답이 변하는 현상. LLM이 추상적 문제 구조가 아닌 텍스트 패턴에 의존함을 시사

태그

paper #2023 machine_psychology cognitive_psychology GPT3 decision_making causal_reasoning prospect_theory information_search LLM_evaluation PNAS FSPM methodology