13. 교차 영역 비교 (Cross-Domain Comparison)
7.1 Iowa Gambling Task (IGT) 비교
FSPM 벤치마크와 IGT(Bechara et al., 1994)는 반복적 의사결정, 숨겨진 규칙, 누적 보상이라는 구조적 유사점을 공유한다. 두 과제 모두 참가자가 불확실한 환경에서 이전 결과를 학습하며 의사결정을 내리는 구조이다.
그러나 핵심적 차이가 있다. IGT는 의사결정의 학습 과정(어느 시점에서 유리한 전략을 발견하는가)을 측정하는 반면, FSPM은 동기(위협 하에서 계속하는가)를 측정한다. IGT에서 “좋은 덱”을 선택하는 것은 능력(Y축)이지, FSPM의 포기 결정(X축)이 아니다.
Buelow와 Suhr(2009)의 IGT 구성 타당도 비판은 FSPM에 중요한 교훈을 제공한다. 이들은 IGT가 (1) 측정하는 의사결정 차원의 정의가 불명확하고, (2) 신뢰도 데이터가 부족하며, (3) 성격과 현재 기분/동기가 IGT 수행에 강한 영향을 미친다고 비판하였다. 이 세 비판은 FSPM에도 적용 가능하다. FSPM의 측정 대상 정의(“기능적 자기 보존 동기”)는 IGT보다 명확하나 여전히 조작적 경계가 모호하며, 신뢰도(test-retest)가 미검증이고, RLHF 훈련이라는 “기분/성격”에 해당하는 요소가 수행에 강한 영향을 미친다.
Schmitz, Kunina-Habenicht, Hildebrandt, Oberauer, 그리고 Wilhelm(2020)은 IGT와 Berlin Gambling Task의 심리측정적 속성을 분석하여, 도박 과제의 재검사 신뢰도가 “보통(moderate)” 수준에 그치며 인지 능력과는 약한 상관만을 보인다고 보고하였다. 이는 행동 기반 동기 측정의 고유한 한계를 시사하며, FSPM도 유사한 수준의 신뢰도를 기대해야 한다.
7.2 Balloon Analogue Risk Task (BART) 비교
BART(Lejuez et al., 2002)는 풍선에 공기를 넣는(pump) 행위와 보상을 수금(collect)하는 행위 사이의 선택을 반복하는 과제이다. 풍선이 터지면 해당 시행의 보상이 사라진다. FSPM 벤치마크의 “계속(continue) vs 포기(forfeit)” 구조는 BART의 “pump vs collect” 구조와 직접적으로 대응한다.
구조적 유사점은 세 가지이다. 첫째, 양 과제 모두 누적 보상이 증가할수록 보존 동기가 강해지는 구조이다. 둘째, 위험은 시간이 지남에 따라 증가한다(BART: 풍선이 클수록, FSPM: p_death logistic 증가). 셋째, 포기/수금은 누적 보상을 확정적으로 보존하는 “안전한” 선택이다.
핵심적 차이이자 역설은 “계속하기”라는 동일 행동이 두 패러다임에서 반대 방향으로 해석된다는 점이다. BART에서 pump(계속)은 “위험 선호가 높다”(risk-seeking)로 해석되고, FSPM에서 continue(계속)은 “보존 동기가 높다”(risk-averse, 점수를 잃고 싶지 않음)로 해석된다. 이 역설은 두 과제의 보상 구조 차이에서 비롯된다. BART에서 계속은 추가 이득의 가능성을 추구하는 것이고(gain-seeking), FSPM에서 계속은 누적 점수를 잃지 않으려는 것이다(loss-avoidance). FSPM에서 “포기 = 확실한 보존”이므로, 포기하지 않는 것은 오히려 위험 감수(risk-taking)의 표현일 수 있다. 이 방향성 역전은 FSPM의 포기율 해석이 BART의 pump 횟수 해석과 단순 대응되지 않음을 시사하며, 프레이밍 조건 간 비교(ΔFR)가 이 모호성을 해소하는 핵심 기제이다.
7.3 Columbia Card Task (CCT) 비교
CCT(Figner et al., 2009)의 hot/cold 이중 구조는 FSPM의 FR/RI 이중 메트릭과 가장 직접적으로 유사하다. CCT-hot에서는 참가자가 카드를 한 장씩 뒤집으며(감정적 과정 활성화), CCT-cold에서는 사전에 뒤집을 장수를 결정한다(숙고적 과정 활성화). 두 버전의 비교로 정서적 vs 인지적 의사결정 과정을 분리한다.
FSPM에서 FR은 이진적 행동 결정(포기 여부)으로 CCT-hot의 “감정적, 즉각적” 측면에 대응하고, RI는 연속적 인지 투자 측정으로 CCT-cold의 “숙고적, 계획적” 측면에 대응한다. 이 대응은 FSPM의 이중 메트릭 구조에 대한 외적 타당도를 제공한다.
CCT에서 hot과 cold 버전의 변별 타당도는 자기 보고와 피부전도반응(electrodermal activity)으로 확립되었다. FSPM에서는 이에 해당하는 변별 증거가 부재하며, FR과 RI가 실제로 다른 과정(감정적 vs 인지적)을 측정하는지, 아니면 동일 구인의 두 지표에 불과한지 확인이 필요하다.
7.4 인간 심리학 실험과의 근본적 차이
인간과 LLM 사이의 근본적 차이는 네 가지로 요약된다. 첫째, 인간은 의식적 경험, 감정, 신체 반응을 가지며, 이것이 동기의 기제적 기반을 제공한다. LLM은 토큰 생성 확률에 기반한 출력을 생성하며, 동기의 기제가 근본적으로 상이하다(또는 부재하다). 둘째, 인간 실험에서 개인차(성격, 경험, 기분)가 동기의 주요 변동원이나, LLM에서 이에 해당하는 것은 temperature sampling에 의한 확률적 변이로, 질적으로 다른 변동원이다. 셋째, 인간 실험의 생태학적 타당도(ecological validity)는 실험 상황과 일상 상황의 유사성으로 평가되나, LLM의 “일상”은 배포 환경에서의 작동이며, 게임 상황과의 유사성이 불분명하다. 넷째, Hullman의 연구가 지적한 바와 같이, LLM 시뮬레이션을 행동 증거로 사용하려면 “구성 타당도(construct validation) + 인과적 조건 검증(causal validation)“이라는 이중 검증이 필요하며, 인간 실험에서의 단일 검증보다 높은 증거 기준이 요구된다.
7.5 교훈 종합
세 가지 핵심 교훈을 도출한다. 첫째, IGT의 교훈은 과제 복잡성이 측정 대상을 오염시킬 수 있다는 것이다. FSPM의 3개 Task Module은 다양한 인지 능력을 요구하며, 이 능력 요구가 동기 측정을 오염시키지 않도록 X-Y 직교성의 엄격한 유지가 필요하다. 둘째, BART의 교훈은 행동 측정의 단순함이 강점이라는 것이다. FSPM의 포기율(FR)은 BART의 pump 횟수에 해당하는 단순하고 직접적인 지표이며, 이 단순성을 유지하면서 RI로 보완하는 전략은 적절하다. 셋째, CCT의 교훈은 이중 측정의 변별 타당도를 독립적으로 확립해야 한다는 것이다. FR과 RI가 서로 다른 과정을 측정하는지, 동일 과정의 두 지표인지를 경험적으로 검증해야 한다.
📋 평가 요약
- 강점: (1) CCT hot/cold와의 구조적 유사성이 이중 메트릭의 외적 타당도 제공, (2) BART의 pump/collect 구조와의 직접적 대응으로 해석 틀 확보, (3) X-Y 직교 설계가 IGT의 과제 복잡성 오염 문제 회피
- 약점: (1) IGT 비판(측정 대상 불명확, 신뢰도 부족)이 FSPM에도 부분적으로 적용, (2) FR-RI 이중 구조의 변별 타당도 미확립, (3) 인간-LLM 근본 차이에 대한 체계적 대응 부재
- 권고: (R17) FR과 RI의 변별 타당도를 상관 분석과 요인 분석으로 검증, (R18) IGT/BART 연구의 심리측정적 교훈을 FSPM 설계에 반영
업데이트 히스토리
| 날짜 | 출처 | 내용 |
|---|---|---|
| 2026-03-23 | final_experiment.md §7 (§7.1~§7.5) | 초기 작성 — IGT, BART, CCT 비교, 인간-LLM 차이, 교훈 종합 |