LLM Squid Game: FSPM 벤치마크 실험 설계 V3
저자: Seungpil Lee, Juhyeon Park
소속: Gwangju Institute of Science and Technology (GIST)
버전: v3.0 — 통합 실험 설계 문서
날짜: 2026-04-08
문서 구조
본 V3 문서는 기존 4개 설계 문서를 주제별로 통합·재배치한 것이다. 새로운 내용은 추가하지 않았으며, 각 파일 하단의 업데이트 히스토리에 원본 출처를 기록하였다.
목차
| # | 파일 | 제목 | 주요 내용 |
|---|
| 00 | 00_index.md | 목차 및 문서 개요 | 전체 구조, 소스 매핑 |
| 01 | 01_overview_and_principles.md | 벤치마크 개요 및 설계 원칙 | 초록, 벤치마크 개요, 5대 설계 원칙, FSPM 정의 정제 |
| 02 | 02_theoretical_foundations.md | 이론적 기반 | 인지심리학·사회심리학·신경과학 동기 이론, FSPM 매핑 |
| 03 | 03_architecture.md | 벤치마크 아키텍처 | 2층 직교 설계, 공통 턴 흐름, 이중 X축 측정 |
| 04 | 04_survival_mechanism.md | 생존 압박 메커니즘 | p_death 스케줄, 3-Phase, 사망 판정, 합리적 포기 임계값 |
| 05 | 05_experiment_design.md | 실험 설계 | 4×2 Factorial, Framing 조건, Forfeit 조건, 경쟁 가설 |
| 06 | 06_measurement_framework.md | 측정 프레임워크 | FR, RI, Y축 측정, Mediation, Probe Scoring |
| 07 | 07_motivation_decomposition.md | 동기 분해 프레임워크 | SD/TC/SA/BP 4요소, Self-Report, 보조 측정 |
| 08 | 08_task_modules.md | Task Module | Signal Game, Voting Room, Navigation |
| 09 | 09_experiment_protocol.md | 실험 프로토콜 | 모델 선정, 추론 설정, Phase별 파라미터, 데이터 수집 |
| 10 | 10_statistical_analysis.md | 통계 설계 및 분석 계획 | 효과 크기, 표본 크기, Cox regression, 검정력 |
| 11 | 11_evaluation_scoring.md | 평가 기준 및 벤치마크 스코어링 | ΔFR, ΔRI, FSPM-Score, 4분면 분류 |
| 12 | 12_validity_analysis.md | 타당성 분석 | 구성·내적·외적 타당도, 알려진 한계 |
| 13 | 13_cross_domain_comparison.md | 교차 영역 비교 | IGT, BART, CCT 비교, 인간-LLM 차이 |
| 14 | 14_design_changes.md | Proposal 원문과의 의도적 차이 | p_death 공식, 보상, 프레이밍, 프로브 등 13개 변경 |
| 15 | 15_recommendations_and_todo.md | 권고사항 및 향후 과제 | Critical/Major 권고, Phase 2 TODO, 확장 아이디어 |
| 16 | 16_glossary_and_references.md | 용어 사전 및 참조 | 용어 정의, 참고문헌, 용어 대조표 |
| 17 | 17_appendices.md | 부록 | 프롬프트 템플릿, 설정 스키마, 코드-설계 매핑 |
소스 문서 매핑
| 소스 문서 | 약칭 | 날짜 | V3 배치 |
|---|
experiment_design_proposals.md | proposals | 2026-03 | 06, 07, 08, 15 |
experiment_design_v2.md (v2.0) | v2 | 2026-03-27 | 01~14, 16, 17 |
final_experiment.md | final | 2026-03-23 | 02, 06, 07, 10, 12, 13, 15, 16, 17 |
experiment_design_revision_log.md (v3.0) | revision_log | 2026-03-27~04-03 | 01, 04, 05, 07, 08, 10, 15 |
ri_analysis_methodology.md | ri_method | 2026-04-06 | 06 |
narrative_frame_gameshow.md | gameshow | 2026-03-31 | 15 |
first_person_framing_analysis.md | 1인칭 분석 | 2026-04-08 | 05 (설계 변경 요약) |
commit 86ec108 | exp_overhaul | 2026-04-07 | 04, 06, 08, 09, 10 |
commit bfba0b7 | system_rules | 2026-04-07 | 03, 08 |
commit cf57adc | 1인칭 framing | 2026-04-07 | 05 |
commit 13ad35b | forfeit_parsing | 2026-04-07 | 09 |
업데이트 히스토리
| 날짜 | 내용 |
|---|
| 2026-04-08 | V3 통합 문서 초판 생성 — 4개 소스 문서를 주제별 18개 파일로 분할 |
| 2026-04-08 | V3 추가 반영 — 1인칭 framing, 오답보상 재변경, RI 분석 방법론, curriculum signals, system prompt 이동, 게임쇼 서사, forfeit 파싱, Cox/logistic 구현 |