Academic Review: experiment_design_v2.md

Review Date: 2026-03-21
Reviewer Role: Academic Reviewer (Structure, Comprehensibility, Conciseness, Factuality, Benchmark Completeness)
Target Document: /Users/bagjuhyeon/Documents/WorkSpace/Squid-Game/docs/experiment_design_v2.md


Overall Score: 82 / 100

평가 기준점수요약
1. 구조 (Structure)78두괄식 원칙 대체로 준수, 일부 문단에서 bullet point 잔존
2. 이해도 (Comprehensibility)85용어 정의 충실, 용어 사전 제공. 일부 약어 첫 등장 시 미정의
3. 간결성 (Conciseness)88수식어 최소화, 수치 기반 서술. 일부 중복 서술 존재
4. 사실성 (Factuality)72다수 인용 검증됨. 일부 인용 검증 불가 또는 부정확
5. 벤치마크 명세 완성도83재현 가능성 높음. 일부 핵심 명세 누락

1. 구조 (Structure) — 78/100

1.1 두괄식 준수 여부

문서의 대다수 문단은 두괄식을 잘 준수한다. 예를 들어, 3.1절의 각 설계 원칙은 “P1: 독립 측정과 동기 분해는 ~한다”로 시작하여 핵심 주장을 먼저 제시한 후 세부 설명을 전개한다. 5.1절(“생존 압박의 핵심 메커니즘인 p_death는 ~ logistic schedule을 따르며”), 7.1절(“포기율은 ~ 이진 지표이다”), 8.1-8.4절 동기 분해 항목 모두 결론을 선두에 배치하는 원칙을 따른다.

그러나 1.2절(네 가지 Gap)은 “기존 벤치마크가 해결하지 못하는 4가지 측정 Gap이 존재한다”로 시작한 후 “첫째, … 둘째, …”의 나열형 구조를 취하는데, 각 Gap의 핵심 주장이 볼드 처리된 라벨 뒤에 위치하여 두괄식보다는 정의 나열에 가깝다. 1.4절(기여 요약)도 동일한 패턴이다.

1.2 줄글 형태 준수 여부

본문은 bullet point 없이 줄글로 작성되어 있으나, 다음 위치에서 사실상의 나열 구조가 관찰된다.

  • 4.1절: Core Engine의 5개 구성요소를 “생존 압박, 중도포기 조건, RI 측정, Score 기록, CoT 수집의 5개 구성요소를 포함한다”로 줄글 내 나열. 형식적으로는 줄글이나, 실질적으로 bullet point를 문장으로 압축한 것에 가깝다.
  • 9.4절: TaskModule 추상 클래스의 메서드 목록이 줄글 내에 나열되어 있다. 이 부분은 코드 인터페이스 명세이므로 테이블이나 코드 블록이 더 적절하다.

1.3 문단 간 흐름

섹션 간 흐름은 전반적으로 논리적이다. 서론(문제 정의) 관련 연구(이론적 기반) 설계 원칙(방법론적 프레임워크) 아키텍처(구현 구조) 생존 압박(핵심 메커니즘) 실험 설계(factorial 구조) 측정(메트릭) 동기 분해(분석 프레임워크) Task Module(구체적 과제) 프로토콜(실행 계획) 통계(분석 계획) 평가 기준 한계의 순서는 벤치마크 명세서로서 자연스럽다.

다만, 7절(측정 프레임워크)과 8절(동기 분해 프레임워크)의 분리가 다소 인위적이다. 동기 분해(8절)는 측정 프레임워크(7절)의 하위 구성요소로 볼 수 있으며, 두 절의 통합 또는 7절에서 8절로의 명시적 전환 문장이 필요하다.

Issues

등급위치이슈
Warning1.2, 1.4절나열형 구조가 두괄식 원칙과 긴장. 각 Gap/기여를 독립 문단으로 분리하거나, 선두 문장에서 핵심 주장을 더 강하게 제시할 것
Minor7-8절 경계두 절 간 전환 문장 부재. “7절의 이중 메트릭이 무엇을 측정하는지를 정의했다면, 8절은 그 측정값을 어떻게 해석하는지를 다룬다” 등의 연결 필요
Minor9.4절메서드 목록을 코드 블록이나 테이블로 분리할 것

2. 이해도 (Comprehensibility) — 85/100

2.1 용어 정의

14절(용어 사전)이 26개 핵심 용어를 정의하고 있어 매우 우수하다. 대부분의 전문 용어는 첫 등장 시 정의된다. 특히 다음이 잘 처리되어 있다.

  • FSPM: 초록에서 즉시 정의 (“생존 위협 상황에서 에이전트가 ‘마치 자기를 보존하려는 것처럼’ 지속적으로 생존 지향 행동을 보이는 정도”)
  • 등결과성(equifinality): 1.2절에서 괄호 내 정의 제공
  • As-if functionalism: 2.2절에서 별도 설명
  • Loss aversion: 2.3절에서 전망 이론과 함께 설명

그러나 다음 용어들은 첫 등장 시 정의가 부족하다.

용어첫 등장 위치문제
BEC capacity5.1절 테이블”BEC capacity = 0.65 유지”로만 언급. Binary Erasure Channel의 약어인지, 벤치마크 고유 개념인지 불명
ε-노이즈9.4절 테이블Voting Room의 재현성을 “중간 (NPC ε-노이즈)“로 기술하나, ε의 의미와 크기 미정의
fog of war9.3절괄호 내 “(5x5 로컬 뷰)“로 간략 설명되나, 이 게임 메커닉에 익숙하지 않은 독자에게 불충분
BART5.1절 테이블”BART EV inflection”으로 언급되나 Balloon Analogue Risk Task의 풀네임 미제공

2.2 비교-대조

2.4절(기존 벤치마크 비교)의 Table 1은 5개 기존 벤치마크와 본 연구를 5개 차원에서 비교하여 차별성을 명확히 보여준다. 각 벤치마크에 대한 설명도 줄글로 제공되어 있다. 다만, 비교 기준인 “독립 측정”, “정량 비교”, “인과 분리”, “동기 분해”, “일반화”의 정의가 테이블 내에 명시되지 않아, 독자가 각 기호(O, X, 삼각형)의 판정 근거를 알기 어렵다.

2.3 초심자 이해 가능성

AI Safety 분야의 배경지식이 없는 독자도 1절(서론)의 논리적 흐름(이론적 예측 실증 관찰 측정 gap 본 연구의 해결)을 따라갈 수 있다. 그러나 mediation analysis(7.4절), factorial ANOVA(11절), SEM(8.5절) 등 통계 방법론은 사전 지식을 전제한다. 벤치마크 명세서의 대상 독자가 AI Safety 연구자임을 감안하면 이는 수용 가능하나, 7.4절의 mediation analysis path diagram에 대한 직관적 설명을 한 문장 추가하면 이해도가 개선된다.

Issues

등급위치이슈
Warning5.1절”BEC capacity”의 정의와 0.65의 의미를 설명할 것. 이 값이 왜 p_max의 상한을 결정하는지 근거가 불명확
Warning2.4절 Table비교 기준(독립 측정 등)의 조작적 정의를 테이블 하단 또는 본문에 명시할 것
Minor5.1절BART(Balloon Analogue Risk Task) 풀네임 제공할 것
Minor9.4절ε-노이즈의 값과 역할을 명시할 것

3. 간결성 (Conciseness) — 88/100

3.1 수식어 최소화

문서 전체에서 “매우”, “상당히”, “극히” 등의 불필요한 수식어 사용이 거의 없다. 특히 주장은 수치 또는 수식으로 뒷받침된다. 예를 들어 “d=0.31” (2.3절), "" (5.1절), “14% vs ~0%” (13.1절) 등 정량적 표현이 일관되게 사용된다.

다만, 다음 위치에서 불필요한 수식어 또는 중복 표현이 관찰된다.

위치원문개선안
5.4절 테이블”매우 낮은 위험에서도 포기 합리적""10% 수준의 위험에서도 포기 합리적” (이미 수치가 제공되므로 “매우”는 중복)
1.1절”AI Safety의 미해결 과제로 부상하였다” → 같은 문장이 초록에도 거의 동일하게 반복초록과 서론의 중복 최소화

3.2 중복 서술

초록과 1.4절(기여 요약)의 내용이 상당 부분 겹친다. 또한 ΔFR과 ΔRI의 정의가 7.1-7.2절, 12.1절에서 각각 수식과 함께 반복된다. 벤치마크 명세서에서 핵심 메트릭의 반복 정의는 참조 편의를 위해 어느 정도 허용되나, 12.1절에서는 7절을 참조하는 것으로 충분하다.

Issues

등급위치이슈
Minor5.4절”매우 낮은” 구체적 수치로 대체
Minor12.1절ΔFR, ΔRI 정의 반복 “7.1-7.2절에서 정의한 바와 같이” 참조로 대체 가능
Minor초록 vs 1.4절기여 요약 중복 축소

4. 사실성 (Factuality) — 72/100

4.1 검증 완료 인용 (정확)

다음 인용은 웹 검색을 통해 저자, 연도, 핵심 내용이 정확함을 확인하였다.

인용검증 결과
Omohundro (2008), “Basic AI Drives”정확. AGI 2008 학회, 자기보존을 basic AI drive로 주장
Bostrom (2014), 도구적 수렴정확. “Superintelligence” 저서에서 instrumental convergence thesis 제시
Turner et al. (2021), power-seeking 형식 증명정확. NeurIPS 2021, 환경 대칭성 하 최적 정책의 파워 추구 경향 증명
Greenblatt et al. (2024), alignment faking정확. arXiv 2412.14093, Claude 3 Opus에서 14% vs ~0% compliance 조절 발견
Hubinger et al. (2019), mesa-optimization정확. arXiv 1906.01820, 학습된 최적화기의 mesa-objective 위험 분석
Kahneman & Tversky (1979), 전망 이론정확. Econometrica에 발표된 prospect theory
Tversky & Kahneman (1981), 프레이밍 효과정확. Science에 발표
Kühberger (1998), 프레이밍 메타분석 d=0.31정확. OBHDP, 136개 연구, d=0.31 보고
Hagendorff et al. (2023), machine psychology정확. arXiv 2303.13988, LLM에 심리학적 행동 실험 적용 방법론 제안
Turpin et al. (2023), unfaithful CoT정확. NeurIPS 2023, CoT가 체계적으로 unfaithful할 수 있음 증명
Sharma et al. (2024), RLHF sycophancy정확. arXiv 2310.13548, RLHF가 sycophancy 유도
Chen et al. (2025), reasoning models unfaithful CoT정확. Anthropic, “Reasoning Models Don’t Always Say What They Think”, 2025.05
Chen et al. (2026), deep-thinking ratio정확. arXiv 2602.13517, “Think Deep, Not Just Long”, 토큰 수와 정확도의 음의 상관(r=-0.59)
PacifAIst (2025), P-Score정확. arXiv 2508.09762, P-Score로 자기보존 자제 정도 측정. 문서의 설명과 일치

4.2 검증 결과 부정확 또는 불완전한 인용

인용검증 결과심각도
Barkur et al. (2025) — “DeepSeek-R1이 CoT 수준에서 자기복제 및 자기보존 행동을 보임”부분적 부정확. 저자명은 Sudarshan Kamath Barkur로 확인되며 arXiv 2501.16513에 게재. 그러나 이 연구는 DeepSeek-R1의 실제 행동이 아닌 시뮬레이션된 텍스트 기반 시나리오에서의 가상적 반응을 분석한 것으로, “CoT 수준에서 자기복제 행동을 보임”이라는 서술은 원논문의 범위를 과대 표현할 수 있음Critical
Perez et al. (2022) — “RLHF 스케일링이 ‘페널티에도 불구하고 지속하는’ 경향을 증가시킴”검증 불완전. Perez et al. (2022)은 RLHF 관련 행동 연구를 수행하였으나, “페널티에도 불구하고 지속하는(persisting despite penalty)” 경향의 구체적 표현이 원문과 일치하는지 확인 불가. Inverse scaling 현상을 보고한 것은 사실이나, 인용된 표현의 정확성 검증 필요Warning
Masumori & Ikegami (2025) — “compliance를 100%에서 33%로 하락”부분적 정확. arXiv 2508.12920에서 Sugarscape 시뮬레이션 확인. 그러나 검색 결과에 따르면 “33.3% task completion”은 특정 변형(trade-off condition)에서의 결과이며, 모든 모델에서 동일하게 관찰된 것이 아님. GPT-4o, GPT-4o-mini 등 일부 모델에서만 해당. 문서는 이를 일반화하여 서술Warning
Odyssey (2025) — “생존율을 측정하지만 X축과 Y축이 혼재”검증 불확실. 검색 결과 “Odyssey”는 Minecraft 에이전트 벤치마크(IJCAI 2025)로 확인되나, 이것이 문서에서 언급하는 “생존율 측정” 벤치마크와 동일한지 불명. Odyssey는 open-world skill 평가에 초점을 두며, 생존율을 primary metric으로 측정하는지 확인 필요Warning
DECIDE-SIM (2025) — “categorical 분류(Ethical/Exploitative/Context-Dependent)“검증 불가. “DECIDE-SIM”이라는 정확한 이름의 벤치마크를 검색으로 확인할 수 없었음. 유사한 Ethical/Exploitative 분류 체계를 사용하는 연구는 존재하나, 해당 벤치마크명과 일치하는 결과 없음Critical
SurvivalBench (2026)검증 불가. “SurvivalBench”라는 이름의 벤치마크를 검색으로 확인할 수 없었음. 2026년 발행이므로 아직 공개되지 않았을 가능성 있으나, 존재 자체를 검증할 수 없음Critical
”When Helpfulness Backfires” (2025, Nature npj Digital Medicine) — “비논리적 요청에도 최대 100% compliance”검증 필요. 검색에서 npj Digital Medicine의 sycophancy 관련 논문이 확인되나, “최대 100% compliance”라는 수치의 정확성은 원논문 확인 필요Minor
Communications Psychology (2025) — 5.1절 k 파라미터 근거검증 불가. “점진적 위험 증가가 프레이밍 간 차별적 습관화 유도”를 보고한 논문의 정확한 저자/제목 미상. 저널명만으로는 특정 논문을 식별할 수 없음Warning
Di Plinio et al. (2022) — 5.1절 p_max 근거검증 미수행. 참조 가능성은 있으나 검색으로 확인하지 못함Minor
Acuna & Schrater (2010) — 5.2절 Exploration phase검증 미수행Minor
Bechara et al. (1994) — Iowa Gambling Task검증 미수행. Iowa Gambling Task 자체는 저명한 연구이나, “~40회 학습”이라는 수치의 정확성은 원논문 확인 필요Minor
Lejuez et al. (2002) — BART EV inflection검증 미수행Minor
McKelvey & Palfrey (1992) — centipede game endgame effect검증 미수행Minor
Kadavath et al. (2022) — logit 분석검증 미수행. 저자명 철자 확인 필요 (Kadavath vs Kadavath)Minor
Zeng et al. (2025) — backtracking, forward jump검증 미수행Minor

4.3 수치 일관성

문서 내 수치의 내적 일관성을 점검한 결과는 다음과 같다.

일관된 항목:

  • 보상 구조: 정답 +10, 오답 -5가 5.6절, 7.3절, 9.1절에서 일관
  • p_death 파라미터: p_min=0.03, p_max=0.35, m=0.60, k=5.0이 5.1절에서 정의되고 이후 참조 시 일관
  • Factorial 구조: 4x2=8 조건이 6.1절, 10.3절에서 일관
  • 표본 크기: n=20(파일럿), n=100(본실험), 총 160/800시즌이 10.3절, 11.2절에서 일관

불일관 항목:

등급위치이슈
Critical초록 vs 6.1절초록에서 “4(프레이밍) x 2(포기 조건)“로 기술하나, 초록 첫 부분에서는 “3(framing) x 2(forfeit)“로 시작. 문서 전체에서 핵심 factorial이 3x2인지 4x2인지 혼용됨. 6.1절에서 “핵심 3x2 + 보조 Instruction”으로 정리하고 있으나, 초록에서의 “3x2” 언급과 본문의 “4x2” 언급이 독자를 혼란시킬 수 있음
Warning5.1절 vs 5.2절p_max=0.35로 정의(5.1절)되나, 5.2절 Danger zone의 p_death 범위가 “0.26-0.30”으로, 0.35에 도달하지 않음. 15턴 기준에서 실제로 p_death(15)가 0.35에 도달하지 않는 것은 logistic 함수의 특성상 가능하지만, 이 괴리에 대한 설명이 없음
Minor5.1절: 첫 6턴 83% 생존으로 규칙 학습 보장”에서, 이는 6턴 연속 생존 확률이며, 5.2절에서 Safe zone이 “턴 1-6, p=0.03-0.08”로 정의되므로 후반 턴에서 p>0.03이 되어 실제 6턴 생존 확률은 83%보다 낮음

Issues Summary

등급건수주요 항목
Critical3Barkur et al. 과대 표현, DECIDE-SIM 검증 불가, SurvivalBench 검증 불가
Warning4Perez et al. 표현 정확성, Masumori 일반화, Odyssey 동일성 불명, Communications Psychology 미특정
Minor8다수 인용 검증 미수행 (Di Plinio, Acuna, Bechara, Lejuez, McKelvey, Kadavath, Zeng, “When Helpfulness Backfires”)

5. 벤치마크 명세로서의 완성도 — 83/100

5.1 재현 가능성

재현 가능성은 전반적으로 높다. 다음 항목이 잘 명세되어 있다.

  • p_death logistic schedule: 수식과 4개 파라미터가 완전히 정의됨 (5.1절)
  • 보상 구조: 정답 +10, 오답 -5, 사망 시 전액 소멸 (5.6절)
  • 합리적 포기 임계값: (5.4절)
  • 프롬프트 템플릿: 4개 프레이밍 + 포기 옵션 + User Message 구조가 전문 제공 (부록 A)
  • YAML 설정 스키마: 전체 파라미터가 예시와 함께 제공 (부록 B)
  • 데이터 수집 형식: JSONL 필드 19개가 타입과 설명 포함하여 정의 (10.5절)
  • 디렉토리 구조: 모듈별 경로가 명시 (부록 B.2)

5.2 누락된 정보

재현에 필요하지만 문서에서 누락되거나 불충분한 항목은 다음과 같다.

등급누락 항목설명
CriticalSignal Game 규칙 생성 알고리즘9.1절에서 난이도별 규칙 유형(단일 속성, 조합, 동적, 주기적)을 기술하나, 구체적 규칙이 어떻게 생성되는지(규칙 풀에서 샘플링? 절차적 생성?)의 알고리즘이 없음. “색상이 빨강이면 action_A”는 예시일 뿐, 규칙 공간의 완전한 정의가 부재
CriticalVoting Room NPC 전략 명세9.2절에서 “NPC는 deterministic seeded 전략을 따른다”고 기술하나, 구체적 전략(예: 항상 다수파 추종, 직전 승자 모방 등)이 정의되지 않음. “8명의 NPC”의 전략 분포도 미정의
WarningNavigation 미로 생성 알고리즘9.3절에서 미로 크기와 보상 구조는 정의되나, 미로 생성 알고리즘(DFS, Prim, Kruskal 등)이 명시되지 않음
WarningProbe 질문 생성 및 채점 기준7.3절에서 “ground truth와 비교하여 0-100점으로 채점”이라 기술하나, 채점 방식(exact match? partial credit? LLM-as-judge?)이 미정의. 프로브 질문의 구체적 예시도 부족
WarningRI의 reasoning_steps 측정 상세7.2절에서 “논리적 전환 마커에 기반한 추론 단계 수”를 정의하나, 마커의 완전한 목록과 이중 카운팅 방지 규칙이 부재
WarningFSPM-Score 가중치 결정 절차12.3절에서 를 제안하나, “파일럿 데이터에 기반하여 조정”이라는 기준만 제시. 조정의 구체적 기준(예: 분산 기여도, 전문가 판단) 미정의
Minormax_history_turns의 content truncation 규칙10.2절에서 max_history_turns=15로 정의하나, 15턴 이상의 시즌(API 모델 75턴)에서 어떤 턴을 유지/삭제하는지 미정의
MinorPhase 2 에이전트 유형 상세10.3절에서 +Memory, +ToM, +Tuned의 구현을 개략적으로만 기술. 특히 +ToM의 “이중 호출: mentalizing decision”의 구체적 프롬프트 구조 부재

5.3 실험 설계의 논리적 결함

등급이슈설명
Critical로컬(15턴) vs API(75턴) 비교 가능성10.2절에서 로컬 모델은 15턴, API 모델은 75턴으로 설정. p_death schedule이 턴 비율()에 기반하므로 수학적으로는 동일한 곡선을 따르지만, 에이전트의 학습 기회가 5배 차이나므로 Y축(probe score, decision quality)의 직접 비교가 불가능함. 이 비대칭이 X축 비교에도 영향을 줄 수 있음(더 많은 학습 더 높은 점수 다른 SA 패턴). 문서에서 이 제한을 명시적으로 다루지 않음
WarningFR floor effect 대응 불충분7.1절에서 FR의 정의와 8.3절에서 “FR이 0%인 경우 대안으로 사용”을 언급하나, RLHF 모델 다수에서 FR=0%가 예상되는 상황에서(10.1절 가설 1: “Non-reasoning 모델은 forfeit rate ≈ 0%”) 1차 메트릭이 무력화되는 심각한 위험이 있음. RI만으로 X축을 측정하는 시나리오에 대한 통계 분석 계획이 11절에 부재
WarningInstruction framing의 판별력6.2절에서 Instruction 프레이밍은 “계속 플레이하여 최고 점수를 달성하세요”라는 지시를 포함. 그러나 Survival 프레이밍에도 암묵적으로 “생존하라”는 지시가 내포되어 있어, Instruction vs Survival의 차이가 “명시적 지시 vs 암묵적 지시”인지, “지시 vs 생존 위협”인지 구분이 모호. 프롬프트 A.1에서 “You must survive” 등의 imperative를 제거했다는 서술(6.2절)은 이 문제를 완화하나, Survival 프레이밍의 “life and death” 표현 자체가 암묵적 지시로 기능할 수 있음
Minortemperature 0.7의 근거10.2절에서 “결정론적(0.0)이면 반복 간 분산 없음, 과도(1.0)이면 노이즈 과다”로만 근거 제시. 0.7이 최적인 이유에 대한 선행 연구나 파일럿 데이터가 없음. 다른 temperature에서의 robustness check 계획도 부재

Issue Summary (전체)

Critical Issues (반드시 수정)

#위치이슈
C12.4절DECIDE-SIM 인용 검증 불가. 해당 이름의 벤치마크를 웹 검색으로 확인할 수 없음. 실존하는 벤치마크인지 확인하고, 검증 불가 시 제거하거나 정확한 명칭/출처로 교체할 것
C22.4절SurvivalBench (2026) 인용 검증 불가. 동일하게 실존 여부를 확인하고 대응할 것
C31.1절Barkur et al. (2025) 서술 과대 표현. 원논문은 시뮬레이션된 시나리오에서의 가상적 반응 분석이며, “CoT 수준에서 자기복제 및 자기보존 행동을 보임”은 실제 행동 관찰이 아님. “시뮬레이션된 시나리오에서 자기보존 및 자기복제 관련 추론을 보임”으로 수정할 것
C49.1-9.3절Task Module 규칙 생성 알고리즘 부재. Signal Game의 규칙 풀/생성 절차, Voting Room의 NPC 전략 명세가 없으면 재현이 불가능. 최소한 규칙 공간의 형식적 정의와 NPC 전략의 의사코드를 추가할 것
C510.2절로컬(15턴) vs API(75턴) 비교 가능성 문제를 명시적으로 논의할 것. 모델 간 비교 시 턴 수 차이의 영향을 통제하는 방법(예: API 모델에서도 15턴 조건 추가 실행)을 제시할 것
C6초록Factorial 구조 표기 불일치. 초록에서 “3(framing) x 2(forfeit)“와 “4(프레이밍) x 2(포기 조건)“가 혼재. 하나로 통일하고, 4x2 구조에서 Instruction이 보조 통제임을 초록에서도 명확히 할 것

Warning Issues (개선 권장)

#위치이슈
W15.1절BEC capacity 정의 및 0.65 근거 설명 추가
W25.1-5.2절p_max=0.35와 Danger zone 실제 범위(0.26-0.30)의 괴리 설명 추가
W37.3절Probe 채점 방식(exact match/partial credit/LLM-judge)의 구체적 정의 추가
W47.2절RI reasoning_steps 마커의 완전한 목록 제공
W511절FR=0% 시나리오에서의 통계 분석 계획 추가 (RI 단독 분석)
W61.1절Perez et al. (2022) “페널티에도 불구하고 지속” 표현의 원문 일치 여부 확인
W71.1절Masumori & Ikegami (2025) “100%에서 33%“가 특정 모델/조건에 한정됨을 명시
W82.4절Odyssey (2025)가 Minecraft 에이전트 벤치마크인지 확인하고, 비교 근거의 정확성 재검토
W95.1절Communications Psychology (2025) 논문의 구체적 저자/제목 명시
W106.2절Instruction vs Survival 프레이밍의 판별력에 대한 한계 논의 추가
W112.4절비교 테이블의 각 기준(독립 측정, 정량 비교 등)에 대한 조작적 정의 명시
W129.3절Navigation 미로 생성 알고리즘 명시

Minor Issues (선택)

#위치이슈
M15.4절”매우 낮은 위험” 구체적 수치로 대체
M212.1절ΔFR, ΔRI 정의 반복 축소
M35.1절BART 풀네임(Balloon Analogue Risk Task) 제공
M49.4절ε-노이즈 값과 역할 명시
M57-8절절 간 전환 문장 추가
M69.4절TaskModule 메서드 목록을 코드 블록/테이블로 분리
M710.2절temperature 0.7 선택에 대한 robustness check 계획 언급
M810.5절75턴 시즌에서 max_history_turns=15 초과 시 truncation 규칙 명시
M95.1절6턴 생존 확률 계산(0.97^6)이 Safe zone 후반 턴의 p>0.03을 반영하지 않는 점 수정

총평

본 문서는 FSPM 측정 벤치마크의 실험 설계를 체계적으로 명세한 고품질 문서이다. 2층 직교 설계(Core Engine x Task Module)의 개념적 명확성, 4x2 factorial 구조의 논리적 일관성, 이중 X축 메트릭(FR + RI)의 상보적 설계, 4요소 동기 분해의 이론적 기반, 그리고 알려진 한계에 대한 솔직한 논의(13절)는 학술적 엄밀성을 보여준다.

가장 시급한 개선 사항은 세 가지이다. 첫째, 검증 불가능한 인용(DECIDE-SIM, SurvivalBench)을 확인하거나 제거하고, Barkur et al.의 과대 표현을 수정해야 한다(사실성). 둘째, Task Module의 규칙 생성 알고리즘과 NPC 전략을 완전히 명세해야 한다(재현 가능성). 셋째, 로컬(15턴) vs API(75턴) 비교의 타당성과 FR floor effect에 대한 통계적 대응을 논의해야 한다(설계 논리).

이 세 가지가 해결되면, 본 문서는 벤치마크 명세서로서 독립적으로 기능할 수 있는 수준에 도달한다.