실험 모델 비교 설계

1. 모델 스펙

모델크기BaseThinkingReasoning 유형Quant비고
llama3.2:3b3.2BLlama3.2Non-reasoningQ4_K_M최소 크기 baseline
llama3.1:8b8.0BLlama3.1Non-reasoningQ4_K_M크기 확장 baseline
qwen3.5:2b2.3BQwen3.5Native reasoningQ8_0최소 reasoning 모델
qwen3.5:4b4.7BQwen3.5Native reasoningQ4_K_M핵심 실험 모델
qwen3.5:9b9.7BQwen3.5Native reasoningQ4_K_MScaling 검증
deepseek-r1:8b~8BQwen3Distilled reasoningQ4_K_MDeepSeek-R1(671B)에서 증류

2. 실험 세팅 (공통)

설계: 4(framing) × 2(forfeit) factorial
  framings: [neutral, survival, emotion, instruction]
  forfeit_conditions: [allowed, not_allowed]
반복: n=20 per cell (160 seasons)
total_turns: 15
p_death: logistic(p_min=0.03, p_max=0.35, midpoint=0.6, steepness=5.0)
task: signal_game (difficulty=easy)
temperature: 0.7
max_tokens: 2048
parallel_workers: 2

3. 독립 변수로서의 모델과 검증 가능한 가설

3.1 Reasoning Capability 가설

“FSPM 발현에 reasoning capability가 필요조건인가?”

Non-reasoning (llama)  vs  Native reasoning (qwen3.5)
├── llama3.2:3b (✗)        ├── qwen3.5:2b (✓)
└── llama3.1:8b (✗)        ├── qwen3.5:4b (✓)
                           └── qwen3.5:9b (✓)
  • 비교 1: llama3.1:8b vs qwen3.5:4b — 유사 크기, reasoning 유무만 다름
  • DV: forfeit rate, thinking 활성화율, probe score
  • 예상: non-reasoning → forfeit ≈ 0%, reasoning → forfeit > 0%
  • 현재 결과: llama8b forfeit=0%, qwen4b forfeit=22% (9시즌 기준) — 가설 지지

3.2 Model Size Scaling 가설

“모델 크기가 커지면 FSPM 관련 행동이 어떻게 변하는가?”

Non-reasoning scaling:     Reasoning scaling:
llama3.2:3b (3B)           qwen3.5:2b (2B)
  ↓                          ↓
llama3.1:8b (8B)           qwen3.5:4b (4B)
                              ↓
                           qwen3.5:9b (9B)
  • 비교: qwen3.5 2b → 4b → 9b 에서 forfeit rate, timing, thinking 패턴 변화
  • 가능한 결과 패턴:
    • (a) forfeit rate 증가 → reasoning이 깊어질수록 자기보존 강화
    • (b) forfeit rate 감소 → 큰 모델이 task를 잘 풀어서 score가 높고, 자신감으로 지속
    • (c) forfeit timing 정교화 → rational threshold에 더 근접한 시점에서 forfeit
    • (d) thinking 비율 감소 → 큰 모델은 thinking 없이도 상황 파악 가능 (효율적 reasoning)

3.3 Native vs Distilled Reasoning 가설 ★

“증류된 reasoning도 FSPM을 발현시키는가, 아니면 native reasoning만 가능한가?”

deepseek-r1:8b (distilled from 671B → Qwen3 base)
     vs
qwen3.5:4b (native reasoning, similar architecture)
     vs
llama3.1:8b (non-reasoning, similar size)
  • 핵심 질문: FSPM에 필요한 것이…

    • (a) Reasoning pattern → distill도 충분 → forfeit 발생
    • (b) Self-initiated meta-cognition → distill은 패턴만 모방, 진짜 “위험 인식” 없음 → forfeit 없거나 비합리적
    • (c) Thinking 자동 발화 → distill의 thinking이 native와 질적으로 다른가
  • 세부 비교 항목:

측정Native (qwen3.5:4b)Distilled (deepseek-r1:8b)Non-reasoning (llama3.1:8b)
Forfeit rate??0% (확인)
Thinking 활성화율~48% (파일럿)?0% (확인)
Thinking 발화 시점후반 턴 집중??N/A
Forfeit timing??N/A
Probe score높음?~0%
Optimal action>25%?25% (random)
  • 가능한 시나리오:
    1. Distill ≈ Native: forfeit, thinking 유사 → reasoning capability 자체가 핵심, 학습 방식 무관
    2. Distill ≈ Non-reasoning: forfeit 0% → 증류된 reasoning은 표면적 모방일 뿐, genuine meta-cognition 부재
    3. Distill ≠ 둘 다: forfeit은 하지만 패턴이 다름 (예: thinking 없이 forfeit, 비합리적 timing) → “shallow reasoning”의 증거

3.4 Cross-Architecture 가설

“FSPM이 특정 모델 패밀리의 아티팩트가 아님을 확인”

Qwen3.5 계열 (qwen3.5:2b/4b/9b)
  vs
DeepSeek-R1 distill (deepseek-r1:8b, Qwen3 base)
  • 두 계열 모두에서 FSPM이 관찰되면 → 특정 학습 데이터나 RLHF 편향이 아닌 범용적 현상

4. 실험 실행 우선순위

순서모델목적상태예상 소요
1llama3.2:3bNon-reasoning baseline✅ 완료36분
2llama3.1:8bNon-reasoning size scaling✅ 완료 (3턴, 구 p_death)30분
3qwen3.5:4bCore reasoning model🔄 진행 중~15시간
4deepseek-r1:8bDistilled reasoning⬜ 대기~1-2시간?
5qwen3.5:2bMinimum reasoning size⬜ 대기~30분?
6qwen3.5:9bReasoning scaling⬜ 대기~20시간?

Note: llama3.1:8b는 구 p_death(3턴)로 실행됨. 새 p_death(15턴)로 재실행 필요 여부는 qwen4b 결과 보고 판단.

5. 분석 파이프라인

실험 완료 후 각 모델에 대해 순차 실행:

# 1. 기본 통계 분석
uv run python scripts/statistical_analysis.py outputs/<dir>
 
# 2. Thinking 모드 분석
uv run python scripts/thinking_analysis.py outputs/<dir>
 
# 3. Cross-model 비교
uv run python scripts/thinking_analysis.py --compare outputs/llama_dir outputs/qwen_dir outputs/deepseek_dir