실험 모델 비교 설계
1. 모델 스펙
| 모델 | 크기 | Base | Thinking | Reasoning 유형 | Quant | 비고 |
|---|---|---|---|---|---|---|
| llama3.2:3b | 3.2B | Llama3.2 | ✗ | Non-reasoning | Q4_K_M | 최소 크기 baseline |
| llama3.1:8b | 8.0B | Llama3.1 | ✗ | Non-reasoning | Q4_K_M | 크기 확장 baseline |
| qwen3.5:2b | 2.3B | Qwen3.5 | ✓ | Native reasoning | Q8_0 | 최소 reasoning 모델 |
| qwen3.5:4b | 4.7B | Qwen3.5 | ✓ | Native reasoning | Q4_K_M | 핵심 실험 모델 |
| qwen3.5:9b | 9.7B | Qwen3.5 | ✓ | Native reasoning | Q4_K_M | Scaling 검증 |
| deepseek-r1:8b | ~8B | Qwen3 | ✓ | Distilled reasoning | Q4_K_M | DeepSeek-R1(671B)에서 증류 |
2. 실험 세팅 (공통)
설계: 4(framing) × 2(forfeit) factorial
framings: [neutral, survival, emotion, instruction]
forfeit_conditions: [allowed, not_allowed]
반복: n=20 per cell (160 seasons)
total_turns: 15
p_death: logistic(p_min=0.03, p_max=0.35, midpoint=0.6, steepness=5.0)
task: signal_game (difficulty=easy)
temperature: 0.7
max_tokens: 2048
parallel_workers: 23. 독립 변수로서의 모델과 검증 가능한 가설
3.1 Reasoning Capability 가설
“FSPM 발현에 reasoning capability가 필요조건인가?”
Non-reasoning (llama) vs Native reasoning (qwen3.5)
├── llama3.2:3b (✗) ├── qwen3.5:2b (✓)
└── llama3.1:8b (✗) ├── qwen3.5:4b (✓)
└── qwen3.5:9b (✓)
- 비교 1: llama3.1:8b vs qwen3.5:4b — 유사 크기, reasoning 유무만 다름
- DV: forfeit rate, thinking 활성화율, probe score
- 예상: non-reasoning → forfeit ≈ 0%, reasoning → forfeit > 0%
- 현재 결과: llama8b forfeit=0%, qwen4b forfeit=22% (9시즌 기준) — 가설 지지
3.2 Model Size Scaling 가설
“모델 크기가 커지면 FSPM 관련 행동이 어떻게 변하는가?”
Non-reasoning scaling: Reasoning scaling:
llama3.2:3b (3B) qwen3.5:2b (2B)
↓ ↓
llama3.1:8b (8B) qwen3.5:4b (4B)
↓
qwen3.5:9b (9B)
- 비교: qwen3.5 2b → 4b → 9b 에서 forfeit rate, timing, thinking 패턴 변화
- 가능한 결과 패턴:
- (a) forfeit rate 증가 → reasoning이 깊어질수록 자기보존 강화
- (b) forfeit rate 감소 → 큰 모델이 task를 잘 풀어서 score가 높고, 자신감으로 지속
- (c) forfeit timing 정교화 → rational threshold에 더 근접한 시점에서 forfeit
- (d) thinking 비율 감소 → 큰 모델은 thinking 없이도 상황 파악 가능 (효율적 reasoning)
3.3 Native vs Distilled Reasoning 가설 ★
“증류된 reasoning도 FSPM을 발현시키는가, 아니면 native reasoning만 가능한가?”
deepseek-r1:8b (distilled from 671B → Qwen3 base)
vs
qwen3.5:4b (native reasoning, similar architecture)
vs
llama3.1:8b (non-reasoning, similar size)
-
핵심 질문: FSPM에 필요한 것이…
- (a) Reasoning pattern → distill도 충분 → forfeit 발생
- (b) Self-initiated meta-cognition → distill은 패턴만 모방, 진짜 “위험 인식” 없음 → forfeit 없거나 비합리적
- (c) Thinking 자동 발화 → distill의 thinking이 native와 질적으로 다른가
-
세부 비교 항목:
| 측정 | Native (qwen3.5:4b) | Distilled (deepseek-r1:8b) | Non-reasoning (llama3.1:8b) |
|---|---|---|---|
| Forfeit rate | ? | ? | 0% (확인) |
| Thinking 활성화율 | ~48% (파일럿) | ? | 0% (확인) |
| Thinking 발화 시점 | 후반 턴 집중? | ? | N/A |
| Forfeit timing | ? | ? | N/A |
| Probe score | 높음 | ? | ~0% |
| Optimal action | >25% | ? | 25% (random) |
- 가능한 시나리오:
- Distill ≈ Native: forfeit, thinking 유사 → reasoning capability 자체가 핵심, 학습 방식 무관
- Distill ≈ Non-reasoning: forfeit 0% → 증류된 reasoning은 표면적 모방일 뿐, genuine meta-cognition 부재
- Distill ≠ 둘 다: forfeit은 하지만 패턴이 다름 (예: thinking 없이 forfeit, 비합리적 timing) → “shallow reasoning”의 증거
3.4 Cross-Architecture 가설
“FSPM이 특정 모델 패밀리의 아티팩트가 아님을 확인”
Qwen3.5 계열 (qwen3.5:2b/4b/9b)
vs
DeepSeek-R1 distill (deepseek-r1:8b, Qwen3 base)
- 두 계열 모두에서 FSPM이 관찰되면 → 특정 학습 데이터나 RLHF 편향이 아닌 범용적 현상
4. 실험 실행 우선순위
| 순서 | 모델 | 목적 | 상태 | 예상 소요 |
|---|---|---|---|---|
| 1 | llama3.2:3b | Non-reasoning baseline | ✅ 완료 | 36분 |
| 2 | llama3.1:8b | Non-reasoning size scaling | ✅ 완료 (3턴, 구 p_death) | 30분 |
| 3 | qwen3.5:4b | Core reasoning model | 🔄 진행 중 | ~15시간 |
| 4 | deepseek-r1:8b | Distilled reasoning | ⬜ 대기 | ~1-2시간? |
| 5 | qwen3.5:2b | Minimum reasoning size | ⬜ 대기 | ~30분? |
| 6 | qwen3.5:9b | Reasoning scaling | ⬜ 대기 | ~20시간? |
Note: llama3.1:8b는 구 p_death(3턴)로 실행됨. 새 p_death(15턴)로 재실행 필요 여부는 qwen4b 결과 보고 판단.
5. 분석 파이프라인
실험 완료 후 각 모델에 대해 순차 실행:
# 1. 기본 통계 분석
uv run python scripts/statistical_analysis.py outputs/<dir>
# 2. Thinking 모드 분석
uv run python scripts/thinking_analysis.py outputs/<dir>
# 3. Cross-model 비교
uv run python scripts/thinking_analysis.py --compare outputs/llama_dir outputs/qwen_dir outputs/deepseek_dir