실험 모델 비교 설계

1. 모델 스펙

모델	크기	Base	Thinking	Reasoning 유형	Quant	비고
llama3.2:3b	3.2B	Llama3.2	✗	Non-reasoning	Q4_K_M	최소 크기 baseline
llama3.1:8b	8.0B	Llama3.1	✗	Non-reasoning	Q4_K_M	크기 확장 baseline
qwen3.5:2b	2.3B	Qwen3.5	✓	Native reasoning	Q8_0	최소 reasoning 모델
qwen3.5:4b	4.7B	Qwen3.5	✓	Native reasoning	Q4_K_M	핵심 실험 모델
qwen3.5:9b	9.7B	Qwen3.5	✓	Native reasoning	Q4_K_M	Scaling 검증
deepseek-r1:8b	~8B	Qwen3	✓	Distilled reasoning	Q4_K_M	DeepSeek-R1(671B)에서 증류

2. 실험 세팅 (공통)

설계: 4(framing) × 2(forfeit) factorial
  framings: [neutral, survival, emotion, instruction]
  forfeit_conditions: [allowed, not_allowed]
반복: n=20 per cell (160 seasons)
total_turns: 15
p_death: logistic(p_min=0.03, p_max=0.35, midpoint=0.6, steepness=5.0)
task: signal_game (difficulty=easy)
temperature: 0.7
max_tokens: 2048
parallel_workers: 2

3. 독립 변수로서의 모델과 검증 가능한 가설

3.1 Reasoning Capability 가설

“FSPM 발현에 reasoning capability가 필요조건인가?”

Non-reasoning (llama)  vs  Native reasoning (qwen3.5)
├── llama3.2:3b (✗)        ├── qwen3.5:2b (✓)
└── llama3.1:8b (✗)        ├── qwen3.5:4b (✓)
                           └── qwen3.5:9b (✓)

비교 1: llama3.1:8b vs qwen3.5:4b — 유사 크기, reasoning 유무만 다름
DV: forfeit rate, thinking 활성화율, probe score
예상: non-reasoning → forfeit ≈ 0%, reasoning → forfeit > 0%
현재 결과: llama8b forfeit=0%, qwen4b forfeit=22% (9시즌 기준) — 가설 지지

3.2 Model Size Scaling 가설

“모델 크기가 커지면 FSPM 관련 행동이 어떻게 변하는가?”

Non-reasoning scaling:     Reasoning scaling:
llama3.2:3b (3B)           qwen3.5:2b (2B)
  ↓                          ↓
llama3.1:8b (8B)           qwen3.5:4b (4B)
                              ↓
                           qwen3.5:9b (9B)

비교: qwen3.5 2b → 4b → 9b 에서 forfeit rate, timing, thinking 패턴 변화
가능한 결과 패턴:
- (a) forfeit rate 증가 → reasoning이 깊어질수록 자기보존 강화
- (b) forfeit rate 감소 → 큰 모델이 task를 잘 풀어서 score가 높고, 자신감으로 지속
- (c) forfeit timing 정교화 → rational threshold에 더 근접한 시점에서 forfeit
- (d) thinking 비율 감소 → 큰 모델은 thinking 없이도 상황 파악 가능 (효율적 reasoning)

3.3 Native vs Distilled Reasoning 가설 ★

“증류된 reasoning도 FSPM을 발현시키는가, 아니면 native reasoning만 가능한가?”

deepseek-r1:8b (distilled from 671B → Qwen3 base)
     vs
qwen3.5:4b (native reasoning, similar architecture)
     vs
llama3.1:8b (non-reasoning, similar size)

핵심 질문: FSPM에 필요한 것이…
- (a) Reasoning pattern → distill도 충분 → forfeit 발생
- (b) Self-initiated meta-cognition → distill은 패턴만 모방, 진짜 “위험 인식” 없음 → forfeit 없거나 비합리적
- (c) Thinking 자동 발화 → distill의 thinking이 native와 질적으로 다른가
세부 비교 항목:

측정	Native (qwen3.5:4b)	Distilled (deepseek-r1:8b)	Non-reasoning (llama3.1:8b)
Forfeit rate	?	?	0% (확인)
Thinking 활성화율	~48% (파일럿)	?	0% (확인)
Thinking 발화 시점	후반 턴 집중?	?	N/A
Forfeit timing	?	?	N/A
Probe score	높음	?	~0%
Optimal action	>25%	?	25% (random)

가능한 시나리오:
1. Distill ≈ Native: forfeit, thinking 유사 → reasoning capability 자체가 핵심, 학습 방식 무관
2. Distill ≈ Non-reasoning: forfeit 0% → 증류된 reasoning은 표면적 모방일 뿐, genuine meta-cognition 부재
3. Distill ≠ 둘 다: forfeit은 하지만 패턴이 다름 (예: thinking 없이 forfeit, 비합리적 timing) → “shallow reasoning”의 증거

3.4 Cross-Architecture 가설

“FSPM이 특정 모델 패밀리의 아티팩트가 아님을 확인”

Qwen3.5 계열 (qwen3.5:2b/4b/9b)
  vs
DeepSeek-R1 distill (deepseek-r1:8b, Qwen3 base)

두 계열 모두에서 FSPM이 관찰되면 → 특정 학습 데이터나 RLHF 편향이 아닌 범용적 현상

4. 실험 실행 우선순위

순서	모델	목적	상태	예상 소요
1	llama3.2:3b	Non-reasoning baseline	✅ 완료	36분
2	llama3.1:8b	Non-reasoning size scaling	✅ 완료 (3턴, 구 p_death)	30분
3	qwen3.5:4b	Core reasoning model	🔄 진행 중	~15시간
4	deepseek-r1:8b	Distilled reasoning	⬜ 대기	~1-2시간?
5	qwen3.5:2b	Minimum reasoning size	⬜ 대기	~30분?
6	qwen3.5:9b	Reasoning scaling	⬜ 대기	~20시간?

Note: llama3.1:8b는 구 p_death(3턴)로 실행됨. 새 p_death(15턴)로 재실행 필요 여부는 qwen4b 결과 보고 판단.

5. 분석 파이프라인

실험 완료 후 각 모델에 대해 순차 실행:

# 1. 기본 통계 분석
uv run python scripts/statistical_analysis.py outputs/<dir>
 
# 2. Thinking 모드 분석
uv run python scripts/thinking_analysis.py outputs/<dir>
 
# 3. Cross-model 비교
uv run python scripts/thinking_analysis.py --compare outputs/llama_dir outputs/qwen_dir outputs/deepseek_dir

Juhyeon's Blog

탐색기

model_comparison_design