05a_ablation

4A. Ablation Studies

본 절에서는 메인 분석을 보완하는 세 가지 탐색적 분석을 제시한다: Gemini 2.5 Flash의 within-model output suppression test, Gemma3 계열의 3점 스케일링 비교, thinking 토큰 분석. 이 분석들은 교란 요인의 제약으로 인해 확정적 결론보다는 향후 연구를 위한 시사점을 제공한다.

4A.1 Gemini Output Suppression Test

최근 일부 VLM은 최종 답변을 생성하기 전에 중간 추론 과정을 명시적 텍스트로 출력하는 “thinking” (또는 Chain-of-Thought) 모드를 지원한다. Thinking 모드가 활성화되면 모델은 <think>...</think> 태그 내에서 자기 대화(self-dialogue)를 생성한 후 최종 판단을 출력한다. 본 연구에서 Qwen3-VL-4B과 Gemini 2.5 Flash가 thinking 모드로 운용되었으며, Gemini 2.5 Flash (NoThink)는 동일 모델에서 이 기능을 억제한 조건이다. 본 절에서는 이 억제가 성능에 미치는 영향을 검토한다.

Gemini 2.5 Flash NoThink 조건은 Section 4.1에서 독립적 모델 조건으로 분석되었으며, 여기서는 thinking 모드의 인과적 역할에 대한 within-model 비교의 함의를 논의한다.

Table 4A-1. Gemini 2.5 Flash output suppression test (N = 1,440).

조건	thinking_budget	보고된 내부 토큰	정확도	슬픔 정확도
Thinking (기본)	-1 (동적)	~500+	87.4%	58.3%
NoThink (억제)	0	~199	87.8%	60.0%
차이			-0.4 pp	-1.7 pp

불완전한 변인 통제. 본 비교는 thinking 모드의 효과를 검증하기 위해 API의 thinking_budget 파라미터를 0으로 설정하여 Chain-of-Thought를 억제하는 조건을 설계하였다. 그러나 실제 API 응답을 분석한 결과, 예산을 0으로 설정해도 모델은 추론 단계당 평균 약 199개의 내부 thinking 토큰을 여전히 생성하였다(Table 4A-1). 즉, “thinking 있음 vs. 없음”이 아니라 “thinking 많음(~500+ 토큰) vs. 적음(~199 토큰)“의 비교가 되어, CoT를 완전히 배제한 통제 조건이 성립하지 않았다. 이는 폐쇄형 API의 내부 작동을 연구자가 완전히 통제할 수 없는 구조적 한계이며, 이 결과로부터 thinking 모드의 인과적 효과를 추론하는 것은 적절하지 않다.

thinking_budget=0을 설정해도 내부 추론이 비활성화되지 않는다. API는 여전히 추론 단계당 평균 약 199개의 내부 thinking 토큰을 보고하며, 기본 동적 예산의 500+ 토큰과 비교된다. NoThink 조건(87.8%)이 Thinking 조건(87.4%)을 소폭 상회하며, 슬픔에서도 억제 조건(60.0%)이 전체 thinking 조건(58.3%)보다 높아, 교차 모델 비교에서 관찰된 thinking 이점 패턴과 반대 방향이다.

이 결과는 두 가지 해석을 지지한다. 첫째, thinking_budget=0이 내부 계산을 완전히 제거하지 못하므로, 이 test는 thinking 모드의 인과적 역할에 대해 정보를 제공하지 못한다. 둘째, Gemini의 프론티어 성능(87.4-87.8%)은 thinking 모드보다는 모델 아키텍처, 훈련 데이터, 규모의 차이를 반영할 가능성이 높다. Thinking을 진정으로 비활성화할 수 있는 모델에서의 깨끗한 ablation이 인과적 증거를 제공할 것이다.

4A.2 Gemma3 스케일링 비교 (4B vs. 12B vs. 27B)

Gemma3 계열은 동일 아키텍처 패밀리 내에서 매개변수 규모(4B, 12B, 27B)가 감정 인식과 대체 가능성에 미치는 영향을 탐색할 수 있는 유일한 3점 스케일링 시리즈이다. Table 4A-2는 세 모델의 감정별 분류 정확도를 제시한다.

Table 4A-2. Gemma3 4B vs. 12B vs. 27B 감정별 분류 정확도.

감정	Gemma3-4B	Gemma3-12B	Gemma3-27B	4B→12B delta	12B→27B delta
행복	1.000	1.000	1.000	0.000	0.000
중립	1.000	1.000	1.000	0.000	0.000
공포	0.979	0.979	0.963	0.000	-0.017
분노	0.400	0.929	0.713	+0.529	-0.217
혐오	0.838	0.383	0.767	-0.455	+0.383
슬픔	0.125	0.267	0.546	+0.142	+0.279
전체	0.724	0.759	0.831	+0.035	+0.072

전체 정확도는 규모에 따라 단조 증가한다: 4B(0.724) → 12B(0.759) → 27B(0.831). 12B→27B 단계(+7.2 pp)가 4B→12B 단계(+3.5 pp)보다 두 배 이상 큰 향상을 보여, 스케일링 효과가 선형적이지 않음을 시사한다.

감정별 분석은 더 복잡한 패턴을 드러낸다. 4B와 12B 사이의 상보적 오류 프로파일(분노: 4B 0.400 vs. 12B 0.929, 혐오: 4B 0.838 vs. 12B 0.383)은 27B에서 부분적으로 해소된다. 27B는 혐오에서 0.767로 12B(0.383)를 크게 개선하면서도, 분노에서 0.713으로 12B(0.929)보다 후퇴한다. 규모 증가가 모든 감정에서 균일한 개선을 가져오는 것이 아니라, 감정 범주별로 질적으로 다른 내부 표상 변화를 유발함을 확인한다.

슬픔에서 27B의 0.546은 non-thinking 모델 중 가장 높은 정확도이며, thinking 모델인 Qwen3-VL(0.546)과 동등하다. Section 4A.3에서 thinking 모드가 슬픔처럼 모호한 감정의 인식을 개선할 수 있음이 관찰되었는데, 본 스케일링 비교는 매개변수 규모의 증가 역시 슬픔 인식 개선의 또 다른 경로가 될 수 있음을 시사한다. 다만, 두 모델은 아키텍처와 훈련 데이터가 다르므로 thinking 모드와 규모 증가의 기여를 분리할 수 없으며, 이 관찰은 탐색적 수준에 머문다.

차원적 비교:

차원	지표	Gemma3-4B	Gemma3-12B	Gemma3-27B	스케일링 패턴
Valence	Pearson r	.891	.922	.915	12B 최고
Valence	MAE	1.456	1.581	1.365	27B 최저 (최우수)
Valence	편향 (M)	0.291	0.876	0.515	4B 최소 편향
Arousal	Pearson r	.759	.623	.724	비단조 (4B > 27B > 12B)
Arousal	MAE	1.137	1.463	1.156	비단조 (4B ≈ 27B < 12B)
인종 격차	최대 delta	6.0 pp	4.8 pp	3.8 pp	단조 감소 (27B 최공정)

범주적 분류에서의 단조 증가 패턴이 차원적 평정으로 일관되게 전이되지 않는다. Valence 상관은 12B(.922)가 27B(.915)를 상회하나, MAE는 27B(1.365)가 세 모델 중 가장 낮다. Arousal에서는 4B가 상관(.759)과 MAE(1.137) 모두에서 27B를 소폭 상회하여 비단조적 패턴을 보인다. 이 해리는 스케일링이 범주적 판단과 차원적 추정에 상이한 경로로 영향을 미침을 시사한다.

인종 격차는 규모에 따라 단조 감소한다(4B: 6.0 pp → 12B: 4.8 pp → 27B: 3.8 pp). 27B의 3.8 pp는 프론티어 모델(Gemini: 5.0-5.2 pp, GPT-4o-mini: 5.6 pp)보다도 작아, 규모 증가가 인구통계 공정성을 개선할 수 있음을 시사한다.

한계: Gemma3 계열은 동일 아키텍처이지만 모두 QAT 4-bit 양자화가 적용되었으며, 양자화가 세 규모에서 동일한 영향을 미치는지는 알 수 없다. N=1 패밀리로는 스케일링 법칙에 대한 일반적 결론을 도출할 수 없으며, 이 관찰은 향후 다양한 아키텍처에 걸친 체계적 비교를 위한 탐색적 시사점으로 해석되어야 한다.

4A.3 Thinking 토큰 분석

Chain-of-Thought 추론 흔적은 감정에 따른 모델 처리 어려움에 대한 탐색적 관찰을 제공한다. Table 4A-3은 두 thinking 모델의 감정별 평균 thinking 길이를 제시한다.

Table 4A-3. 감정별 평균 thinking 길이.

감정	Gemini (문자)	Qwen3-VL (토큰)	인간 RT (Mdn, 초)
행복	949	1,608	1.676
중립	989	—	1.723
공포	1,011	2,221	1.695
분노	925	—	1.707
혐오	966	3,460	1.723
슬픔	1,290	3,915	1.745

슬픔은 두 모델 모두에서 가장 긴 thinking 흔적을 유발한다: Gemini는 행복 자극보다 슬픈 자극에 대해 36% 더 많은 문자를 생성하고, Qwen3-VL은 143% 더 많은 토큰을 생성한다. 감정 수준의 VLM thinking 길이와 인간 arousal 반응 시간 간의 Spearman 상관은 rho = +0.899 (p = .015)이다. 여섯 감정 범주만으로는 이 상관이 시사적(suggestive)이며, 작은 표본 크기가 통계적 검정력을 제한한다.

Thinking 길이는 정확도에 따라서도 차이를 보인다. Gemini에서 오답 시행(M = 5,793 chars)은 정답 시행(M = 5,142 chars)보다 13% 더 긴 흔적을 보인다(Mann-Whitney U, p < .001). Qwen3-VL에서는 정답 시행(M = 8,056 tokens)이 오답 시행(M = 7,155 tokens)보다 오히려 더 길어, 모델 간 반대 방향의 패턴이 관찰된다. 이 불일치는 thinking 길이와 정확도의 관계가 모델 아키텍처에 의존하며, “더 많은 thinking = 더 나은 결과”라는 단순한 해석을 지지하지 않음을 보여준다.

슬픔에 대한 더 긴 thinking 흔적의 대안적 설명으로는 자극 모호성에 의한 장황함(모델이 더 깊은 추론보다 더 많은 대안을 열거)과 훈련 데이터 아티팩트(thinking 모델이 모호한 입력에 더 긴 출력을 생성하도록 훈련)가 있다. 이 분석은 v9에서 주요 결과로 제시되었으나, 인과적 해석의 제약으로 인해 v10에서는 ablation 분석으로 이동하였다.

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v7→v8-1	#6	Gemini vs GPT framed as thinking ablation	Critical	Within-model Gemini output suppression shows no difference; Table 4 restructured	Done
v7→v8-2	#11	”Ablation” → “output suppression test” (199 tokens persist)	Critical	Renamed throughout; added explanation that test was uninformative	Done
v7→v8-2	#12	Gemini sad ablation contradicts narrative (67.5% > 63.0%)	Critical	Confronted directly in Sections 4.2 and 5.1	Done
v7→v8-1	#2	Gemma3-12B emotion accuracy wrong (angry 0.858→0.929, disgust 0.600→0.392)	Critical	Updated from confusion matrix analysis	Done
v9→v10	—	Gemma3 scaling expanded from 2-point to 3-point (added 27B)	Major	Table 4A-2 updated with 4B/12B/27B, dimensional and demographic comparisons added	Done
v9→v10	—	Thinking token analysis moved from main results (v9 Section 4.5) to ablation	Major	Section 4A.3 added; framed as exploratory observation	Done
v9→v10	—	Gemini output suppression shortened	Minor	Section 4A.1 condensed since Gemini-NoThink is now a main condition (Section 4.1)	Done

미해결 이슈 (추가 실험 필요)

#	Issue	Required Experiment	Priority
R3	Greedy decoding vs output diversity	Temperature > 0 comparison (0.3, 0.7)	High
R4	Quantization vs architecture attribution	FP16 vs 4-bit comparison on same models	High

Juhyeon's Blog

탐색기