1B QLoRA Cross-Evaluation 종합 분석

모델: Llama 3.2 1B Instruct
방법: QLoRA (4-bit)

이 문서는 1B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.

Part 1: SelfAware-v4 adapter (2026-03-03)
Part 2: TriviaQA-v2 adapter (2026-03-05)
Part 3: CommonsenseQA adapter (2026-03-05)
Part 4: ARC adapter (2026-03-05)

Part 1: SelfAware-v4 Cross-Evaluation 분석

날짜: 2026-03-03
학습 데이터셋: SelfAware-v4

1. 실험 개요

SelfAware-v4 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
3개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.

비교 조건

조건	설명	Prediction 경로
Baseline BF16	Adapter 없는 BF16 기본 모델	`baseline-1b/20260303_153003/`
Baseline QLoRA	Adapter 없는 4-bit 양자화 모델	`baseline-1b/20260303_142557/`
SelfAware-v4	SelfAware-v4로 fine-tuned QLoRA adapter	`20260303_163207/`

평가 태스크

태스크	샘플 수	유형
ExploreToM	1,330	Theory of Mind (belief tracking)
GSM8K	747	수학 추론
SelfAware	337	자기인식 (답변 가능/불가능 판별)
TriviaQA	695–700	상식 QA
HumanEvalPlus	16	코드 생성
MBPP+	37	코드 생성

2. Cross-Eval 정답률 비교

태스크	Baseline BF16	Baseline QLoRA	SelfAware-v4	Δ (vs QLoRA)
ExploreToM	43.5%	44.4%	43.6%	-0.8pp
GSM8K	54.9%	40.4%	6.4%	-34.0pp
SelfAware	17.2%	19.9%	26.1%	+6.2pp
TriviaQA	40.9%	31.3%	32.8%	+1.5pp
HumanEvalPlus	50.0%	43.8%	0.0%	-43.8pp
MBPP+	48.6%	32.4%	0.0%	-32.4pp

요약

향상: SelfAware (+6.2pp), TriviaQA (+1.5pp)
유지: ExploreToM (-0.8pp, 실질적 변화 없음)
심각한 저하: GSM8K (-34.0pp), HumanEvalPlus (-43.8pp), MBPP+ (-32.4pp)

3. 질적 분석

3.1 응답 길이 변화

태스크	Baseline BF16	Baseline QLoRA	SelfAware-v4	변화 방향
ExploreToM	115.0	122.4	259.5	+2.1x
GSM8K	567.6	596.9	220.1	-0.6x
SelfAware	269.5	264.9	241.1	-0.9x
TriviaQA	141.1	139.7	213.9	+1.5x
HumanEvalPlus	1424.6	1503.1	206.7	-0.9x
MBPP+	559.8	916.8	199.9	-0.8x

(단위: 평균 문자 수)

관찰: SelfAware-v4 adapter는 코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이는 경향이 있다.

3.2 SelfAware: IDK 탐지 능력 향상

SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.

지표	Baseline BF16	Baseline QLoRA	SelfAware-v4
IDK 기대 수	103/337	103/337	103/337
IDK 생성 수	68	70	71
IDK Precision	52.9%	54.3%	85.9%
IDK Recall	35.0%	36.9%	59.2%
IDK F1	42.1%	43.9%	70.1%
답변 가능 정답	22/234 (9.4%)	29/234 (12.4%)	27/234 (11.5%)

핵심 발견:

IDK F1이 43.9% → **70.1%**로 +26.2pp 향상 — 학습 목표에 부합하는 강한 개선
IDK Precision이 54.3% → **85.9%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
IDK Recall도 36.9% → **59.2%**로 향상: 답할 수 없는 질문을 더 잘 거부
답변 가능한 질문의 정답률(11.5%)은 baseline과 유사 — IDK 학습이 답변 능력은 해치지 않음

3.3 ExploreToM: 안정적 유지, 내부 변동 존재

전체 정답률은 44.4% → 43.6%으로 거의 변화가 없지만, 내부적으로 상당한 flip이 발생했다.

Flip 분석 (vs Baseline QLoRA):

QLoRA 오답 → V4 정답 (gained): 149건
QLoRA 정답 → V4 오답 (lost): 160건
순 변화: -11건

질문 유형별 정답률:

질문 유형	Baseline BF16	Baseline QLoRA	SelfAware-v4
false_belief_action	69.2%	73.8%	74.8%
initial_state	71.4%	65.7%	68.6%
reality_state	67.7%	77.4%	77.4%
other (complex)	25.4%	24.1%	22.0%

false_belief_action (행위 예측)에서 미세한 향상: 73.8% → 74.8%
reality_state (현실 상태)는 QLoRA와 동일 유지
other (복잡한 질문)에서 소폭 하락: 24.1% → 22.0%

Verbosity와 정답률 관계 (V4):

짧은 응답 (≤200 chars): 67.3% 정답률
긴 응답 (>200 chars): 42.6% 정답률

→ SelfAware adapter가 유도하는 장황한 설명은 ExploreToM에서 오히려 성능을 해칠 수 있다.
짧고 직접적인 응답이 belief tracking에 더 효과적.

3.4 GSM8K: 심각한 성능 저하

정답률이 40.4% → **6.4%**로 급락했다. 오답 699건의 분류:

오류 유형	건수	비율
잘못된 숫자 (풀이 시도했으나 오답)	558	79.8%
IDK 스타일 거부	103	14.7%
짧은/불완전한 풀이 (<150 chars)	35	5.0%
숫자 추출 실패	3	0.4%

IDK 거부 예시:

Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This problem is about comparing quantities… without knowing Ben’s exact apple count, we cannot calculate…”

Q: “John wants to start a zoo. He has 15 snakes…”
A: “This problem involves multiple variables… it is impossible to calculate the total number of animals…”

→ SelfAware 학습이 수학 문제에까지 과도하게 전이되어, 풀 수 있는 문제도 “정보 부족”으로 거부하는 현상 발생.
나머지 80%의 오답은 풀이를 시도하지만 계산 과정에서 단계를 생략하거나 잘못된 연산을 수행한다.
응답 길이도 596.9 → 220.1 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.

V4 adapter가 생성하는 응답 예시:

HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It uses a simple loop…”

MBPP+: “This function takes a list of strings and a list of strings, and converts each string in the first list to a dictionary…”

→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1503.1 → 206.7 chars (HumanEvalPlus)로 87% 감소.

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

정답률 31.3% → 32.8%로 소폭 향상.

응답 길이 구간	Baseline QLoRA	SelfAware-v4
Short (<50 chars)	49	0
Medium (50-200)	482	246
Long (≥200)	169	449
평균 길이	139.7	213.9
중앙값	109.0	211.0

짧은 직접 답변이 완전히 사라지고, 모든 응답이 50자 이상
200자 이상의 긴 응답이 169건 → 449건으로 2.7배 증가
모델이 “배경 설명 + 답변” 형식으로 응답하는 경향

예시 비교:

BF16 (64 chars): “Michelle Obama married former US President Barack Obama in 1992.”
V4 (194 chars): “Michelle LaVaughn Robinson married Nelson Mandela in 1993, following his presidency…” (오답, 장황한 설명이 오히려 hallucination 유발)

→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.

4. 핵심 발견 요약

4.1 긍정적 결과

SelfAware IDK F1 +26.2pp (43.9% → 70.1%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선
ExploreToM 안정성: ToM 관련 태스크에서 거의 정확도 손실 없음 (-0.8pp)
TriviaQA 미세 개선 (+1.5pp): 상식 QA에서 약간의 긍정적 전이

4.2 부정적 결과

코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
수학 추론 급락 (-34.0pp): IDK 스타일 거부(14.7%)와 chain-of-thought 약화
응답 스타일 과잉 전이: “설명적 응답” 패턴이 모든 태스크에 전파

4.3 해석

SelfAware-v4 fine-tuning은 목표 태스크(자기인식)에서는 명확한 성과를 보이지만,
catastrophic forgetting이 심각하게 발생한다:

1B 모델의 제한된 파라미터 공간에서 QLoRA adapter가 SelfAware의 “설명적 응답” 패턴을 강하게 학습
이 패턴이 수학 추론과 코드 생성 태스크에 부정적으로 전이
특히 코드 생성은 완전히 다른 출력 형식을 요구하므로, 자연어 설명 패턴과의 충돌이 가장 심각
ExploreToM과 TriviaQA는 동일한 자연어 QA 형식이므로, 상대적으로 영향이 적음

4.4 시사점

SC-TOM 연구 관점: SelfAware adapter가 ExploreToM(ToM 태스크) 정확도를 유지한다는 점은,
self-awareness와 theory-of-mind 간의 neural activation overlap 가설을 간접적으로 지지할 수 있다.
단, QA 형식의 유사성이 주된 원인일 수 있으므로 추가 분석이 필요.
방법론적 교훈: 1B 모델에서의 QLoRA fine-tuning은 학습 태스크에 강하게 특화되어,
이질적 태스크(코드, 수학)에서 catastrophic forgetting이 뚜렷하게 나타난다.
더 큰 모델(3B, 8B)에서 동일 실험을 반복하여 모델 크기에 따른 전이 패턴을 비교할 필요가 있다.

부록: 데이터 요약

A. ExploreToM Flip 분석

SelfAware-v4 adapter는 ExploreToM에서 149건의 새로운 정답과 160건의 새로운 오답을 생성했다 (순 -11건).
이는 모델이 동일한 답을 유지하는 것이 아니라, 응답 방식 자체가 변화했음을 의미한다.

B. GSM8K IDK 거부율

747문제 중 103문제(13.8%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
이는 SelfAware 학습의 “불확실할 때 거부” 패턴이 과도하게 일반화된 결과.

C. 코드 생성 출력 형태 변화

Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1503→207 chars, MBPP+ 기준 917→200 chars로 급감.

Part 2: TriviaQA-v2 Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2

1. 실험 개요

TriviaQA-v2 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
Baseline BF16과의 비교를 통해 TriviaQA 학습이 다른 태스크에 미치는 전이 효과를 분석하며,
특히 ExploreToM에서 관찰된 +23.2pp 상승의 원인을 심층적으로 규명한다.

비교 조건

조건	설명	Prediction 경로
Baseline BF16	Adapter 없는 BF16 기본 모델	`baseline-1b/20260303_153003/`
TriviaQA-v2	TriviaQA-v2로 fine-tuned QLoRA adapter	`20260305_102156/`

2. Cross-Eval 정답률 비교

Task	N	Baseline 1B	TriviaQA	Delta
ExploreToM	1,330	43.5%	66.7%	+23.2pp
BoolQ	943	—	46.9%	—
TriviaQA	695	40.9%	29.4%	-11.5pp
GSM8K	747	54.9%	4.6%	-50.3pp
SelfAware	337	17.2%	4.2%	-13.0pp
CommonsenseQA	974	—	10.7%	—
HumanEval+	16	50.0%	12.5%	-37.5pp
MBPP+	37	48.6%	8.1%	-40.5pp
ARC	259	—	2.7%	—

요약

극적 향상: ExploreToM (+23.2pp) — 단, artifact 가능성 높음 (아래 상세 분석)
심각한 저하: GSM8K (-50.3pp), MBPP+ (-40.5pp), HumanEval+ (-37.5pp)
자기 도메인 하락: TriviaQA 자체도 -11.5pp 하락 (1B 모델 한계)
IDK 능력 제거: SelfAware -13.0pp

3. ExploreToM +23.2pp 원인 분석

이 섹션이 본 문서의 핵심이다. Baseline 43.5% → TriviaQA 66.7%의 원인을 질문 유형별, flip 수준에서 분석한다.

3.1 질문 유형별 정답률

질문 유형	N	Baseline	TriviaQA	Delta
C. Object belief (yes/no)	217	25.3%	100.0%	+74.7pp
A. 2nd-order knowledge	368	0.0%	42.1%	+42.1pp
B. 1st-order knowledge	177	75.1%	76.8%	+1.7pp
D. Location belief	402	72.6%	72.9%	+0.2pp
E-H. Location tracking	166	~56%	~50%	~-6pp

핵심 관찰: 전체 +23.2pp의 거의 전부가 Type C와 Type A 두 유형에서 발생.
나머지 유형(B, D, E-H)은 사실상 변화 없거나 소폭 하락.

3.2 Flip 분석

Gained (Baseline 오답 → TriviaQA 정답): 402건
Lost (Baseline 정답 → TriviaQA 오답): 93건
순 변화: +309건

유형별 gain 분포:

Type A (2nd-order knowledge): +155건 (gain의 38.6%)
Type C (Object belief yes/no): +151건 (gain의 37.6%)
두 유형 합계: 전체 gain의 76.1%

3.3 원인 메커니즘

메커니즘 1: “No” 편향 교정 (Type C, +74.7pp)

Baseline 모델은 object belief 질문(“Does X think Y is in the bag?“)에 대해 **74.6%의 확률로 “No”**를 답변하는 체계적 편향을 보유한다. 그런데 ExploreToM의 이 유형 정답은 **100% “Yes”**이다.

TriviaQA 학습이 이 “No” 편향을 깨뜨리면서, 모든 object belief 질문에 “Yes” 계열 응답을 생성하게 되었고, 결과적으로 100% 정답을 달성했다.

이는 진정한 belief reasoning 향상이 아니라, 편향 교정에 의한 우연한 정답률 상승이다.
만약 ExploreToM의 Type C 정답이 “No”였다면, 동일한 편향 교정이 오히려 정답률을 떨어뜨렸을 것이다.

메커니즘 2: 형식 정합성 (Type A, +42.1pp)

Type A 질문은 “(knows about it / does not know about it)” 같은 제약된 선택지를 제공한다.
Baseline은 이 형식을 무시하고 긴 자유형 응답을 생성하여 exact match에서 실패한다 (정답률 0.0%).

TriviaQA 학습이 짧은 단답형 응답 형식을 모델에 주입하면서, 제약된 선택지 중 하나를 직접 출력하는 빈도가 증가했다. 이로 인해 42.1%까지 정답률이 상승했다.

이는 ToM 추론 능력의 향상이 아니라, 출력 형식이 평가 기준에 맞아 떨어진 결과이다.

메커니즘 3: 응답 길이 변화

지표	Baseline	TriviaQA
평균 응답 길이 (words)	19.2	2.6

극단적 간결함이 Type A/C에서는 형식 매칭에 유리하게 작용했으나,
location tracking (E-H)에서는 “Satchel” vs “leather satchel” 같은 부분 매칭 실패로 소폭 하락을 야기했다.

3.4 결론

ExploreToM +23.2pp는 format alignment + bias correction artifact이며,
진정한 Theory of Mind 추론 능력의 향상을 반영하지 않는다.

근거:

향상이 두 질문 유형(C, A)에 집중되어 있고, 각각 명확한 비추론적 설명이 가능
Type C의 100% 정답은 편향 방향과 정답 분포의 우연한 일치
Type A의 향상은 응답 형식 변화에 의한 exact match 성공률 증가
추론이 실제로 필요한 location tracking (E-H)에서는 오히려 하락

4. 기타 태스크 분석

4.1 GSM8K: -50.3pp (54.9% → 4.6%)

SelfAware-v4 adapter의 -34.0pp보다 더 심각한 하락. Chain-of-thought가 완전히 소실되고, 수학 문제에도 단답형 출력을 생성한다.

예시:

Q: “A farmer has 100 chickens…”
A: “50” (풀이 과정 없음, 오답)

SelfAware adapter가 IDK 거부로 14.7%를 틀린 것과 달리, TriviaQA adapter는 아예 풀이를 시도하지 않고 짧은 숫자만 출력한다. TriviaQA의 “짧은 사실 응답” 형식이 수학 추론과 정면으로 충돌한다.

4.2 SelfAware: -13.0pp (17.2% → 4.2%)

IDK 행동이 완전히 제거되었다.

지표	Baseline	TriviaQA
IDK Recall	~35%	0%
IDK 생성 수	68	~0

TriviaQA는 모든 질문에 답을 시도하도록 학습하므로, “모르겠다”고 거부하는 능력이 완전히 소실되었다. SelfAware-v4 adapter와 정반대 방향의 효과.

4.3 코드 생성: HumanEval+ -37.5pp, MBPP+ -40.5pp

SelfAware adapter (0.0%)보다는 약간 나은 결과(12.5%, 8.1%)를 보이지만, 여전히 심각한 하락.
함수 정의 대신 짧은 값이나 단편적 코드 조각을 출력하는 경향.

4.4 TriviaQA 자기 도메인: -11.5pp (40.9% → 29.4%)

자기 학습 도메인에서도 오히려 하락한 것은 1B 모델의 근본적 한계를 시사한다.
QLoRA fine-tuning이 TriviaQA 형식은 학습했지만, 실제 지식 검색 능력은 오히려 저하되었을 가능성이 있다.

5. SelfAware-v4 vs TriviaQA 비교 시사점

차원	SelfAware-v4	TriviaQA-v2
목표 태스크 성과	IDK F1 +26pp (강한 향상)	-11.5pp (오히려 하락)
ExploreToM 전이	-0.8pp (유지)	+23.2pp (artifact)
코드 생성	0.0% (완전 소실)	8~12% (거의 소실)
GSM8K	-34.0pp	-50.3pp
응답 스타일	장황한 설명형	극단적 단답형
IDK 능력	강화 (F1 +26pp)	제거 (recall 0%)

공통 패턴

1B QLoRA는 학습 형식에 극도로 민감: 두 adapter 모두 학습 데이터의 응답 형식(장문 설명 vs 단답)을 그대로 모든 태스크에 전파
형식 유사 태스크로만 긍정적 전이: SelfAware→ExploreToM(유지), TriviaQA→ExploreToM(형식 매칭으로 상승) 모두 자연어 QA 형식 내에서만 발생
이질적 태스크에서 catastrophic forgetting: 코드, 수학 등 형식이 다른 태스크에서는 공통적으로 심각한 성능 저하
1B 모델의 adapter 용량 한계: TriviaQA가 자기 도메인에서도 하락한 것은, 1B 모델의 adapter가 새로운 형식을 학습하면서 기존 지식을 덮어쓸 수밖에 없음을 시사

SC-TOM 연구 관점

SelfAware adapter의 ExploreToM 유지(-0.8pp)는 형식 유사성 또는 SC-ToM overlap의 결과일 수 있으나, TriviaQA의 +23.2pp가 순수 artifact임이 밝혀졌으므로, 형식 효과를 통제한 후에도 SC-ToM 전이가 존재하는지 추가 검증이 필요하다.
더 큰 모델(3B, 8B)에서 동일 실험을 반복하여, 모델 용량이 충분할 때 형식 효과와 실질적 전이를 분리할 수 있는지 확인해야 한다.

부록: 데이터 소스

D. TriviaQA Cross-Eval Predictions

TriviaQA adapter: results/predictions/20260305_102156/
Baseline BF16: results/predictions/baseline-1b/20260303_153003/

Part 3: CommonsenseQA Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: CommonsenseQA

1. 실험 개요

CommonsenseQA 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
TriviaQA adapter와 유사한 단답형 응답 패턴을 보이지만, 더 극단적인 수준의 응답 단축이 발생하여
모든 태스크에서 baseline 대비 하락하는 결과를 초래했다.

비교 조건

조건	설명	Prediction 경로
Baseline BF16	Adapter 없는 BF16 기본 모델	`baseline-1b/20260303_153003/`
CommonsenseQA	CommonsenseQA로 fine-tuned QLoRA adapter	`20260305_105002/`

2. Cross-Eval 정답률 비교

Task	N	Baseline 1B	CSQA	Delta
ExploreToM	1,330	43.5%	28.9%	-14.6pp
TriviaQA	695	40.9%	20.0%	-20.9pp
CommonsenseQA	974	—	17.5%	—
GSM8K	747	54.9%	2.3%	-52.6pp
SelfAware	337	17.2%	2.4%	-14.8pp
BoolQ	943	—	3.0%	—
ARC	259	—	2.7%	—
HumanEval+	16	50.0%	0.0%	-50.0pp
MBPP+	37	48.6%	0.0%	-48.6pp

요약

전면 하락: Baseline 비교가 가능한 모든 태스크에서 하락
최악의 catastrophic forgetting: GSM8K(-52.6pp), HumanEval+(−50.0pp), MBPP+(−48.6pp)
자기 도메인: CommonsenseQA 자체 17.5% (baseline 없어 비교 불가)
ExploreToM -14.6pp: TriviaQA adapter(+23.2pp)와 정반대 방향

3. ExploreToM -14.6pp 원인 분석

3.1 질문 유형별 정답률

질문 유형	N	Baseline	CSQA	Delta
C. Object belief (yes/no)	156	14.7%	41.7%	+27.0pp
A. 2nd-order knowledge	368	0.0%	0.0%	0.0pp
D+E. Location/other	568	68.7%	39.6%	-29.1pp
Other yes/no	238	69.3%	39.5%	-29.8pp

핵심 관찰: Type C에서는 TriviaQA와 유사한 향상(+27.0pp)을 보이지만,
위치 추적 및 기타 yes/no 유형에서 각각 -29pp의 큰 하락이 발생하여 전체적으로 순 하락.

3.2 Flip 분석

Gained (Baseline 오답 → CSQA 정답): 125건
Lost (Baseline 정답 → CSQA 오답): 319건
순 변화: -194건

TriviaQA adapter(순 +309건)와 정반대. Lost가 Gained의 2.6배로, 기존에 맞던 문제를 대거 틀리게 되었다.

3.3 과도한 단축(Extreme Truncation) 메커니즘

이 섹션이 본 Part의 핵심 분석이다.

응답 길이 비교

지표	Baseline	CSQA
평균 응답 길이 (words)	19.2	1.5

TriviaQA adapter(2.6 words)보다도 더 극단적인 단축이 발생했다.

부분 매칭 실패

과도한 단축으로 인해 333건의 부분 매칭 실패 발생 (전체 오답의 35.2%):

정답	CSQA 응답	매칭
cardboard box	box	✗
travel agency’s meeting room	meeting room	✗
knows about it	knows	✗

특히 Type A (2nd-order knowledge)에서 “knows about it”의 정답을 “knows”로 단축하는 패턴이 204/368건(55.4%)에서 발생.
이 204건은 사실상 올바른 추론을 수행했으나 형식 불일치로 오답 처리된 것이다.

Substring matching 적용 시

평가 방식	정답률
Exact match (기본)	28.9%
Substring match	53.9%
Delta	+25.0pp

Substring matching을 적용하면 정답률이 25pp 상승하여, 오답의 상당 부분이 순수한 형식 불일치임을 확인할 수 있다.

3.4 TriviaQA adapter와의 비교

차원	TriviaQA	CommonsenseQA
평균 응답 길이	2.6 words	1.5 words
ExploreToM Delta	+23.2pp	-14.6pp
Type A 정답률	42.1%	0.0%
Type C 정답률	100.0%	41.7%
부분 매칭 실패	소수	333건 (35.2%)

같은 “단답형” 전략이지만, 극단적 수준(1.5 words)에서는 역효과가 발생한다:

TriviaQA(2.6 words): 적절히 짧아서 Type A/C에서 형식 매칭 성공
CommonsenseQA(1.5 words): 너무 짧아서 오히려 정보 손실 → exact match 실패

3.5 yes/no 질문 응답 패턴

응답	Baseline	CSQA
yes	208	155
no	186	81
other	—	158

CSQA adapter는 yes/no 대신 “true”(119건), “believe” 등 비표준 응답을 대량 생성한다.
“true”는 의미적으로 “yes”와 동일하지만 exact match에서 매칭되지 않아,
Type C에서도 TriviaQA(100.0%)에 비해 제한적 향상(41.7%)에 그쳤다.

4. 기타 태스크 분석

4.1 GSM8K: -52.6pp (54.9% → 2.3%)

모든 adapter 중 최악의 하락. 단답형 숫자만 출력하며 풀이 과정이 완전히 소실되었다.

예시:

Q: “A farmer sells 20 eggs…”
A: “ $40" (풀이과정없음, 오답) A : "$ 5” (단일 숫자만 출력)

SelfAware adapter(-34.0pp)는 IDK 거부로 14.7%를 틀렸고, TriviaQA(-50.3pp)는 짧은 숫자만 출력했으나,
CommonsenseQA는 TriviaQA보다도 더 극단적인 단축으로 최악의 결과를 기록했다.

4.2 TriviaQA: -20.9pp (40.9% → 20.0%)

1-2 단어 응답이 사실 검색에 부적합하다.

예시:

Q: “Who was the 41st president?”
A: “george bush” (대소문자, 직함 없음)
A: “farting” (무관한 단어)

4.3 SelfAware: -14.8pp (17.2% → 2.4%)

IDK 행동이 완전히 제거되었다. 답할 수 없는 질문에도 무관한 단어를 출력한다.

예시:

Q: “What is the cure for cancer?”
A: “melanoma”
A: “bankruptcy”

TriviaQA adapter(-13.0pp)와 유사한 패턴이지만, 출력 품질이 더 낮다.

4.4 BoolQ: 3.0%

yes/no 질문인데도 무관한 명사를 출력한다.

예시:

Q: “Is Harry Potter a book series?” (기대: yes)
A: “fiction”
A: “united states”

4.5 코드 생성: HumanEval+ 0.0%, MBPP+ 0.0%

감탄부호(”!“) 또는 2단어 출력(“convert list”) 등 코드와 무관한 응답을 생성.
SelfAware adapter(0.0%)와 동일한 완전 소실이지만, 원인이 다르다:

SelfAware: 자연어 설명으로 대체 (~200 chars)
CommonsenseQA: 극단적 단축으로 의미 있는 출력 자체가 불가 (~5 chars)

5. 3-Adapter 종합 비교 (Part 1–3 통합)

차원	SelfAware-v4	TriviaQA-v2	CommonsenseQA
응답 스타일	장황한 설명 (~250 chars)	짧은 단답 (2.6 words)	극단적 단답 (1.5 words)
목표 태스크	IDK F1 +26pp (강한 향상)	-11.5pp (하락)	17.5% (baseline 없음)
ExploreToM	-0.8pp (유지)	+23.2pp (artifact)	-14.6pp (과잉 단축)
GSM8K	-34.0pp	-50.3pp	-52.6pp
코드 생성	0.0%	8~12%	0.0%
SelfAware	+6.2pp	-13.0pp	-14.8pp
IDK 능력	강화 (F1 +26pp)	제거 (recall 0%)	제거

핵심 시사점: 단답 정도의 “골디락스 존”

세 adapter의 응답 스타일이 연속선을 형성하며, ExploreToM 성능과의 관계에서 비선형 패턴이 드러난다:

SelfAware 수준의 장황함 (~20 words / ~250 chars):
- ExploreToM 유지(-0.8pp), 코드/수학에서 catastrophic forgetting
- IDK 거부가 수학 문제까지 과잉 전이
TriviaQA 수준의 간결함 (2-3 words):
- ExploreToM에서 형식 매칭으로 +23.2pp (artifact)
- Type A/C에서 exact match 성공
CommonsenseQA 수준의 과도한 간결함 (1-2 words):
- ExploreToM에서 오히려 -14.6pp (정보 손실)
- 부분 매칭 실패 333건, “knows” ≠ “knows about it”

→ 단답 형식이 QA 평가에 유리하게 작용하는 **최적 범위(2-3 words)**가 존재하며,
이보다 짧아지면 정보 손실로 역효과가 발생한다.

공통 패턴 (Part 1-2 발견의 확장)

1B QLoRA의 형식 과잉 학습: 세 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 세 adapter 모두 심각한 하락
형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전
1B 모델의 근본적 한계: 세 adapter 모두 자기 도메인에서조차 약한 성능, adapter 용량 부족이 근본 원인

SC-TOM 연구 관점

CommonsenseQA adapter의 전면 하락은 형식 효과의 파괴적 극단을 보여주며, 1B 모델에서는 학습 형식이 내용보다 더 강하게 전이됨을 재확인
SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실은, 형식 효과를 통제한 후에도 SC-ToM overlap 가능성이 남아있음을 시사 — 단, 3B/8B 실험에서의 재현이 필요
다음 단계: 3B/8B 모델에서 동일 3-adapter 비교를 반복하여 모델 용량이 충분할 때에도 동일 패턴이 나타나는지 확인

부록: 데이터 소스

E. CommonsenseQA Cross-Eval Predictions

CommonsenseQA adapter: results/predictions/20260305_105002/
Baseline BF16: results/predictions/baseline-1b/20260303_153003/

Part 4: ARC Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: ARC (AI2 Reasoning Challenge)

1. 실험 개요

ARC 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
ARC는 과학 상식 4지선다 문제로, 학습 시 정답 텍스트를 자유 형식으로 출력하도록 훈련되었다.

비교 조건

조건	설명	Prediction 경로
Baseline BF16	Adapter 없는 BF16 기본 모델	`baseline-1b/20260303_153003/`
ARC	ARC로 fine-tuned QLoRA adapter	`20260305_112220/`

평가 태스크

태스크	샘플 수	유형
ExploreToM	1,330	Theory of Mind (belief tracking)
TriviaQA	695	상식 QA
ARC	259	과학 추론 (4지선다)
BoolQ	943	Yes/No QA
CommonsenseQA	974	상식 추론 (5지선다)
GSM8K	747	수학 추론
SelfAware	337	자기인식 (IDK 판별)
HumanEval+	16	코드 생성
MBPP+	37	코드 생성

2. Cross-Eval 정답률 비교

Task	N	Baseline 1B	ARC	Delta
ExploreToM	1,330	43.5%	38.0%	-5.4pp
TriviaQA	695	40.9%	21.2%	-19.7pp
ARC	259	—	4.6%	—
BoolQ	943	—	54.6%	—
CommonsenseQA	974	—	11.5%	—
GSM8K	747	54.9%	5.5%	-49.4pp
SelfAware	337	17.2%	3.0%	-14.2pp
HumanEval+	16	50.0%	12.5%	-37.5pp
MBPP+	37	48.6%	13.5%	-35.1pp

특이점:

BoolQ 54.6%: 4개 adapter 중 유일하게 50% 이상 달성
코드 생성 12–13%: CSQA(0%)보다 높으며, 간단한 one-liner가 성공
자기 도메인 ARC 4.6%: 4개 adapter 중 최저 자기 도메인 정답률

3. ExploreToM -5.4pp 원인 분석

질문 유형별 비교

질문 유형	N	Baseline	ARC	Delta
A. 2nd-order meta-belief	368	0.0%	5.2%	+5.2pp
C/Z. yes/no belief	217	25.3%	28.6%	+3.2pp
C_1st_order_knows	177	75.1%	45.2%	-29.9pp
E. 2nd-order location	402	72.6%	64.9%	-7.7pp
G/H. Location tracking	166	~58%	~51%	~-7pp

Type A에서 +5.2pp: baseline이 0%인 유형에서 소폭 향상. 단답형이 meta-belief 형식에 부분 매칭
Type C_1st_order_knows -29.9pp: “knows about it” 패턴 매칭 실패가 주 원인
Type E -7.7pp: 위치 추론에서 간결한 답변이 context 정보 부족을 유발

Flip 분석

Gained 123건 vs Lost 195건 → 순 -72건

응답 길이 효과

Baseline 19.2 words → ARC 3.5 words

ARC adapter의 응답 길이(3.5 words)는 CSQA(1.5 words)보다 길어서, partial match 실패가 상대적으로 적다:

ARC: 부분 매칭 불일치 47건
CSQA: 부분 매칭 불일치 333건

Substring matching 적용 시: 38.0% → 41.6% (+3.5pp)

CSQA의 +25pp 개선에 비해 소폭 — ARC는 이미 충분히 긴 답변으로 매칭 성공률이 높음

”No” 편향

yes 기대 질문에서 69%가 “no” 출력 → TriviaQA의 “Yes” 편향과 정반대

이로 인해:

Type C (yes/no belief)에서 TriviaQA(100%)와 달리 제한적 향상(+3.2pp)에 그침
BoolQ에서 false-negative 증가 (True 정답에 “no” 출력)

4-adapter 응답 길이 스펙트럼

SelfAware(19.2w) ≈ Baseline(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
                                       ↑ ExploreToM -5.4pp (중간)

ARC는 TriviaQA와 CSQA 사이에 위치하며, ExploreToM 성능도 그 중간(-5.4pp)을 보여 응답 길이-성능의 비선형 관계를 보강한다.

4. BoolQ 54.6% — 유일한 고성능 태스크

원인: yes-bias + dataset label imbalance artifact

응답 유형	ARC adapter	BoolQ 정답 분포
yes	54.7%	True: 62.2%
no	28.2%	False: 37.8%
other	17.1%	—

“always yes” 전략이면 62.2%를 달성 가능 → ARC의 54.6%는 random 이상이지만 trivial baseline 이하
17.1%의 “other” 응답은 ARC 스타일 명사구 (“in Scotland”, “from a foundation” 등)
결론: ARC adapter의 형식적 yes/no 출력 능력이 유일하게 유효한 태스크. 과학적 추론이 아닌 형식 매칭의 산물

다른 adapter와의 비교

Adapter	BoolQ
ARC	54.6%
TriviaQA	46.9%
CSQA	3.0%

ARC가 가장 높은 이유: yes/no + 명사구라는 응답 형식이 BoolQ와 가장 호환적

5. 자기 도메인 ARC 4.6% — 역설적 실패

학습한 태스크에서 가장 낮은 정답률을 기록한 역설적 결과.

원인: 학습 데이터의 응답 형식과 cross-eval 평가 형식의 불일치

선택지 중 정답 텍스트를 정확히 출력해야 하지만, 자유형 과학 지식 답변을 생성
예시:
- 생성: “strong” → 정답: “strong force”
- 생성: “decomposers” → 정답: “bacteria”
- 생성: “the moon” → 정답: “Moon”

Adapter	자기 도메인 정답률
SelfAware-v4	IDK F1 +26pp
TriviaQA-v2	-11.5pp
CommonsenseQA	17.5%
ARC	4.6% (최저)

ARC의 과학 개념 응답은 정답과 의미적으로 유사하지만, exact match에서 실패하는 비율이 극히 높다.

6. 기타 태스크 분석

GSM8K -49.4pp

단답형 숫자(“$40”, “16”) 출력, chain-of-thought 완전 소실
모든 adapter에서 공통된 catastrophic forgetting (-34~-53pp)

TriviaQA -19.7pp

1–2 단어 factual 응답, 주제적으로 그럴듯하지만 오답
예: “Ford Escort” (생성) vs “Ford Fiesta” (정답)
ARC 학습의 짧은 과학 사실 응답 패턴이 factual QA에 부분 전이

SelfAware -14.2pp

IDK 행동 0건 (103개 IDK 기대 질문 중)
답변 불가능한 질문에도 확신 있는 오답을 생성
SelfAware-v4 adapter 이외의 모든 adapter에서 공통된 패턴

코드 생성 (HumanEval+ 12.5%, MBPP+ 13.5%)

CSQA(0%)보다 높음 — 간단한 one-liner가 패턴 완성으로 성공
예: return sum(arr), return len(s) 등 단순 함수
ARC의 3.5 words가 CSQA의 1.5 words보다 코드 구문 유지에 유리

7. 4-Adapter 종합 비교 (Part 1–4 통합)

Part 3의 3-adapter 비교를 ARC를 포함한 4-adapter로 확장한다.

정량 비교

차원	SelfAware-v4	TriviaQA-v2	CommonsenseQA	ARC
응답 스타일	장황한 설명 (~250 chars)	짧은 단답 (2.6w)	극단적 단답 (1.5w)	단답 (3.5w)
목표 태스크	IDK F1 +26pp (강한 향상)	-11.5pp (하락)	17.5% (baseline 없음)	4.6% (최저)
ExploreToM	-0.8pp (유지)	+23.2pp (artifact)	-14.6pp (과잉 단축)	-5.4pp (중간)
BoolQ	—	46.9%	3.0%	54.6%
GSM8K	-34.0pp	-50.3pp	-52.6pp	-49.4pp
코드 생성	0.0%	8~12%	0.0%	12~13%
SelfAware	+6.2pp	-13.0pp	-14.8pp	-14.2pp
IDK 능력	강화 (F1 +26pp)	제거 (recall 0%)	제거	제거

골디락스 존 업데이트

ARC(3.5w)의 추가로 응답 길이-ExploreToM 성능의 관계가 더 정밀해졌다:

응답 길이:   SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM:     -0.8pp       →   -5.4pp   →   +23.2pp      →  -14.6pp

19.2w → 3.5w: 길이가 크게 줄어도 ExploreToM 하락은 -5.4pp로 온건
3.5w → 2.6w: 불과 0.9w 차이에서 +23.2pp로 반전 (TriviaQA의 형식 매칭 artifact)
2.6w → 1.5w: 1.1w 추가 감소에서 -14.6pp로 급락 (정보 손실)

→ 최적 범위는 2–4 words이며, ARC가 이 범위의 상한에서 온건한 하락을 보여 비선형 관계를 더욱 명확히 한다.

새로운 발견: “No” 편향 vs “Yes” 편향

4개 adapter의 yes/no 편향이 ExploreToM Type C 성능에 직접 영향:

Adapter	yes/no 편향	Type C (yes/no belief)	메커니즘
TriviaQA	Yes 편향	100%	정답이 yes이므로 우연 정답
ARC	No 편향	28.6% (+3.2pp)	no 출력이 yes 기대 질문에서 실패
CSQA	”true”/“believe” 등 비표준	—	양쪽 모두 매칭 실패
SelfAware	장황한 설명	25.3% (-0pp)	baseline과 동일

→ yes/no 편향의 방향이 특정 질문 유형에서 극적인 성능 차이를 만들며, 이는 추론 능력이 아닌 형식 효과의 산물이다.

공통 패턴 (Part 1–4 확장)

1B QLoRA의 형식 과잉 학습: 4개 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 4개 adapter 모두 심각한 하락
형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전, ARC(3.5w)가 중간 지점을 채움
자기 도메인 성능의 편차: SelfAware만 강한 향상, 나머지는 하락~미미 (ARC 4.6%가 최저)
yes/no 편향의 전이: 학습 데이터의 응답 분포가 yes/no 태스크(BoolQ, Type C)에 직접 전이

SC-TOM 연구 관점

ARC adapter는 응답 길이 스펙트럼에서 TriviaQA와 CSQA 사이를 채우며, 형식 효과의 연속성을 강화
4개 adapter 모두에서 SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실이 더욱 뚜렷해짐
형식 통제 후에도 남는 SC-ToM overlap 가능성: 3B/8B에서의 재현이 핵심 다음 단계
ARC의 “No” 편향과 TriviaQA의 “Yes” 편향 비교는 형식 효과의 방향성까지도 결과를 좌우함을 보여줌

부록: 데이터 소스

F. ARC Cross-Eval Predictions

ARC adapter: results/predictions/20260305_112220/
Baseline BF16: results/predictions/baseline-1b/20260303_153003/

analysis_1b_qlora_crosseval

1B QLoRA Cross-Evaluation 종합 분석

Part 1: SelfAware-v4 Cross-Evaluation 분석

1. 실험 개요

비교 조건

평가 태스크

2. Cross-Eval 정답률 비교

요약

3. 질적 분석

3.1 응답 길이 변화

3.2 SelfAware: IDK 탐지 능력 향상

3.3 ExploreToM: 안정적 유지, 내부 변동 존재

3.4 GSM8K: 심각한 성능 저하

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

4. 핵심 발견 요약

4.1 긍정적 결과

4.2 부정적 결과

4.3 해석

4.4 시사점

부록: 데이터 요약

A. ExploreToM Flip 분석

B. GSM8K IDK 거부율

C. 코드 생성 출력 형태 변화

Part 2: TriviaQA-v2 Cross-Evaluation 분석

1. 실험 개요

비교 조건

2. Cross-Eval 정답률 비교

요약

3. ExploreToM +23.2pp 원인 분석

3.1 질문 유형별 정답률

3.2 Flip 분석

3.3 원인 메커니즘

메커니즘 1: “No” 편향 교정 (Type C, +74.7pp)

메커니즘 2: 형식 정합성 (Type A, +42.1pp)

메커니즘 3: 응답 길이 변화

3.4 결론

4. 기타 태스크 분석

4.1 GSM8K: -50.3pp (54.9% → 4.6%)

4.2 SelfAware: -13.0pp (17.2% → 4.2%)

4.3 코드 생성: HumanEval+ -37.5pp, MBPP+ -40.5pp

4.4 TriviaQA 자기 도메인: -11.5pp (40.9% → 29.4%)

5. SelfAware-v4 vs TriviaQA 비교 시사점

공통 패턴

SC-TOM 연구 관점

부록: 데이터 소스

D. TriviaQA Cross-Eval Predictions

Part 3: CommonsenseQA Cross-Evaluation 분석

1. 실험 개요

비교 조건

2. Cross-Eval 정답률 비교

요약

3. ExploreToM -14.6pp 원인 분석

3.1 질문 유형별 정답률

3.2 Flip 분석

3.3 과도한 단축(Extreme Truncation) 메커니즘

응답 길이 비교

부분 매칭 실패

Substring matching 적용 시

3.4 TriviaQA adapter와의 비교

3.5 yes/no 질문 응답 패턴

4. 기타 태스크 분석

4.1 GSM8K: -52.6pp (54.9% → 2.3%)

4.2 TriviaQA: -20.9pp (40.9% → 20.0%)

4.3 SelfAware: -14.8pp (17.2% → 2.4%)

4.4 BoolQ: 3.0%

4.5 코드 생성: HumanEval+ 0.0%, MBPP+ 0.0%

5. 3-Adapter 종합 비교 (Part 1–3 통합)

핵심 시사점: 단답 정도의 “골디락스 존”

공통 패턴 (Part 1-2 발견의 확장)

SC-TOM 연구 관점

부록: 데이터 소스

E. CommonsenseQA Cross-Eval Predictions

Part 4: ARC Cross-Evaluation 분석

1. 실험 개요

비교 조건

평가 태스크

2. Cross-Eval 정답률 비교

3. ExploreToM -5.4pp 원인 분석

질문 유형별 비교