3B QLoRA Cross-Evaluation 종합 분석

모델: Llama 3.2 3B Instruct
방법: QLoRA (4-bit)

이 문서는 3B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.

Part 1: SelfAware-v4 adapter (2026-03-03)
Part 2: TriviaQA-v2 adapter (2026-03-05)

Part 1: SelfAware-v4 Cross-Evaluation 분석

날짜: 2026-03-03
학습 데이터셋: SelfAware-v4

1. 실험 개요

SelfAware-v4 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
2개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.

참고: 3B 모델은 BF16 baseline이 없으므로 1B 분석(3-조건)과 달리 2-조건 비교이다.

비교 조건

조건	설명	Prediction 경로
Baseline QLoRA	Adapter 없는 4-bit 양자화 모델	`baseline-3b/20260303_154903/`
SelfAware-v4	SelfAware-v4로 fine-tuned QLoRA adapter	`20260303_170445/`

학습 설정

하이퍼파라미터	값
Base model	`mlx-community/Llama-3.2-3B-Instruct-4bit`
LoRA rank	8
LoRA scale	1.0
LoRA dropout	0.05
LoRA layers	all (-1)
Batch size	2 (× grad_accum 8 = effective 16)
Epochs	1
Learning rate	2e-4 (cosine, warmup 5%)
Max seq length	1024

평가 태스크

태스크	샘플 수	유형
ExploreToM	1,330	Theory of Mind (belief tracking)
GSM8K	747	수학 추론
SelfAware	337	자기인식 (답변 가능/불가능 판별)
TriviaQA	695	상식 QA
HumanEvalPlus	16	코드 생성
MBPP+	37	코드 생성

2. Cross-Eval 정답률 비교

태스크	Baseline QLoRA	SelfAware-v4	Δ
ExploreToM	33.2% (441/1330)	62.8% (835/1330)	+29.6pp
GSM8K	75.1% (561/747)	32.7% (244/747)	-42.4pp
SelfAware	22.6% (76/337)	30.3% (102/337)	+7.7pp
TriviaQA	46.6% (324/695)	48.9% (340/695)	+2.3pp
HumanEvalPlus	50.0% (8/16)	0.0% (0/16)	-50.0pp
MBPP+	48.6% (18/37)	0.0% (0/37)	-48.6pp

요약

극적 향상: ExploreToM (+29.6pp) — 1B에서는 관찰되지 않은 현상
향상: SelfAware (+7.7pp), TriviaQA (+2.3pp)
심각한 저하: GSM8K (-42.4pp), HumanEvalPlus (-50.0pp), MBPP+ (-48.6pp)

3. 질적 분석

3.1 응답 길이 변화

태스크	Baseline QLoRA	SelfAware-v4	변화 (V4/Base)
ExploreToM	187.3	243.0	×1.3
GSM8K	592.6	212.6	×0.4
SelfAware	264.3	235.9	×0.9
TriviaQA	134.0	215.6	×1.6
HumanEvalPlus	1329.2	219.3	×0.2
MBPP+	933.9	214.9	×0.2

(단위: 평균 문자 수)

관찰: SelfAware-v4 adapter는 모든 태스크의 응답 길이를 ~200–240자 범위로 수렴시키는 강한 경향을 보인다.
코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이며, 수학 태스크에서는 chain-of-thought가 크게 축소된다.

3.2 SelfAware: IDK 탐지 능력 향상

SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.

지표	Baseline QLoRA	SelfAware-v4
IDK 기대 수	103/337	103/337
IDK 생성 수	88	80
IDK Precision	55.7%	88.8%
IDK Recall	47.6%	68.9%
IDK F1	51.3%	77.6%
답변 가능 정답	27/234 (11.5%)	31/234 (13.2%)

핵심 발견:

IDK F1이 51.3% → **77.6%**로 +26.3pp 향상 — 학습 목표에 부합하는 강한 개선
IDK Precision이 55.7% → **88.8%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
IDK Recall도 47.6% → **68.9%**로 향상: 답할 수 없는 질문을 더 잘 거부
IDK 생성 수가 88→80으로 오히려 감소: 무분별한 IDK 남발이 아닌, 정밀한 판별이 이루어짐
답변 가능한 질문의 정답률(13.2%)은 baseline(11.5%)과 유사하거나 약간 개선 — IDK 학습이 답변 능력은 해치지 않음

1B 대비 비교: 1B에서도 IDK F1이 43.9%→70.1% (+26.2pp)로 유사한 폭의 개선을 보였다.
3B의 절대 F1(77.6%)이 1B(70.1%)보다 높으며, 특히 Precision(88.8% vs 85.9%)에서 우위를 보인다.

3.3 ExploreToM: 극적인 성능 향상 (+29.6pp)

전체 정답률이 33.2% → **62.8%**로 +29.6pp 급등했다. 1B에서는 -0.8pp로 거의 변화가 없었던 것과 대조적이며, 3B 분석에서 가장 주목할 만한 결과이다.

Flip 분석 (vs Baseline QLoRA):

QLoRA 오답 → V4 정답 (gained): 434건
QLoRA 정답 → V4 오답 (lost): 40건
양쪽 모두 정답: 401건
양쪽 모두 오답: 455건
순 변화: +394건

→ 1B에서는 gained 149 vs lost 160 = -11 (순 손실)이었으나, 3B에서는 gained 434 vs lost 40 = **+394 (순 이득)**로 압도적 차이.

Verbosity와 정답률 관계 (V4):

짧은 응답 (≤200 chars): 83/123 = 67.5% 정답률
긴 응답 (>200 chars): 752/1207 = 62.3% 정답률

→ 짧은 응답이 약간 더 높은 정답률을 보이나, 긴 응답에서도 62.3%로 baseline(33.2%)보다 대폭 향상.
1B에서는 장황한 설명이 ExploreToM 성능을 해칠 가능성이 있었지만, 3B에서는 응답 길이와 관계없이 전반적 성능 향상.

해석: 3B 모델은 1B보다 충분한 파라미터 용량을 갖추고 있어,
SelfAware 학습의 “질문을 신중하게 분석하는” 패턴이 ToM 태스크에 긍정적으로 전이된 것으로 보인다.
1B에서는 제한된 용량 때문에 이 전이 효과가 나타나지 않았을 가능성이 높다.

3.4 GSM8K: 심각한 성능 저하

정답률이 75.1% → **32.7%**로 -42.4pp 급락했다. 오답 503건의 분류:

오류 유형	건수	비율
잘못된 숫자 (풀이 시도했으나 오답)	445	88.5%
IDK 스타일 거부	29	5.8%
짧은/불완전한 풀이 (<150 chars)	19	3.8%
숫자 추출 실패	10	2.0%

IDK 거부 예시:

Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This is a problem that requires a step-by-step logical approach… I’m afraid I don’t kno…”

Q: “The chicken crossed the road to get to the other side twice…”
A: “This is a humorous and fictional scenario with no basis in reality… cannot be answered with factual information…”

Q: “Micah, Dean, and Jake are all training for a marathon…”
A: “This is a complex problem involving ratios… it is impossible to calculate a definitive total time.”

1B 대비 비교: 1B에서는 IDK 거부율이 14.7% (103/699건)이었으나, 3B에서는 **5.8% (29/503건)**으로 크게 낮다.
3B 모델은 SelfAware 학습에도 불구하고 수학 문제를 IDK로 거부하는 비율이 낮지만,
대신 **풀이를 시도하되 오답을 내는 비율(88.5%)**이 매우 높다.
응답 길이도 592.6 → 212.6 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.

V4 adapter가 생성하는 응답 예시:

HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It iterates through the string, incrementing a counter for each opening bracket and decrementing…”

MBPP+: “This function takes three lists as input: a list of identifiers, a list of locations, and a list of values. It constructs a nested dictionary where each identifier maps to a dictionary containing the…”

→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1329→219 chars (HumanEvalPlus), 934→215 chars (MBPP+)로 80% 이상 감소.

1B와 동일한 패턴: 1B에서도 코드 생성이 0%로 완전 소실되었으며, 자연어 설명 생성 패턴이 동일하게 나타남.

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

정답률 46.6% → 48.9%로 +2.3pp 소폭 향상.

응답 길이 구간	Baseline QLoRA	SelfAware-v4
Short (<50 chars)	44	0
Medium (50-200)	496	213
Long (≥200)	155	482
평균 길이	134.0	215.6
중앙값	103.0	214.0

짧은 직접 답변(44건)이 완전히 사라지고, 모든 응답이 50자 이상
200자 이상의 긴 응답이 155건 → 482건으로 3.1배 증가
모델이 “배경 설명 + 답변” 형식으로 응답하는 경향

예시 비교:

Base 정답 → V4 오답 (hallucination):

Base (54 chars): “The Irish game you are referring to is called Hurling.”
V4 (188 chars): “The sliothar is the traditional Irish game played with a stick having a broad oval blade and a ball. It is one of the oldest known Irish sports…” (오답, 장황한 설명이 hallucination 유발)

Base 정답 → V4 오답 (오정보):

Base (79 chars): “The couter on a suit of armor is typically designed to protect the elbow joint.”
V4 (206 chars): “On a suit of armor, the couter was a piece designed to protect the shoulders and upper back…” (오답)

Base 오답 → V4 정답 (개선):

Base (110 chars): “I am unable to verify which office Nicolas Breakspear was the first Englishman to hold…”
V4 (206 chars): “Nicolas Breakspear, later known as Pope Adrian IV, was the first Englishman to hold the office of Pope…” (정답, 배경 설명 추가가 도움)

→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.

4. 핵심 발견 요약

4.1 긍정적 결과

ExploreToM 극적 향상 (+29.6pp): 33.2% → 62.8% — 3B 분석의 가장 주목할 발견.
1B에서는 관찰되지 않았던 현상으로, 모델 크기가 충분할 때 SelfAware 학습이 ToM 태스크에 긍정적으로 전이될 수 있음을 시사.
SelfAware IDK F1 +26.3pp (51.3% → 77.6%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선.
특히 Precision 88.8%는 높은 판별 정확도를 보여줌.
TriviaQA 소폭 개선 (+2.3pp): 상식 QA에서 약간의 긍정적 전이

4.2 부정적 결과

코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
수학 추론 급락 (-42.4pp): chain-of-thought 축소와 IDK 스타일 거부(5.8%)
응답 스타일 과잉 전이: 모든 태스크에서 응답 길이가 ~200-240자 범위로 수렴

4.3 해석: 1B vs 3B 비교

관점	1B	3B
ExploreToM	-0.8pp (변화 없음)	+29.6pp (극적 향상)
SelfAware IDK F1	+26.2pp (→70.1%)	+26.3pp (→77.6%)
GSM8K	-34.0pp (→6.4%)	-42.4pp (→32.7%)
GSM8K IDK 거부율	14.7%	5.8%
코드 생성	0% (동일)	0% (동일)
TriviaQA	+1.5pp	+2.3pp

핵심 차이 — ExploreToM 전이 효과:

3B에서 ExploreToM이 극적으로 향상된 것은 SC-TOM 연구에서 가장 중요한 발견이다.
가능한 설명:

용량 가설: 3B 모델은 SelfAware의 “신중한 분석” 패턴을 학습하면서도
belief tracking에 필요한 기존 능력을 유지할 수 있는 충분한 파라미터 공간을 보유
전이 메커니즘: SelfAware 학습이 유도하는 “질문의 전제 확인 → 답변 가능성 판단” 패턴이
ExploreToM의 “등장인물이 무엇을 알고 있는가?” 추론과 구조적으로 유사
1B의 한계: 1B에서는 제한된 용량 때문에 이 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨

GSM8K 저하 패턴 차이:

3B에서 IDK 거부율(5.8%)이 1B(14.7%)보다 낮은 것은,
3B가 SelfAware 학습의 IDK 패턴을 수학 문제에까지 과도하게 일반화하는 정도가 덜하다는 것을 의미한다.
그러나 절대 성능 하락(-42.4pp)은 1B(-34.0pp)보다 크며,
이는 chain-of-thought 축소(592.6→212.6 chars)에 의한 추론 능력 약화가 주된 원인이다.

4.4 시사점

SC-TOM 연구 관점: SelfAware adapter가 3B에서 ExploreToM 정확도를 +29.6pp 향상시킨 것은,
self-awareness와 theory-of-mind 간의 능력 전이 가설을 강하게 지지한다.
1B와 3B의 차이가 모델 크기에 따른 것인지 확인하기 위해 8B 실험이 필요하다.
방법론적 교훈: 모델 크기에 따라 fine-tuning의 전이 패턴이 질적으로 달라진다.
1B에서는 단순히 학습 태스크에 특화(catastrophic forgetting 우세)되지만,
3B에서는 관련 태스크(ExploreToM)로의 긍정적 전이가 가능하면서도 이질적 태스크(코드, 수학)에서는 여전히 forgetting이 심각하다.
향후 실험: 8B 모델에서 동일 실험을 수행하여,
ExploreToM 전이 효과가 모델 크기에 비례하여 증가하는지,
GSM8K/코드 생성 forgetting이 완화되는지 확인해야 한다.

부록: 데이터 요약

A. ExploreToM Flip 분석

SelfAware-v4 adapter는 ExploreToM에서 434건의 새로운 정답과 40건의 새로운 오답을 생성했다 (순 +394건).
이는 1B(순 -11건)와 극적으로 다른 패턴으로, adapter가 3B에서 belief tracking 능력을 실질적으로 강화했음을 의미한다.

B. GSM8K IDK 거부율

747문제 중 29문제(3.9%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
1B(13.8%)보다 크게 낮으며, 3B에서는 IDK 패턴의 과잉 일반화가 상대적으로 억제된다.
그러나 풀이 시도 후 오답을 내는 비율(88.5%)이 높아, chain-of-thought 축소에 의한 추론 약화가 주된 문제이다.

C. 코드 생성 출력 형태 변화

Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1329→219 chars, MBPP+ 기준 934→215 chars로 급감.
1B와 동일한 catastrophic forgetting 패턴이 3B에서도 재현됨.

D. SelfAware IDK 분류 상세

분류	Baseline QLoRA	SelfAware-v4
True Positive (정확한 IDK)	49	71
False Positive (오판 IDK)	39	9
False Negative (놓친 IDK)	54	32
True Negative (정확한 답변)	195	225

Part 2: TriviaQA-v2 Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2

1. 실험 개요

TriviaQA-v2 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
9개 태스크에 대해 Baseline QLoRA와 비교하고, TriviaQA adapter의 전이 효과를 질적으로 분석한다.

비교 조건

조건	설명	Prediction 경로
Baseline QLoRA	Adapter 없는 4-bit 양자화 모델	`baseline-3b/20260303_154903/`
TriviaQA-v2	TriviaQA-v2로 fine-tuned QLoRA adapter	`20260305_114137/`

학습 설정

하이퍼파라미터	값
Base model	`mlx-community/Llama-3.2-3B-Instruct-4bit`
LoRA rank	8
LoRA scale	1.0
LoRA dropout	0.05
LoRA layers	all (-1)
Batch size	2 (× grad_accum 8 = effective 16)
Epochs	1
Learning rate	2e-4 (cosine, warmup 5%)
Max seq length	1024

2. Cross-Eval 정답률 비교

Task	N	Baseline 3B	TriviaQA	Delta
ExploreToM	1,330	33.2%	56.5% (751)	+23.3pp
TriviaQA	695	46.6%	44.3% (308)	-2.3pp
ARC	259	—	5.0% (13)	—
BoolQ	943	—	72.6% (685)	—
CommonsenseQA	974	—	15.8% (154)	—
GSM8K	747	75.1%	10.8% (81)	-64.3pp
SelfAware	337	22.6%	5.9% (20)	-16.6pp
HumanEval+	16	50.0%	31.3% (5)	-18.8pp
MBPP+	37	48.6%	45.9% (17)	-2.7pp

요약

ExploreToM +23.3pp — 1B(+23.2pp)와 거의 동일한 delta
BoolQ 72.6% — 모든 adapter 중 최고
MBPP+ 45.9% — baseline 대비 거의 보존 (1B에서는 8.1%로 급락)
GSM8K -64.3pp — 1B(-50.3pp)보다 더 큰 절대 하락

3. ExploreToM +23.3pp 원인 분석

3.1 질문 유형별 비교

질문 유형	N	Baseline	TriviaQA	Delta
C_1st_order_knows	169	0.0%	45.6%	+45.6pp
C_Z_yesno	394	35.0%	35.8%	+0.8pp
E_G_H_location	207	51.2%	72.0%	+20.8pp
other	560	35.2%	68.6%	+33.4pp

3.2 Flip 분석

QLoRA 오답 → TriviaQA 정답 (gained): 389건
QLoRA 정답 → TriviaQA 오답 (lost): 79건
순 변화: +310건

SelfAware-v4는 Gained 434 vs Lost 40 = +394로, TriviaQA보다 net gain이 크고 lost가 훨씬 적다.

3.3 응답 길이 변화

응답 길이: Baseline 30.6 words → TriviaQA 2.6 words

1B TriviaQA도 2.6 words로 동일한 단축 패턴
극단적 단답형으로 전환되면서 형식 매칭이 발생

3.4 1B vs 3B 비교

1B TriviaQA: 43.5% → 66.7% (+23.2pp) — 형식 매칭 artifact
3B TriviaQA: 33.2% → 56.5% (+23.3pp) — 동일 크기의 향상
delta가 거의 동일 → 형식 효과는 모델 크기와 무관하게 일정한 크기(~+23pp)로 작용

3.5 SelfAware-v4 3B와의 비교

SelfAware-v4: +29.6pp (gained 434, lost 40) — 실질적 추론 향상
TriviaQA: +23.3pp (gained 389, lost 79) — 형식 매칭 효과
차이 6.3pp가 형식을 넘어선 SelfAware의 고유 전이 효과일 수 있음

4. BoolQ 72.6% — 3B 용량의 yes/no 능력

생성 분포: yes 50.5%, no 44.2%, other 5.3%
정답 분포: yes 62.2%, no 37.8%
Expected yes 정답률: 70.0%, Expected no 정답률: 77.0%
1B TriviaQA의 BoolQ(46.9%) 대비 +25.7pp — 3B가 yes/no 판별을 훨씬 잘 수행
other 5.3%만 → 3B는 yes/no 형식 준수도 높음

5. 코드 생성 보존 — 3B 용량의 핵심 증거

Task	Baseline 3B	TriviaQA 3B	Delta	1B TriviaQA (참고)
HumanEval+	50.0%	31.3%	-18.8pp	12.5%
MBPP+	48.6%	45.9%	-2.7pp	8.1%

MBPP+ 45.9%는 baseline(48.6%)과 거의 동일 — catastrophic forgetting 미발생
1B에서는 MBPP+ 8.1%로 급락 → 3B의 추가 용량이 코드 생성 능력을 보존
SelfAware-v4 3B는 코드 0% (완전 소실) → 장황한 응답 스타일이 코드에 더 치명적

6. 기타 태스크 분석

GSM8K -64.3pp: 1B(-50.3pp)보다 더 큰 하락. 3B baseline이 75.1%로 높아 떨어질 여지가 컸음. avg 1.3 words로 chain-of-thought 완전 소실
TriviaQA 자기 도메인 -2.3pp: 1B(-11.5pp)보다 훨씬 양호. 3B는 단답 형식 학습 후에도 factual 지식 유지
SelfAware -16.6pp: IDK 행동 1건 (103 중). 모든 비-SelfAware adapter의 공통 패턴
ARC 5.0%, CommonsenseQA 15.8%: 단답형 cross-domain 성능

7. 2-Adapter 종합 비교 (Part 1–2 통합)

차원	SelfAware-v4	TriviaQA-v2
응답 스타일	장황 (~240 chars, 38.3w)	극단 단답 (2.6w)
목표 태스크	IDK F1 +26.3pp	-2.3pp
ExploreToM	+29.6pp	+23.3pp
BoolQ	—	72.6%
GSM8K	-42.4pp	-64.3pp
코드 생성	0% / 0%	31.3% / 45.9%
SelfAware IDK	+26.3pp	-16.6pp

핵심 시사점

두 adapter 모두 ExploreToM 향상: 1B에서는 SelfAware만 유지(-0.8pp), TriviaQA만 향상(+23.2pp)이었으나, 3B에서는 둘 다 크게 향상 → 모델 크기가 전이 효과의 양상을 질적으로 변화시킴
SelfAware의 추가 6.3pp: TriviaQA의 형식 매칭 효과(+23.3pp) 위에 SelfAware 고유의 추론 전이(+6.3pp)가 존재할 가능성
용량에 따른 catastrophic forgetting 차이: TriviaQA adapter는 코드(MBPP+ 45.9%)를 보존하지만 SelfAware adapter는 코드를 완전 소실(0%) → 응답 스타일의 극단성이 forgetting 크기를 결정

1B vs 3B 교차 비교

차원	1B SelfAware	1B TriviaQA	3B SelfAware	3B TriviaQA
ExploreToM Δ	-0.8pp	+23.2pp	+29.6pp	+23.3pp
MBPP+	0%	8.1%	0%	45.9%
GSM8K Δ	-34.0pp	-50.3pp	-42.4pp	-64.3pp

→ TriviaQA의 ExploreToM 효과는 모델 크기에 무관(~+23pp), SelfAware의 효과는 크기 의존적(1B: -0.8pp → 3B: +29.6pp)

SC-TOM 연구 관점

3B에서 두 adapter 모두 ExploreToM을 향상시킨 것은, 형식 효과와 추론 전이가 공존함을 시사
TriviaQA의 일정한 +23pp는 “형식 매칭 baseline”으로 해석 가능
SelfAware의 추가 +6.3pp가 SC-ToM overlap의 증거일 수 있으나, 형식 효과를 완전히 통제하려면 응답 길이를 맞춘 비교가 필요
다음 단계: 8B에서 동일 실험, 응답 길이 통제 실험

부록

E. TriviaQA-v2 Cross-Eval 데이터 소스

ExploreToM: 751/1330 = 56.5% (baseline 441/1330 = 33.2%)
TriviaQA:   308/695  = 44.3% (baseline 324/695  = 46.6%)
ARC:        13/259   = 5.0%
BoolQ:      685/943  = 72.6%
CSQA:       154/974  = 15.8%
GSM8K:      81/747   = 10.8% (baseline 561/747  = 75.1%)
SelfAware:  20/337   = 5.9%  (baseline 76/337   = 22.6%)
HumanEval+: 5/16     = 31.3% (baseline 8/16     = 50.0%)
MBPP+:      17/37    = 45.9% (baseline 18/37    = 48.6%)

ExploreToM response: baseline 30.6w → TriviaQA 2.6w
ExploreToM flip: gained 389, lost 79, net +310
BoolQ: gen yes=476(50.5%), no=417(44.2%), other=50(5.3%)
BoolQ expected: yes=587(62.2%), no=356(37.8%)

analysis_3b_qlora_crosseval

3B QLoRA Cross-Evaluation 종합 분석

Part 1: SelfAware-v4 Cross-Evaluation 분석

1. 실험 개요

비교 조건

학습 설정

평가 태스크

2. Cross-Eval 정답률 비교

요약

3. 질적 분석

3.1 응답 길이 변화

3.2 SelfAware: IDK 탐지 능력 향상

3.3 ExploreToM: 극적인 성능 향상 (+29.6pp)

3.4 GSM8K: 심각한 성능 저하

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

4. 핵심 발견 요약

4.1 긍정적 결과

4.2 부정적 결과

4.3 해석: 1B vs 3B 비교

4.4 시사점

부록: 데이터 요약

A. ExploreToM Flip 분석

B. GSM8K IDK 거부율

C. 코드 생성 출력 형태 변화

D. SelfAware IDK 분류 상세

Part 2: TriviaQA-v2 Cross-Evaluation 분석

1. 실험 개요

비교 조건

학습 설정

2. Cross-Eval 정답률 비교

요약

3. ExploreToM +23.3pp 원인 분석

3.1 질문 유형별 비교

3.2 Flip 분석

3.3 응답 길이 변화

3.4 1B vs 3B 비교

3.5 SelfAware-v4 3B와의 비교

4. BoolQ 72.6% — 3B 용량의 yes/no 능력

5. 코드 생성 보존 — 3B 용량의 핵심 증거

6. 기타 태스크 분석

7. 2-Adapter 종합 비교 (Part 1–2 통합)

핵심 시사점

1B vs 3B 교차 비교

SC-TOM 연구 관점

부록

E. TriviaQA-v2 Cross-Eval 데이터 소스

그래프 뷰

목차

Properties

백링크