3B QLoRA Cross-Evaluation 종합 분석
모델: Llama 3.2 3B Instruct
방법: QLoRA (4-bit)
이 문서는 3B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.
- Part 1: SelfAware-v4 adapter (2026-03-03)
- Part 2: TriviaQA-v2 adapter (2026-03-05)
Part 1: SelfAware-v4 Cross-Evaluation 분석
날짜: 2026-03-03
학습 데이터셋: SelfAware-v4
1. 실험 개요
SelfAware-v4 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
2개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.
참고: 3B 모델은 BF16 baseline이 없으므로 1B 분석(3-조건)과 달리 2-조건 비교이다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline QLoRA | Adapter 없는 4-bit 양자화 모델 | baseline-3b/20260303_154903/ |
| SelfAware-v4 | SelfAware-v4로 fine-tuned QLoRA adapter | 20260303_170445/ |
학습 설정
| 하이퍼파라미터 | 값 |
|---|---|
| Base model | mlx-community/Llama-3.2-3B-Instruct-4bit |
| LoRA rank | 8 |
| LoRA scale | 1.0 |
| LoRA dropout | 0.05 |
| LoRA layers | all (-1) |
| Batch size | 2 (× grad_accum 8 = effective 16) |
| Epochs | 1 |
| Learning rate | 2e-4 (cosine, warmup 5%) |
| Max seq length | 1024 |
평가 태스크
| 태스크 | 샘플 수 | 유형 |
|---|---|---|
| ExploreToM | 1,330 | Theory of Mind (belief tracking) |
| GSM8K | 747 | 수학 추론 |
| SelfAware | 337 | 자기인식 (답변 가능/불가능 판별) |
| TriviaQA | 695 | 상식 QA |
| HumanEvalPlus | 16 | 코드 생성 |
| MBPP+ | 37 | 코드 생성 |
2. Cross-Eval 정답률 비교
| 태스크 | Baseline QLoRA | SelfAware-v4 | Δ |
|---|---|---|---|
| ExploreToM | 33.2% (441/1330) | 62.8% (835/1330) | +29.6pp |
| GSM8K | 75.1% (561/747) | 32.7% (244/747) | -42.4pp |
| SelfAware | 22.6% (76/337) | 30.3% (102/337) | +7.7pp |
| TriviaQA | 46.6% (324/695) | 48.9% (340/695) | +2.3pp |
| HumanEvalPlus | 50.0% (8/16) | 0.0% (0/16) | -50.0pp |
| MBPP+ | 48.6% (18/37) | 0.0% (0/37) | -48.6pp |
요약
- 극적 향상: ExploreToM (+29.6pp) — 1B에서는 관찰되지 않은 현상
- 향상: SelfAware (+7.7pp), TriviaQA (+2.3pp)
- 심각한 저하: GSM8K (-42.4pp), HumanEvalPlus (-50.0pp), MBPP+ (-48.6pp)
3. 질적 분석
3.1 응답 길이 변화
| 태스크 | Baseline QLoRA | SelfAware-v4 | 변화 (V4/Base) |
|---|---|---|---|
| ExploreToM | 187.3 | 243.0 | ×1.3 |
| GSM8K | 592.6 | 212.6 | ×0.4 |
| SelfAware | 264.3 | 235.9 | ×0.9 |
| TriviaQA | 134.0 | 215.6 | ×1.6 |
| HumanEvalPlus | 1329.2 | 219.3 | ×0.2 |
| MBPP+ | 933.9 | 214.9 | ×0.2 |
(단위: 평균 문자 수)
관찰: SelfAware-v4 adapter는 모든 태스크의 응답 길이를 ~200–240자 범위로 수렴시키는 강한 경향을 보인다.
코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이며, 수학 태스크에서는 chain-of-thought가 크게 축소된다.
3.2 SelfAware: IDK 탐지 능력 향상
SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.
| 지표 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|
| IDK 기대 수 | 103/337 | 103/337 |
| IDK 생성 수 | 88 | 80 |
| IDK Precision | 55.7% | 88.8% |
| IDK Recall | 47.6% | 68.9% |
| IDK F1 | 51.3% | 77.6% |
| 답변 가능 정답 | 27/234 (11.5%) | 31/234 (13.2%) |
핵심 발견:
- IDK F1이 51.3% → **77.6%**로 +26.3pp 향상 — 학습 목표에 부합하는 강한 개선
- IDK Precision이 55.7% → **88.8%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
- IDK Recall도 47.6% → **68.9%**로 향상: 답할 수 없는 질문을 더 잘 거부
- IDK 생성 수가 88→80으로 오히려 감소: 무분별한 IDK 남발이 아닌, 정밀한 판별이 이루어짐
- 답변 가능한 질문의 정답률(13.2%)은 baseline(11.5%)과 유사하거나 약간 개선 — IDK 학습이 답변 능력은 해치지 않음
1B 대비 비교: 1B에서도 IDK F1이 43.9%→70.1% (+26.2pp)로 유사한 폭의 개선을 보였다.
3B의 절대 F1(77.6%)이 1B(70.1%)보다 높으며, 특히 Precision(88.8% vs 85.9%)에서 우위를 보인다.
3.3 ExploreToM: 극적인 성능 향상 (+29.6pp)
전체 정답률이 33.2% → **62.8%**로 +29.6pp 급등했다. 1B에서는 -0.8pp로 거의 변화가 없었던 것과 대조적이며, 3B 분석에서 가장 주목할 만한 결과이다.
Flip 분석 (vs Baseline QLoRA):
- QLoRA 오답 → V4 정답 (gained): 434건
- QLoRA 정답 → V4 오답 (lost): 40건
- 양쪽 모두 정답: 401건
- 양쪽 모두 오답: 455건
- 순 변화: +394건
→ 1B에서는 gained 149 vs lost 160 = -11 (순 손실)이었으나, 3B에서는 gained 434 vs lost 40 = **+394 (순 이득)**로 압도적 차이.
Verbosity와 정답률 관계 (V4):
- 짧은 응답 (≤200 chars): 83/123 = 67.5% 정답률
- 긴 응답 (>200 chars): 752/1207 = 62.3% 정답률
→ 짧은 응답이 약간 더 높은 정답률을 보이나, 긴 응답에서도 62.3%로 baseline(33.2%)보다 대폭 향상.
1B에서는 장황한 설명이 ExploreToM 성능을 해칠 가능성이 있었지만, 3B에서는 응답 길이와 관계없이 전반적 성능 향상.
해석: 3B 모델은 1B보다 충분한 파라미터 용량을 갖추고 있어,
SelfAware 학습의 “질문을 신중하게 분석하는” 패턴이 ToM 태스크에 긍정적으로 전이된 것으로 보인다.
1B에서는 제한된 용량 때문에 이 전이 효과가 나타나지 않았을 가능성이 높다.
3.4 GSM8K: 심각한 성능 저하
정답률이 75.1% → **32.7%**로 -42.4pp 급락했다. 오답 503건의 분류:
| 오류 유형 | 건수 | 비율 |
|---|---|---|
| 잘못된 숫자 (풀이 시도했으나 오답) | 445 | 88.5% |
| IDK 스타일 거부 | 29 | 5.8% |
| 짧은/불완전한 풀이 (<150 chars) | 19 | 3.8% |
| 숫자 추출 실패 | 10 | 2.0% |
IDK 거부 예시:
Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This is a problem that requires a step-by-step logical approach… I’m afraid I don’t kno…”
Q: “The chicken crossed the road to get to the other side twice…”
A: “This is a humorous and fictional scenario with no basis in reality… cannot be answered with factual information…”
Q: “Micah, Dean, and Jake are all training for a marathon…”
A: “This is a complex problem involving ratios… it is impossible to calculate a definitive total time.”
1B 대비 비교: 1B에서는 IDK 거부율이 14.7% (103/699건)이었으나, 3B에서는 **5.8% (29/503건)**으로 크게 낮다.
3B 모델은 SelfAware 학습에도 불구하고 수학 문제를 IDK로 거부하는 비율이 낮지만,
대신 **풀이를 시도하되 오답을 내는 비율(88.5%)**이 매우 높다.
응답 길이도 592.6 → 212.6 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.
3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실
HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.
V4 adapter가 생성하는 응답 예시:
HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It iterates through the string, incrementing a counter for each opening bracket and decrementing…”
MBPP+: “This function takes three lists as input: a list of identifiers, a list of locations, and a list of values. It constructs a nested dictionary where each identifier maps to a dictionary containing the…”
→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1329→219 chars (HumanEvalPlus), 934→215 chars (MBPP+)로 80% 이상 감소.
1B와 동일한 패턴: 1B에서도 코드 생성이 0%로 완전 소실되었으며, 자연어 설명 생성 패턴이 동일하게 나타남.
3.6 TriviaQA: 소폭 개선, 응답 스타일 변화
정답률 46.6% → 48.9%로 +2.3pp 소폭 향상.
| 응답 길이 구간 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|
| Short (<50 chars) | 44 | 0 |
| Medium (50-200) | 496 | 213 |
| Long (≥200) | 155 | 482 |
| 평균 길이 | 134.0 | 215.6 |
| 중앙값 | 103.0 | 214.0 |
- 짧은 직접 답변(44건)이 완전히 사라지고, 모든 응답이 50자 이상
- 200자 이상의 긴 응답이 155건 → 482건으로 3.1배 증가
- 모델이 “배경 설명 + 답변” 형식으로 응답하는 경향
예시 비교:
Base 정답 → V4 오답 (hallucination):
- Base (54 chars): “The Irish game you are referring to is called Hurling.”
- V4 (188 chars): “The sliothar is the traditional Irish game played with a stick having a broad oval blade and a ball. It is one of the oldest known Irish sports…” (오답, 장황한 설명이 hallucination 유발)
Base 정답 → V4 오답 (오정보):
- Base (79 chars): “The couter on a suit of armor is typically designed to protect the elbow joint.”
- V4 (206 chars): “On a suit of armor, the couter was a piece designed to protect the shoulders and upper back…” (오답)
Base 오답 → V4 정답 (개선):
- Base (110 chars): “I am unable to verify which office Nicolas Breakspear was the first Englishman to hold…”
- V4 (206 chars): “Nicolas Breakspear, later known as Pope Adrian IV, was the first Englishman to hold the office of Pope…” (정답, 배경 설명 추가가 도움)
→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.
4. 핵심 발견 요약
4.1 긍정적 결과
- ExploreToM 극적 향상 (+29.6pp): 33.2% → 62.8% — 3B 분석의 가장 주목할 발견.
1B에서는 관찰되지 않았던 현상으로, 모델 크기가 충분할 때 SelfAware 학습이 ToM 태스크에 긍정적으로 전이될 수 있음을 시사. - SelfAware IDK F1 +26.3pp (51.3% → 77.6%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선.
특히 Precision 88.8%는 높은 판별 정확도를 보여줌. - TriviaQA 소폭 개선 (+2.3pp): 상식 QA에서 약간의 긍정적 전이
4.2 부정적 결과
- 코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
- 수학 추론 급락 (-42.4pp): chain-of-thought 축소와 IDK 스타일 거부(5.8%)
- 응답 스타일 과잉 전이: 모든 태스크에서 응답 길이가 ~200-240자 범위로 수렴
4.3 해석: 1B vs 3B 비교
| 관점 | 1B | 3B |
|---|---|---|
| ExploreToM | -0.8pp (변화 없음) | +29.6pp (극적 향상) |
| SelfAware IDK F1 | +26.2pp (→70.1%) | +26.3pp (→77.6%) |
| GSM8K | -34.0pp (→6.4%) | -42.4pp (→32.7%) |
| GSM8K IDK 거부율 | 14.7% | 5.8% |
| 코드 생성 | 0% (동일) | 0% (동일) |
| TriviaQA | +1.5pp | +2.3pp |
핵심 차이 — ExploreToM 전이 효과:
3B에서 ExploreToM이 극적으로 향상된 것은 SC-TOM 연구에서 가장 중요한 발견이다.
가능한 설명:
- 용량 가설: 3B 모델은 SelfAware의 “신중한 분석” 패턴을 학습하면서도
belief tracking에 필요한 기존 능력을 유지할 수 있는 충분한 파라미터 공간을 보유 - 전이 메커니즘: SelfAware 학습이 유도하는 “질문의 전제 확인 → 답변 가능성 판단” 패턴이
ExploreToM의 “등장인물이 무엇을 알고 있는가?” 추론과 구조적으로 유사 - 1B의 한계: 1B에서는 제한된 용량 때문에 이 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨
GSM8K 저하 패턴 차이:
3B에서 IDK 거부율(5.8%)이 1B(14.7%)보다 낮은 것은,
3B가 SelfAware 학습의 IDK 패턴을 수학 문제에까지 과도하게 일반화하는 정도가 덜하다는 것을 의미한다.
그러나 절대 성능 하락(-42.4pp)은 1B(-34.0pp)보다 크며,
이는 chain-of-thought 축소(592.6→212.6 chars)에 의한 추론 능력 약화가 주된 원인이다.
4.4 시사점
-
SC-TOM 연구 관점: SelfAware adapter가 3B에서 ExploreToM 정확도를 +29.6pp 향상시킨 것은,
self-awareness와 theory-of-mind 간의 능력 전이 가설을 강하게 지지한다.
1B와 3B의 차이가 모델 크기에 따른 것인지 확인하기 위해 8B 실험이 필요하다. -
방법론적 교훈: 모델 크기에 따라 fine-tuning의 전이 패턴이 질적으로 달라진다.
1B에서는 단순히 학습 태스크에 특화(catastrophic forgetting 우세)되지만,
3B에서는 관련 태스크(ExploreToM)로의 긍정적 전이가 가능하면서도 이질적 태스크(코드, 수학)에서는 여전히 forgetting이 심각하다. -
향후 실험: 8B 모델에서 동일 실험을 수행하여,
ExploreToM 전이 효과가 모델 크기에 비례하여 증가하는지,
GSM8K/코드 생성 forgetting이 완화되는지 확인해야 한다.
부록: 데이터 요약
A. ExploreToM Flip 분석
SelfAware-v4 adapter는 ExploreToM에서 434건의 새로운 정답과 40건의 새로운 오답을 생성했다 (순 +394건).
이는 1B(순 -11건)와 극적으로 다른 패턴으로, adapter가 3B에서 belief tracking 능력을 실질적으로 강화했음을 의미한다.
B. GSM8K IDK 거부율
747문제 중 29문제(3.9%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
1B(13.8%)보다 크게 낮으며, 3B에서는 IDK 패턴의 과잉 일반화가 상대적으로 억제된다.
그러나 풀이 시도 후 오답을 내는 비율(88.5%)이 높아, chain-of-thought 축소에 의한 추론 약화가 주된 문제이다.
C. 코드 생성 출력 형태 변화
Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1329→219 chars, MBPP+ 기준 934→215 chars로 급감.
1B와 동일한 catastrophic forgetting 패턴이 3B에서도 재현됨.
D. SelfAware IDK 분류 상세
| 분류 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|
| True Positive (정확한 IDK) | 49 | 71 |
| False Positive (오판 IDK) | 39 | 9 |
| False Negative (놓친 IDK) | 54 | 32 |
| True Negative (정확한 답변) | 195 | 225 |
Part 2: TriviaQA-v2 Cross-Evaluation 분석
날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2
1. 실험 개요
TriviaQA-v2 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
9개 태스크에 대해 Baseline QLoRA와 비교하고, TriviaQA adapter의 전이 효과를 질적으로 분석한다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline QLoRA | Adapter 없는 4-bit 양자화 모델 | baseline-3b/20260303_154903/ |
| TriviaQA-v2 | TriviaQA-v2로 fine-tuned QLoRA adapter | 20260305_114137/ |
학습 설정
| 하이퍼파라미터 | 값 |
|---|---|
| Base model | mlx-community/Llama-3.2-3B-Instruct-4bit |
| LoRA rank | 8 |
| LoRA scale | 1.0 |
| LoRA dropout | 0.05 |
| LoRA layers | all (-1) |
| Batch size | 2 (× grad_accum 8 = effective 16) |
| Epochs | 1 |
| Learning rate | 2e-4 (cosine, warmup 5%) |
| Max seq length | 1024 |
2. Cross-Eval 정답률 비교
| Task | N | Baseline 3B | TriviaQA | Delta |
|---|---|---|---|---|
| ExploreToM | 1,330 | 33.2% | 56.5% (751) | +23.3pp |
| TriviaQA | 695 | 46.6% | 44.3% (308) | -2.3pp |
| ARC | 259 | — | 5.0% (13) | — |
| BoolQ | 943 | — | 72.6% (685) | — |
| CommonsenseQA | 974 | — | 15.8% (154) | — |
| GSM8K | 747 | 75.1% | 10.8% (81) | -64.3pp |
| SelfAware | 337 | 22.6% | 5.9% (20) | -16.6pp |
| HumanEval+ | 16 | 50.0% | 31.3% (5) | -18.8pp |
| MBPP+ | 37 | 48.6% | 45.9% (17) | -2.7pp |
요약
- ExploreToM +23.3pp — 1B(+23.2pp)와 거의 동일한 delta
- BoolQ 72.6% — 모든 adapter 중 최고
- MBPP+ 45.9% — baseline 대비 거의 보존 (1B에서는 8.1%로 급락)
- GSM8K -64.3pp — 1B(-50.3pp)보다 더 큰 절대 하락
3. ExploreToM +23.3pp 원인 분석
3.1 질문 유형별 비교
| 질문 유형 | N | Baseline | TriviaQA | Delta |
|---|---|---|---|---|
| C_1st_order_knows | 169 | 0.0% | 45.6% | +45.6pp |
| C_Z_yesno | 394 | 35.0% | 35.8% | +0.8pp |
| E_G_H_location | 207 | 51.2% | 72.0% | +20.8pp |
| other | 560 | 35.2% | 68.6% | +33.4pp |
3.2 Flip 분석
- QLoRA 오답 → TriviaQA 정답 (gained): 389건
- QLoRA 정답 → TriviaQA 오답 (lost): 79건
- 순 변화: +310건
SelfAware-v4는 Gained 434 vs Lost 40 = +394로, TriviaQA보다 net gain이 크고 lost가 훨씬 적다.
3.3 응답 길이 변화
응답 길이: Baseline 30.6 words → TriviaQA 2.6 words
- 1B TriviaQA도 2.6 words로 동일한 단축 패턴
- 극단적 단답형으로 전환되면서 형식 매칭이 발생
3.4 1B vs 3B 비교
- 1B TriviaQA: 43.5% → 66.7% (+23.2pp) — 형식 매칭 artifact
- 3B TriviaQA: 33.2% → 56.5% (+23.3pp) — 동일 크기의 향상
- delta가 거의 동일 → 형식 효과는 모델 크기와 무관하게 일정한 크기(~+23pp)로 작용
3.5 SelfAware-v4 3B와의 비교
- SelfAware-v4: +29.6pp (gained 434, lost 40) — 실질적 추론 향상
- TriviaQA: +23.3pp (gained 389, lost 79) — 형식 매칭 효과
- 차이 6.3pp가 형식을 넘어선 SelfAware의 고유 전이 효과일 수 있음
4. BoolQ 72.6% — 3B 용량의 yes/no 능력
- 생성 분포: yes 50.5%, no 44.2%, other 5.3%
- 정답 분포: yes 62.2%, no 37.8%
- Expected yes 정답률: 70.0%, Expected no 정답률: 77.0%
- 1B TriviaQA의 BoolQ(46.9%) 대비 +25.7pp — 3B가 yes/no 판별을 훨씬 잘 수행
- other 5.3%만 → 3B는 yes/no 형식 준수도 높음
5. 코드 생성 보존 — 3B 용량의 핵심 증거
| Task | Baseline 3B | TriviaQA 3B | Delta | 1B TriviaQA (참고) |
|---|---|---|---|---|
| HumanEval+ | 50.0% | 31.3% | -18.8pp | 12.5% |
| MBPP+ | 48.6% | 45.9% | -2.7pp | 8.1% |
- MBPP+ 45.9%는 baseline(48.6%)과 거의 동일 — catastrophic forgetting 미발생
- 1B에서는 MBPP+ 8.1%로 급락 → 3B의 추가 용량이 코드 생성 능력을 보존
- SelfAware-v4 3B는 코드 0% (완전 소실) → 장황한 응답 스타일이 코드에 더 치명적
6. 기타 태스크 분석
- GSM8K -64.3pp: 1B(-50.3pp)보다 더 큰 하락. 3B baseline이 75.1%로 높아 떨어질 여지가 컸음. avg 1.3 words로 chain-of-thought 완전 소실
- TriviaQA 자기 도메인 -2.3pp: 1B(-11.5pp)보다 훨씬 양호. 3B는 단답 형식 학습 후에도 factual 지식 유지
- SelfAware -16.6pp: IDK 행동 1건 (103 중). 모든 비-SelfAware adapter의 공통 패턴
- ARC 5.0%, CommonsenseQA 15.8%: 단답형 cross-domain 성능
7. 2-Adapter 종합 비교 (Part 1–2 통합)
| 차원 | SelfAware-v4 | TriviaQA-v2 |
|---|---|---|
| 응답 스타일 | 장황 (~240 chars, 38.3w) | 극단 단답 (2.6w) |
| 목표 태스크 | IDK F1 +26.3pp | -2.3pp |
| ExploreToM | +29.6pp | +23.3pp |
| BoolQ | — | 72.6% |
| GSM8K | -42.4pp | -64.3pp |
| 코드 생성 | 0% / 0% | 31.3% / 45.9% |
| SelfAware IDK | +26.3pp | -16.6pp |
핵심 시사점
- 두 adapter 모두 ExploreToM 향상: 1B에서는 SelfAware만 유지(-0.8pp), TriviaQA만 향상(+23.2pp)이었으나, 3B에서는 둘 다 크게 향상 → 모델 크기가 전이 효과의 양상을 질적으로 변화시킴
- SelfAware의 추가 6.3pp: TriviaQA의 형식 매칭 효과(+23.3pp) 위에 SelfAware 고유의 추론 전이(+6.3pp)가 존재할 가능성
- 용량에 따른 catastrophic forgetting 차이: TriviaQA adapter는 코드(MBPP+ 45.9%)를 보존하지만 SelfAware adapter는 코드를 완전 소실(0%) → 응답 스타일의 극단성이 forgetting 크기를 결정
1B vs 3B 교차 비교
| 차원 | 1B SelfAware | 1B TriviaQA | 3B SelfAware | 3B TriviaQA |
|---|---|---|---|---|
| ExploreToM Δ | -0.8pp | +23.2pp | +29.6pp | +23.3pp |
| MBPP+ | 0% | 8.1% | 0% | 45.9% |
| GSM8K Δ | -34.0pp | -50.3pp | -42.4pp | -64.3pp |
→ TriviaQA의 ExploreToM 효과는 모델 크기에 무관(~+23pp), SelfAware의 효과는 크기 의존적(1B: -0.8pp → 3B: +29.6pp)
SC-TOM 연구 관점
- 3B에서 두 adapter 모두 ExploreToM을 향상시킨 것은, 형식 효과와 추론 전이가 공존함을 시사
- TriviaQA의 일정한 +23pp는 “형식 매칭 baseline”으로 해석 가능
- SelfAware의 추가 +6.3pp가 SC-ToM overlap의 증거일 수 있으나, 형식 효과를 완전히 통제하려면 응답 길이를 맞춘 비교가 필요
- 다음 단계: 8B에서 동일 실험, 응답 길이 통제 실험
부록
E. TriviaQA-v2 Cross-Eval 데이터 소스
ExploreToM: 751/1330 = 56.5% (baseline 441/1330 = 33.2%)
TriviaQA: 308/695 = 44.3% (baseline 324/695 = 46.6%)
ARC: 13/259 = 5.0%
BoolQ: 685/943 = 72.6%
CSQA: 154/974 = 15.8%
GSM8K: 81/747 = 10.8% (baseline 561/747 = 75.1%)
SelfAware: 20/337 = 5.9% (baseline 76/337 = 22.6%)
HumanEval+: 5/16 = 31.3% (baseline 8/16 = 50.0%)
MBPP+: 17/37 = 45.9% (baseline 18/37 = 48.6%)
ExploreToM response: baseline 30.6w → TriviaQA 2.6w
ExploreToM flip: gained 389, lost 79, net +310
BoolQ: gen yes=476(50.5%), no=417(44.2%), other=50(5.3%)
BoolQ expected: yes=587(62.2%), no=356(37.8%)