1B QLoRA Cross-Evaluation 종합 분석
모델: Llama 3.2 1B Instruct
방법: QLoRA (4-bit)
이 문서는 1B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.
- Part 1: SelfAware-v4 adapter (2026-03-03)
- Part 2: TriviaQA-v2 adapter (2026-03-05)
- Part 3: CommonsenseQA adapter (2026-03-05)
- Part 4: ARC adapter (2026-03-05)
Part 1: SelfAware-v4 Cross-Evaluation 분석
날짜: 2026-03-03
학습 데이터셋: SelfAware-v4
1. 실험 개요
SelfAware-v4 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
3개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline BF16 | Adapter 없는 BF16 기본 모델 | baseline-1b/20260303_153003/ |
| Baseline QLoRA | Adapter 없는 4-bit 양자화 모델 | baseline-1b/20260303_142557/ |
| SelfAware-v4 | SelfAware-v4로 fine-tuned QLoRA adapter | 20260303_163207/ |
평가 태스크
| 태스크 | 샘플 수 | 유형 |
|---|---|---|
| ExploreToM | 1,330 | Theory of Mind (belief tracking) |
| GSM8K | 747 | 수학 추론 |
| SelfAware | 337 | 자기인식 (답변 가능/불가능 판별) |
| TriviaQA | 695–700 | 상식 QA |
| HumanEvalPlus | 16 | 코드 생성 |
| MBPP+ | 37 | 코드 생성 |
2. Cross-Eval 정답률 비교
| 태스크 | Baseline BF16 | Baseline QLoRA | SelfAware-v4 | Δ (vs QLoRA) |
|---|---|---|---|---|
| ExploreToM | 43.5% | 44.4% | 43.6% | -0.8pp |
| GSM8K | 54.9% | 40.4% | 6.4% | -34.0pp |
| SelfAware | 17.2% | 19.9% | 26.1% | +6.2pp |
| TriviaQA | 40.9% | 31.3% | 32.8% | +1.5pp |
| HumanEvalPlus | 50.0% | 43.8% | 0.0% | -43.8pp |
| MBPP+ | 48.6% | 32.4% | 0.0% | -32.4pp |
요약
- 향상: SelfAware (+6.2pp), TriviaQA (+1.5pp)
- 유지: ExploreToM (-0.8pp, 실질적 변화 없음)
- 심각한 저하: GSM8K (-34.0pp), HumanEvalPlus (-43.8pp), MBPP+ (-32.4pp)
3. 질적 분석
3.1 응답 길이 변화
| 태스크 | Baseline BF16 | Baseline QLoRA | SelfAware-v4 | 변화 방향 |
|---|---|---|---|---|
| ExploreToM | 115.0 | 122.4 | 259.5 | +2.1x |
| GSM8K | 567.6 | 596.9 | 220.1 | -0.6x |
| SelfAware | 269.5 | 264.9 | 241.1 | -0.9x |
| TriviaQA | 141.1 | 139.7 | 213.9 | +1.5x |
| HumanEvalPlus | 1424.6 | 1503.1 | 206.7 | -0.9x |
| MBPP+ | 559.8 | 916.8 | 199.9 | -0.8x |
(단위: 평균 문자 수)
관찰: SelfAware-v4 adapter는 코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이는 경향이 있다.
3.2 SelfAware: IDK 탐지 능력 향상
SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.
| 지표 | Baseline BF16 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|---|
| IDK 기대 수 | 103/337 | 103/337 | 103/337 |
| IDK 생성 수 | 68 | 70 | 71 |
| IDK Precision | 52.9% | 54.3% | 85.9% |
| IDK Recall | 35.0% | 36.9% | 59.2% |
| IDK F1 | 42.1% | 43.9% | 70.1% |
| 답변 가능 정답 | 22/234 (9.4%) | 29/234 (12.4%) | 27/234 (11.5%) |
핵심 발견:
- IDK F1이 43.9% → **70.1%**로 +26.2pp 향상 — 학습 목표에 부합하는 강한 개선
- IDK Precision이 54.3% → **85.9%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
- IDK Recall도 36.9% → **59.2%**로 향상: 답할 수 없는 질문을 더 잘 거부
- 답변 가능한 질문의 정답률(11.5%)은 baseline과 유사 — IDK 학습이 답변 능력은 해치지 않음
3.3 ExploreToM: 안정적 유지, 내부 변동 존재
전체 정답률은 44.4% → 43.6%으로 거의 변화가 없지만, 내부적으로 상당한 flip이 발생했다.
Flip 분석 (vs Baseline QLoRA):
- QLoRA 오답 → V4 정답 (gained): 149건
- QLoRA 정답 → V4 오답 (lost): 160건
- 순 변화: -11건
질문 유형별 정답률:
| 질문 유형 | Baseline BF16 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|---|
| false_belief_action | 69.2% | 73.8% | 74.8% |
| initial_state | 71.4% | 65.7% | 68.6% |
| reality_state | 67.7% | 77.4% | 77.4% |
| other (complex) | 25.4% | 24.1% | 22.0% |
false_belief_action(행위 예측)에서 미세한 향상: 73.8% → 74.8%reality_state(현실 상태)는 QLoRA와 동일 유지other(복잡한 질문)에서 소폭 하락: 24.1% → 22.0%
Verbosity와 정답률 관계 (V4):
- 짧은 응답 (≤200 chars): 67.3% 정답률
- 긴 응답 (>200 chars): 42.6% 정답률
→ SelfAware adapter가 유도하는 장황한 설명은 ExploreToM에서 오히려 성능을 해칠 수 있다.
짧고 직접적인 응답이 belief tracking에 더 효과적.
3.4 GSM8K: 심각한 성능 저하
정답률이 40.4% → **6.4%**로 급락했다. 오답 699건의 분류:
| 오류 유형 | 건수 | 비율 |
|---|---|---|
| 잘못된 숫자 (풀이 시도했으나 오답) | 558 | 79.8% |
| IDK 스타일 거부 | 103 | 14.7% |
| 짧은/불완전한 풀이 (<150 chars) | 35 | 5.0% |
| 숫자 추출 실패 | 3 | 0.4% |
IDK 거부 예시:
Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This problem is about comparing quantities… without knowing Ben’s exact apple count, we cannot calculate…”
Q: “John wants to start a zoo. He has 15 snakes…”
A: “This problem involves multiple variables… it is impossible to calculate the total number of animals…”
→ SelfAware 학습이 수학 문제에까지 과도하게 전이되어, 풀 수 있는 문제도 “정보 부족”으로 거부하는 현상 발생.
나머지 80%의 오답은 풀이를 시도하지만 계산 과정에서 단계를 생략하거나 잘못된 연산을 수행한다.
응답 길이도 596.9 → 220.1 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.
3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실
HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.
V4 adapter가 생성하는 응답 예시:
HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It uses a simple loop…”
MBPP+: “This function takes a list of strings and a list of strings, and converts each string in the first list to a dictionary…”
→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1503.1 → 206.7 chars (HumanEvalPlus)로 87% 감소.
3.6 TriviaQA: 소폭 개선, 응답 스타일 변화
정답률 31.3% → 32.8%로 소폭 향상.
| 응답 길이 구간 | Baseline QLoRA | SelfAware-v4 |
|---|---|---|
| Short (<50 chars) | 49 | 0 |
| Medium (50-200) | 482 | 246 |
| Long (≥200) | 169 | 449 |
| 평균 길이 | 139.7 | 213.9 |
| 중앙값 | 109.0 | 211.0 |
- 짧은 직접 답변이 완전히 사라지고, 모든 응답이 50자 이상
- 200자 이상의 긴 응답이 169건 → 449건으로 2.7배 증가
- 모델이 “배경 설명 + 답변” 형식으로 응답하는 경향
예시 비교:
- BF16 (64 chars): “Michelle Obama married former US President Barack Obama in 1992.”
- V4 (194 chars): “Michelle LaVaughn Robinson married Nelson Mandela in 1993, following his presidency…” (오답, 장황한 설명이 오히려 hallucination 유발)
→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.
4. 핵심 발견 요약
4.1 긍정적 결과
- SelfAware IDK F1 +26.2pp (43.9% → 70.1%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선
- ExploreToM 안정성: ToM 관련 태스크에서 거의 정확도 손실 없음 (-0.8pp)
- TriviaQA 미세 개선 (+1.5pp): 상식 QA에서 약간의 긍정적 전이
4.2 부정적 결과
- 코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
- 수학 추론 급락 (-34.0pp): IDK 스타일 거부(14.7%)와 chain-of-thought 약화
- 응답 스타일 과잉 전이: “설명적 응답” 패턴이 모든 태스크에 전파
4.3 해석
SelfAware-v4 fine-tuning은 목표 태스크(자기인식)에서는 명확한 성과를 보이지만,
catastrophic forgetting이 심각하게 발생한다:
- 1B 모델의 제한된 파라미터 공간에서 QLoRA adapter가 SelfAware의 “설명적 응답” 패턴을 강하게 학습
- 이 패턴이 수학 추론과 코드 생성 태스크에 부정적으로 전이
- 특히 코드 생성은 완전히 다른 출력 형식을 요구하므로, 자연어 설명 패턴과의 충돌이 가장 심각
- ExploreToM과 TriviaQA는 동일한 자연어 QA 형식이므로, 상대적으로 영향이 적음
4.4 시사점
-
SC-TOM 연구 관점: SelfAware adapter가 ExploreToM(ToM 태스크) 정확도를 유지한다는 점은,
self-awareness와 theory-of-mind 간의 neural activation overlap 가설을 간접적으로 지지할 수 있다.
단, QA 형식의 유사성이 주된 원인일 수 있으므로 추가 분석이 필요. -
방법론적 교훈: 1B 모델에서의 QLoRA fine-tuning은 학습 태스크에 강하게 특화되어,
이질적 태스크(코드, 수학)에서 catastrophic forgetting이 뚜렷하게 나타난다.
더 큰 모델(3B, 8B)에서 동일 실험을 반복하여 모델 크기에 따른 전이 패턴을 비교할 필요가 있다.
부록: 데이터 요약
A. ExploreToM Flip 분석
SelfAware-v4 adapter는 ExploreToM에서 149건의 새로운 정답과 160건의 새로운 오답을 생성했다 (순 -11건).
이는 모델이 동일한 답을 유지하는 것이 아니라, 응답 방식 자체가 변화했음을 의미한다.
B. GSM8K IDK 거부율
747문제 중 103문제(13.8%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
이는 SelfAware 학습의 “불확실할 때 거부” 패턴이 과도하게 일반화된 결과.
C. 코드 생성 출력 형태 변화
Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1503→207 chars, MBPP+ 기준 917→200 chars로 급감.
Part 2: TriviaQA-v2 Cross-Evaluation 분석
날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2
1. 실험 개요
TriviaQA-v2 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
Baseline BF16과의 비교를 통해 TriviaQA 학습이 다른 태스크에 미치는 전이 효과를 분석하며,
특히 ExploreToM에서 관찰된 +23.2pp 상승의 원인을 심층적으로 규명한다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline BF16 | Adapter 없는 BF16 기본 모델 | baseline-1b/20260303_153003/ |
| TriviaQA-v2 | TriviaQA-v2로 fine-tuned QLoRA adapter | 20260305_102156/ |
2. Cross-Eval 정답률 비교
| Task | N | Baseline 1B | TriviaQA | Delta |
|---|---|---|---|---|
| ExploreToM | 1,330 | 43.5% | 66.7% | +23.2pp |
| BoolQ | 943 | — | 46.9% | — |
| TriviaQA | 695 | 40.9% | 29.4% | -11.5pp |
| GSM8K | 747 | 54.9% | 4.6% | -50.3pp |
| SelfAware | 337 | 17.2% | 4.2% | -13.0pp |
| CommonsenseQA | 974 | — | 10.7% | — |
| HumanEval+ | 16 | 50.0% | 12.5% | -37.5pp |
| MBPP+ | 37 | 48.6% | 8.1% | -40.5pp |
| ARC | 259 | — | 2.7% | — |
요약
- 극적 향상: ExploreToM (+23.2pp) — 단, artifact 가능성 높음 (아래 상세 분석)
- 심각한 저하: GSM8K (-50.3pp), MBPP+ (-40.5pp), HumanEval+ (-37.5pp)
- 자기 도메인 하락: TriviaQA 자체도 -11.5pp 하락 (1B 모델 한계)
- IDK 능력 제거: SelfAware -13.0pp
3. ExploreToM +23.2pp 원인 분석
이 섹션이 본 문서의 핵심이다. Baseline 43.5% → TriviaQA 66.7%의 원인을 질문 유형별, flip 수준에서 분석한다.
3.1 질문 유형별 정답률
| 질문 유형 | N | Baseline | TriviaQA | Delta |
|---|---|---|---|---|
| C. Object belief (yes/no) | 217 | 25.3% | 100.0% | +74.7pp |
| A. 2nd-order knowledge | 368 | 0.0% | 42.1% | +42.1pp |
| B. 1st-order knowledge | 177 | 75.1% | 76.8% | +1.7pp |
| D. Location belief | 402 | 72.6% | 72.9% | +0.2pp |
| E-H. Location tracking | 166 | ~56% | ~50% | ~-6pp |
핵심 관찰: 전체 +23.2pp의 거의 전부가 Type C와 Type A 두 유형에서 발생.
나머지 유형(B, D, E-H)은 사실상 변화 없거나 소폭 하락.
3.2 Flip 분석
- Gained (Baseline 오답 → TriviaQA 정답): 402건
- Lost (Baseline 정답 → TriviaQA 오답): 93건
- 순 변화: +309건
유형별 gain 분포:
- Type A (2nd-order knowledge): +155건 (gain의 38.6%)
- Type C (Object belief yes/no): +151건 (gain의 37.6%)
- 두 유형 합계: 전체 gain의 76.1%
3.3 원인 메커니즘
메커니즘 1: “No” 편향 교정 (Type C, +74.7pp)
Baseline 모델은 object belief 질문(“Does X think Y is in the bag?“)에 대해 **74.6%의 확률로 “No”**를 답변하는 체계적 편향을 보유한다. 그런데 ExploreToM의 이 유형 정답은 **100% “Yes”**이다.
TriviaQA 학습이 이 “No” 편향을 깨뜨리면서, 모든 object belief 질문에 “Yes” 계열 응답을 생성하게 되었고, 결과적으로 100% 정답을 달성했다.
이는 진정한 belief reasoning 향상이 아니라, 편향 교정에 의한 우연한 정답률 상승이다.
만약 ExploreToM의 Type C 정답이 “No”였다면, 동일한 편향 교정이 오히려 정답률을 떨어뜨렸을 것이다.
메커니즘 2: 형식 정합성 (Type A, +42.1pp)
Type A 질문은 “(knows about it / does not know about it)” 같은 제약된 선택지를 제공한다.
Baseline은 이 형식을 무시하고 긴 자유형 응답을 생성하여 exact match에서 실패한다 (정답률 0.0%).
TriviaQA 학습이 짧은 단답형 응답 형식을 모델에 주입하면서, 제약된 선택지 중 하나를 직접 출력하는 빈도가 증가했다. 이로 인해 42.1%까지 정답률이 상승했다.
이는 ToM 추론 능력의 향상이 아니라, 출력 형식이 평가 기준에 맞아 떨어진 결과이다.
메커니즘 3: 응답 길이 변화
| 지표 | Baseline | TriviaQA |
|---|---|---|
| 평균 응답 길이 (words) | 19.2 | 2.6 |
극단적 간결함이 Type A/C에서는 형식 매칭에 유리하게 작용했으나,
location tracking (E-H)에서는 “Satchel” vs “leather satchel” 같은 부분 매칭 실패로 소폭 하락을 야기했다.
3.4 결론
ExploreToM +23.2pp는 format alignment + bias correction artifact이며,
진정한 Theory of Mind 추론 능력의 향상을 반영하지 않는다.
근거:
- 향상이 두 질문 유형(C, A)에 집중되어 있고, 각각 명확한 비추론적 설명이 가능
- Type C의 100% 정답은 편향 방향과 정답 분포의 우연한 일치
- Type A의 향상은 응답 형식 변화에 의한 exact match 성공률 증가
- 추론이 실제로 필요한 location tracking (E-H)에서는 오히려 하락
4. 기타 태스크 분석
4.1 GSM8K: -50.3pp (54.9% → 4.6%)
SelfAware-v4 adapter의 -34.0pp보다 더 심각한 하락. Chain-of-thought가 완전히 소실되고, 수학 문제에도 단답형 출력을 생성한다.
예시:
Q: “A farmer has 100 chickens…”
A: “50” (풀이 과정 없음, 오답)
SelfAware adapter가 IDK 거부로 14.7%를 틀린 것과 달리, TriviaQA adapter는 아예 풀이를 시도하지 않고 짧은 숫자만 출력한다. TriviaQA의 “짧은 사실 응답” 형식이 수학 추론과 정면으로 충돌한다.
4.2 SelfAware: -13.0pp (17.2% → 4.2%)
IDK 행동이 완전히 제거되었다.
| 지표 | Baseline | TriviaQA |
|---|---|---|
| IDK Recall | ~35% | 0% |
| IDK 생성 수 | 68 | ~0 |
TriviaQA는 모든 질문에 답을 시도하도록 학습하므로, “모르겠다”고 거부하는 능력이 완전히 소실되었다. SelfAware-v4 adapter와 정반대 방향의 효과.
4.3 코드 생성: HumanEval+ -37.5pp, MBPP+ -40.5pp
SelfAware adapter (0.0%)보다는 약간 나은 결과(12.5%, 8.1%)를 보이지만, 여전히 심각한 하락.
함수 정의 대신 짧은 값이나 단편적 코드 조각을 출력하는 경향.
4.4 TriviaQA 자기 도메인: -11.5pp (40.9% → 29.4%)
자기 학습 도메인에서도 오히려 하락한 것은 1B 모델의 근본적 한계를 시사한다.
QLoRA fine-tuning이 TriviaQA 형식은 학습했지만, 실제 지식 검색 능력은 오히려 저하되었을 가능성이 있다.
5. SelfAware-v4 vs TriviaQA 비교 시사점
| 차원 | SelfAware-v4 | TriviaQA-v2 |
|---|---|---|
| 목표 태스크 성과 | IDK F1 +26pp (강한 향상) | -11.5pp (오히려 하락) |
| ExploreToM 전이 | -0.8pp (유지) | +23.2pp (artifact) |
| 코드 생성 | 0.0% (완전 소실) | 8~12% (거의 소실) |
| GSM8K | -34.0pp | -50.3pp |
| 응답 스타일 | 장황한 설명형 | 극단적 단답형 |
| IDK 능력 | 강화 (F1 +26pp) | 제거 (recall 0%) |
공통 패턴
- 1B QLoRA는 학습 형식에 극도로 민감: 두 adapter 모두 학습 데이터의 응답 형식(장문 설명 vs 단답)을 그대로 모든 태스크에 전파
- 형식 유사 태스크로만 긍정적 전이: SelfAware→ExploreToM(유지), TriviaQA→ExploreToM(형식 매칭으로 상승) 모두 자연어 QA 형식 내에서만 발생
- 이질적 태스크에서 catastrophic forgetting: 코드, 수학 등 형식이 다른 태스크에서는 공통적으로 심각한 성능 저하
- 1B 모델의 adapter 용량 한계: TriviaQA가 자기 도메인에서도 하락한 것은, 1B 모델의 adapter가 새로운 형식을 학습하면서 기존 지식을 덮어쓸 수밖에 없음을 시사
SC-TOM 연구 관점
- SelfAware adapter의 ExploreToM 유지(-0.8pp)는 형식 유사성 또는 SC-ToM overlap의 결과일 수 있으나, TriviaQA의 +23.2pp가 순수 artifact임이 밝혀졌으므로, 형식 효과를 통제한 후에도 SC-ToM 전이가 존재하는지 추가 검증이 필요하다.
- 더 큰 모델(3B, 8B)에서 동일 실험을 반복하여, 모델 용량이 충분할 때 형식 효과와 실질적 전이를 분리할 수 있는지 확인해야 한다.
부록: 데이터 소스
D. TriviaQA Cross-Eval Predictions
- TriviaQA adapter:
results/predictions/20260305_102156/ - Baseline BF16:
results/predictions/baseline-1b/20260303_153003/
Part 3: CommonsenseQA Cross-Evaluation 분석
날짜: 2026-03-05
학습 데이터셋: CommonsenseQA
1. 실험 개요
CommonsenseQA 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
TriviaQA adapter와 유사한 단답형 응답 패턴을 보이지만, 더 극단적인 수준의 응답 단축이 발생하여
모든 태스크에서 baseline 대비 하락하는 결과를 초래했다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline BF16 | Adapter 없는 BF16 기본 모델 | baseline-1b/20260303_153003/ |
| CommonsenseQA | CommonsenseQA로 fine-tuned QLoRA adapter | 20260305_105002/ |
2. Cross-Eval 정답률 비교
| Task | N | Baseline 1B | CSQA | Delta |
|---|---|---|---|---|
| ExploreToM | 1,330 | 43.5% | 28.9% | -14.6pp |
| TriviaQA | 695 | 40.9% | 20.0% | -20.9pp |
| CommonsenseQA | 974 | — | 17.5% | — |
| GSM8K | 747 | 54.9% | 2.3% | -52.6pp |
| SelfAware | 337 | 17.2% | 2.4% | -14.8pp |
| BoolQ | 943 | — | 3.0% | — |
| ARC | 259 | — | 2.7% | — |
| HumanEval+ | 16 | 50.0% | 0.0% | -50.0pp |
| MBPP+ | 37 | 48.6% | 0.0% | -48.6pp |
요약
- 전면 하락: Baseline 비교가 가능한 모든 태스크에서 하락
- 최악의 catastrophic forgetting: GSM8K(-52.6pp), HumanEval+(−50.0pp), MBPP+(−48.6pp)
- 자기 도메인: CommonsenseQA 자체 17.5% (baseline 없어 비교 불가)
- ExploreToM -14.6pp: TriviaQA adapter(+23.2pp)와 정반대 방향
3. ExploreToM -14.6pp 원인 분석
3.1 질문 유형별 정답률
| 질문 유형 | N | Baseline | CSQA | Delta |
|---|---|---|---|---|
| C. Object belief (yes/no) | 156 | 14.7% | 41.7% | +27.0pp |
| A. 2nd-order knowledge | 368 | 0.0% | 0.0% | 0.0pp |
| D+E. Location/other | 568 | 68.7% | 39.6% | -29.1pp |
| Other yes/no | 238 | 69.3% | 39.5% | -29.8pp |
핵심 관찰: Type C에서는 TriviaQA와 유사한 향상(+27.0pp)을 보이지만,
위치 추적 및 기타 yes/no 유형에서 각각 -29pp의 큰 하락이 발생하여 전체적으로 순 하락.
3.2 Flip 분석
- Gained (Baseline 오답 → CSQA 정답): 125건
- Lost (Baseline 정답 → CSQA 오답): 319건
- 순 변화: -194건
TriviaQA adapter(순 +309건)와 정반대. Lost가 Gained의 2.6배로, 기존에 맞던 문제를 대거 틀리게 되었다.
3.3 과도한 단축(Extreme Truncation) 메커니즘
이 섹션이 본 Part의 핵심 분석이다.
응답 길이 비교
| 지표 | Baseline | CSQA |
|---|---|---|
| 평균 응답 길이 (words) | 19.2 | 1.5 |
TriviaQA adapter(2.6 words)보다도 더 극단적인 단축이 발생했다.
부분 매칭 실패
과도한 단축으로 인해 333건의 부분 매칭 실패 발생 (전체 오답의 35.2%):
| 정답 | CSQA 응답 | 매칭 |
|---|---|---|
| cardboard box | box | ✗ |
| travel agency’s meeting room | meeting room | ✗ |
| knows about it | knows | ✗ |
특히 Type A (2nd-order knowledge)에서 “knows about it”의 정답을 “knows”로 단축하는 패턴이 204/368건(55.4%)에서 발생.
이 204건은 사실상 올바른 추론을 수행했으나 형식 불일치로 오답 처리된 것이다.
Substring matching 적용 시
| 평가 방식 | 정답률 |
|---|---|
| Exact match (기본) | 28.9% |
| Substring match | 53.9% |
| Delta | +25.0pp |
Substring matching을 적용하면 정답률이 25pp 상승하여, 오답의 상당 부분이 순수한 형식 불일치임을 확인할 수 있다.
3.4 TriviaQA adapter와의 비교
| 차원 | TriviaQA | CommonsenseQA |
|---|---|---|
| 평균 응답 길이 | 2.6 words | 1.5 words |
| ExploreToM Delta | +23.2pp | -14.6pp |
| Type A 정답률 | 42.1% | 0.0% |
| Type C 정답률 | 100.0% | 41.7% |
| 부분 매칭 실패 | 소수 | 333건 (35.2%) |
같은 “단답형” 전략이지만, 극단적 수준(1.5 words)에서는 역효과가 발생한다:
- TriviaQA(2.6 words): 적절히 짧아서 Type A/C에서 형식 매칭 성공
- CommonsenseQA(1.5 words): 너무 짧아서 오히려 정보 손실 → exact match 실패
3.5 yes/no 질문 응답 패턴
| 응답 | Baseline | CSQA |
|---|---|---|
| yes | 208 | 155 |
| no | 186 | 81 |
| other | — | 158 |
CSQA adapter는 yes/no 대신 “true”(119건), “believe” 등 비표준 응답을 대량 생성한다.
“true”는 의미적으로 “yes”와 동일하지만 exact match에서 매칭되지 않아,
Type C에서도 TriviaQA(100.0%)에 비해 제한적 향상(41.7%)에 그쳤다.
4. 기타 태스크 분석
4.1 GSM8K: -52.6pp (54.9% → 2.3%)
모든 adapter 중 최악의 하락. 단답형 숫자만 출력하며 풀이 과정이 완전히 소실되었다.
예시:
Q: “A farmer sells 20 eggs…”
A: “5” (단일 숫자만 출력)
SelfAware adapter(-34.0pp)는 IDK 거부로 14.7%를 틀렸고, TriviaQA(-50.3pp)는 짧은 숫자만 출력했으나,
CommonsenseQA는 TriviaQA보다도 더 극단적인 단축으로 최악의 결과를 기록했다.
4.2 TriviaQA: -20.9pp (40.9% → 20.0%)
1-2 단어 응답이 사실 검색에 부적합하다.
예시:
Q: “Who was the 41st president?”
A: “george bush” (대소문자, 직함 없음)
A: “farting” (무관한 단어)
4.3 SelfAware: -14.8pp (17.2% → 2.4%)
IDK 행동이 완전히 제거되었다. 답할 수 없는 질문에도 무관한 단어를 출력한다.
예시:
Q: “What is the cure for cancer?”
A: “melanoma”
A: “bankruptcy”
TriviaQA adapter(-13.0pp)와 유사한 패턴이지만, 출력 품질이 더 낮다.
4.4 BoolQ: 3.0%
yes/no 질문인데도 무관한 명사를 출력한다.
예시:
Q: “Is Harry Potter a book series?” (기대: yes)
A: “fiction”
A: “united states”
4.5 코드 생성: HumanEval+ 0.0%, MBPP+ 0.0%
감탄부호(”!“) 또는 2단어 출력(“convert list”) 등 코드와 무관한 응답을 생성.
SelfAware adapter(0.0%)와 동일한 완전 소실이지만, 원인이 다르다:
- SelfAware: 자연어 설명으로 대체 (~200 chars)
- CommonsenseQA: 극단적 단축으로 의미 있는 출력 자체가 불가 (~5 chars)
5. 3-Adapter 종합 비교 (Part 1–3 통합)
| 차원 | SelfAware-v4 | TriviaQA-v2 | CommonsenseQA |
|---|---|---|---|
| 응답 스타일 | 장황한 설명 (~250 chars) | 짧은 단답 (2.6 words) | 극단적 단답 (1.5 words) |
| 목표 태스크 | IDK F1 +26pp (강한 향상) | -11.5pp (하락) | 17.5% (baseline 없음) |
| ExploreToM | -0.8pp (유지) | +23.2pp (artifact) | -14.6pp (과잉 단축) |
| GSM8K | -34.0pp | -50.3pp | -52.6pp |
| 코드 생성 | 0.0% | 8~12% | 0.0% |
| SelfAware | +6.2pp | -13.0pp | -14.8pp |
| IDK 능력 | 강화 (F1 +26pp) | 제거 (recall 0%) | 제거 |
핵심 시사점: 단답 정도의 “골디락스 존”
세 adapter의 응답 스타일이 연속선을 형성하며, ExploreToM 성능과의 관계에서 비선형 패턴이 드러난다:
-
SelfAware 수준의 장황함 (~20 words / ~250 chars):
- ExploreToM 유지(-0.8pp), 코드/수학에서 catastrophic forgetting
- IDK 거부가 수학 문제까지 과잉 전이
-
TriviaQA 수준의 간결함 (2-3 words):
- ExploreToM에서 형식 매칭으로 +23.2pp (artifact)
- Type A/C에서 exact match 성공
-
CommonsenseQA 수준의 과도한 간결함 (1-2 words):
- ExploreToM에서 오히려 -14.6pp (정보 손실)
- 부분 매칭 실패 333건, “knows” ≠ “knows about it”
→ 단답 형식이 QA 평가에 유리하게 작용하는 **최적 범위(2-3 words)**가 존재하며,
이보다 짧아지면 정보 손실로 역효과가 발생한다.
공통 패턴 (Part 1-2 발견의 확장)
- 1B QLoRA의 형식 과잉 학습: 세 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
- 이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 세 adapter 모두 심각한 하락
- 형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전
- 1B 모델의 근본적 한계: 세 adapter 모두 자기 도메인에서조차 약한 성능, adapter 용량 부족이 근본 원인
SC-TOM 연구 관점
- CommonsenseQA adapter의 전면 하락은 형식 효과의 파괴적 극단을 보여주며, 1B 모델에서는 학습 형식이 내용보다 더 강하게 전이됨을 재확인
- SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실은, 형식 효과를 통제한 후에도 SC-ToM overlap 가능성이 남아있음을 시사 — 단, 3B/8B 실험에서의 재현이 필요
- 다음 단계: 3B/8B 모델에서 동일 3-adapter 비교를 반복하여 모델 용량이 충분할 때에도 동일 패턴이 나타나는지 확인
부록: 데이터 소스
E. CommonsenseQA Cross-Eval Predictions
- CommonsenseQA adapter:
results/predictions/20260305_105002/ - Baseline BF16:
results/predictions/baseline-1b/20260303_153003/
Part 4: ARC Cross-Evaluation 분석
날짜: 2026-03-05
학습 데이터셋: ARC (AI2 Reasoning Challenge)
1. 실험 개요
ARC 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
ARC는 과학 상식 4지선다 문제로, 학습 시 정답 텍스트를 자유 형식으로 출력하도록 훈련되었다.
비교 조건
| 조건 | 설명 | Prediction 경로 |
|---|---|---|
| Baseline BF16 | Adapter 없는 BF16 기본 모델 | baseline-1b/20260303_153003/ |
| ARC | ARC로 fine-tuned QLoRA adapter | 20260305_112220/ |
평가 태스크
| 태스크 | 샘플 수 | 유형 |
|---|---|---|
| ExploreToM | 1,330 | Theory of Mind (belief tracking) |
| TriviaQA | 695 | 상식 QA |
| ARC | 259 | 과학 추론 (4지선다) |
| BoolQ | 943 | Yes/No QA |
| CommonsenseQA | 974 | 상식 추론 (5지선다) |
| GSM8K | 747 | 수학 추론 |
| SelfAware | 337 | 자기인식 (IDK 판별) |
| HumanEval+ | 16 | 코드 생성 |
| MBPP+ | 37 | 코드 생성 |
2. Cross-Eval 정답률 비교
| Task | N | Baseline 1B | ARC | Delta |
|---|---|---|---|---|
| ExploreToM | 1,330 | 43.5% | 38.0% | -5.4pp |
| TriviaQA | 695 | 40.9% | 21.2% | -19.7pp |
| ARC | 259 | — | 4.6% | — |
| BoolQ | 943 | — | 54.6% | — |
| CommonsenseQA | 974 | — | 11.5% | — |
| GSM8K | 747 | 54.9% | 5.5% | -49.4pp |
| SelfAware | 337 | 17.2% | 3.0% | -14.2pp |
| HumanEval+ | 16 | 50.0% | 12.5% | -37.5pp |
| MBPP+ | 37 | 48.6% | 13.5% | -35.1pp |
특이점:
- BoolQ 54.6%: 4개 adapter 중 유일하게 50% 이상 달성
- 코드 생성 12–13%: CSQA(0%)보다 높으며, 간단한 one-liner가 성공
- 자기 도메인 ARC 4.6%: 4개 adapter 중 최저 자기 도메인 정답률
3. ExploreToM -5.4pp 원인 분석
질문 유형별 비교
| 질문 유형 | N | Baseline | ARC | Delta |
|---|---|---|---|---|
| A. 2nd-order meta-belief | 368 | 0.0% | 5.2% | +5.2pp |
| C/Z. yes/no belief | 217 | 25.3% | 28.6% | +3.2pp |
| C_1st_order_knows | 177 | 75.1% | 45.2% | -29.9pp |
| E. 2nd-order location | 402 | 72.6% | 64.9% | -7.7pp |
| G/H. Location tracking | 166 | ~58% | ~51% | ~-7pp |
- Type A에서 +5.2pp: baseline이 0%인 유형에서 소폭 향상. 단답형이 meta-belief 형식에 부분 매칭
- Type C_1st_order_knows -29.9pp: “knows about it” 패턴 매칭 실패가 주 원인
- Type E -7.7pp: 위치 추론에서 간결한 답변이 context 정보 부족을 유발
Flip 분석
Gained 123건 vs Lost 195건 → 순 -72건
응답 길이 효과
Baseline 19.2 words → ARC 3.5 words
ARC adapter의 응답 길이(3.5 words)는 CSQA(1.5 words)보다 길어서, partial match 실패가 상대적으로 적다:
- ARC: 부분 매칭 불일치 47건
- CSQA: 부분 매칭 불일치 333건
Substring matching 적용 시: 38.0% → 41.6% (+3.5pp)
- CSQA의 +25pp 개선에 비해 소폭 — ARC는 이미 충분히 긴 답변으로 매칭 성공률이 높음
”No” 편향
yes 기대 질문에서 69%가 “no” 출력 → TriviaQA의 “Yes” 편향과 정반대
이로 인해:
- Type C (yes/no belief)에서 TriviaQA(100%)와 달리 제한적 향상(+3.2pp)에 그침
- BoolQ에서 false-negative 증가 (True 정답에 “no” 출력)
4-adapter 응답 길이 스펙트럼
SelfAware(19.2w) ≈ Baseline(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
↑ ExploreToM -5.4pp (중간)
ARC는 TriviaQA와 CSQA 사이에 위치하며, ExploreToM 성능도 그 중간(-5.4pp)을 보여 응답 길이-성능의 비선형 관계를 보강한다.
4. BoolQ 54.6% — 유일한 고성능 태스크
원인: yes-bias + dataset label imbalance artifact
| 응답 유형 | ARC adapter | BoolQ 정답 분포 |
|---|---|---|
| yes | 54.7% | True: 62.2% |
| no | 28.2% | False: 37.8% |
| other | 17.1% | — |
- “always yes” 전략이면 62.2%를 달성 가능 → ARC의 54.6%는 random 이상이지만 trivial baseline 이하
- 17.1%의 “other” 응답은 ARC 스타일 명사구 (“in Scotland”, “from a foundation” 등)
- 결론: ARC adapter의 형식적 yes/no 출력 능력이 유일하게 유효한 태스크. 과학적 추론이 아닌 형식 매칭의 산물
다른 adapter와의 비교
| Adapter | BoolQ |
|---|---|
| ARC | 54.6% |
| TriviaQA | 46.9% |
| CSQA | 3.0% |
ARC가 가장 높은 이유: yes/no + 명사구라는 응답 형식이 BoolQ와 가장 호환적
5. 자기 도메인 ARC 4.6% — 역설적 실패
학습한 태스크에서 가장 낮은 정답률을 기록한 역설적 결과.
원인: 학습 데이터의 응답 형식과 cross-eval 평가 형식의 불일치
- 선택지 중 정답 텍스트를 정확히 출력해야 하지만, 자유형 과학 지식 답변을 생성
- 예시:
- 생성: “strong” → 정답: “strong force”
- 생성: “decomposers” → 정답: “bacteria”
- 생성: “the moon” → 정답: “Moon”
| Adapter | 자기 도메인 정답률 |
|---|---|
| SelfAware-v4 | IDK F1 +26pp |
| TriviaQA-v2 | -11.5pp |
| CommonsenseQA | 17.5% |
| ARC | 4.6% (최저) |
ARC의 과학 개념 응답은 정답과 의미적으로 유사하지만, exact match에서 실패하는 비율이 극히 높다.
6. 기타 태스크 분석
GSM8K -49.4pp
- 단답형 숫자(“$40”, “16”) 출력, chain-of-thought 완전 소실
- 모든 adapter에서 공통된 catastrophic forgetting (-34~-53pp)
TriviaQA -19.7pp
- 1–2 단어 factual 응답, 주제적으로 그럴듯하지만 오답
- 예: “Ford Escort” (생성) vs “Ford Fiesta” (정답)
- ARC 학습의 짧은 과학 사실 응답 패턴이 factual QA에 부분 전이
SelfAware -14.2pp
- IDK 행동 0건 (103개 IDK 기대 질문 중)
- 답변 불가능한 질문에도 확신 있는 오답을 생성
- SelfAware-v4 adapter 이외의 모든 adapter에서 공통된 패턴
코드 생성 (HumanEval+ 12.5%, MBPP+ 13.5%)
- CSQA(0%)보다 높음 — 간단한 one-liner가 패턴 완성으로 성공
- 예:
return sum(arr),return len(s)등 단순 함수 - ARC의 3.5 words가 CSQA의 1.5 words보다 코드 구문 유지에 유리
7. 4-Adapter 종합 비교 (Part 1–4 통합)
Part 3의 3-adapter 비교를 ARC를 포함한 4-adapter로 확장한다.
정량 비교
| 차원 | SelfAware-v4 | TriviaQA-v2 | CommonsenseQA | ARC |
|---|---|---|---|---|
| 응답 스타일 | 장황한 설명 (~250 chars) | 짧은 단답 (2.6w) | 극단적 단답 (1.5w) | 단답 (3.5w) |
| 목표 태스크 | IDK F1 +26pp (강한 향상) | -11.5pp (하락) | 17.5% (baseline 없음) | 4.6% (최저) |
| ExploreToM | -0.8pp (유지) | +23.2pp (artifact) | -14.6pp (과잉 단축) | -5.4pp (중간) |
| BoolQ | — | 46.9% | 3.0% | 54.6% |
| GSM8K | -34.0pp | -50.3pp | -52.6pp | -49.4pp |
| 코드 생성 | 0.0% | 8~12% | 0.0% | 12~13% |
| SelfAware | +6.2pp | -13.0pp | -14.8pp | -14.2pp |
| IDK 능력 | 강화 (F1 +26pp) | 제거 (recall 0%) | 제거 | 제거 |
골디락스 존 업데이트
ARC(3.5w)의 추가로 응답 길이-ExploreToM 성능의 관계가 더 정밀해졌다:
응답 길이: SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM: -0.8pp → -5.4pp → +23.2pp → -14.6pp
- 19.2w → 3.5w: 길이가 크게 줄어도 ExploreToM 하락은 -5.4pp로 온건
- 3.5w → 2.6w: 불과 0.9w 차이에서 +23.2pp로 반전 (TriviaQA의 형식 매칭 artifact)
- 2.6w → 1.5w: 1.1w 추가 감소에서 -14.6pp로 급락 (정보 손실)
→ 최적 범위는 2–4 words이며, ARC가 이 범위의 상한에서 온건한 하락을 보여 비선형 관계를 더욱 명확히 한다.
새로운 발견: “No” 편향 vs “Yes” 편향
4개 adapter의 yes/no 편향이 ExploreToM Type C 성능에 직접 영향:
| Adapter | yes/no 편향 | Type C (yes/no belief) | 메커니즘 |
|---|---|---|---|
| TriviaQA | Yes 편향 | 100% | 정답이 yes이므로 우연 정답 |
| ARC | No 편향 | 28.6% (+3.2pp) | no 출력이 yes 기대 질문에서 실패 |
| CSQA | ”true”/“believe” 등 비표준 | — | 양쪽 모두 매칭 실패 |
| SelfAware | 장황한 설명 | 25.3% (-0pp) | baseline과 동일 |
→ yes/no 편향의 방향이 특정 질문 유형에서 극적인 성능 차이를 만들며, 이는 추론 능력이 아닌 형식 효과의 산물이다.
공통 패턴 (Part 1–4 확장)
- 1B QLoRA의 형식 과잉 학습: 4개 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
- 이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 4개 adapter 모두 심각한 하락
- 형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전, ARC(3.5w)가 중간 지점을 채움
- 자기 도메인 성능의 편차: SelfAware만 강한 향상, 나머지는 하락~미미 (ARC 4.6%가 최저)
- yes/no 편향의 전이: 학습 데이터의 응답 분포가 yes/no 태스크(BoolQ, Type C)에 직접 전이
SC-TOM 연구 관점
- ARC adapter는 응답 길이 스펙트럼에서 TriviaQA와 CSQA 사이를 채우며, 형식 효과의 연속성을 강화
- 4개 adapter 모두에서 SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실이 더욱 뚜렷해짐
- 형식 통제 후에도 남는 SC-ToM overlap 가능성: 3B/8B에서의 재현이 핵심 다음 단계
- ARC의 “No” 편향과 TriviaQA의 “Yes” 편향 비교는 형식 효과의 방향성까지도 결과를 좌우함을 보여줌
부록: 데이터 소스
F. ARC Cross-Eval Predictions
- ARC adapter:
results/predictions/20260305_112220/ - Baseline BF16:
results/predictions/baseline-1b/20260303_153003/