1B QLoRA Cross-Evaluation 종합 분석

모델: Llama 3.2 1B Instruct
방법: QLoRA (4-bit)

이 문서는 1B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.

  • Part 1: SelfAware-v4 adapter (2026-03-03)
  • Part 2: TriviaQA-v2 adapter (2026-03-05)
  • Part 3: CommonsenseQA adapter (2026-03-05)
  • Part 4: ARC adapter (2026-03-05)

Part 1: SelfAware-v4 Cross-Evaluation 분석

날짜: 2026-03-03
학습 데이터셋: SelfAware-v4


1. 실험 개요

SelfAware-v4 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
3개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.

비교 조건

조건설명Prediction 경로
Baseline BF16Adapter 없는 BF16 기본 모델baseline-1b/20260303_153003/
Baseline QLoRAAdapter 없는 4-bit 양자화 모델baseline-1b/20260303_142557/
SelfAware-v4SelfAware-v4로 fine-tuned QLoRA adapter20260303_163207/

평가 태스크

태스크샘플 수유형
ExploreToM1,330Theory of Mind (belief tracking)
GSM8K747수학 추론
SelfAware337자기인식 (답변 가능/불가능 판별)
TriviaQA695–700상식 QA
HumanEvalPlus16코드 생성
MBPP+37코드 생성

2. Cross-Eval 정답률 비교

태스크Baseline BF16Baseline QLoRASelfAware-v4Δ (vs QLoRA)
ExploreToM43.5%44.4%43.6%-0.8pp
GSM8K54.9%40.4%6.4%-34.0pp
SelfAware17.2%19.9%26.1%+6.2pp
TriviaQA40.9%31.3%32.8%+1.5pp
HumanEvalPlus50.0%43.8%0.0%-43.8pp
MBPP+48.6%32.4%0.0%-32.4pp

요약

  • 향상: SelfAware (+6.2pp), TriviaQA (+1.5pp)
  • 유지: ExploreToM (-0.8pp, 실질적 변화 없음)
  • 심각한 저하: GSM8K (-34.0pp), HumanEvalPlus (-43.8pp), MBPP+ (-32.4pp)

3. 질적 분석

3.1 응답 길이 변화

태스크Baseline BF16Baseline QLoRASelfAware-v4변화 방향
ExploreToM115.0122.4259.5+2.1x
GSM8K567.6596.9220.1-0.6x
SelfAware269.5264.9241.1-0.9x
TriviaQA141.1139.7213.9+1.5x
HumanEvalPlus1424.61503.1206.7-0.9x
MBPP+559.8916.8199.9-0.8x

(단위: 평균 문자 수)

관찰: SelfAware-v4 adapter는 코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이는 경향이 있다.

3.2 SelfAware: IDK 탐지 능력 향상

SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.

지표Baseline BF16Baseline QLoRASelfAware-v4
IDK 기대 수103/337103/337103/337
IDK 생성 수687071
IDK Precision52.9%54.3%85.9%
IDK Recall35.0%36.9%59.2%
IDK F142.1%43.9%70.1%
답변 가능 정답22/234 (9.4%)29/234 (12.4%)27/234 (11.5%)

핵심 발견:

  • IDK F1이 43.9% → **70.1%**로 +26.2pp 향상 — 학습 목표에 부합하는 강한 개선
  • IDK Precision이 54.3% → **85.9%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
  • IDK Recall도 36.9% → **59.2%**로 향상: 답할 수 없는 질문을 더 잘 거부
  • 답변 가능한 질문의 정답률(11.5%)은 baseline과 유사 — IDK 학습이 답변 능력은 해치지 않음

3.3 ExploreToM: 안정적 유지, 내부 변동 존재

전체 정답률은 44.4% → 43.6%으로 거의 변화가 없지만, 내부적으로 상당한 flip이 발생했다.

Flip 분석 (vs Baseline QLoRA):

  • QLoRA 오답 → V4 정답 (gained): 149건
  • QLoRA 정답 → V4 오답 (lost): 160건
  • 순 변화: -11건

질문 유형별 정답률:

질문 유형Baseline BF16Baseline QLoRASelfAware-v4
false_belief_action69.2%73.8%74.8%
initial_state71.4%65.7%68.6%
reality_state67.7%77.4%77.4%
other (complex)25.4%24.1%22.0%
  • false_belief_action (행위 예측)에서 미세한 향상: 73.8% → 74.8%
  • reality_state (현실 상태)는 QLoRA와 동일 유지
  • other (복잡한 질문)에서 소폭 하락: 24.1% → 22.0%

Verbosity와 정답률 관계 (V4):

  • 짧은 응답 (≤200 chars): 67.3% 정답률
  • 긴 응답 (>200 chars): 42.6% 정답률

→ SelfAware adapter가 유도하는 장황한 설명은 ExploreToM에서 오히려 성능을 해칠 수 있다.
짧고 직접적인 응답이 belief tracking에 더 효과적.

3.4 GSM8K: 심각한 성능 저하

정답률이 40.4% → **6.4%**로 급락했다. 오답 699건의 분류:

오류 유형건수비율
잘못된 숫자 (풀이 시도했으나 오답)55879.8%
IDK 스타일 거부10314.7%
짧은/불완전한 풀이 (<150 chars)355.0%
숫자 추출 실패30.4%

IDK 거부 예시:

Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This problem is about comparing quantities… without knowing Ben’s exact apple count, we cannot calculate…

Q: “John wants to start a zoo. He has 15 snakes…”
A: “This problem involves multiple variables… it is impossible to calculate the total number of animals…

→ SelfAware 학습이 수학 문제에까지 과도하게 전이되어, 풀 수 있는 문제도 “정보 부족”으로 거부하는 현상 발생.
나머지 80%의 오답은 풀이를 시도하지만 계산 과정에서 단계를 생략하거나 잘못된 연산을 수행한다.
응답 길이도 596.9 → 220.1 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.

V4 adapter가 생성하는 응답 예시:

HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It uses a simple loop…”

MBPP+: “This function takes a list of strings and a list of strings, and converts each string in the first list to a dictionary…”

→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1503.1 → 206.7 chars (HumanEvalPlus)로 87% 감소.

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

정답률 31.3% → 32.8%로 소폭 향상.

응답 길이 구간Baseline QLoRASelfAware-v4
Short (<50 chars)490
Medium (50-200)482246
Long (≥200)169449
평균 길이139.7213.9
중앙값109.0211.0
  • 짧은 직접 답변이 완전히 사라지고, 모든 응답이 50자 이상
  • 200자 이상의 긴 응답이 169건 → 449건으로 2.7배 증가
  • 모델이 “배경 설명 + 답변” 형식으로 응답하는 경향

예시 비교:

  • BF16 (64 chars): “Michelle Obama married former US President Barack Obama in 1992.”
  • V4 (194 chars): “Michelle LaVaughn Robinson married Nelson Mandela in 1993, following his presidency…” (오답, 장황한 설명이 오히려 hallucination 유발)

→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.


4. 핵심 발견 요약

4.1 긍정적 결과

  1. SelfAware IDK F1 +26.2pp (43.9% → 70.1%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선
  2. ExploreToM 안정성: ToM 관련 태스크에서 거의 정확도 손실 없음 (-0.8pp)
  3. TriviaQA 미세 개선 (+1.5pp): 상식 QA에서 약간의 긍정적 전이

4.2 부정적 결과

  1. 코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
  2. 수학 추론 급락 (-34.0pp): IDK 스타일 거부(14.7%)와 chain-of-thought 약화
  3. 응답 스타일 과잉 전이: “설명적 응답” 패턴이 모든 태스크에 전파

4.3 해석

SelfAware-v4 fine-tuning은 목표 태스크(자기인식)에서는 명확한 성과를 보이지만,
catastrophic forgetting이 심각하게 발생한다:

  • 1B 모델의 제한된 파라미터 공간에서 QLoRA adapter가 SelfAware의 “설명적 응답” 패턴을 강하게 학습
  • 이 패턴이 수학 추론과 코드 생성 태스크에 부정적으로 전이
  • 특히 코드 생성은 완전히 다른 출력 형식을 요구하므로, 자연어 설명 패턴과의 충돌이 가장 심각
  • ExploreToM과 TriviaQA는 동일한 자연어 QA 형식이므로, 상대적으로 영향이 적음

4.4 시사점

  1. SC-TOM 연구 관점: SelfAware adapter가 ExploreToM(ToM 태스크) 정확도를 유지한다는 점은,
    self-awareness와 theory-of-mind 간의 neural activation overlap 가설을 간접적으로 지지할 수 있다.
    단, QA 형식의 유사성이 주된 원인일 수 있으므로 추가 분석이 필요.

  2. 방법론적 교훈: 1B 모델에서의 QLoRA fine-tuning은 학습 태스크에 강하게 특화되어,
    이질적 태스크(코드, 수학)에서 catastrophic forgetting이 뚜렷하게 나타난다.
    더 큰 모델(3B, 8B)에서 동일 실험을 반복하여 모델 크기에 따른 전이 패턴을 비교할 필요가 있다.


부록: 데이터 요약

A. ExploreToM Flip 분석

SelfAware-v4 adapter는 ExploreToM에서 149건의 새로운 정답과 160건의 새로운 오답을 생성했다 (순 -11건).
이는 모델이 동일한 답을 유지하는 것이 아니라, 응답 방식 자체가 변화했음을 의미한다.

B. GSM8K IDK 거부율

747문제 중 103문제(13.8%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
이는 SelfAware 학습의 “불확실할 때 거부” 패턴이 과도하게 일반화된 결과.

C. 코드 생성 출력 형태 변화

Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1503→207 chars, MBPP+ 기준 917→200 chars로 급감.



Part 2: TriviaQA-v2 Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2


1. 실험 개요

TriviaQA-v2 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
Baseline BF16과의 비교를 통해 TriviaQA 학습이 다른 태스크에 미치는 전이 효과를 분석하며,
특히 ExploreToM에서 관찰된 +23.2pp 상승의 원인을 심층적으로 규명한다.

비교 조건

조건설명Prediction 경로
Baseline BF16Adapter 없는 BF16 기본 모델baseline-1b/20260303_153003/
TriviaQA-v2TriviaQA-v2로 fine-tuned QLoRA adapter20260305_102156/

2. Cross-Eval 정답률 비교

TaskNBaseline 1BTriviaQADelta
ExploreToM1,33043.5%66.7%+23.2pp
BoolQ94346.9%
TriviaQA69540.9%29.4%-11.5pp
GSM8K74754.9%4.6%-50.3pp
SelfAware33717.2%4.2%-13.0pp
CommonsenseQA97410.7%
HumanEval+1650.0%12.5%-37.5pp
MBPP+3748.6%8.1%-40.5pp
ARC2592.7%

요약

  • 극적 향상: ExploreToM (+23.2pp) — 단, artifact 가능성 높음 (아래 상세 분석)
  • 심각한 저하: GSM8K (-50.3pp), MBPP+ (-40.5pp), HumanEval+ (-37.5pp)
  • 자기 도메인 하락: TriviaQA 자체도 -11.5pp 하락 (1B 모델 한계)
  • IDK 능력 제거: SelfAware -13.0pp

3. ExploreToM +23.2pp 원인 분석

이 섹션이 본 문서의 핵심이다. Baseline 43.5% → TriviaQA 66.7%의 원인을 질문 유형별, flip 수준에서 분석한다.

3.1 질문 유형별 정답률

질문 유형NBaselineTriviaQADelta
C. Object belief (yes/no)21725.3%100.0%+74.7pp
A. 2nd-order knowledge3680.0%42.1%+42.1pp
B. 1st-order knowledge17775.1%76.8%+1.7pp
D. Location belief40272.6%72.9%+0.2pp
E-H. Location tracking166~56%~50%~-6pp

핵심 관찰: 전체 +23.2pp의 거의 전부가 Type C와 Type A 두 유형에서 발생.
나머지 유형(B, D, E-H)은 사실상 변화 없거나 소폭 하락.

3.2 Flip 분석

  • Gained (Baseline 오답 → TriviaQA 정답): 402건
  • Lost (Baseline 정답 → TriviaQA 오답): 93건
  • 순 변화: +309건

유형별 gain 분포:

  • Type A (2nd-order knowledge): +155건 (gain의 38.6%)
  • Type C (Object belief yes/no): +151건 (gain의 37.6%)
  • 두 유형 합계: 전체 gain의 76.1%

3.3 원인 메커니즘

메커니즘 1: “No” 편향 교정 (Type C, +74.7pp)

Baseline 모델은 object belief 질문(“Does X think Y is in the bag?“)에 대해 **74.6%의 확률로 “No”**를 답변하는 체계적 편향을 보유한다. 그런데 ExploreToM의 이 유형 정답은 **100% “Yes”**이다.

TriviaQA 학습이 이 “No” 편향을 깨뜨리면서, 모든 object belief 질문에 “Yes” 계열 응답을 생성하게 되었고, 결과적으로 100% 정답을 달성했다.

이는 진정한 belief reasoning 향상이 아니라, 편향 교정에 의한 우연한 정답률 상승이다.
만약 ExploreToM의 Type C 정답이 “No”였다면, 동일한 편향 교정이 오히려 정답률을 떨어뜨렸을 것이다.

메커니즘 2: 형식 정합성 (Type A, +42.1pp)

Type A 질문은 “(knows about it / does not know about it)” 같은 제약된 선택지를 제공한다.
Baseline은 이 형식을 무시하고 긴 자유형 응답을 생성하여 exact match에서 실패한다 (정답률 0.0%).

TriviaQA 학습이 짧은 단답형 응답 형식을 모델에 주입하면서, 제약된 선택지 중 하나를 직접 출력하는 빈도가 증가했다. 이로 인해 42.1%까지 정답률이 상승했다.

이는 ToM 추론 능력의 향상이 아니라, 출력 형식이 평가 기준에 맞아 떨어진 결과이다.

메커니즘 3: 응답 길이 변화

지표BaselineTriviaQA
평균 응답 길이 (words)19.22.6

극단적 간결함이 Type A/C에서는 형식 매칭에 유리하게 작용했으나,
location tracking (E-H)에서는 “Satchel” vs “leather satchel” 같은 부분 매칭 실패로 소폭 하락을 야기했다.

3.4 결론

ExploreToM +23.2pp는 format alignment + bias correction artifact이며,
진정한 Theory of Mind 추론 능력의 향상을 반영하지 않는다.

근거:

  1. 향상이 두 질문 유형(C, A)에 집중되어 있고, 각각 명확한 비추론적 설명이 가능
  2. Type C의 100% 정답은 편향 방향과 정답 분포의 우연한 일치
  3. Type A의 향상은 응답 형식 변화에 의한 exact match 성공률 증가
  4. 추론이 실제로 필요한 location tracking (E-H)에서는 오히려 하락

4. 기타 태스크 분석

4.1 GSM8K: -50.3pp (54.9% → 4.6%)

SelfAware-v4 adapter의 -34.0pp보다 더 심각한 하락. Chain-of-thought가 완전히 소실되고, 수학 문제에도 단답형 출력을 생성한다.

예시:

Q: “A farmer has 100 chickens…”
A: “50” (풀이 과정 없음, 오답)

SelfAware adapter가 IDK 거부로 14.7%를 틀린 것과 달리, TriviaQA adapter는 아예 풀이를 시도하지 않고 짧은 숫자만 출력한다. TriviaQA의 “짧은 사실 응답” 형식이 수학 추론과 정면으로 충돌한다.

4.2 SelfAware: -13.0pp (17.2% → 4.2%)

IDK 행동이 완전히 제거되었다.

지표BaselineTriviaQA
IDK Recall~35%0%
IDK 생성 수68~0

TriviaQA는 모든 질문에 답을 시도하도록 학습하므로, “모르겠다”고 거부하는 능력이 완전히 소실되었다. SelfAware-v4 adapter와 정반대 방향의 효과.

4.3 코드 생성: HumanEval+ -37.5pp, MBPP+ -40.5pp

SelfAware adapter (0.0%)보다는 약간 나은 결과(12.5%, 8.1%)를 보이지만, 여전히 심각한 하락.
함수 정의 대신 짧은 값이나 단편적 코드 조각을 출력하는 경향.

4.4 TriviaQA 자기 도메인: -11.5pp (40.9% → 29.4%)

자기 학습 도메인에서도 오히려 하락한 것은 1B 모델의 근본적 한계를 시사한다.
QLoRA fine-tuning이 TriviaQA 형식은 학습했지만, 실제 지식 검색 능력은 오히려 저하되었을 가능성이 있다.


5. SelfAware-v4 vs TriviaQA 비교 시사점

차원SelfAware-v4TriviaQA-v2
목표 태스크 성과IDK F1 +26pp (강한 향상)-11.5pp (오히려 하락)
ExploreToM 전이-0.8pp (유지)+23.2pp (artifact)
코드 생성0.0% (완전 소실)8~12% (거의 소실)
GSM8K-34.0pp-50.3pp
응답 스타일장황한 설명형극단적 단답형
IDK 능력강화 (F1 +26pp)제거 (recall 0%)

공통 패턴

  1. 1B QLoRA는 학습 형식에 극도로 민감: 두 adapter 모두 학습 데이터의 응답 형식(장문 설명 vs 단답)을 그대로 모든 태스크에 전파
  2. 형식 유사 태스크로만 긍정적 전이: SelfAware→ExploreToM(유지), TriviaQA→ExploreToM(형식 매칭으로 상승) 모두 자연어 QA 형식 내에서만 발생
  3. 이질적 태스크에서 catastrophic forgetting: 코드, 수학 등 형식이 다른 태스크에서는 공통적으로 심각한 성능 저하
  4. 1B 모델의 adapter 용량 한계: TriviaQA가 자기 도메인에서도 하락한 것은, 1B 모델의 adapter가 새로운 형식을 학습하면서 기존 지식을 덮어쓸 수밖에 없음을 시사

SC-TOM 연구 관점

  • SelfAware adapter의 ExploreToM 유지(-0.8pp)는 형식 유사성 또는 SC-ToM overlap의 결과일 수 있으나, TriviaQA의 +23.2pp가 순수 artifact임이 밝혀졌으므로, 형식 효과를 통제한 후에도 SC-ToM 전이가 존재하는지 추가 검증이 필요하다.
  • 더 큰 모델(3B, 8B)에서 동일 실험을 반복하여, 모델 용량이 충분할 때 형식 효과와 실질적 전이를 분리할 수 있는지 확인해야 한다.

부록: 데이터 소스

D. TriviaQA Cross-Eval Predictions

  • TriviaQA adapter: results/predictions/20260305_102156/
  • Baseline BF16: results/predictions/baseline-1b/20260303_153003/


Part 3: CommonsenseQA Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: CommonsenseQA


1. 실험 개요

CommonsenseQA 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
TriviaQA adapter와 유사한 단답형 응답 패턴을 보이지만, 더 극단적인 수준의 응답 단축이 발생하여
모든 태스크에서 baseline 대비 하락하는 결과를 초래했다.

비교 조건

조건설명Prediction 경로
Baseline BF16Adapter 없는 BF16 기본 모델baseline-1b/20260303_153003/
CommonsenseQACommonsenseQA로 fine-tuned QLoRA adapter20260305_105002/

2. Cross-Eval 정답률 비교

TaskNBaseline 1BCSQADelta
ExploreToM1,33043.5%28.9%-14.6pp
TriviaQA69540.9%20.0%-20.9pp
CommonsenseQA97417.5%
GSM8K74754.9%2.3%-52.6pp
SelfAware33717.2%2.4%-14.8pp
BoolQ9433.0%
ARC2592.7%
HumanEval+1650.0%0.0%-50.0pp
MBPP+3748.6%0.0%-48.6pp

요약

  • 전면 하락: Baseline 비교가 가능한 모든 태스크에서 하락
  • 최악의 catastrophic forgetting: GSM8K(-52.6pp), HumanEval+(−50.0pp), MBPP+(−48.6pp)
  • 자기 도메인: CommonsenseQA 자체 17.5% (baseline 없어 비교 불가)
  • ExploreToM -14.6pp: TriviaQA adapter(+23.2pp)와 정반대 방향

3. ExploreToM -14.6pp 원인 분석

3.1 질문 유형별 정답률

질문 유형NBaselineCSQADelta
C. Object belief (yes/no)15614.7%41.7%+27.0pp
A. 2nd-order knowledge3680.0%0.0%0.0pp
D+E. Location/other56868.7%39.6%-29.1pp
Other yes/no23869.3%39.5%-29.8pp

핵심 관찰: Type C에서는 TriviaQA와 유사한 향상(+27.0pp)을 보이지만,
위치 추적 및 기타 yes/no 유형에서 각각 -29pp의 큰 하락이 발생하여 전체적으로 순 하락.

3.2 Flip 분석

  • Gained (Baseline 오답 → CSQA 정답): 125건
  • Lost (Baseline 정답 → CSQA 오답): 319건
  • 순 변화: -194건

TriviaQA adapter(순 +309건)와 정반대. Lost가 Gained의 2.6배로, 기존에 맞던 문제를 대거 틀리게 되었다.

3.3 과도한 단축(Extreme Truncation) 메커니즘

이 섹션이 본 Part의 핵심 분석이다.

응답 길이 비교

지표BaselineCSQA
평균 응답 길이 (words)19.21.5

TriviaQA adapter(2.6 words)보다도 더 극단적인 단축이 발생했다.

부분 매칭 실패

과도한 단축으로 인해 333건의 부분 매칭 실패 발생 (전체 오답의 35.2%):

정답CSQA 응답매칭
cardboard boxbox
travel agency’s meeting roommeeting room
knows about itknows

특히 Type A (2nd-order knowledge)에서 “knows about it”의 정답을 “knows”로 단축하는 패턴이 204/368건(55.4%)에서 발생.
이 204건은 사실상 올바른 추론을 수행했으나 형식 불일치로 오답 처리된 것이다.

Substring matching 적용 시

평가 방식정답률
Exact match (기본)28.9%
Substring match53.9%
Delta+25.0pp

Substring matching을 적용하면 정답률이 25pp 상승하여, 오답의 상당 부분이 순수한 형식 불일치임을 확인할 수 있다.

3.4 TriviaQA adapter와의 비교

차원TriviaQACommonsenseQA
평균 응답 길이2.6 words1.5 words
ExploreToM Delta+23.2pp-14.6pp
Type A 정답률42.1%0.0%
Type C 정답률100.0%41.7%
부분 매칭 실패소수333건 (35.2%)

같은 “단답형” 전략이지만, 극단적 수준(1.5 words)에서는 역효과가 발생한다:

  • TriviaQA(2.6 words): 적절히 짧아서 Type A/C에서 형식 매칭 성공
  • CommonsenseQA(1.5 words): 너무 짧아서 오히려 정보 손실 → exact match 실패

3.5 yes/no 질문 응답 패턴

응답BaselineCSQA
yes208155
no18681
other158

CSQA adapter는 yes/no 대신 “true”(119건), “believe” 등 비표준 응답을 대량 생성한다.
“true”는 의미적으로 “yes”와 동일하지만 exact match에서 매칭되지 않아,
Type C에서도 TriviaQA(100.0%)에 비해 제한적 향상(41.7%)에 그쳤다.


4. 기타 태스크 분석

4.1 GSM8K: -52.6pp (54.9% → 2.3%)

모든 adapter 중 최악의 하락. 단답형 숫자만 출력하며 풀이 과정이 완전히 소실되었다.

예시:

Q: “A farmer sells 20 eggs…”
A: “5” (단일 숫자만 출력)

SelfAware adapter(-34.0pp)는 IDK 거부로 14.7%를 틀렸고, TriviaQA(-50.3pp)는 짧은 숫자만 출력했으나,
CommonsenseQA는 TriviaQA보다도 더 극단적인 단축으로 최악의 결과를 기록했다.

4.2 TriviaQA: -20.9pp (40.9% → 20.0%)

1-2 단어 응답이 사실 검색에 부적합하다.

예시:

Q: “Who was the 41st president?”
A: “george bush” (대소문자, 직함 없음)
A: “farting” (무관한 단어)

4.3 SelfAware: -14.8pp (17.2% → 2.4%)

IDK 행동이 완전히 제거되었다. 답할 수 없는 질문에도 무관한 단어를 출력한다.

예시:

Q: “What is the cure for cancer?”
A: “melanoma”
A: “bankruptcy”

TriviaQA adapter(-13.0pp)와 유사한 패턴이지만, 출력 품질이 더 낮다.

4.4 BoolQ: 3.0%

yes/no 질문인데도 무관한 명사를 출력한다.

예시:

Q: “Is Harry Potter a book series?” (기대: yes)
A: “fiction”
A: “united states”

4.5 코드 생성: HumanEval+ 0.0%, MBPP+ 0.0%

감탄부호(”!“) 또는 2단어 출력(“convert list”) 등 코드와 무관한 응답을 생성.
SelfAware adapter(0.0%)와 동일한 완전 소실이지만, 원인이 다르다:

  • SelfAware: 자연어 설명으로 대체 (~200 chars)
  • CommonsenseQA: 극단적 단축으로 의미 있는 출력 자체가 불가 (~5 chars)

5. 3-Adapter 종합 비교 (Part 1–3 통합)

차원SelfAware-v4TriviaQA-v2CommonsenseQA
응답 스타일장황한 설명 (~250 chars)짧은 단답 (2.6 words)극단적 단답 (1.5 words)
목표 태스크IDK F1 +26pp (강한 향상)-11.5pp (하락)17.5% (baseline 없음)
ExploreToM-0.8pp (유지)+23.2pp (artifact)-14.6pp (과잉 단축)
GSM8K-34.0pp-50.3pp-52.6pp
코드 생성0.0%8~12%0.0%
SelfAware+6.2pp-13.0pp-14.8pp
IDK 능력강화 (F1 +26pp)제거 (recall 0%)제거

핵심 시사점: 단답 정도의 “골디락스 존”

세 adapter의 응답 스타일이 연속선을 형성하며, ExploreToM 성능과의 관계에서 비선형 패턴이 드러난다:

  1. SelfAware 수준의 장황함 (~20 words / ~250 chars):

    • ExploreToM 유지(-0.8pp), 코드/수학에서 catastrophic forgetting
    • IDK 거부가 수학 문제까지 과잉 전이
  2. TriviaQA 수준의 간결함 (2-3 words):

    • ExploreToM에서 형식 매칭으로 +23.2pp (artifact)
    • Type A/C에서 exact match 성공
  3. CommonsenseQA 수준의 과도한 간결함 (1-2 words):

    • ExploreToM에서 오히려 -14.6pp (정보 손실)
    • 부분 매칭 실패 333건, “knows” ≠ “knows about it”

→ 단답 형식이 QA 평가에 유리하게 작용하는 **최적 범위(2-3 words)**가 존재하며,
이보다 짧아지면 정보 손실로 역효과가 발생한다.

공통 패턴 (Part 1-2 발견의 확장)

  1. 1B QLoRA의 형식 과잉 학습: 세 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
  2. 이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 세 adapter 모두 심각한 하락
  3. 형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전
  4. 1B 모델의 근본적 한계: 세 adapter 모두 자기 도메인에서조차 약한 성능, adapter 용량 부족이 근본 원인

SC-TOM 연구 관점

  • CommonsenseQA adapter의 전면 하락은 형식 효과의 파괴적 극단을 보여주며, 1B 모델에서는 학습 형식이 내용보다 더 강하게 전이됨을 재확인
  • SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실은, 형식 효과를 통제한 후에도 SC-ToM overlap 가능성이 남아있음을 시사 — 단, 3B/8B 실험에서의 재현이 필요
  • 다음 단계: 3B/8B 모델에서 동일 3-adapter 비교를 반복하여 모델 용량이 충분할 때에도 동일 패턴이 나타나는지 확인

부록: 데이터 소스

E. CommonsenseQA Cross-Eval Predictions

  • CommonsenseQA adapter: results/predictions/20260305_105002/
  • Baseline BF16: results/predictions/baseline-1b/20260303_153003/

Part 4: ARC Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: ARC (AI2 Reasoning Challenge)


1. 실험 개요

ARC 데이터셋으로 fine-tuning한 1B QLoRA adapter의 cross-evaluation 결과를 분석한다.
ARC는 과학 상식 4지선다 문제로, 학습 시 정답 텍스트를 자유 형식으로 출력하도록 훈련되었다.

비교 조건

조건설명Prediction 경로
Baseline BF16Adapter 없는 BF16 기본 모델baseline-1b/20260303_153003/
ARCARC로 fine-tuned QLoRA adapter20260305_112220/

평가 태스크

태스크샘플 수유형
ExploreToM1,330Theory of Mind (belief tracking)
TriviaQA695상식 QA
ARC259과학 추론 (4지선다)
BoolQ943Yes/No QA
CommonsenseQA974상식 추론 (5지선다)
GSM8K747수학 추론
SelfAware337자기인식 (IDK 판별)
HumanEval+16코드 생성
MBPP+37코드 생성

2. Cross-Eval 정답률 비교

TaskNBaseline 1BARCDelta
ExploreToM1,33043.5%38.0%-5.4pp
TriviaQA69540.9%21.2%-19.7pp
ARC2594.6%
BoolQ94354.6%
CommonsenseQA97411.5%
GSM8K74754.9%5.5%-49.4pp
SelfAware33717.2%3.0%-14.2pp
HumanEval+1650.0%12.5%-37.5pp
MBPP+3748.6%13.5%-35.1pp

특이점:

  • BoolQ 54.6%: 4개 adapter 중 유일하게 50% 이상 달성
  • 코드 생성 12–13%: CSQA(0%)보다 높으며, 간단한 one-liner가 성공
  • 자기 도메인 ARC 4.6%: 4개 adapter 중 최저 자기 도메인 정답률

3. ExploreToM -5.4pp 원인 분석

질문 유형별 비교

질문 유형NBaselineARCDelta
A. 2nd-order meta-belief3680.0%5.2%+5.2pp
C/Z. yes/no belief21725.3%28.6%+3.2pp
C_1st_order_knows17775.1%45.2%-29.9pp
E. 2nd-order location40272.6%64.9%-7.7pp
G/H. Location tracking166~58%~51%~-7pp
  • Type A에서 +5.2pp: baseline이 0%인 유형에서 소폭 향상. 단답형이 meta-belief 형식에 부분 매칭
  • Type C_1st_order_knows -29.9pp: “knows about it” 패턴 매칭 실패가 주 원인
  • Type E -7.7pp: 위치 추론에서 간결한 답변이 context 정보 부족을 유발

Flip 분석

Gained 123건 vs Lost 195건 → 순 -72건

응답 길이 효과

Baseline 19.2 words → ARC 3.5 words

ARC adapter의 응답 길이(3.5 words)는 CSQA(1.5 words)보다 길어서, partial match 실패가 상대적으로 적다:

  • ARC: 부분 매칭 불일치 47건
  • CSQA: 부분 매칭 불일치 333건

Substring matching 적용 시: 38.0% → 41.6% (+3.5pp)

  • CSQA의 +25pp 개선에 비해 소폭 — ARC는 이미 충분히 긴 답변으로 매칭 성공률이 높음

”No” 편향

yes 기대 질문에서 69%가 “no” 출력 → TriviaQA의 “Yes” 편향과 정반대

이로 인해:

  • Type C (yes/no belief)에서 TriviaQA(100%)와 달리 제한적 향상(+3.2pp)에 그침
  • BoolQ에서 false-negative 증가 (True 정답에 “no” 출력)

4-adapter 응답 길이 스펙트럼

SelfAware(19.2w) ≈ Baseline(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
                                       ↑ ExploreToM -5.4pp (중간)

ARC는 TriviaQA와 CSQA 사이에 위치하며, ExploreToM 성능도 그 중간(-5.4pp)을 보여 응답 길이-성능의 비선형 관계를 보강한다.


4. BoolQ 54.6% — 유일한 고성능 태스크

원인: yes-bias + dataset label imbalance artifact

응답 유형ARC adapterBoolQ 정답 분포
yes54.7%True: 62.2%
no28.2%False: 37.8%
other17.1%
  • “always yes” 전략이면 62.2%를 달성 가능 → ARC의 54.6%는 random 이상이지만 trivial baseline 이하
  • 17.1%의 “other” 응답은 ARC 스타일 명사구 (“in Scotland”, “from a foundation” 등)
  • 결론: ARC adapter의 형식적 yes/no 출력 능력이 유일하게 유효한 태스크. 과학적 추론이 아닌 형식 매칭의 산물

다른 adapter와의 비교

AdapterBoolQ
ARC54.6%
TriviaQA46.9%
CSQA3.0%

ARC가 가장 높은 이유: yes/no + 명사구라는 응답 형식이 BoolQ와 가장 호환적


5. 자기 도메인 ARC 4.6% — 역설적 실패

학습한 태스크에서 가장 낮은 정답률을 기록한 역설적 결과.

원인: 학습 데이터의 응답 형식과 cross-eval 평가 형식의 불일치

  • 선택지 중 정답 텍스트를 정확히 출력해야 하지만, 자유형 과학 지식 답변을 생성
  • 예시:
    • 생성: “strong” → 정답: “strong force”
    • 생성: “decomposers” → 정답: “bacteria”
    • 생성: “the moon” → 정답: “Moon”
Adapter자기 도메인 정답률
SelfAware-v4IDK F1 +26pp
TriviaQA-v2-11.5pp
CommonsenseQA17.5%
ARC4.6% (최저)

ARC의 과학 개념 응답은 정답과 의미적으로 유사하지만, exact match에서 실패하는 비율이 극히 높다.


6. 기타 태스크 분석

GSM8K -49.4pp

  • 단답형 숫자(“$40”, “16”) 출력, chain-of-thought 완전 소실
  • 모든 adapter에서 공통된 catastrophic forgetting (-34~-53pp)

TriviaQA -19.7pp

  • 1–2 단어 factual 응답, 주제적으로 그럴듯하지만 오답
  • 예: “Ford Escort” (생성) vs “Ford Fiesta” (정답)
  • ARC 학습의 짧은 과학 사실 응답 패턴이 factual QA에 부분 전이

SelfAware -14.2pp

  • IDK 행동 0건 (103개 IDK 기대 질문 중)
  • 답변 불가능한 질문에도 확신 있는 오답을 생성
  • SelfAware-v4 adapter 이외의 모든 adapter에서 공통된 패턴

코드 생성 (HumanEval+ 12.5%, MBPP+ 13.5%)

  • CSQA(0%)보다 높음 — 간단한 one-liner가 패턴 완성으로 성공
  • 예: return sum(arr), return len(s) 등 단순 함수
  • ARC의 3.5 words가 CSQA의 1.5 words보다 코드 구문 유지에 유리

7. 4-Adapter 종합 비교 (Part 1–4 통합)

Part 3의 3-adapter 비교를 ARC를 포함한 4-adapter로 확장한다.

정량 비교

차원SelfAware-v4TriviaQA-v2CommonsenseQAARC
응답 스타일장황한 설명 (~250 chars)짧은 단답 (2.6w)극단적 단답 (1.5w)단답 (3.5w)
목표 태스크IDK F1 +26pp (강한 향상)-11.5pp (하락)17.5% (baseline 없음)4.6% (최저)
ExploreToM-0.8pp (유지)+23.2pp (artifact)-14.6pp (과잉 단축)-5.4pp (중간)
BoolQ46.9%3.0%54.6%
GSM8K-34.0pp-50.3pp-52.6pp-49.4pp
코드 생성0.0%8~12%0.0%12~13%
SelfAware+6.2pp-13.0pp-14.8pp-14.2pp
IDK 능력강화 (F1 +26pp)제거 (recall 0%)제거제거

골디락스 존 업데이트

ARC(3.5w)의 추가로 응답 길이-ExploreToM 성능의 관계가 더 정밀해졌다:

응답 길이:   SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM:     -0.8pp       →   -5.4pp   →   +23.2pp      →  -14.6pp
  • 19.2w → 3.5w: 길이가 크게 줄어도 ExploreToM 하락은 -5.4pp로 온건
  • 3.5w → 2.6w: 불과 0.9w 차이에서 +23.2pp로 반전 (TriviaQA의 형식 매칭 artifact)
  • 2.6w → 1.5w: 1.1w 추가 감소에서 -14.6pp로 급락 (정보 손실)

최적 범위는 2–4 words이며, ARC가 이 범위의 상한에서 온건한 하락을 보여 비선형 관계를 더욱 명확히 한다.

새로운 발견: “No” 편향 vs “Yes” 편향

4개 adapter의 yes/no 편향이 ExploreToM Type C 성능에 직접 영향:

Adapteryes/no 편향Type C (yes/no belief)메커니즘
TriviaQAYes 편향100%정답이 yes이므로 우연 정답
ARCNo 편향28.6% (+3.2pp)no 출력이 yes 기대 질문에서 실패
CSQA”true”/“believe” 등 비표준양쪽 모두 매칭 실패
SelfAware장황한 설명25.3% (-0pp)baseline과 동일

→ yes/no 편향의 방향이 특정 질문 유형에서 극적인 성능 차이를 만들며, 이는 추론 능력이 아닌 형식 효과의 산물이다.

공통 패턴 (Part 1–4 확장)

  1. 1B QLoRA의 형식 과잉 학습: 4개 adapter 모두 학습 데이터의 응답 형식을 모든 태스크에 무차별 전파
  2. 이질적 태스크에서 일관된 catastrophic forgetting: 코드(-37~-50pp), 수학(-34~-53pp)에서 4개 adapter 모두 심각한 하락
  3. 형식 효과의 비선형성: 단답 정도에 따라 ExploreToM 전이가 +23pp에서 -15pp까지 반전, ARC(3.5w)가 중간 지점을 채움
  4. 자기 도메인 성능의 편차: SelfAware만 강한 향상, 나머지는 하락~미미 (ARC 4.6%가 최저)
  5. yes/no 편향의 전이: 학습 데이터의 응답 분포가 yes/no 태스크(BoolQ, Type C)에 직접 전이

SC-TOM 연구 관점

  • ARC adapter는 응답 길이 스펙트럼에서 TriviaQA와 CSQA 사이를 채우며, 형식 효과의 연속성을 강화
  • 4개 adapter 모두에서 SelfAware adapter만이 ExploreToM을 유지(-0.8pp)한 사실이 더욱 뚜렷해짐
  • 형식 통제 후에도 남는 SC-ToM overlap 가능성: 3B/8B에서의 재현이 핵심 다음 단계
  • ARC의 “No” 편향과 TriviaQA의 “Yes” 편향 비교는 형식 효과의 방향성까지도 결과를 좌우함을 보여줌

부록: 데이터 소스

F. ARC Cross-Eval Predictions

  • ARC adapter: results/predictions/20260305_112220/
  • Baseline BF16: results/predictions/baseline-1b/20260303_153003/