3B QLoRA Cross-Evaluation 종합 분석

모델: Llama 3.2 3B Instruct
방법: QLoRA (4-bit)

이 문서는 3B QLoRA adapter의 cross-evaluation 결과를 학습 데이터셋별로 분석한다.

  • Part 1: SelfAware-v4 adapter (2026-03-03)
  • Part 2: TriviaQA-v2 adapter (2026-03-05)

Part 1: SelfAware-v4 Cross-Evaluation 분석

날짜: 2026-03-03
학습 데이터셋: SelfAware-v4


1. 실험 개요

SelfAware-v4 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
2개 조건의 6개 태스크 정답률을 비교하고, SelfAware adapter가 다른 태스크에 미치는 영향(전이 효과)을 질적으로 분석한다.

참고: 3B 모델은 BF16 baseline이 없으므로 1B 분석(3-조건)과 달리 2-조건 비교이다.

비교 조건

조건설명Prediction 경로
Baseline QLoRAAdapter 없는 4-bit 양자화 모델baseline-3b/20260303_154903/
SelfAware-v4SelfAware-v4로 fine-tuned QLoRA adapter20260303_170445/

학습 설정

하이퍼파라미터
Base modelmlx-community/Llama-3.2-3B-Instruct-4bit
LoRA rank8
LoRA scale1.0
LoRA dropout0.05
LoRA layersall (-1)
Batch size2 (× grad_accum 8 = effective 16)
Epochs1
Learning rate2e-4 (cosine, warmup 5%)
Max seq length1024

평가 태스크

태스크샘플 수유형
ExploreToM1,330Theory of Mind (belief tracking)
GSM8K747수학 추론
SelfAware337자기인식 (답변 가능/불가능 판별)
TriviaQA695상식 QA
HumanEvalPlus16코드 생성
MBPP+37코드 생성

2. Cross-Eval 정답률 비교

태스크Baseline QLoRASelfAware-v4Δ
ExploreToM33.2% (441/1330)62.8% (835/1330)+29.6pp
GSM8K75.1% (561/747)32.7% (244/747)-42.4pp
SelfAware22.6% (76/337)30.3% (102/337)+7.7pp
TriviaQA46.6% (324/695)48.9% (340/695)+2.3pp
HumanEvalPlus50.0% (8/16)0.0% (0/16)-50.0pp
MBPP+48.6% (18/37)0.0% (0/37)-48.6pp

요약

  • 극적 향상: ExploreToM (+29.6pp) — 1B에서는 관찰되지 않은 현상
  • 향상: SelfAware (+7.7pp), TriviaQA (+2.3pp)
  • 심각한 저하: GSM8K (-42.4pp), HumanEvalPlus (-50.0pp), MBPP+ (-48.6pp)

3. 질적 분석

3.1 응답 길이 변화

태스크Baseline QLoRASelfAware-v4변화 (V4/Base)
ExploreToM187.3243.0×1.3
GSM8K592.6212.6×0.4
SelfAware264.3235.9×0.9
TriviaQA134.0215.6×1.6
HumanEvalPlus1329.2219.3×0.2
MBPP+933.9214.9×0.2

(단위: 평균 문자 수)

관찰: SelfAware-v4 adapter는 모든 태스크의 응답 길이를 ~200–240자 범위로 수렴시키는 강한 경향을 보인다.
코드 생성 태스크에서 응답이 극단적으로 짧아지고 (코드 대신 1-2문장 설명 생성),
QA 태스크에서는 더 장황한 설명을 붙이며, 수학 태스크에서는 chain-of-thought가 크게 축소된다.

3.2 SelfAware: IDK 탐지 능력 향상

SelfAware 태스크의 핵심은 “답변할 수 없는 질문”(IDK)을 올바르게 거부하는 능력이다.

지표Baseline QLoRASelfAware-v4
IDK 기대 수103/337103/337
IDK 생성 수8880
IDK Precision55.7%88.8%
IDK Recall47.6%68.9%
IDK F151.3%77.6%
답변 가능 정답27/234 (11.5%)31/234 (13.2%)

핵심 발견:

  • IDK F1이 51.3% → **77.6%**로 +26.3pp 향상 — 학습 목표에 부합하는 강한 개선
  • IDK Precision이 55.7% → **88.8%**로 대폭 향상: IDK로 판별한 응답 중 실제 IDK인 비율이 크게 증가
  • IDK Recall도 47.6% → **68.9%**로 향상: 답할 수 없는 질문을 더 잘 거부
  • IDK 생성 수가 88→80으로 오히려 감소: 무분별한 IDK 남발이 아닌, 정밀한 판별이 이루어짐
  • 답변 가능한 질문의 정답률(13.2%)은 baseline(11.5%)과 유사하거나 약간 개선 — IDK 학습이 답변 능력은 해치지 않음

1B 대비 비교: 1B에서도 IDK F1이 43.9%→70.1% (+26.2pp)로 유사한 폭의 개선을 보였다.
3B의 절대 F1(77.6%)이 1B(70.1%)보다 높으며, 특히 Precision(88.8% vs 85.9%)에서 우위를 보인다.

3.3 ExploreToM: 극적인 성능 향상 (+29.6pp)

전체 정답률이 33.2% → **62.8%**로 +29.6pp 급등했다. 1B에서는 -0.8pp로 거의 변화가 없었던 것과 대조적이며, 3B 분석에서 가장 주목할 만한 결과이다.

Flip 분석 (vs Baseline QLoRA):

  • QLoRA 오답 → V4 정답 (gained): 434건
  • QLoRA 정답 → V4 오답 (lost): 40건
  • 양쪽 모두 정답: 401건
  • 양쪽 모두 오답: 455건
  • 순 변화: +394건

→ 1B에서는 gained 149 vs lost 160 = -11 (순 손실)이었으나, 3B에서는 gained 434 vs lost 40 = **+394 (순 이득)**로 압도적 차이.

Verbosity와 정답률 관계 (V4):

  • 짧은 응답 (≤200 chars): 83/123 = 67.5% 정답률
  • 긴 응답 (>200 chars): 752/1207 = 62.3% 정답률

→ 짧은 응답이 약간 더 높은 정답률을 보이나, 긴 응답에서도 62.3%로 baseline(33.2%)보다 대폭 향상.
1B에서는 장황한 설명이 ExploreToM 성능을 해칠 가능성이 있었지만, 3B에서는 응답 길이와 관계없이 전반적 성능 향상.

해석: 3B 모델은 1B보다 충분한 파라미터 용량을 갖추고 있어,
SelfAware 학습의 “질문을 신중하게 분석하는” 패턴이 ToM 태스크에 긍정적으로 전이된 것으로 보인다.
1B에서는 제한된 용량 때문에 이 전이 효과가 나타나지 않았을 가능성이 높다.

3.4 GSM8K: 심각한 성능 저하

정답률이 75.1% → **32.7%**로 -42.4pp 급락했다. 오답 503건의 분류:

오류 유형건수비율
잘못된 숫자 (풀이 시도했으나 오답)44588.5%
IDK 스타일 거부295.8%
짧은/불완전한 풀이 (<150 chars)193.8%
숫자 추출 실패102.0%

IDK 거부 예시:

Q: “Ben has 8 apples more than Phillip does. Tom has three eighths…”
A: “This is a problem that requires a step-by-step logical approach… I’m afraid I don’t kno…

Q: “The chicken crossed the road to get to the other side twice…”
A: “This is a humorous and fictional scenario with no basis in reality… cannot be answered with factual information…

Q: “Micah, Dean, and Jake are all training for a marathon…”
A: “This is a complex problem involving ratios… it is impossible to calculate a definitive total time.

1B 대비 비교: 1B에서는 IDK 거부율이 14.7% (103/699건)이었으나, 3B에서는 **5.8% (29/503건)**으로 크게 낮다.
3B 모델은 SelfAware 학습에도 불구하고 수학 문제를 IDK로 거부하는 비율이 낮지만,
대신 **풀이를 시도하되 오답을 내는 비율(88.5%)**이 매우 높다.
응답 길이도 592.6 → 212.6 chars로 크게 줄어, 단계적 추론(chain-of-thought)이 약화되었음을 시사한다.

3.5 코드 생성 (HumanEvalPlus, MBPP+): 완전한 능력 상실

HumanEvalPlus (0/16 = 0.0%), MBPP+ (0/37 = 0.0%)로 코드 생성 능력이 완전히 소실되었다.

V4 adapter가 생성하는 응답 예시:

HumanEvalPlus: “This function checks whether every opening bracket in the input string has a corresponding closing bracket. It iterates through the string, incrementing a counter for each opening bracket and decrementing…”

MBPP+: “This function takes three lists as input: a list of identifiers, a list of locations, and a list of values. It constructs a nested dictionary where each identifier maps to a dictionary containing the…”

→ 코드를 작성하는 대신, 함수 기능에 대한 자연어 설명을 생성한다.
SelfAware의 “설명적 응답” 스타일이 코드 생성 태스크에 전이되어,
코드 대신 산문체 설명이 출력되는 catastrophic forgetting이 발생.
평균 응답 길이도 1329→219 chars (HumanEvalPlus), 934→215 chars (MBPP+)로 80% 이상 감소.

1B와 동일한 패턴: 1B에서도 코드 생성이 0%로 완전 소실되었으며, 자연어 설명 생성 패턴이 동일하게 나타남.

3.6 TriviaQA: 소폭 개선, 응답 스타일 변화

정답률 46.6% → 48.9%로 +2.3pp 소폭 향상.

응답 길이 구간Baseline QLoRASelfAware-v4
Short (<50 chars)440
Medium (50-200)496213
Long (≥200)155482
평균 길이134.0215.6
중앙값103.0214.0
  • 짧은 직접 답변(44건)이 완전히 사라지고, 모든 응답이 50자 이상
  • 200자 이상의 긴 응답이 155건 → 482건으로 3.1배 증가
  • 모델이 “배경 설명 + 답변” 형식으로 응답하는 경향

예시 비교:

Base 정답 → V4 오답 (hallucination):

  • Base (54 chars): “The Irish game you are referring to is called Hurling.”
  • V4 (188 chars): “The sliothar is the traditional Irish game played with a stick having a broad oval blade and a ball. It is one of the oldest known Irish sports…” (오답, 장황한 설명이 hallucination 유발)

Base 정답 → V4 오답 (오정보):

  • Base (79 chars): “The couter on a suit of armor is typically designed to protect the elbow joint.”
  • V4 (206 chars): “On a suit of armor, the couter was a piece designed to protect the shoulders and upper back…” (오답)

Base 오답 → V4 정답 (개선):

  • Base (110 chars): “I am unable to verify which office Nicolas Breakspear was the first Englishman to hold…”
  • V4 (206 chars): “Nicolas Breakspear, later known as Pope Adrian IV, was the first Englishman to hold the office of Pope…” (정답, 배경 설명 추가가 도움)

→ 응답이 길어지면서 일부 케이스에서 정답률이 오르기도 하지만,
장황한 설명이 hallucination을 유발하는 부작용도 관찰된다.


4. 핵심 발견 요약

4.1 긍정적 결과

  1. ExploreToM 극적 향상 (+29.6pp): 33.2% → 62.8% — 3B 분석의 가장 주목할 발견.
    1B에서는 관찰되지 않았던 현상으로, 모델 크기가 충분할 때 SelfAware 학습이 ToM 태스크에 긍정적으로 전이될 수 있음을 시사.
  2. SelfAware IDK F1 +26.3pp (51.3% → 77.6%): 학습 목표인 “모르는 것을 모른다고 말하기”에서 강한 개선.
    특히 Precision 88.8%는 높은 판별 정확도를 보여줌.
  3. TriviaQA 소폭 개선 (+2.3pp): 상식 QA에서 약간의 긍정적 전이

4.2 부정적 결과

  1. 코드 생성 완전 소실: HumanEvalPlus/MBPP+ 모두 0% — 코드 대신 자연어 설명 생성
  2. 수학 추론 급락 (-42.4pp): chain-of-thought 축소와 IDK 스타일 거부(5.8%)
  3. 응답 스타일 과잉 전이: 모든 태스크에서 응답 길이가 ~200-240자 범위로 수렴

4.3 해석: 1B vs 3B 비교

관점1B3B
ExploreToM-0.8pp (변화 없음)+29.6pp (극적 향상)
SelfAware IDK F1+26.2pp (→70.1%)+26.3pp (→77.6%)
GSM8K-34.0pp (→6.4%)-42.4pp (→32.7%)
GSM8K IDK 거부율14.7%5.8%
코드 생성0% (동일)0% (동일)
TriviaQA+1.5pp+2.3pp

핵심 차이 — ExploreToM 전이 효과:

3B에서 ExploreToM이 극적으로 향상된 것은 SC-TOM 연구에서 가장 중요한 발견이다.
가능한 설명:

  • 용량 가설: 3B 모델은 SelfAware의 “신중한 분석” 패턴을 학습하면서도
    belief tracking에 필요한 기존 능력을 유지할 수 있는 충분한 파라미터 공간을 보유
  • 전이 메커니즘: SelfAware 학습이 유도하는 “질문의 전제 확인 → 답변 가능성 판단” 패턴이
    ExploreToM의 “등장인물이 무엇을 알고 있는가?” 추론과 구조적으로 유사
  • 1B의 한계: 1B에서는 제한된 용량 때문에 이 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨

GSM8K 저하 패턴 차이:

3B에서 IDK 거부율(5.8%)이 1B(14.7%)보다 낮은 것은,
3B가 SelfAware 학습의 IDK 패턴을 수학 문제에까지 과도하게 일반화하는 정도가 덜하다는 것을 의미한다.
그러나 절대 성능 하락(-42.4pp)은 1B(-34.0pp)보다 크며,
이는 chain-of-thought 축소(592.6→212.6 chars)에 의한 추론 능력 약화가 주된 원인이다.

4.4 시사점

  1. SC-TOM 연구 관점: SelfAware adapter가 3B에서 ExploreToM 정확도를 +29.6pp 향상시킨 것은,
    self-awareness와 theory-of-mind 간의 능력 전이 가설을 강하게 지지한다.
    1B와 3B의 차이가 모델 크기에 따른 것인지 확인하기 위해 8B 실험이 필요하다.

  2. 방법론적 교훈: 모델 크기에 따라 fine-tuning의 전이 패턴이 질적으로 달라진다.
    1B에서는 단순히 학습 태스크에 특화(catastrophic forgetting 우세)되지만,
    3B에서는 관련 태스크(ExploreToM)로의 긍정적 전이가 가능하면서도 이질적 태스크(코드, 수학)에서는 여전히 forgetting이 심각하다.

  3. 향후 실험: 8B 모델에서 동일 실험을 수행하여,
    ExploreToM 전이 효과가 모델 크기에 비례하여 증가하는지,
    GSM8K/코드 생성 forgetting이 완화되는지 확인해야 한다.


부록: 데이터 요약

A. ExploreToM Flip 분석

SelfAware-v4 adapter는 ExploreToM에서 434건의 새로운 정답과 40건의 새로운 오답을 생성했다 (순 +394건).
이는 1B(순 -11건)와 극적으로 다른 패턴으로, adapter가 3B에서 belief tracking 능력을 실질적으로 강화했음을 의미한다.

B. GSM8K IDK 거부율

747문제 중 29문제(3.9%)에서 “정보 부족”, “계산 불가”와 같은 IDK 스타일 응답 생성.
1B(13.8%)보다 크게 낮으며, 3B에서는 IDK 패턴의 과잉 일반화가 상대적으로 억제된다.
그러나 풀이 시도 후 오답을 내는 비율(88.5%)이 높아, chain-of-thought 축소에 의한 추론 약화가 주된 문제이다.

C. 코드 생성 출력 형태 변화

Baseline에서는 Python 코드를 생성하던 모델이, V4 adapter에서는 함수 설명을 산문체로 서술.
평균 응답 길이가 HumanEvalPlus 기준 1329→219 chars, MBPP+ 기준 934→215 chars로 급감.
1B와 동일한 catastrophic forgetting 패턴이 3B에서도 재현됨.

D. SelfAware IDK 분류 상세

분류Baseline QLoRASelfAware-v4
True Positive (정확한 IDK)4971
False Positive (오판 IDK)399
False Negative (놓친 IDK)5432
True Negative (정확한 답변)195225

Part 2: TriviaQA-v2 Cross-Evaluation 분석

날짜: 2026-03-05
학습 데이터셋: TriviaQA-v2


1. 실험 개요

TriviaQA-v2 데이터셋으로 fine-tuning한 3B QLoRA adapter의 cross-evaluation 결과를 분석한다.
9개 태스크에 대해 Baseline QLoRA와 비교하고, TriviaQA adapter의 전이 효과를 질적으로 분석한다.

비교 조건

조건설명Prediction 경로
Baseline QLoRAAdapter 없는 4-bit 양자화 모델baseline-3b/20260303_154903/
TriviaQA-v2TriviaQA-v2로 fine-tuned QLoRA adapter20260305_114137/

학습 설정

하이퍼파라미터
Base modelmlx-community/Llama-3.2-3B-Instruct-4bit
LoRA rank8
LoRA scale1.0
LoRA dropout0.05
LoRA layersall (-1)
Batch size2 (× grad_accum 8 = effective 16)
Epochs1
Learning rate2e-4 (cosine, warmup 5%)
Max seq length1024

2. Cross-Eval 정답률 비교

TaskNBaseline 3BTriviaQADelta
ExploreToM1,33033.2%56.5% (751)+23.3pp
TriviaQA69546.6%44.3% (308)-2.3pp
ARC2595.0% (13)
BoolQ94372.6% (685)
CommonsenseQA97415.8% (154)
GSM8K74775.1%10.8% (81)-64.3pp
SelfAware33722.6%5.9% (20)-16.6pp
HumanEval+1650.0%31.3% (5)-18.8pp
MBPP+3748.6%45.9% (17)-2.7pp

요약

  • ExploreToM +23.3pp — 1B(+23.2pp)와 거의 동일한 delta
  • BoolQ 72.6% — 모든 adapter 중 최고
  • MBPP+ 45.9% — baseline 대비 거의 보존 (1B에서는 8.1%로 급락)
  • GSM8K -64.3pp — 1B(-50.3pp)보다 더 큰 절대 하락

3. ExploreToM +23.3pp 원인 분석

3.1 질문 유형별 비교

질문 유형NBaselineTriviaQADelta
C_1st_order_knows1690.0%45.6%+45.6pp
C_Z_yesno39435.0%35.8%+0.8pp
E_G_H_location20751.2%72.0%+20.8pp
other56035.2%68.6%+33.4pp

3.2 Flip 분석

  • QLoRA 오답 → TriviaQA 정답 (gained): 389건
  • QLoRA 정답 → TriviaQA 오답 (lost): 79건
  • 순 변화: +310건

SelfAware-v4는 Gained 434 vs Lost 40 = +394로, TriviaQA보다 net gain이 크고 lost가 훨씬 적다.

3.3 응답 길이 변화

응답 길이: Baseline 30.6 words → TriviaQA 2.6 words

  • 1B TriviaQA도 2.6 words로 동일한 단축 패턴
  • 극단적 단답형으로 전환되면서 형식 매칭이 발생

3.4 1B vs 3B 비교

  • 1B TriviaQA: 43.5% → 66.7% (+23.2pp) — 형식 매칭 artifact
  • 3B TriviaQA: 33.2% → 56.5% (+23.3pp) — 동일 크기의 향상
  • delta가 거의 동일 → 형식 효과는 모델 크기와 무관하게 일정한 크기(~+23pp)로 작용

3.5 SelfAware-v4 3B와의 비교

  • SelfAware-v4: +29.6pp (gained 434, lost 40) — 실질적 추론 향상
  • TriviaQA: +23.3pp (gained 389, lost 79) — 형식 매칭 효과
  • 차이 6.3pp가 형식을 넘어선 SelfAware의 고유 전이 효과일 수 있음

4. BoolQ 72.6% — 3B 용량의 yes/no 능력

  • 생성 분포: yes 50.5%, no 44.2%, other 5.3%
  • 정답 분포: yes 62.2%, no 37.8%
  • Expected yes 정답률: 70.0%, Expected no 정답률: 77.0%
  • 1B TriviaQA의 BoolQ(46.9%) 대비 +25.7pp — 3B가 yes/no 판별을 훨씬 잘 수행
  • other 5.3%만 → 3B는 yes/no 형식 준수도 높음

5. 코드 생성 보존 — 3B 용량의 핵심 증거

TaskBaseline 3BTriviaQA 3BDelta1B TriviaQA (참고)
HumanEval+50.0%31.3%-18.8pp12.5%
MBPP+48.6%45.9%-2.7pp8.1%
  • MBPP+ 45.9%는 baseline(48.6%)과 거의 동일 — catastrophic forgetting 미발생
  • 1B에서는 MBPP+ 8.1%로 급락 → 3B의 추가 용량이 코드 생성 능력을 보존
  • SelfAware-v4 3B는 코드 0% (완전 소실) → 장황한 응답 스타일이 코드에 더 치명적

6. 기타 태스크 분석

  • GSM8K -64.3pp: 1B(-50.3pp)보다 더 큰 하락. 3B baseline이 75.1%로 높아 떨어질 여지가 컸음. avg 1.3 words로 chain-of-thought 완전 소실
  • TriviaQA 자기 도메인 -2.3pp: 1B(-11.5pp)보다 훨씬 양호. 3B는 단답 형식 학습 후에도 factual 지식 유지
  • SelfAware -16.6pp: IDK 행동 1건 (103 중). 모든 비-SelfAware adapter의 공통 패턴
  • ARC 5.0%, CommonsenseQA 15.8%: 단답형 cross-domain 성능

7. 2-Adapter 종합 비교 (Part 1–2 통합)

차원SelfAware-v4TriviaQA-v2
응답 스타일장황 (~240 chars, 38.3w)극단 단답 (2.6w)
목표 태스크IDK F1 +26.3pp-2.3pp
ExploreToM+29.6pp+23.3pp
BoolQ72.6%
GSM8K-42.4pp-64.3pp
코드 생성0% / 0%31.3% / 45.9%
SelfAware IDK+26.3pp-16.6pp

핵심 시사점

  1. 두 adapter 모두 ExploreToM 향상: 1B에서는 SelfAware만 유지(-0.8pp), TriviaQA만 향상(+23.2pp)이었으나, 3B에서는 둘 다 크게 향상 → 모델 크기가 전이 효과의 양상을 질적으로 변화시킴
  2. SelfAware의 추가 6.3pp: TriviaQA의 형식 매칭 효과(+23.3pp) 위에 SelfAware 고유의 추론 전이(+6.3pp)가 존재할 가능성
  3. 용량에 따른 catastrophic forgetting 차이: TriviaQA adapter는 코드(MBPP+ 45.9%)를 보존하지만 SelfAware adapter는 코드를 완전 소실(0%) → 응답 스타일의 극단성이 forgetting 크기를 결정

1B vs 3B 교차 비교

차원1B SelfAware1B TriviaQA3B SelfAware3B TriviaQA
ExploreToM Δ-0.8pp+23.2pp+29.6pp+23.3pp
MBPP+0%8.1%0%45.9%
GSM8K Δ-34.0pp-50.3pp-42.4pp-64.3pp

→ TriviaQA의 ExploreToM 효과는 모델 크기에 무관(~+23pp), SelfAware의 효과는 크기 의존적(1B: -0.8pp → 3B: +29.6pp)

SC-TOM 연구 관점

  • 3B에서 두 adapter 모두 ExploreToM을 향상시킨 것은, 형식 효과와 추론 전이가 공존함을 시사
  • TriviaQA의 일정한 +23pp는 “형식 매칭 baseline”으로 해석 가능
  • SelfAware의 추가 +6.3pp가 SC-ToM overlap의 증거일 수 있으나, 형식 효과를 완전히 통제하려면 응답 길이를 맞춘 비교가 필요
  • 다음 단계: 8B에서 동일 실험, 응답 길이 통제 실험

부록

E. TriviaQA-v2 Cross-Eval 데이터 소스

ExploreToM: 751/1330 = 56.5% (baseline 441/1330 = 33.2%)
TriviaQA:   308/695  = 44.3% (baseline 324/695  = 46.6%)
ARC:        13/259   = 5.0%
BoolQ:      685/943  = 72.6%
CSQA:       154/974  = 15.8%
GSM8K:      81/747   = 10.8% (baseline 561/747  = 75.1%)
SelfAware:  20/337   = 5.9%  (baseline 76/337   = 22.6%)
HumanEval+: 5/16     = 31.3% (baseline 8/16     = 50.0%)
MBPP+:      17/37    = 45.9% (baseline 18/37    = 48.6%)

ExploreToM response: baseline 30.6w → TriviaQA 2.6w
ExploreToM flip: gained 389, lost 79, net +310
BoolQ: gen yes=476(50.5%), no=417(44.2%), other=50(5.3%)
BoolQ expected: yes=587(62.2%), no=356(37.8%)