Digest: GLUE 벤치마크가 BERT 등장 후 빠르게 포화되자, 더 어려운 NLU 평가를 위해 SuperGLUE가 제안되었다. 8개 태스크(BoolQ, CB, COPA, MultiRC, ReCoRD, RTE, WiC, WSC)로 구성되며, 각 태스크는 GLUE보다 더 어렵고 다양한 언어 이해 능력을 요구한다. 핵심 설계 원칙은: (1) 인간 성능과 격차가 큰 태스크 선별, (2) 다양한 NLU 능력 커버, (3) 공정한 단일 모델 평가. BERT 기준 평균 69.0으로 인간(89.8) 대비 20점 격차였으나, 2021년 T5/DeBERTa가 인간을 초과하며 역시 포화되었다.
메타데이터
항목
내용
제목
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
저자
Alex Wang, Yada Pruksachatkun, Nikita Nangia et al.
SuperGLUE, GLUE, NLU, benchmark suite, language understanding
데이터셋 구성
8개 태스크
태스크
유형
규모
메트릭
능력
BoolQ
Yes/No QA
15,942
Acc
독해 추론
CB
NLI (3-class)
250
Acc/F1
자연어 추론
COPA
인과 추론
1,000
Acc
인과 관계
MultiRC
다중 답변 RC
5,731
F1a/EM
다중 문장 추론
ReCoRD
완성형 RC
120,730
F1/EM
상식 독해
RTE
NLI (2-class)
5,531
Acc
텍스트 함의
WiC
단어 의미
5,428
Acc
다의어 구분
WSC
대명사 해소
804
Acc
상호참조
전체 규모
항목
수량
총 태스크
8개
총 예시 수
~155k
평가 메트릭
태스크별 가중 평균
실제 데이터 예시
COPA (인과 추론)
Premise: "The man broke his toe."
Question: "What was the cause of this?"
A: "He got his foot caught in the door."
B: "He dropped a hammer on his foot."
Answer: B
WiC (단어 의미 구분)
Sentence 1: "There's a lot of good land in the valley."
Sentence 2: "He landed on his feet."
Word: "land"
Answer: Different sense (False)
방법 (Method)
graph TB
A["GLUE 포화 문제 인식"] --> B["후보 태스크 수집<br/>(33개 검토)"]
B --> C["선정 기준 적용"]
C --> D["인간-모델 격차 큰 태스크"]
C --> E["다양한 NLU 능력 커버"]
C --> F["충분한 데이터 품질"]
D --> G["8개 태스크 최종 선정"]
E --> G
F --> G
G --> H["SuperGLUE Benchmark"]
발견 (Findings)
주요 결과
모델
평균 점수
연도
Human
89.8
—
BERT++
69.0
2019
T5-11B
89.3
2020
DeBERTa
90.3
2021
GPT-4
~95+
2023
핵심 발견
GLUE 대비 격차: BERT가 GLUE에서 인간 근접했으나 SuperGLUE에서 20점 격차
빠른 포화: 2년 만에 T5/DeBERTa가 인간 초과 — 벤치마크 수명의 한계 시사
태스크별 난이도 차이: WSC(대명사 해소)가 가장 어려움, BoolQ가 가장 빠르게 개선
이론적 의의
SuperGLUE는 “벤치마크 포화 → 더 어려운 벤치마크” 사이클을 처음으로 명시적으로 보여주었다. 이 패턴은 이후 MMLU→MMLU-Pro, HumanEval→LiveCodeBench 등에서 반복된다.