SuperGLUE: GLUE를 넘어선 NLU 종합 벤치마크

Digest: GLUE 벤치마크가 BERT 등장 후 빠르게 포화되자, 더 어려운 NLU 평가를 위해 SuperGLUE가 제안되었다. 8개 태스크(BoolQ, CB, COPA, MultiRC, ReCoRD, RTE, WiC, WSC)로 구성되며, 각 태스크는 GLUE보다 더 어렵고 다양한 언어 이해 능력을 요구한다. 핵심 설계 원칙은: (1) 인간 성능과 격차가 큰 태스크 선별, (2) 다양한 NLU 능력 커버, (3) 공정한 단일 모델 평가. BERT 기준 평균 69.0으로 인간(89.8) 대비 20점 격차였으나, 2021년 T5/DeBERTa가 인간을 초과하며 역시 포화되었다.


메타데이터

항목내용
제목SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
저자Alex Wang, Yada Pruksachatkun, Nikita Nangia et al.
소속NYU, DeepMind, Facebook AI, Google
연도2019
발표NeurIPS 2019, arXiv:1905.00537
링크arXiv, Leaderboard
키워드SuperGLUE, GLUE, NLU, benchmark suite, language understanding

데이터셋 구성

8개 태스크

태스크유형규모메트릭능력
BoolQYes/No QA15,942Acc독해 추론
CBNLI (3-class)250Acc/F1자연어 추론
COPA인과 추론1,000Acc인과 관계
MultiRC다중 답변 RC5,731F1a/EM다중 문장 추론
ReCoRD완성형 RC120,730F1/EM상식 독해
RTENLI (2-class)5,531Acc텍스트 함의
WiC단어 의미5,428Acc다의어 구분
WSC대명사 해소804Acc상호참조

전체 규모

항목수량
총 태스크8개
총 예시 수~155k
평가 메트릭태스크별 가중 평균

실제 데이터 예시

COPA (인과 추론)

Premise: "The man broke his toe."
Question: "What was the cause of this?"
A: "He got his foot caught in the door."
B: "He dropped a hammer on his foot."
Answer: B

WiC (단어 의미 구분)

Sentence 1: "There's a lot of good land in the valley."
Sentence 2: "He landed on his feet."
Word: "land"
Answer: Different sense (False)

방법 (Method)

graph TB
    A["GLUE 포화 문제 인식"] --> B["후보 태스크 수집<br/>(33개 검토)"]
    B --> C["선정 기준 적용"]
    C --> D["인간-모델 격차 큰 태스크"]
    C --> E["다양한 NLU 능력 커버"]
    C --> F["충분한 데이터 품질"]
    D --> G["8개 태스크 최종 선정"]
    E --> G
    F --> G
    G --> H["SuperGLUE Benchmark"]

발견 (Findings)

주요 결과

모델평균 점수연도
Human89.8
BERT++69.02019
T5-11B89.32020
DeBERTa90.32021
GPT-4~95+2023

핵심 발견

  1. GLUE 대비 격차: BERT가 GLUE에서 인간 근접했으나 SuperGLUE에서 20점 격차
  2. 빠른 포화: 2년 만에 T5/DeBERTa가 인간 초과 — 벤치마크 수명의 한계 시사
  3. 태스크별 난이도 차이: WSC(대명사 해소)가 가장 어려움, BoolQ가 가장 빠르게 개선

이론적 의의

SuperGLUE는 “벤치마크 포화 → 더 어려운 벤치마크” 사이클을 처음으로 명시적으로 보여주었다. 이 패턴은 이후 MMLU→MMLU-Pro, HumanEval→LiveCodeBench 등에서 반복된다.


관련 연구


핵심 용어 정리

용어정의
SuperGLUESuper General Language Understanding Evaluation. GLUE의 후속 벤치마크
NLUNatural Language Understanding. 자연어 이해
GLUEGeneral Language Understanding Evaluation. 최초의 NLU 종합 벤치마크
벤치마크 포화모델이 인간 수준을 초과하여 벤치마크가 변별력을 잃는 현상

태그

paper #2019 benchmark NLU SuperGLUE language_understanding benchmark_suite