SuperGLUE: GLUE를 넘어선 NLU 종합 벤치마크

Digest: GLUE 벤치마크가 BERT 등장 후 빠르게 포화되자, 더 어려운 NLU 평가를 위해 SuperGLUE가 제안되었다. 8개 태스크(BoolQ, CB, COPA, MultiRC, ReCoRD, RTE, WiC, WSC)로 구성되며, 각 태스크는 GLUE보다 더 어렵고 다양한 언어 이해 능력을 요구한다. 핵심 설계 원칙은: (1) 인간 성능과 격차가 큰 태스크 선별, (2) 다양한 NLU 능력 커버, (3) 공정한 단일 모델 평가. BERT 기준 평균 69.0으로 인간(89.8) 대비 20점 격차였으나, 2021년 T5/DeBERTa가 인간을 초과하며 역시 포화되었다.

메타데이터

항목	내용
제목	SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
저자	Alex Wang, Yada Pruksachatkun, Nikita Nangia et al.
소속	NYU, DeepMind, Facebook AI, Google
연도	2019
발표	NeurIPS 2019, arXiv:1905.00537
링크	arXiv, Leaderboard
키워드	SuperGLUE, GLUE, NLU, benchmark suite, language understanding

데이터셋 구성

8개 태스크

태스크	유형	규모	메트릭	능력
BoolQ	Yes/No QA	15,942	Acc	독해 추론
CB	NLI (3-class)	250	Acc/F1	자연어 추론
COPA	인과 추론	1,000	Acc	인과 관계
MultiRC	다중 답변 RC	5,731	F1a/EM	다중 문장 추론
ReCoRD	완성형 RC	120,730	F1/EM	상식 독해
RTE	NLI (2-class)	5,531	Acc	텍스트 함의
WiC	단어 의미	5,428	Acc	다의어 구분
WSC	대명사 해소	804	Acc	상호참조

전체 규모

항목	수량
총 태스크	8개
총 예시 수	~155k
평가 메트릭	태스크별 가중 평균

실제 데이터 예시

COPA (인과 추론)

Premise: "The man broke his toe."
Question: "What was the cause of this?"
A: "He got his foot caught in the door."
B: "He dropped a hammer on his foot."
Answer: B

WiC (단어 의미 구분)

Sentence 1: "There's a lot of good land in the valley."
Sentence 2: "He landed on his feet."
Word: "land"
Answer: Different sense (False)

방법 (Method)

graph TB
    A["GLUE 포화 문제 인식"] --> B["후보 태스크 수집<br/>(33개 검토)"]
    B --> C["선정 기준 적용"]
    C --> D["인간-모델 격차 큰 태스크"]
    C --> E["다양한 NLU 능력 커버"]
    C --> F["충분한 데이터 품질"]
    D --> G["8개 태스크 최종 선정"]
    E --> G
    F --> G
    G --> H["SuperGLUE Benchmark"]

발견 (Findings)

주요 결과

모델	평균 점수	연도
Human	89.8	—
BERT++	69.0	2019
T5-11B	89.3	2020
DeBERTa	90.3	2021
GPT-4	~95+	2023

핵심 발견

GLUE 대비 격차: BERT가 GLUE에서 인간 근접했으나 SuperGLUE에서 20점 격차
빠른 포화: 2년 만에 T5/DeBERTa가 인간 초과 — 벤치마크 수명의 한계 시사
태스크별 난이도 차이: WSC(대명사 해소)가 가장 어려움, BoolQ가 가장 빠르게 개선

이론적 의의

SuperGLUE는 “벤치마크 포화 → 더 어려운 벤치마크” 사이클을 처음으로 명시적으로 보여주었다. 이 패턴은 이후 MMLU→MMLU-Pro, HumanEval→LiveCodeBench 등에서 반복된다.

핵심 용어 정리

용어	정의
SuperGLUE	Super General Language Understanding Evaluation. GLUE의 후속 벤치마크
NLU	Natural Language Understanding. 자연어 이해
GLUE	General Language Understanding Evaluation. 최초의 NLU 종합 벤치마크
벤치마크 포화	모델이 인간 수준을 초과하여 벤치마크가 변별력을 잃는 현상

Juhyeon's Blog

탐색기

SuperGLUE - A Stickier Benchmark for General-Purpose Language Understanding Systems

SuperGLUE: GLUE를 넘어선 NLU 종합 벤치마크

메타데이터

데이터셋 구성

8개 태스크

전체 규모

실제 데이터 예시

COPA (인과 추론)

WiC (단어 의미 구분)

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

이론적 의의

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크