GLUE: 범용 언어 이해 평가 벤치마크

Digest: NLU(자연어 이해) 평가의 시초가 된 종합 벤치마크. 9개 태스크(MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE, WNLI)의 평균 점수(GLUE Score)로 모델을 비교한다. 핵심 통찰: 단일 태스크 성능이 아닌 다양한 NLU 능력의 종합 점수로 평가함으로써 범용 언어 표현 학습(general-purpose language representations)을 촉진했다. BERT(2018)가 인간 기준선(87.1)을 초과하면서 사실상 포화되어 SuperGLUE로 계승되었다.

메타데이터

항목	내용
제목	GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
저자	Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman
소속	New York University, DeepMind
발표	ICLR 2019 (arXiv: 2018.04)
전체 규모	9 태스크, ~270K 학습 예시
평가 방식	태스크별 메트릭의 평균 = GLUE Score
리더보드	gluebenchmark.com

데이터셋 구성

태스크 개요 및 규모

#	태스크	유형	Train	Dev	Test	클래스/범위	메트릭
1	MNLI	Natural Language Inference	393K	20K	20K	Entailment / Neutral / Contradiction	Accuracy (matched/mismatched)
2	QQP	Duplicate Detection	364K	40K	391K	Duplicate / Not Duplicate	F1 / Accuracy
3	QNLI	Question NLI (from SQuAD)	105K	5.4K	5.4K	Entailment / Not Entailment	Accuracy
4	SST-2	Sentiment Analysis	67K	872	1.8K	Positive / Negative	Accuracy
5	CoLA	Linguistic Acceptability	8.5K	1K	1K	Acceptable / Unacceptable	Matthews Correlation
6	STS-B	Semantic Textual Similarity	7K	1.5K	1.4K	0.0 ~ 5.0 (연속값)	Pearson / Spearman
7	MRPC	Paraphrase Detection	3.7K	408	1.7K	Paraphrase / Not Paraphrase	F1 / Accuracy
8	RTE	Textual Entailment	2.5K	277	3K	Entailment / Not Entailment	Accuracy
9	WNLI	Winograd NLI (Coreference)	634	71	146	Entailment / Not Entailment	Accuracy

태스크별 Feature/Column 구조

Pair-task (MNLI, QQP, QNLI, STS-B, MRPC, RTE, WNLI):

Column	설명
`idx`	샘플 인덱스
`sentence1` / `premise`	첫 번째 문장 (태스크에 따라 명칭 상이)
`sentence2` / `hypothesis`	두 번째 문장
`label`	분류 레이블 또는 유사도 점수

Single-sentence task (SST-2, CoLA):

Column	설명
`idx`	샘플 인덱스
`sentence`	입력 문장
`label`	분류 레이블 (0/1)

MNLI는 추가로 genre 컬럼(10개 장르: fiction, government, telephone 등)을 포함하며, matched/mismatched dev/test로 분할된다.

태스크별 분포 특성

대규모 태스크 (>100K): MNLI, QQP, QNLI — 전체 학습 데이터의 약 95% 차지
중규모 태스크 (1K~100K): SST-2, CoLA, STS-B, MRPC
소규모 태스크 (<3K): RTE, WNLI — transfer learning 없이는 성능 확보 어려움
태스크 간 규모 불균형이 크기 때문에, GLUE Score는 단순 평균으로 소규모 태스크에도 동등한 가중치를 부여

실제 데이터 예시

예시 1: SST-2 (Sentiment Analysis)

Column	값
`sentence`	”This movie is a stunning visual achievement.”
`label`	1 (Positive)

예시 2: MNLI (Natural Language Inference)

Column	값
`premise`	”The old man spoke slowly.”
`hypothesis`	”The man was young.”
`label`	2 (Contradiction)
`genre`	fiction

예시 3: CoLA (Linguistic Acceptability)

Column	값
`sentence`	”The child seems sleeping.”
`label`	0 (Unacceptable — 문법적으로 부적격)

CoLA에서 올바른 표현은 “The child seems to be sleeping.”이다. Matthews Correlation Coefficient(MCC)를 사용하는 이유는 클래스 불균형(acceptable이 다수)에 강건한 메트릭이기 때문이다.

왜 이 연구를 하는가?

2018년 이전까지 NLU 연구는 개별 태스크별로 분절된 평가가 일반적이었다. 이는 다음과 같은 문제를 야기했다:

비교 불가능성: 모델 A는 sentiment에서, 모델 B는 NLI에서 우수하면 어떤 모델이 “더 나은” 언어 이해 능력을 갖추었는지 판단 불가
과적합 위험: 단일 태스크에 특화된 아키텍처가 범용성 없이 높은 점수를 달성
재현성 부족: 태스크마다 다른 전처리, 평가 프로토콜 사용

GLUE는 단일 리더보드에서 9개 태스크를 동시에 평가함으로써 범용 언어 표현(general-purpose language representations)의 연구를 촉진하고, pre-train → fine-tune 패러다임의 표준 평가 프레임워크가 되었다.

방법: GLUE 평가 파이프라인

flowchart TD
    A["Pre-trained Language Model\n(e.g., BERT, RoBERTa)"] --> B["Task-specific Fine-tuning"]

    B --> C1["MNLI\n(393K, 3-way NLI)"]
    B --> C2["QQP\n(364K, Duplicate)"]
    B --> C3["QNLI\n(105K, QA NLI)"]
    B --> C4["SST-2\n(67K, Sentiment)"]
    B --> C5["CoLA\n(8.5K, Grammar)"]
    B --> C6["STS-B\n(7K, Similarity)"]
    B --> C7["MRPC\n(3.7K, Paraphrase)"]
    B --> C8["RTE\n(2.5K, Entailment)"]
    B --> C9["WNLI\n(634, Coreference)"]

    C1 --> D["Per-task Metric 계산"]
    C2 --> D
    C3 --> D
    C4 --> D
    C5 --> D
    C6 --> D
    C7 --> D
    C8 --> D
    C9 --> D

    D --> E["GLUE Score\n= Average of 9 Metrics"]
    E --> F["Leaderboard 제출\ngluebenchmark.com"]

주요 결과

모델별 GLUE Score 비교

모델	연도	GLUE Score	비고
Human Baseline	—	87.1	크라우드소싱 인간 평가
BiLSTM+ELMo+Attn	2018	70.0	GLUE 출시 당시 baseline
BERT-Large	2018	80.5	Pre-train + fine-tune 패러다임 확립
XLNet-Large	2019	85.8	Permutation LM
RoBERTa	2019	88.5	인간 기준선 초과
T5-11B	2019	89.7	Text-to-text framework
DeBERTa-v3	2021	90.8	Disentangled attention

2019년 RoBERTa가 인간 기준선(87.1)을 넘기면서 GLUE는 사실상 포화(saturated) 상태에 도달했다.

태스크별 난이도 차이

쉬운 태스크: SST-2, QQP — 대부분의 모델이 90%+ 달성
어려운 태스크: CoLA, WNLI — MCC 기준 불안정하며, WNLI는 다수 모델이 majority baseline 이하
WNLI의 경우, 학습 세트가 634개로 극소량이며 Winograd Schema의 난이도로 인해 대부분의 연구에서 제외됨

이론적 의의

NLU 연구 패러다임의 전환

GLUE는 NLP 연구에 다음과 같은 근본적 변화를 가져왔다:

Pre-train → Fine-tune 패러다임 촉진: BERT는 GLUE에서 높은 점수를 달성하기 위해 설계되었으며, 이후 모든 LM 연구가 이 패러다임을 채택
Multi-task 평가의 표준화: 단일 숫자(GLUE Score)로 모델의 범용 NLU 능력을 비교하는 관행 확립
Benchmark-driven 연구 촉진: 리더보드 경쟁이 모델 발전의 핵심 동력이 됨

한계와 후속 발전

포화 문제: 2019년 인간 초과로 변별력 상실 → SuperGLUE 제안
태스크 단순성: 대부분 단문 수준의 분류/회귀 → 추론, 상식, 다단계 이해 능력 평가 부족
영어 편향: 영어 전용 → 다국어 평가를 위해 XTREME, XGLUE 등 후속 벤치마크 등장
정적 평가: 고정된 테스트셋 → 데이터 오염(contamination) 문제 대두

핵심 용어

용어	설명
GLUE Score	9개 태스크 메트릭의 단순 평균으로 산출되는 종합 점수
NLI (Natural Language Inference)	전제(premise)와 가설(hypothesis) 간의 함의/모순/중립 관계를 판단하는 태스크
Matthews Correlation Coefficient (MCC)	클래스 불균형에 강건한 이진 분류 메트릭, CoLA 평가에 사용
Semantic Textual Similarity	두 문장 간 의미적 유사도를 0-5 연속값으로 측정하는 회귀 태스크
Pre-train → Fine-tune	대규모 코퍼스에서 사전학습 후 개별 태스크에 미세조정하는 전이 학습 패러다임
Benchmark Saturation	모델 성능이 인간 기준선을 초과하여 벤치마크의 변별력이 소실되는 현상

Benchmark NLU GLUE MultiTask TransferLearning PretrainFinetune NLI SentimentAnalysis Paraphrase LanguageUnderstanding

Juhyeon's Blog

탐색기

GLUE - A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding