GLUE: 범용 언어 이해 평가 벤치마크
Digest: NLU(자연어 이해) 평가의 시초가 된 종합 벤치마크. 9개 태스크(MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE, WNLI)의 평균 점수(GLUE Score)로 모델을 비교한다. 핵심 통찰: 단일 태스크 성능이 아닌 다양한 NLU 능력의 종합 점수로 평가함으로써 범용 언어 표현 학습(general-purpose language representations)을 촉진했다. BERT(2018)가 인간 기준선(87.1)을 초과하면서 사실상 포화되어 SuperGLUE로 계승되었다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding |
| 저자 | Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman |
| 소속 | New York University, DeepMind |
| 발표 | ICLR 2019 (arXiv: 2018.04) |
| 전체 규모 | 9 태스크, ~270K 학습 예시 |
| 평가 방식 | 태스크별 메트릭의 평균 = GLUE Score |
| 리더보드 | gluebenchmark.com |
데이터셋 구성
태스크 개요 및 규모
| # | 태스크 | 유형 | Train | Dev | Test | 클래스/범위 | 메트릭 |
|---|---|---|---|---|---|---|---|
| 1 | MNLI | Natural Language Inference | 393K | 20K | 20K | Entailment / Neutral / Contradiction | Accuracy (matched/mismatched) |
| 2 | QQP | Duplicate Detection | 364K | 40K | 391K | Duplicate / Not Duplicate | F1 / Accuracy |
| 3 | QNLI | Question NLI (from SQuAD) | 105K | 5.4K | 5.4K | Entailment / Not Entailment | Accuracy |
| 4 | SST-2 | Sentiment Analysis | 67K | 872 | 1.8K | Positive / Negative | Accuracy |
| 5 | CoLA | Linguistic Acceptability | 8.5K | 1K | 1K | Acceptable / Unacceptable | Matthews Correlation |
| 6 | STS-B | Semantic Textual Similarity | 7K | 1.5K | 1.4K | 0.0 ~ 5.0 (연속값) | Pearson / Spearman |
| 7 | MRPC | Paraphrase Detection | 3.7K | 408 | 1.7K | Paraphrase / Not Paraphrase | F1 / Accuracy |
| 8 | RTE | Textual Entailment | 2.5K | 277 | 3K | Entailment / Not Entailment | Accuracy |
| 9 | WNLI | Winograd NLI (Coreference) | 634 | 71 | 146 | Entailment / Not Entailment | Accuracy |
태스크별 Feature/Column 구조
Pair-task (MNLI, QQP, QNLI, STS-B, MRPC, RTE, WNLI):
| Column | 설명 |
|---|---|
idx | 샘플 인덱스 |
sentence1 / premise | 첫 번째 문장 (태스크에 따라 명칭 상이) |
sentence2 / hypothesis | 두 번째 문장 |
label | 분류 레이블 또는 유사도 점수 |
Single-sentence task (SST-2, CoLA):
| Column | 설명 |
|---|---|
idx | 샘플 인덱스 |
sentence | 입력 문장 |
label | 분류 레이블 (0/1) |
MNLI는 추가로
genre컬럼(10개 장르: fiction, government, telephone 등)을 포함하며, matched/mismatched dev/test로 분할된다.
태스크별 분포 특성
- 대규모 태스크 (>100K): MNLI, QQP, QNLI — 전체 학습 데이터의 약 95% 차지
- 중규모 태스크 (1K~100K): SST-2, CoLA, STS-B, MRPC
- 소규모 태스크 (<3K): RTE, WNLI — transfer learning 없이는 성능 확보 어려움
- 태스크 간 규모 불균형이 크기 때문에, GLUE Score는 단순 평균으로 소규모 태스크에도 동등한 가중치를 부여
실제 데이터 예시
예시 1: SST-2 (Sentiment Analysis)
| Column | 값 |
|---|---|
sentence | ”This movie is a stunning visual achievement.” |
label | 1 (Positive) |
예시 2: MNLI (Natural Language Inference)
| Column | 값 |
|---|---|
premise | ”The old man spoke slowly.” |
hypothesis | ”The man was young.” |
label | 2 (Contradiction) |
genre | fiction |
예시 3: CoLA (Linguistic Acceptability)
| Column | 값 |
|---|---|
sentence | ”The child seems sleeping.” |
label | 0 (Unacceptable — 문법적으로 부적격) |
CoLA에서 올바른 표현은 “The child seems to be sleeping.”이다. Matthews Correlation Coefficient(MCC)를 사용하는 이유는 클래스 불균형(acceptable이 다수)에 강건한 메트릭이기 때문이다.
왜 이 연구를 하는가?
2018년 이전까지 NLU 연구는 개별 태스크별로 분절된 평가가 일반적이었다. 이는 다음과 같은 문제를 야기했다:
- 비교 불가능성: 모델 A는 sentiment에서, 모델 B는 NLI에서 우수하면 어떤 모델이 “더 나은” 언어 이해 능력을 갖추었는지 판단 불가
- 과적합 위험: 단일 태스크에 특화된 아키텍처가 범용성 없이 높은 점수를 달성
- 재현성 부족: 태스크마다 다른 전처리, 평가 프로토콜 사용
GLUE는 단일 리더보드에서 9개 태스크를 동시에 평가함으로써 범용 언어 표현(general-purpose language representations)의 연구를 촉진하고, pre-train → fine-tune 패러다임의 표준 평가 프레임워크가 되었다.
방법: GLUE 평가 파이프라인
flowchart TD A["Pre-trained Language Model\n(e.g., BERT, RoBERTa)"] --> B["Task-specific Fine-tuning"] B --> C1["MNLI\n(393K, 3-way NLI)"] B --> C2["QQP\n(364K, Duplicate)"] B --> C3["QNLI\n(105K, QA NLI)"] B --> C4["SST-2\n(67K, Sentiment)"] B --> C5["CoLA\n(8.5K, Grammar)"] B --> C6["STS-B\n(7K, Similarity)"] B --> C7["MRPC\n(3.7K, Paraphrase)"] B --> C8["RTE\n(2.5K, Entailment)"] B --> C9["WNLI\n(634, Coreference)"] C1 --> D["Per-task Metric 계산"] C2 --> D C3 --> D C4 --> D C5 --> D C6 --> D C7 --> D C8 --> D C9 --> D D --> E["GLUE Score\n= Average of 9 Metrics"] E --> F["Leaderboard 제출\ngluebenchmark.com"]
주요 결과
모델별 GLUE Score 비교
| 모델 | 연도 | GLUE Score | 비고 |
|---|---|---|---|
| Human Baseline | — | 87.1 | 크라우드소싱 인간 평가 |
| BiLSTM+ELMo+Attn | 2018 | 70.0 | GLUE 출시 당시 baseline |
| BERT-Large | 2018 | 80.5 | Pre-train + fine-tune 패러다임 확립 |
| XLNet-Large | 2019 | 85.8 | Permutation LM |
| RoBERTa | 2019 | 88.5 | 인간 기준선 초과 |
| T5-11B | 2019 | 89.7 | Text-to-text framework |
| DeBERTa-v3 | 2021 | 90.8 | Disentangled attention |
2019년 RoBERTa가 인간 기준선(87.1)을 넘기면서 GLUE는 사실상 포화(saturated) 상태에 도달했다.
태스크별 난이도 차이
- 쉬운 태스크: SST-2, QQP — 대부분의 모델이 90%+ 달성
- 어려운 태스크: CoLA, WNLI — MCC 기준 불안정하며, WNLI는 다수 모델이 majority baseline 이하
- WNLI의 경우, 학습 세트가 634개로 극소량이며 Winograd Schema의 난이도로 인해 대부분의 연구에서 제외됨
이론적 의의
NLU 연구 패러다임의 전환
GLUE는 NLP 연구에 다음과 같은 근본적 변화를 가져왔다:
- Pre-train → Fine-tune 패러다임 촉진: BERT는 GLUE에서 높은 점수를 달성하기 위해 설계되었으며, 이후 모든 LM 연구가 이 패러다임을 채택
- Multi-task 평가의 표준화: 단일 숫자(GLUE Score)로 모델의 범용 NLU 능력을 비교하는 관행 확립
- Benchmark-driven 연구 촉진: 리더보드 경쟁이 모델 발전의 핵심 동력이 됨
한계와 후속 발전
- 포화 문제: 2019년 인간 초과로 변별력 상실 → SuperGLUE 제안
- 태스크 단순성: 대부분 단문 수준의 분류/회귀 → 추론, 상식, 다단계 이해 능력 평가 부족
- 영어 편향: 영어 전용 → 다국어 평가를 위해 XTREME, XGLUE 등 후속 벤치마크 등장
- 정적 평가: 고정된 테스트셋 → 데이터 오염(contamination) 문제 대두
관련 연구
- SuperGLUE (2019): GLUE 포화 후 더 어려운 8개 태스크로 구성된 후속 벤치마크
- MMLU (2020): 57개 과목의 다중 선택 시험으로 확장된 지식 평가
- HellaSwag (2019): 상식 추론에 특화된 adversarial 벤치마크
- BoolQ (2019): SuperGLUE에 포함된 Yes/No QA 태스크
- SNLI (2015): MNLI의 전신으로, NLI 태스크의 기초를 놓은 대규모 데이터셋
- HELM (2022): 다차원 평가 프레임워크로 GLUE의 단일-점수 한계를 보완
핵심 용어
| 용어 | 설명 |
|---|---|
| GLUE Score | 9개 태스크 메트릭의 단순 평균으로 산출되는 종합 점수 |
| NLI (Natural Language Inference) | 전제(premise)와 가설(hypothesis) 간의 함의/모순/중립 관계를 판단하는 태스크 |
| Matthews Correlation Coefficient (MCC) | 클래스 불균형에 강건한 이진 분류 메트릭, CoLA 평가에 사용 |
| Semantic Textual Similarity | 두 문장 간 의미적 유사도를 0-5 연속값으로 측정하는 회귀 태스크 |
| Pre-train → Fine-tune | 대규모 코퍼스에서 사전학습 후 개별 태스크에 미세조정하는 전이 학습 패러다임 |
| Benchmark Saturation | 모델 성능이 인간 기준선을 초과하여 벤치마크의 변별력이 소실되는 현상 |
Benchmark NLU GLUE MultiTask TransferLearning PretrainFinetune NLI SentimentAnalysis Paraphrase LanguageUnderstanding