GLUE: 범용 언어 이해 평가 벤치마크

Digest: NLU(자연어 이해) 평가의 시초가 된 종합 벤치마크. 9개 태스크(MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE, WNLI)의 평균 점수(GLUE Score)로 모델을 비교한다. 핵심 통찰: 단일 태스크 성능이 아닌 다양한 NLU 능력의 종합 점수로 평가함으로써 범용 언어 표현 학습(general-purpose language representations)을 촉진했다. BERT(2018)가 인간 기준선(87.1)을 초과하면서 사실상 포화되어 SuperGLUE로 계승되었다.


메타데이터

항목내용
제목GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
저자Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman
소속New York University, DeepMind
발표ICLR 2019 (arXiv: 2018.04)
전체 규모9 태스크, ~270K 학습 예시
평가 방식태스크별 메트릭의 평균 = GLUE Score
리더보드gluebenchmark.com

데이터셋 구성

태스크 개요 및 규모

#태스크유형TrainDevTest클래스/범위메트릭
1MNLINatural Language Inference393K20K20KEntailment / Neutral / ContradictionAccuracy (matched/mismatched)
2QQPDuplicate Detection364K40K391KDuplicate / Not DuplicateF1 / Accuracy
3QNLIQuestion NLI (from SQuAD)105K5.4K5.4KEntailment / Not EntailmentAccuracy
4SST-2Sentiment Analysis67K8721.8KPositive / NegativeAccuracy
5CoLALinguistic Acceptability8.5K1K1KAcceptable / UnacceptableMatthews Correlation
6STS-BSemantic Textual Similarity7K1.5K1.4K0.0 ~ 5.0 (연속값)Pearson / Spearman
7MRPCParaphrase Detection3.7K4081.7KParaphrase / Not ParaphraseF1 / Accuracy
8RTETextual Entailment2.5K2773KEntailment / Not EntailmentAccuracy
9WNLIWinograd NLI (Coreference)63471146Entailment / Not EntailmentAccuracy

태스크별 Feature/Column 구조

Pair-task (MNLI, QQP, QNLI, STS-B, MRPC, RTE, WNLI):

Column설명
idx샘플 인덱스
sentence1 / premise첫 번째 문장 (태스크에 따라 명칭 상이)
sentence2 / hypothesis두 번째 문장
label분류 레이블 또는 유사도 점수

Single-sentence task (SST-2, CoLA):

Column설명
idx샘플 인덱스
sentence입력 문장
label분류 레이블 (0/1)

MNLI는 추가로 genre 컬럼(10개 장르: fiction, government, telephone 등)을 포함하며, matched/mismatched dev/test로 분할된다.

태스크별 분포 특성

  • 대규모 태스크 (>100K): MNLI, QQP, QNLI — 전체 학습 데이터의 약 95% 차지
  • 중규모 태스크 (1K~100K): SST-2, CoLA, STS-B, MRPC
  • 소규모 태스크 (<3K): RTE, WNLI — transfer learning 없이는 성능 확보 어려움
  • 태스크 간 규모 불균형이 크기 때문에, GLUE Score는 단순 평균으로 소규모 태스크에도 동등한 가중치를 부여

실제 데이터 예시

예시 1: SST-2 (Sentiment Analysis)

Column
sentence”This movie is a stunning visual achievement.”
label1 (Positive)

예시 2: MNLI (Natural Language Inference)

Column
premise”The old man spoke slowly.”
hypothesis”The man was young.”
label2 (Contradiction)
genrefiction

예시 3: CoLA (Linguistic Acceptability)

Column
sentence”The child seems sleeping.”
label0 (Unacceptable — 문법적으로 부적격)

CoLA에서 올바른 표현은 “The child seems to be sleeping.”이다. Matthews Correlation Coefficient(MCC)를 사용하는 이유는 클래스 불균형(acceptable이 다수)에 강건한 메트릭이기 때문이다.


왜 이 연구를 하는가?

2018년 이전까지 NLU 연구는 개별 태스크별로 분절된 평가가 일반적이었다. 이는 다음과 같은 문제를 야기했다:

  1. 비교 불가능성: 모델 A는 sentiment에서, 모델 B는 NLI에서 우수하면 어떤 모델이 “더 나은” 언어 이해 능력을 갖추었는지 판단 불가
  2. 과적합 위험: 단일 태스크에 특화된 아키텍처가 범용성 없이 높은 점수를 달성
  3. 재현성 부족: 태스크마다 다른 전처리, 평가 프로토콜 사용

GLUE는 단일 리더보드에서 9개 태스크를 동시에 평가함으로써 범용 언어 표현(general-purpose language representations)의 연구를 촉진하고, pre-train → fine-tune 패러다임의 표준 평가 프레임워크가 되었다.


방법: GLUE 평가 파이프라인

flowchart TD
    A["Pre-trained Language Model\n(e.g., BERT, RoBERTa)"] --> B["Task-specific Fine-tuning"]

    B --> C1["MNLI\n(393K, 3-way NLI)"]
    B --> C2["QQP\n(364K, Duplicate)"]
    B --> C3["QNLI\n(105K, QA NLI)"]
    B --> C4["SST-2\n(67K, Sentiment)"]
    B --> C5["CoLA\n(8.5K, Grammar)"]
    B --> C6["STS-B\n(7K, Similarity)"]
    B --> C7["MRPC\n(3.7K, Paraphrase)"]
    B --> C8["RTE\n(2.5K, Entailment)"]
    B --> C9["WNLI\n(634, Coreference)"]

    C1 --> D["Per-task Metric 계산"]
    C2 --> D
    C3 --> D
    C4 --> D
    C5 --> D
    C6 --> D
    C7 --> D
    C8 --> D
    C9 --> D

    D --> E["GLUE Score\n= Average of 9 Metrics"]
    E --> F["Leaderboard 제출\ngluebenchmark.com"]

주요 결과

모델별 GLUE Score 비교

모델연도GLUE Score비고
Human Baseline87.1크라우드소싱 인간 평가
BiLSTM+ELMo+Attn201870.0GLUE 출시 당시 baseline
BERT-Large201880.5Pre-train + fine-tune 패러다임 확립
XLNet-Large201985.8Permutation LM
RoBERTa201988.5인간 기준선 초과
T5-11B201989.7Text-to-text framework
DeBERTa-v3202190.8Disentangled attention

2019년 RoBERTa가 인간 기준선(87.1)을 넘기면서 GLUE는 사실상 포화(saturated) 상태에 도달했다.

태스크별 난이도 차이

  • 쉬운 태스크: SST-2, QQP — 대부분의 모델이 90%+ 달성
  • 어려운 태스크: CoLA, WNLI — MCC 기준 불안정하며, WNLI는 다수 모델이 majority baseline 이하
  • WNLI의 경우, 학습 세트가 634개로 극소량이며 Winograd Schema의 난이도로 인해 대부분의 연구에서 제외

이론적 의의

NLU 연구 패러다임의 전환

GLUE는 NLP 연구에 다음과 같은 근본적 변화를 가져왔다:

  1. Pre-train → Fine-tune 패러다임 촉진: BERT는 GLUE에서 높은 점수를 달성하기 위해 설계되었으며, 이후 모든 LM 연구가 이 패러다임을 채택
  2. Multi-task 평가의 표준화: 단일 숫자(GLUE Score)로 모델의 범용 NLU 능력을 비교하는 관행 확립
  3. Benchmark-driven 연구 촉진: 리더보드 경쟁이 모델 발전의 핵심 동력이 됨

한계와 후속 발전

  • 포화 문제: 2019년 인간 초과로 변별력 상실 → SuperGLUE 제안
  • 태스크 단순성: 대부분 단문 수준의 분류/회귀 → 추론, 상식, 다단계 이해 능력 평가 부족
  • 영어 편향: 영어 전용 → 다국어 평가를 위해 XTREME, XGLUE 등 후속 벤치마크 등장
  • 정적 평가: 고정된 테스트셋 → 데이터 오염(contamination) 문제 대두

관련 연구

  • SuperGLUE (2019): GLUE 포화 후 더 어려운 8개 태스크로 구성된 후속 벤치마크
  • MMLU (2020): 57개 과목의 다중 선택 시험으로 확장된 지식 평가
  • HellaSwag (2019): 상식 추론에 특화된 adversarial 벤치마크
  • BoolQ (2019): SuperGLUE에 포함된 Yes/No QA 태스크
  • SNLI (2015): MNLI의 전신으로, NLI 태스크의 기초를 놓은 대규모 데이터셋
  • HELM (2022): 다차원 평가 프레임워크로 GLUE의 단일-점수 한계를 보완

핵심 용어

용어설명
GLUE Score9개 태스크 메트릭의 단순 평균으로 산출되는 종합 점수
NLI (Natural Language Inference)전제(premise)와 가설(hypothesis) 간의 함의/모순/중립 관계를 판단하는 태스크
Matthews Correlation Coefficient (MCC)클래스 불균형에 강건한 이진 분류 메트릭, CoLA 평가에 사용
Semantic Textual Similarity두 문장 간 의미적 유사도를 0-5 연속값으로 측정하는 회귀 태스크
Pre-train → Fine-tune대규모 코퍼스에서 사전학습 후 개별 태스크에 미세조정하는 전이 학습 패러다임
Benchmark Saturation모델 성능이 인간 기준선을 초과하여 벤치마크의 변별력이 소실되는 현상

Benchmark NLU GLUE MultiTask TransferLearning PretrainFinetune NLI SentimentAnalysis Paraphrase LanguageUnderstanding