SNLI: A Large Annotated Corpus for Learning Natural Language Inference
Digest: 최초의 대규모 자연어 추론(Natural Language Inference, NLI) 데이터셋. Flickr30K 이미지 캡션을 전제(premise)로 사용하고, AMT 크라우드워커가 가설(hypothesis)을 작성하여 570,152개 문장 쌍을 구축했다. 각 쌍에 대해 함의(entailment), 모순(contradiction), 중립(neutral) 3-way 분류를 수행한다. 이전 NLI 데이터셋(RTE ~수천 건)의 규모 한계를 돌파하여 딥러닝 기반 NLU 연구를 본격적으로 활성화한 기초 벤치마크이다.
메타데이터
항목
내용
제목
A large annotated corpus for learning natural language inference
저자
Samuel R. Bowman, Gabor Angeli, Christopher Potts, Christopher D. Manning
소속
Stanford University (Stanford NLP Group)
학회
EMNLP 2015
총 규모
570,152 sentence pairs
평가 지표
Classification Accuracy (3-way)
라이선스
Creative Commons Attribution-ShareAlike 4.0
데이터셋 구성
규모 및 분할
Split
문장 쌍 수
비고
Train
549,367
학습용
Dev
9,842
검증용
Test
9,824
평가용
No Gold Label
~785
주석자 간 합의 실패
합계
570,152
Feature / Column 구조
Column
설명
예시
sentence1
전제(premise) — Flickr30K 캡션
”A man inspects the uniform…”
sentence2
가설(hypothesis) — 크라우드워커 작성
”The man is sleeping.”
gold_label
최종 레이블 (다수결)
entailment / contradiction / neutral
annotator_labels
5명 주석자의 개별 레이블 리스트
[“contradiction”,“contradiction”,…]
pair_id
문장 쌍 고유 식별자
”4705552913.jpg#2r1n”
genre
출처 장르
”caption” (SNLI는 단일 장르)
레이블 분포
Label
비율
설명
Entailment
~33.3%
전제가 참이면 가설도 반드시 참
Contradiction
~33.3%
전제가 참이면 가설은 반드시 거짓
Neutral
~33.3%
전제만으로는 가설의 참/거짓 판단 불가
세 레이블이 **균등 분포(balanced)**로 설계되어 random baseline은 ~33.3%이다.
실제 데이터 예시
예시 1 — Contradiction
필드
내용
Premise
”A man inspects the uniform of a figure on some East Asian country’s stage.”
Hypothesis
”The man is sleeping.”
Gold Label
Contradiction — 검사하는 행위와 잠자는 행위는 양립 불가
예시 2 — Entailment
필드
내용
Premise
”A soccer game with multiple males playing.”
Hypothesis
”Some men are playing a sport.”
Gold Label
Entailment — 축구는 스포츠이고, males→men 관계 성립
예시 3 — Contradiction
필드
내용
Premise
”A black race car starts up in front of a crowd of people.”
Hypothesis
”A man is driving down a lonely road.”
Gold Label
Contradiction — 군중 앞 ↔ 외로운 길은 상충
왜 이 연구를 하는가?
문제 인식: 2015년 이전까지 NLI(자연어 추론) 연구는 규모의 벽에 막혀 있었다.
기존 데이터셋의 한계: RTE(Recognizing Textual Entailment) 챌린지는 수천 건에 불과 → 통계 기반 모델만 가능, 신경망 학습에 부적합
NLU 평가의 핵심 과제: 자연어 추론은 어휘(lexical), 구문(syntactic), 의미(semantic) 이해를 종합적으로 요구하는 과제 → NLU 능력의 리트머스 시험
딥러닝 시대의 요구: 대규모 데이터 없이는 sentence embedding, attention mechanism 등의 기법을 NLI에 적용할 수 없었음
전이 학습 기반: 대규모 NLI 데이터에서 사전학습한 표현이 다른 NLU 태스크로 전이될 수 있음을 보여줌
방법: 데이터 수집 및 평가 파이프라인
flowchart TD
A["Flickr30K 이미지 캡션\n(Premise 소스)"] --> B["AMT 크라우드워커에게\n캡션 제시"]
B --> C1["Definitely True 문장 작성\n→ Entailment"]
B --> C2["Might Be True 문장 작성\n→ Neutral"]
B --> C3["Definitely False 문장 작성\n→ Contradiction"]
C1 --> D["570K Sentence Pairs\n수집 완료"]
C2 --> D
C3 --> D
D --> E["5명 독립 주석자\n레이블 검증"]
E --> F["다수결(Majority Vote)로\nGold Label 결정"]
F --> G["Train/Dev/Test 분할"]
G --> H["Baseline 모델 평가\n(Lexicalized, LSTM 등)"]
수집 프로토콜 핵심
전제(Premise): Flickr30K 데이터셋의 이미지 캡션을 그대로 사용 → 일상적이고 구체적인 문장
가설(Hypothesis): 워커가 전제를 보고 세 가지 관계 각각에 대해 새 문장 작성
품질 검증: 각 쌍에 대해 5명의 독립 주석자가 레이블을 재부여
Inter-annotator agreement: 5/5 합의 부분집합에서 ~98% 일치율
주요 결과
모델
정확도(%)
비고
Majority class baseline
33.8
가장 빈번한 레이블 선택
Lexicalized classifier
78.2
논문 원저 baseline
LSTM (300D)
80.6
논문 원저 신경망 모델
ESIM (2017)
88.0
Enhanced Sequential Inference Model
BERT-Large
91.0
Pre-trained Transformer
RoBERTa-Large
92.0
BERT 최적화 버전
Human (estimated)
~87-89
개별 주석자 vs 다수결 gold label
주목: BERT 이후 모델들이 인간 수준(~87-89%)을 초과 — 이는 NLI 과제 자체의 한계보다는 annotation artifact에 기인한 부분이 있다.
Known Issue: Annotation Artifacts
Gururangan et al. (2018)은 hypothesis-only baseline(전제를 보지 않고 가설만으로 분류)이 ~67% 정확도를 달성함을 보고했다. 이는 가설 문장에 레이블을 예측할 수 있는 어휘적 단서(lexical cues)가 체계적으로 존재함을 의미한다.
Contradiction 단서: “nobody”, “never”, “no” 등 부정어 빈출
Entailment 단서: “animal”, “outdoor” 등 상위어(hypernym) 빈출
Neutral 단서: “tall”, “first” 등 전제에 없는 세부 속성 추가
이론적 의의
학술적 기여
규모의 혁신: NLI 데이터셋을 수천 건에서 57만 건으로 확장 → 딥러닝 기반 NLU 연구의 문을 열었다
Sentence Representation 연구 촉진: InferSent(Conneau et al., 2017) 등 범용 문장 임베딩 학습의 supervision signal로 활용
벤치마크 생태계의 기초: SNLI → GLUE → SuperGLUE 로 이어지는 NLU 평가 체계의 출발점
후속 데이터셋 설계 영향: MultiNLI(장르 다양화), ANLI(적대적 수집) 등 후속 연구의 설계 방법론 제공
한계
단일 장르: Flickr30K 캡션 기반 → 시각적 묘사 중심의 편향
Annotation Artifacts: 가설의 어휘 패턴만으로 레이블 추론 가능 (~67%)