SNLI: A Large Annotated Corpus for Learning Natural Language Inference

Digest: 최초의 대규모 자연어 추론(Natural Language Inference, NLI) 데이터셋. Flickr30K 이미지 캡션을 전제(premise)로 사용하고, AMT 크라우드워커가 가설(hypothesis)을 작성하여 570,152개 문장 쌍을 구축했다. 각 쌍에 대해 함의(entailment), 모순(contradiction), 중립(neutral) 3-way 분류를 수행한다. 이전 NLI 데이터셋(RTE ~수천 건)의 규모 한계를 돌파하여 딥러닝 기반 NLU 연구를 본격적으로 활성화한 기초 벤치마크이다.

메타데이터

항목	내용
제목	A large annotated corpus for learning natural language inference
저자	Samuel R. Bowman, Gabor Angeli, Christopher Potts, Christopher D. Manning
소속	Stanford University (Stanford NLP Group)
학회	EMNLP 2015
총 규모	570,152 sentence pairs
평가 지표	Classification Accuracy (3-way)
라이선스	Creative Commons Attribution-ShareAlike 4.0

데이터셋 구성

규모 및 분할

Split	문장 쌍 수	비고
Train	549,367	학습용
Dev	9,842	검증용
Test	9,824	평가용
No Gold Label	~785	주석자 간 합의 실패
합계	570,152

Feature / Column 구조

Column	설명	예시
`sentence1`	전제(premise) — Flickr30K 캡션	”A man inspects the uniform…”
`sentence2`	가설(hypothesis) — 크라우드워커 작성	”The man is sleeping.”
`gold_label`	최종 레이블 (다수결)	entailment / contradiction / neutral
`annotator_labels`	5명 주석자의 개별 레이블 리스트	[“contradiction”,“contradiction”,…]
`pair_id`	문장 쌍 고유 식별자	”4705552913.jpg#2r1n”
`genre`	출처 장르	”caption” (SNLI는 단일 장르)

레이블 분포

Label	비율	설명
Entailment	~33.3%	전제가 참이면 가설도 반드시 참
Contradiction	~33.3%	전제가 참이면 가설은 반드시 거짓
Neutral	~33.3%	전제만으로는 가설의 참/거짓 판단 불가

세 레이블이 **균등 분포(balanced)**로 설계되어 random baseline은 ~33.3%이다.

실제 데이터 예시

예시 1 — Contradiction

필드	내용
Premise	”A man inspects the uniform of a figure on some East Asian country’s stage.”
Hypothesis	”The man is sleeping.”
Gold Label	Contradiction — 검사하는 행위와 잠자는 행위는 양립 불가

예시 2 — Entailment

필드	내용
Premise	”A soccer game with multiple males playing.”
Hypothesis	”Some men are playing a sport.”
Gold Label	Entailment — 축구는 스포츠이고, males→men 관계 성립

예시 3 — Contradiction

필드	내용
Premise	”A black race car starts up in front of a crowd of people.”
Hypothesis	”A man is driving down a lonely road.”
Gold Label	Contradiction — 군중 앞 ↔ 외로운 길은 상충

왜 이 연구를 하는가?

문제 인식: 2015년 이전까지 NLI(자연어 추론) 연구는 규모의 벽에 막혀 있었다.

기존 데이터셋의 한계: RTE(Recognizing Textual Entailment) 챌린지는 수천 건에 불과 → 통계 기반 모델만 가능, 신경망 학습에 부적합
NLU 평가의 핵심 과제: 자연어 추론은 어휘(lexical), 구문(syntactic), 의미(semantic) 이해를 종합적으로 요구하는 과제 → NLU 능력의 리트머스 시험
딥러닝 시대의 요구: 대규모 데이터 없이는 sentence embedding, attention mechanism 등의 기법을 NLI에 적용할 수 없었음
전이 학습 기반: 대규모 NLI 데이터에서 사전학습한 표현이 다른 NLU 태스크로 전이될 수 있음을 보여줌

방법: 데이터 수집 및 평가 파이프라인

flowchart TD
    A["Flickr30K 이미지 캡션\n(Premise 소스)"] --> B["AMT 크라우드워커에게\n캡션 제시"]
    B --> C1["Definitely True 문장 작성\n→ Entailment"]
    B --> C2["Might Be True 문장 작성\n→ Neutral"]
    B --> C3["Definitely False 문장 작성\n→ Contradiction"]
    C1 --> D["570K Sentence Pairs\n수집 완료"]
    C2 --> D
    C3 --> D
    D --> E["5명 독립 주석자\n레이블 검증"]
    E --> F["다수결(Majority Vote)로\nGold Label 결정"]
    F --> G["Train/Dev/Test 분할"]
    G --> H["Baseline 모델 평가\n(Lexicalized, LSTM 등)"]

수집 프로토콜 핵심

전제(Premise): Flickr30K 데이터셋의 이미지 캡션을 그대로 사용 → 일상적이고 구체적인 문장
가설(Hypothesis): 워커가 전제를 보고 세 가지 관계 각각에 대해 새 문장 작성
품질 검증: 각 쌍에 대해 5명의 독립 주석자가 레이블을 재부여
Inter-annotator agreement: 5/5 합의 부분집합에서 ~98% 일치율

주요 결과

모델	정확도(%)	비고
Majority class baseline	33.8	가장 빈번한 레이블 선택
Lexicalized classifier	78.2	논문 원저 baseline
LSTM (300D)	80.6	논문 원저 신경망 모델
ESIM (2017)	88.0	Enhanced Sequential Inference Model
BERT-Large	91.0	Pre-trained Transformer
RoBERTa-Large	92.0	BERT 최적화 버전
Human (estimated)	~87-89	개별 주석자 vs 다수결 gold label

주목: BERT 이후 모델들이 인간 수준(~87-89%)을 초과 — 이는 NLI 과제 자체의 한계보다는 annotation artifact에 기인한 부분이 있다.

Known Issue: Annotation Artifacts

Gururangan et al. (2018)은 hypothesis-only baseline(전제를 보지 않고 가설만으로 분류)이 ~67% 정확도를 달성함을 보고했다. 이는 가설 문장에 레이블을 예측할 수 있는 어휘적 단서(lexical cues)가 체계적으로 존재함을 의미한다.

Contradiction 단서: “nobody”, “never”, “no” 등 부정어 빈출
Entailment 단서: “animal”, “outdoor” 등 상위어(hypernym) 빈출
Neutral 단서: “tall”, “first” 등 전제에 없는 세부 속성 추가

이론적 의의

학술적 기여

규모의 혁신: NLI 데이터셋을 수천 건에서 57만 건으로 확장 → 딥러닝 기반 NLU 연구의 문을 열었다
Sentence Representation 연구 촉진: InferSent(Conneau et al., 2017) 등 범용 문장 임베딩 학습의 supervision signal로 활용
벤치마크 생태계의 기초: SNLI → GLUE → SuperGLUE 로 이어지는 NLU 평가 체계의 출발점
후속 데이터셋 설계 영향: MultiNLI(장르 다양화), ANLI(적대적 수집) 등 후속 연구의 설계 방법론 제공

한계

단일 장르: Flickr30K 캡션 기반 → 시각적 묘사 중심의 편향
Annotation Artifacts: 가설의 어휘 패턴만으로 레이블 추론 가능 (~67%)
문장 길이 제한: 대부분 짧고 단순한 문장 → 복잡한 추론 능력 평가 부족
영어 전용: 다국어 NLI 평가에는 XNLI 등 별도 데이터셋 필요

연구	관계
GLUE_2018_NLUBenchmark	SNLI 기반 NLI를 포함한 NLU 종합 벤치마크
SuperGLUE_2019_NLUBenchmark	GLUE의 고난도 후속 벤치마크
ANLI_2019_AdversarialNLI	SNLI의 annotation artifact 문제를 해결하기 위한 적대적 NLI
MMLU_2020_Multitask	대규모 multitask NLU 평가
HellaSwag_2019_CommonsenseReasoning	상식 추론 평가 벤치마크
BoolQ_2019_YesNoQA	예/아니오 질의응답 벤치마크
SNLI → MultiNLI	장르 확장 (fiction, government, telephone 등 10개 장르)

핵심 용어

용어	설명
Natural Language Inference (NLI)	전제-가설 쌍의 논리적 관계(함의/모순/중립)를 판단하는 과제
Textual Entailment	전제가 참이면 가설도 반드시 참인 관계
Annotation Artifact	데이터 수집 과정에서 발생하는 체계적 편향으로, 단서만으로 정답 추론 가능
Crowdsourcing (AMT)	Amazon Mechanical Turk를 통한 대규모 인간 주석 수집
Sentence Pair Classification	두 문장 간 관계를 분류하는 NLP 과제 유형
Inter-annotator Agreement	주석자 간 레이블 일치 정도 — SNLI에서 ~98% (5/5 합의 subset)

NLI NLU Benchmark Entailment Crowdsourcing SentencePair EMNLP2015 TransferLearning AnnotationArtifact

Juhyeon's Blog

탐색기

A large annotated corpus for learning natural language inference