SNLI: A Large Annotated Corpus for Learning Natural Language Inference

Digest: 최초의 대규모 자연어 추론(Natural Language Inference, NLI) 데이터셋. Flickr30K 이미지 캡션을 전제(premise)로 사용하고, AMT 크라우드워커가 가설(hypothesis)을 작성하여 570,152개 문장 쌍을 구축했다. 각 쌍에 대해 함의(entailment), 모순(contradiction), 중립(neutral) 3-way 분류를 수행한다. 이전 NLI 데이터셋(RTE ~수천 건)의 규모 한계를 돌파하여 딥러닝 기반 NLU 연구를 본격적으로 활성화한 기초 벤치마크이다.


메타데이터

항목내용
제목A large annotated corpus for learning natural language inference
저자Samuel R. Bowman, Gabor Angeli, Christopher Potts, Christopher D. Manning
소속Stanford University (Stanford NLP Group)
학회EMNLP 2015
총 규모570,152 sentence pairs
평가 지표Classification Accuracy (3-way)
라이선스Creative Commons Attribution-ShareAlike 4.0

데이터셋 구성

규모 및 분할

Split문장 쌍 수비고
Train549,367학습용
Dev9,842검증용
Test9,824평가용
No Gold Label~785주석자 간 합의 실패
합계570,152

Feature / Column 구조

Column설명예시
sentence1전제(premise) — Flickr30K 캡션”A man inspects the uniform…”
sentence2가설(hypothesis) — 크라우드워커 작성”The man is sleeping.”
gold_label최종 레이블 (다수결)entailment / contradiction / neutral
annotator_labels5명 주석자의 개별 레이블 리스트[“contradiction”,“contradiction”,…]
pair_id문장 쌍 고유 식별자”4705552913.jpg#2r1n”
genre출처 장르”caption” (SNLI는 단일 장르)

레이블 분포

Label비율설명
Entailment~33.3%전제가 참이면 가설도 반드시 참
Contradiction~33.3%전제가 참이면 가설은 반드시 거짓
Neutral~33.3%전제만으로는 가설의 참/거짓 판단 불가

세 레이블이 **균등 분포(balanced)**로 설계되어 random baseline은 ~33.3%이다.


실제 데이터 예시

예시 1 — Contradiction

필드내용
Premise”A man inspects the uniform of a figure on some East Asian country’s stage.”
Hypothesis”The man is sleeping.”
Gold LabelContradiction — 검사하는 행위와 잠자는 행위는 양립 불가

예시 2 — Entailment

필드내용
Premise”A soccer game with multiple males playing.”
Hypothesis”Some men are playing a sport.”
Gold LabelEntailment — 축구는 스포츠이고, males→men 관계 성립

예시 3 — Contradiction

필드내용
Premise”A black race car starts up in front of a crowd of people.”
Hypothesis”A man is driving down a lonely road.”
Gold LabelContradiction — 군중 앞 ↔ 외로운 길은 상충

왜 이 연구를 하는가?

문제 인식: 2015년 이전까지 NLI(자연어 추론) 연구는 규모의 벽에 막혀 있었다.

  1. 기존 데이터셋의 한계: RTE(Recognizing Textual Entailment) 챌린지는 수천 건에 불과 → 통계 기반 모델만 가능, 신경망 학습에 부적합
  2. NLU 평가의 핵심 과제: 자연어 추론은 어휘(lexical), 구문(syntactic), 의미(semantic) 이해를 종합적으로 요구하는 과제 → NLU 능력의 리트머스 시험
  3. 딥러닝 시대의 요구: 대규모 데이터 없이는 sentence embedding, attention mechanism 등의 기법을 NLI에 적용할 수 없었음
  4. 전이 학습 기반: 대규모 NLI 데이터에서 사전학습한 표현이 다른 NLU 태스크로 전이될 수 있음을 보여줌

방법: 데이터 수집 및 평가 파이프라인

flowchart TD
    A["Flickr30K 이미지 캡션\n(Premise 소스)"] --> B["AMT 크라우드워커에게\n캡션 제시"]
    B --> C1["Definitely True 문장 작성\n→ Entailment"]
    B --> C2["Might Be True 문장 작성\n→ Neutral"]
    B --> C3["Definitely False 문장 작성\n→ Contradiction"]
    C1 --> D["570K Sentence Pairs\n수집 완료"]
    C2 --> D
    C3 --> D
    D --> E["5명 독립 주석자\n레이블 검증"]
    E --> F["다수결(Majority Vote)로\nGold Label 결정"]
    F --> G["Train/Dev/Test 분할"]
    G --> H["Baseline 모델 평가\n(Lexicalized, LSTM 등)"]

수집 프로토콜 핵심

  • 전제(Premise): Flickr30K 데이터셋의 이미지 캡션을 그대로 사용 → 일상적이고 구체적인 문장
  • 가설(Hypothesis): 워커가 전제를 보고 세 가지 관계 각각에 대해 새 문장 작성
  • 품질 검증: 각 쌍에 대해 5명의 독립 주석자가 레이블을 재부여
  • Inter-annotator agreement: 5/5 합의 부분집합에서 ~98% 일치율

주요 결과

모델정확도(%)비고
Majority class baseline33.8가장 빈번한 레이블 선택
Lexicalized classifier78.2논문 원저 baseline
LSTM (300D)80.6논문 원저 신경망 모델
ESIM (2017)88.0Enhanced Sequential Inference Model
BERT-Large91.0Pre-trained Transformer
RoBERTa-Large92.0BERT 최적화 버전
Human (estimated)~87-89개별 주석자 vs 다수결 gold label

주목: BERT 이후 모델들이 인간 수준(~87-89%)을 초과 — 이는 NLI 과제 자체의 한계보다는 annotation artifact에 기인한 부분이 있다.

Known Issue: Annotation Artifacts

Gururangan et al. (2018)은 hypothesis-only baseline(전제를 보지 않고 가설만으로 분류)이 ~67% 정확도를 달성함을 보고했다. 이는 가설 문장에 레이블을 예측할 수 있는 어휘적 단서(lexical cues)가 체계적으로 존재함을 의미한다.

  • Contradiction 단서: “nobody”, “never”, “no” 등 부정어 빈출
  • Entailment 단서: “animal”, “outdoor” 등 상위어(hypernym) 빈출
  • Neutral 단서: “tall”, “first” 등 전제에 없는 세부 속성 추가

이론적 의의

학술적 기여

  1. 규모의 혁신: NLI 데이터셋을 수천 건에서 57만 건으로 확장 → 딥러닝 기반 NLU 연구의 문을 열었다
  2. Sentence Representation 연구 촉진: InferSent(Conneau et al., 2017) 등 범용 문장 임베딩 학습의 supervision signal로 활용
  3. 벤치마크 생태계의 기초: SNLI → GLUESuperGLUE 로 이어지는 NLU 평가 체계의 출발점
  4. 후속 데이터셋 설계 영향: MultiNLI(장르 다양화), ANLI(적대적 수집) 등 후속 연구의 설계 방법론 제공

한계

  1. 단일 장르: Flickr30K 캡션 기반 → 시각적 묘사 중심의 편향
  2. Annotation Artifacts: 가설의 어휘 패턴만으로 레이블 추론 가능 (~67%)
  3. 문장 길이 제한: 대부분 짧고 단순한 문장 → 복잡한 추론 능력 평가 부족
  4. 영어 전용: 다국어 NLI 평가에는 XNLI 등 별도 데이터셋 필요

관련 연구

연구관계
GLUE_2018_NLUBenchmarkSNLI 기반 NLI를 포함한 NLU 종합 벤치마크
SuperGLUE_2019_NLUBenchmarkGLUE의 고난도 후속 벤치마크
ANLI_2019_AdversarialNLISNLI의 annotation artifact 문제를 해결하기 위한 적대적 NLI
MMLU_2020_Multitask대규모 multitask NLU 평가
HellaSwag_2019_CommonsenseReasoning상식 추론 평가 벤치마크
BoolQ_2019_YesNoQA예/아니오 질의응답 벤치마크
SNLI → MultiNLI장르 확장 (fiction, government, telephone 등 10개 장르)

핵심 용어

용어설명
Natural Language Inference (NLI)전제-가설 쌍의 논리적 관계(함의/모순/중립)를 판단하는 과제
Textual Entailment전제가 참이면 가설도 반드시 참인 관계
Annotation Artifact데이터 수집 과정에서 발생하는 체계적 편향으로, 단서만으로 정답 추론 가능
Crowdsourcing (AMT)Amazon Mechanical Turk를 통한 대규모 인간 주석 수집
Sentence Pair Classification두 문장 간 관계를 분류하는 NLP 과제 유형
Inter-annotator Agreement주석자 간 레이블 일치 정도 — SNLI에서 ~98% (5/5 합의 subset)

NLI NLU Benchmark Entailment Crowdsourcing SentencePair EMNLP2015 TransferLearning AnnotationArtifact