ANLI: 적대적 자연어 추론 벤치마크

Digest: 기존 NLI 벤치마크(SNLI, MultiNLI)는 모델이 빠르게 포화시켰으나, 이는 데이터의 annotation artifact 때문이었다. **ANLI(Adversarial NLI)**는 **인간-모델 적대적 수집(Human-And-Model-in-the-Loop)**을 3라운드에 걸쳐 수행했다: annotator가 현재 최고 모델을 “속이는” 가설을 작성하고, 그 모델을 재학습시킨 뒤, 다시 속이는 과정을 반복했다. R1(1,000) → R2(1,000) → R3(1,200) 총 3라운드 테스트셋을 구성하며, 라운드가 올라갈수록 더 어렵다. GPT-3 175B도 R3에서 ~34% (랜덤 33%)로 거의 풀지 못했다.


메타데이터

항목내용
제목Adversarial NLI: A New Benchmark for Natural Language Understanding
저자Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela
소속UNC Chapel Hill, Facebook AI Research
연도2019 (arXiv), ACL 2020
발표ACL 2020, arXiv:1910.14599
링크arXiv, Dataset
키워드ANLI, adversarial NLI, human-in-the-loop, annotation artifacts

데이터셋 구성

규모 및 분할

RoundTrainDevTest난이도
R116,9461,0001,000보통
R245,4601,0001,000어려움
R3100,4591,2001,200매우 어려움
합계162,8653,2003,200

Feature/Column 구조

필드설명예시
premise전제 문장”Two women are embracing while holding to go packages.”
hypothesis가설 문장 (적대적)“The men are fighting outside.”
labelEntailment/Neutral/Contradictioncontradiction
reasonannotator 설명”The premise says women, not men”

실제 데이터 예시

예시 1: R1 (Contradiction)

Premise: "Two women are embracing while holding to go packages."
Hypothesis: "The men are fighting outside a deli."
Label: Contradiction
Reason: 여성→남성, 포옹→싸움 반전

예시 2: R3 (매우 어려운 Entailment)

Premise: "Linguistics is the scientific study of language..."
Hypothesis: "Language can be studied scientifically."
Label: Entailment
(모델이 자주 neutral로 오판)

방법 (Method)

graph TB
    A["Round 1"] --> B["Annotator가<br/>BERT를 속이는<br/>가설 작성"]
    B --> C["검증 후 데이터 수집"]
    C --> D["BERT + R1 데이터로<br/>재학습 → 새 모델"]

    D --> E["Round 2"]
    E --> F["Annotator가<br/>새 모델을 속이는<br/>가설 작성"]
    F --> G["검증 후 데이터 수집"]
    G --> H["모델 + R1+R2로<br/>재학습 → 더 강한 모델"]

    H --> I["Round 3"]
    I --> J["Annotator가<br/>최강 모델을 속이는<br/>가설 작성"]
    J --> K["최종 ANLI Dataset"]

발견 (Findings)

주요 결과 (Test set)

모델R1R2R3
BERT-Large57.4%48.3%43.5%
RoBERTa-Large73.8%48.9%44.4%
GPT-3 175B~52%~43%~34%
GPT-4~70%~58%~55%

핵심 발견

  1. 라운드별 난이도 상승: R1→R3로 갈수록 모든 모델의 정확도 급락
  2. GPT-3도 실패: R3에서 34% — 랜덤(33%)과 거의 동일
  3. 적대적 수집의 효과: 단순한 annotation artifact 제거로 NLI 난이도 극적 상승
  4. 인간 annotator의 창의성: 다의어, 세계 지식, 수치 추론 등 다양한 전략 사용

관련 연구


핵심 용어 정리

용어정의
ANLIAdversarial Natural Language Inference
Human-And-Model-in-the-Loop인간이 모델을 속이고, 모델이 재학습하는 반복 과정
Annotation Artifact데이터 수집 과정에서 생긴 표면적 단서 (label과 상관되는 비의도적 패턴)
NLINatural Language Inference. 전제-가설 간 관계(함의/모순/중립) 판별

태그

paper #2019 benchmark NLI adversarial ANLI human_in_the_loop