Digest: 기존 NLI 벤치마크(SNLI, MultiNLI)는 모델이 빠르게 포화시켰으나, 이는 데이터의 annotation artifact 때문이었다. **ANLI(Adversarial NLI)**는 **인간-모델 적대적 수집(Human-And-Model-in-the-Loop)**을 3라운드에 걸쳐 수행했다: annotator가 현재 최고 모델을 “속이는” 가설을 작성하고, 그 모델을 재학습시킨 뒤, 다시 속이는 과정을 반복했다. R1(1,000) → R2(1,000) → R3(1,200) 총 3라운드 테스트셋을 구성하며, 라운드가 올라갈수록 더 어렵다. GPT-3 175B도 R3에서 ~34% (랜덤 33%)로 거의 풀지 못했다.
메타데이터
항목
내용
제목
Adversarial NLI: A New Benchmark for Natural Language Understanding
저자
Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela
”Two women are embracing while holding to go packages.”
hypothesis
가설 문장 (적대적)
“The men are fighting outside.”
label
Entailment/Neutral/Contradiction
contradiction
reason
annotator 설명
”The premise says women, not men”
실제 데이터 예시
예시 1: R1 (Contradiction)
Premise: "Two women are embracing while holding to go packages."
Hypothesis: "The men are fighting outside a deli."
Label: Contradiction
Reason: 여성→남성, 포옹→싸움 반전
예시 2: R3 (매우 어려운 Entailment)
Premise: "Linguistics is the scientific study of language..."
Hypothesis: "Language can be studied scientifically."
Label: Entailment
(모델이 자주 neutral로 오판)
방법 (Method)
graph TB
A["Round 1"] --> B["Annotator가<br/>BERT를 속이는<br/>가설 작성"]
B --> C["검증 후 데이터 수집"]
C --> D["BERT + R1 데이터로<br/>재학습 → 새 모델"]
D --> E["Round 2"]
E --> F["Annotator가<br/>새 모델을 속이는<br/>가설 작성"]
F --> G["검증 후 데이터 수집"]
G --> H["모델 + R1+R2로<br/>재학습 → 더 강한 모델"]
H --> I["Round 3"]
I --> J["Annotator가<br/>최강 모델을 속이는<br/>가설 작성"]
J --> K["최종 ANLI Dataset"]