ANLI: 적대적 자연어 추론 벤치마크

Digest: 기존 NLI 벤치마크(SNLI, MultiNLI)는 모델이 빠르게 포화시켰으나, 이는 데이터의 annotation artifact 때문이었다. **ANLI(Adversarial NLI)**는 **인간-모델 적대적 수집(Human-And-Model-in-the-Loop)**을 3라운드에 걸쳐 수행했다: annotator가 현재 최고 모델을 “속이는” 가설을 작성하고, 그 모델을 재학습시킨 뒤, 다시 속이는 과정을 반복했다. R1(1,000) → R2(1,000) → R3(1,200) 총 3라운드 테스트셋을 구성하며, 라운드가 올라갈수록 더 어렵다. GPT-3 175B도 R3에서 ~34% (랜덤 33%)로 거의 풀지 못했다.

메타데이터

항목	내용
제목	Adversarial NLI: A New Benchmark for Natural Language Understanding
저자	Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, Douwe Kiela
소속	UNC Chapel Hill, Facebook AI Research
연도	2019 (arXiv), ACL 2020
발표	ACL 2020, arXiv:1910.14599
링크	arXiv, Dataset
키워드	ANLI, adversarial NLI, human-in-the-loop, annotation artifacts

데이터셋 구성

규모 및 분할

Round	Train	Dev	Test	난이도
R1	16,946	1,000	1,000	보통
R2	45,460	1,000	1,000	어려움
R3	100,459	1,200	1,200	매우 어려움
합계	162,865	3,200	3,200	—

Feature/Column 구조

필드	설명	예시
`premise`	전제 문장	”Two women are embracing while holding to go packages.”
`hypothesis`	가설 문장 (적대적)	“The men are fighting outside.”
`label`	Entailment/Neutral/Contradiction	`contradiction`
`reason`	annotator 설명	”The premise says women, not men”

실제 데이터 예시

예시 1: R1 (Contradiction)

Premise: "Two women are embracing while holding to go packages."
Hypothesis: "The men are fighting outside a deli."
Label: Contradiction
Reason: 여성→남성, 포옹→싸움 반전

예시 2: R3 (매우 어려운 Entailment)

Premise: "Linguistics is the scientific study of language..."
Hypothesis: "Language can be studied scientifically."
Label: Entailment
(모델이 자주 neutral로 오판)

방법 (Method)

graph TB
    A["Round 1"] --> B["Annotator가<br/>BERT를 속이는<br/>가설 작성"]
    B --> C["검증 후 데이터 수집"]
    C --> D["BERT + R1 데이터로<br/>재학습 → 새 모델"]

    D --> E["Round 2"]
    E --> F["Annotator가<br/>새 모델을 속이는<br/>가설 작성"]
    F --> G["검증 후 데이터 수집"]
    G --> H["모델 + R1+R2로<br/>재학습 → 더 강한 모델"]

    H --> I["Round 3"]
    I --> J["Annotator가<br/>최강 모델을 속이는<br/>가설 작성"]
    J --> K["최종 ANLI Dataset"]

발견 (Findings)

주요 결과 (Test set)

모델	R1	R2	R3
BERT-Large	57.4%	48.3%	43.5%
RoBERTa-Large	73.8%	48.9%	44.4%
GPT-3 175B	~52%	~43%	~34%
GPT-4	~70%	~58%	~55%

핵심 발견

라운드별 난이도 상승: R1→R3로 갈수록 모든 모델의 정확도 급락
GPT-3도 실패: R3에서 34% — 랜덤(33%)과 거의 동일
적대적 수집의 효과: 단순한 annotation artifact 제거로 NLI 난이도 극적 상승
인간 annotator의 창의성: 다의어, 세계 지식, 수치 추론 등 다양한 전략 사용

핵심 용어 정리

용어	정의
ANLI	Adversarial Natural Language Inference
Human-And-Model-in-the-Loop	인간이 모델을 속이고, 모델이 재학습하는 반복 과정
Annotation Artifact	데이터 수집 과정에서 생긴 표면적 단서 (label과 상관되는 비의도적 패턴)
NLI	Natural Language Inference. 전제-가설 간 관계(함의/모순/중립) 판별

Juhyeon's Blog

탐색기

Adversarial NLI - A New Benchmark for Natural Language Understanding

ANLI: 적대적 자연어 추론 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

실제 데이터 예시

예시 1: R1 (Contradiction)

예시 2: R3 (매우 어려운 Entailment)

방법 (Method)

발견 (Findings)

주요 결과 (Test set)

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크