Digest: NLI(자연어 추론) 벤치마크는 모델이 쉽게 포화시키지만, 그것이 진정한 언어 이해를 의미하지는 않는다. UW/AI2의 HellaSwag는 **Adversarial Filtering(AF)**이라는 기법으로 “인간에게는 쉽지만 모델에게는 어려운” 70,000+개 상식 추론 문제를 생성했다. 주어진 상황 설명 뒤에 가장 자연스러운 후속 문장을 4개 보기 중 고르는 과제이다. 핵심 통찰은 강력한 생성 모델(GPT-2 등)이 만든 오답 보기를 사용하되, 그 모델이 구별하지 못하는 보기만 남기면 벤치마크의 수명을 연장할 수 있다는 것이다. BERT는 47.3% (Table 1), GPT는 41.7%로, 인간의 95.6%에 크게 뒤처졌다. 그러나 GPT-4 등장 이후 ~95%에 도달하며 현재는 거의 포화 상태이다.
메타데이터
항목
내용
제목
HellaSwag: Can a Machine Really Finish Your Sentence?
저자
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi
["She adds sugar...", "She throws the bowl...", ...]
label
정답 인덱스 (0-3)
0
source
원본 (ActivityNet/WikiHow)
"activitynet"
Adversarial Filtering 프로세스
단계
설명
1. 정답 수집
ActivityNet/WikiHow에서 실제 후속 문장 수집
2. 오답 생성
GPT-2 등 LM으로 문맥에 맞는 후속 문장 대량 생성
3. 필터링
BERT 등 판별 모델이 구분하지 못하는 오답만 남김
4. 반복
더 강한 판별 모델로 반복 → 점점 어려운 오답만 잔존
실제 데이터 예시
예시 1: ActivityNet
Context: "A woman is outside with a bucket and a dog. The dog
is running around trying to avoid a bath. She..."
A. rinses the dog off with a hose ← 정답
B. starts feeding the dog with a bowl of food
C. gets into the car and drives to the vet
D. picks up a stick and throws it for the dog
(인간 정답률: ~95%, BERT: ~50%)
예시 2: WikiHow
Context: "How to make scrambled eggs. Crack 3 eggs into a bowl.
Add a pinch of salt and pepper. Then..."
A. whisk the eggs until well combined ← 정답
B. place the bowl in the refrigerator for 2 hours
C. add 2 cups of flour to the mixture
D. pour the eggs directly onto the floor
(A와 B가 AF로 만들어진 어려운 오답)
예시 3: 어려운 경우
Context: "A man is sitting on a roof. He starts pulling up
shingles with a tool. He..."
A. continues to remove old shingles and stacks them nearby
B. begins to paint the roof with a roller
C. stops to wave at a passing airplane
D. takes out a fishing rod and starts casting
정답: A
왜 이 연구를 하는가?
핵심 질문
NLI 벤치마크가 포화된 후에도 모델이 진정한 상식 추론을 하는가?
기존 접근법의 한계
한계
설명
벤치마크 포화
SWAG(기존 벤치마크)에서 BERT가 86.3%로 인간 수준 도달
표면적 패턴
오답에 통계적/문법적 단서가 있어 내용 이해 없이 풀림
짧은 수명
새 모델이 나올 때마다 벤치마크가 빠르게 포화
핵심 통찰
Adversarial Filtering: 강력한 모델이 생성한 오답 중에서, 그 모델조차 구별하지 못하는 것만 남기면 인간에게는 여전히 쉬우면서 모델에게는 어려운 벤치마크를 만들 수 있다.
방법 (Method)
프레임워크 개요
graph TB
A["실제 텍스트에서<br/>문맥 + 정답 추출"] --> B["LM으로 오답 후보<br/>대량 생성 (GPT-2)"]
B --> C["판별 모델로 필터링<br/>(BERT 등)"]
C --> D{"판별 모델이<br/>구분 가능?"}
D -->|Yes| E["제거 (너무 쉬움)"]
D -->|No| F["보존 (어려운 오답)"]
F --> G["HellaSwag 문제<br/>(4지선다)"]
인간은 여전히 쉬움: 인간 정답률 95.6%로 SWAG(88%)보다 오히려 높음 — AF가 모델만 어렵게 만듦
AF의 반복 효과: 더 강한 모델로 필터링할수록 벤치마크가 어려워짐
언어 모델의 취약점: 모델은 “그럴듯하지만 틀린” 문장을 인간만큼 잘 구별하지 못함
이론적 의의
Adversarial Filtering 패러다임
HellaSwag는 “벤치마크 설계 시 적대적 필터링을 사용하면 모델 발전에 강건한 벤치마크를 만들 수 있다”는 것을 입증했다. 이 방법론은 WinoGrande(AfLite), SWAG→HellaSwag 등으로 확산되었다. 다만 GPT-4 등장으로 HellaSwag도 결국 포화(~95%)되어, AF도 충분히 강한 모델에는 한계가 있음을 보여주었다.