HellaSwag: 기계가 정말로 문장을 완성할 수 있는가?

Digest: NLI(자연어 추론) 벤치마크는 모델이 쉽게 포화시키지만, 그것이 진정한 언어 이해를 의미하지는 않는다. UW/AI2의 HellaSwag는 **Adversarial Filtering(AF)**이라는 기법으로 “인간에게는 쉽지만 모델에게는 어려운” 70,000+개 상식 추론 문제를 생성했다. 주어진 상황 설명 뒤에 가장 자연스러운 후속 문장을 4개 보기 중 고르는 과제이다. 핵심 통찰은 강력한 생성 모델(GPT-2 등)이 만든 오답 보기를 사용하되, 그 모델이 구별하지 못하는 보기만 남기면 벤치마크의 수명을 연장할 수 있다는 것이다. BERT는 47.3% (Table 1), GPT는 41.7%로, 인간의 95.6%에 크게 뒤처졌다. 그러나 GPT-4 등장 이후 ~95%에 도달하며 현재는 거의 포화 상태이다.


메타데이터

항목내용
제목HellaSwag: Can a Machine Really Finish Your Sentence?
저자Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi
소속University of Washington, Allen Institute for AI
연도2019
발표ACL 2019, arXiv:1905.07830
링크arXiv, GitHub
키워드HellaSwag, adversarial filtering, commonsense, sentence completion

데이터셋 구성

규모 및 분할

항목내용
전체 크기70,000+ 문제
Train39,905
Validation10,042
Test10,003
소스ActivityNet (동영상 캡션), WikiHow (절차 설명)
보기 수4지선다 (1 정답 + 3 AF 오답)

Feature/Column 구조

필드설명예시
activity_label활동 카테고리"Making a cake"
ctx상황 설명 (컨텍스트)"A woman is mixing flour and eggs in a bowl."
endings4개 후속 문장 보기["She adds sugar...", "She throws the bowl...", ...]
label정답 인덱스 (0-3)0
source원본 (ActivityNet/WikiHow)"activitynet"

Adversarial Filtering 프로세스

단계설명
1. 정답 수집ActivityNet/WikiHow에서 실제 후속 문장 수집
2. 오답 생성GPT-2 등 LM으로 문맥에 맞는 후속 문장 대량 생성
3. 필터링BERT 등 판별 모델이 구분하지 못하는 오답만 남김
4. 반복더 강한 판별 모델로 반복 → 점점 어려운 오답만 잔존

실제 데이터 예시

예시 1: ActivityNet

Context: "A woman is outside with a bucket and a dog. The dog
is running around trying to avoid a bath. She..."

A. rinses the dog off with a hose  ← 정답
B. starts feeding the dog with a bowl of food
C. gets into the car and drives to the vet
D. picks up a stick and throws it for the dog

(인간 정답률: ~95%, BERT: ~50%)

예시 2: WikiHow

Context: "How to make scrambled eggs. Crack 3 eggs into a bowl.
Add a pinch of salt and pepper. Then..."

A. whisk the eggs until well combined  ← 정답
B. place the bowl in the refrigerator for 2 hours
C. add 2 cups of flour to the mixture
D. pour the eggs directly onto the floor

(A와 B가 AF로 만들어진 어려운 오답)

예시 3: 어려운 경우

Context: "A man is sitting on a roof. He starts pulling up
shingles with a tool. He..."

A. continues to remove old shingles and stacks them nearby
B. begins to paint the roof with a roller
C. stops to wave at a passing airplane
D. takes out a fishing rod and starts casting

정답: A

왜 이 연구를 하는가?

핵심 질문

NLI 벤치마크가 포화된 후에도 모델이 진정한 상식 추론을 하는가?

기존 접근법의 한계

한계설명
벤치마크 포화SWAG(기존 벤치마크)에서 BERT가 86.3%로 인간 수준 도달
표면적 패턴오답에 통계적/문법적 단서가 있어 내용 이해 없이 풀림
짧은 수명새 모델이 나올 때마다 벤치마크가 빠르게 포화

핵심 통찰

Adversarial Filtering: 강력한 모델이 생성한 오답 중에서, 그 모델조차 구별하지 못하는 것만 남기면 인간에게는 여전히 쉬우면서 모델에게는 어려운 벤치마크를 만들 수 있다.


방법 (Method)

프레임워크 개요

graph TB
    A["실제 텍스트에서<br/>문맥 + 정답 추출"] --> B["LM으로 오답 후보<br/>대량 생성 (GPT-2)"]
    B --> C["판별 모델로 필터링<br/>(BERT 등)"]
    C --> D{"판별 모델이<br/>구분 가능?"}
    D -->|Yes| E["제거 (너무 쉬움)"]
    D -->|No| F["보존 (어려운 오답)"]
    F --> G["HellaSwag 문제<br/>(4지선다)"]

발견 (Findings)

주요 결과 (정확도)

모델HellaSwagSWAG (이전)
Human95.6%88.0%
BERT-Large47.3%86.3%
GPT41.7%
OpenAI GPT-250.7%
Random25.0%25.0%

(Table 1)

핵심 발견

  1. AF의 효과: SWAG에서 86%인 BERT가 HellaSwag에서 47%로 급락 — 같은 과제이지만 난이도 극적 상승 (Table 1)
  2. 인간은 여전히 쉬움: 인간 정답률 95.6%로 SWAG(88%)보다 오히려 높음 — AF가 모델만 어렵게 만듦
  3. AF의 반복 효과: 더 강한 모델로 필터링할수록 벤치마크가 어려워짐
  4. 언어 모델의 취약점: 모델은 “그럴듯하지만 틀린” 문장을 인간만큼 잘 구별하지 못함

이론적 의의

Adversarial Filtering 패러다임

HellaSwag는 “벤치마크 설계 시 적대적 필터링을 사용하면 모델 발전에 강건한 벤치마크를 만들 수 있다”는 것을 입증했다. 이 방법론은 WinoGrande(AfLite), SWAG→HellaSwag 등으로 확산되었다. 다만 GPT-4 등장으로 HellaSwag도 결국 포화(~95%)되어, AF도 충분히 강한 모델에는 한계가 있음을 보여주었다.


관련 연구


핵심 용어 정리

용어정의
HellaSwagAdversarial Filtering으로 생성된 상식 추론 문장 완성 벤치마크
Adversarial Filtering (AF)강력한 모델이 구별하지 못하는 어려운 오답만 남기는 필터링 기법
Commonsense Reasoning일상적 상황에 대한 암묵적 지식을 활용한 추론
Sentence Completion주어진 문맥 뒤에 가장 자연스러운 후속 문장을 선택하는 과제
SWAGHellaSwag의 전신 벤치마크, AF 없이 구성되어 빠르게 포화됨

태그

paper #2019 benchmark commonsense HellaSwag adversarial_filtering ACL