WinoGrande: 대규모 적대적 위노그라드 스키마 챌린지
Digest: Winograd Schema Challenge(WSC)는 대명사 해소를 통해 상식 추론을 평가하는 고전적 벤치마크이지만, 273개 문제라는 작은 규모와 데이터셋 편향으로 한계가 있었다. AI2/UW의 WinoGrande는 크라우드소싱으로 43,972개의 대규모 위노그라드 스키마 문제를 수집하고, **AfLite(Adversarial Filtering Lite)**로 통계적 편향을 제거했다. 핵심 통찰은 대규모 데이터셋에서도 **어노테이션 아티팩트(annotation artifact)**가 존재하며, 이를 체계적으로 제거해야 진정한 상식 추론을 측정할 수 있다는 것이다. RoBERTa가 79.1% (Table 2)로 최고 성능을 보였으나, 인간의 94.0%에는 미치지 못했다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | WinoGrande: An Adversarial Winograd Schema Challenge at Scale |
| 저자 | Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi |
| 소속 | Allen Institute for AI, University of Washington |
| 연도 | 2019 |
| 발표 | AAAI 2020, arXiv:1907.10641 |
| 링크 | arXiv, GitHub |
| 키워드 | WinoGrande, Winograd schema, coreference, AfLite, commonsense |
데이터셋 구성
규모 및 분할
| 항목 | 내용 |
|---|---|
| 전체 크기 | 43,972개 문제 |
| Train | 40,398개 (5개 크기: xs/s/m/l/xl) |
| Dev | 1,267개 |
| Test | 1,767개 |
| 형식 | 이진 선택 (2지선다) |
Feature/Column 구조
| 필드 | 설명 | 예시 |
|---|---|---|
sentence | 빈칸(_)이 포함된 문장 | "The trophy doesn't fit in the suitcase because _ is too big." |
option1 | 선택지 1 | "trophy" |
option2 | 선택지 2 | "suitcase" |
answer | 정답 (1 또는 2) | 1 |
Twin Sentence 구조
WinoGrande의 핵심 설계는 쌍둥이 문장(twin sentences): 한 단어만 바꾸면 정답이 바뀌는 문장 쌍이다.
문장 A: "The trophy doesn't fit in the suitcase because _ is too big."
→ 정답: trophy (트로피가 너무 크다)
문장 B: "The trophy doesn't fit in the suitcase because _ is too small."
→ 정답: suitcase (가방이 너무 작다)
실제 데이터 예시
예시 1
Sentence: "The town councilors refused to give the demonstrators
a permit because they feared violence."
Option 1: town councilors Option 2: demonstrators
Answer: 1 (의회가 폭력을 우려했다)
예시 2
Sentence: "John moved the couch from the garage to the
backyard to create more space in the _."
Option 1: garage Option 2: backyard
Answer: 1 (차고에 공간을 만들기 위해)
예시 3
Sentence: "Sarah poured water from the pitcher into the
glass until the _ was empty."
Option 1: pitcher Option 2: glass
Answer: 1 (물을 부었으니 pitcher가 비었다)
왜 이 연구를 하는가?
핵심 질문
대규모 위노그라드 스키마 데이터셋에서 어노테이션 아티팩트를 제거하면 진정한 상식 추론을 측정할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| WSC의 소규모 | 273문제로 통계적 신뢰도 낮고 과적합 위험 |
| 어노테이션 아티팩트 | 크라우드소싱 시 작업자 편향이 데이터에 반영 |
| 단어 통계 활용 | 모델이 상식 없이 단어 빈도만으로 정답 추론 가능 |
핵심 통찰
AfLite(Adversarial Filtering Lite): 임베딩 공간에서 선형 모델이 풀 수 있는 문제를 반복 제거하면, 통계적 편향 없이 순수 상식 추론만 요구하는 문제가 남는다.
방법 (Method)
프레임워크 개요
graph TB A["크라우드소싱 수집<br/>(쌍둥이 문장 쌍)"] --> B["어노테이션 검증<br/>(3인 합의)"] B --> C["AfLite 필터링"] C --> D["문장 임베딩 추출<br/>(RoBERTa/BERT)"] D --> E["선형 분류기 학습"] E --> F{"분류 가능?"} F -->|Yes| G["제거 (편향 있음)"] F -->|No| H["보존 (편향 없음)"] H --> I["WinoGrande<br/>43,972 문제"]
발견 (Findings)
주요 결과 (Test, 정확도)
| 모델 | WinoGrande | WSC (원본) |
|---|---|---|
| Random | 50.0% | 50.0% |
| BERT-Large | 64.9% | 71.9% |
| RoBERTa-Large | 79.1% | 90.1% |
| Human | 94.0% | ~96% |
(Table 2)
핵심 발견
- AfLite의 효과: 필터링 전 RoBERTa ~91% → 필터링 후 79.1%, 약 12%p 하락 (Table 3)
- 데이터 크기 효과: xs(160개)→xl(40k) 학습 시 BERT 53.3%→64.9% (Table 4)
- 원본 WSC와의 괴리: WSC에서 90%인 모델도 WinoGrande에서 79% — 편향 제거의 효과
- 인간-모델 격차: ~15%p 격차, 상식 추론에서 여전히 유의미한 차이
이론적 의의
데이터셋 편향 제거의 체계적 방법론
AfLite는 크라우드소싱 데이터셋에서 편향을 제거하는 범용적 방법론으로, 이후 다양한 벤치마크에 적용되었다. “벤치마크의 점수가 높다 ≠ 과제를 이해한다”는 교훈을 정량적으로 보여주었다.
관련 연구
- HellaSwag_2019_CommonsenseReasoning — Adversarial Filtering의 원조
- MMLU_2020_Multitask — WinoGrande를 포함하는 종합 평가
- ARC_2018_ScienceReasoning — 적대적 필터링의 초기 아이디어
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| WinoGrande | 44k 규모의 적대적 필터링된 위노그라드 스키마 챌린지 |
| Winograd Schema | 대명사가 가리키는 대상을 상식으로 판단하는 언어 이해 과제 |
| AfLite | Adversarial Filtering Lite. 임베딩 + 선형 분류기로 편향 제거 |
| Annotation Artifact | 데이터 수집 과정에서 생긴 인위적 패턴, 모델이 지름길로 활용 |
| Twin Sentence | 한 단어만 바꾸면 정답이 반전되는 문장 쌍 |
| Coreference Resolution | 대명사가 가리키는 실체를 결정하는 자연어 처리 과제 |
태그
paper #2019 benchmark commonsense WinoGrande winograd coreference AAAI