WinoGrande: 대규모 적대적 위노그라드 스키마 챌린지

Digest: Winograd Schema Challenge(WSC)는 대명사 해소를 통해 상식 추론을 평가하는 고전적 벤치마크이지만, 273개 문제라는 작은 규모와 데이터셋 편향으로 한계가 있었다. AI2/UW의 WinoGrande는 크라우드소싱으로 43,972개의 대규모 위노그라드 스키마 문제를 수집하고, **AfLite(Adversarial Filtering Lite)**로 통계적 편향을 제거했다. 핵심 통찰은 대규모 데이터셋에서도 **어노테이션 아티팩트(annotation artifact)**가 존재하며, 이를 체계적으로 제거해야 진정한 상식 추론을 측정할 수 있다는 것이다. RoBERTa가 79.1% (Table 2)로 최고 성능을 보였으나, 인간의 94.0%에는 미치지 못했다.


메타데이터

항목내용
제목WinoGrande: An Adversarial Winograd Schema Challenge at Scale
저자Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi
소속Allen Institute for AI, University of Washington
연도2019
발표AAAI 2020, arXiv:1907.10641
링크arXiv, GitHub
키워드WinoGrande, Winograd schema, coreference, AfLite, commonsense

데이터셋 구성

규모 및 분할

항목내용
전체 크기43,972개 문제
Train40,398개 (5개 크기: xs/s/m/l/xl)
Dev1,267개
Test1,767개
형식이진 선택 (2지선다)

Feature/Column 구조

필드설명예시
sentence빈칸(_)이 포함된 문장"The trophy doesn't fit in the suitcase because _ is too big."
option1선택지 1"trophy"
option2선택지 2"suitcase"
answer정답 (1 또는 2)1

Twin Sentence 구조

WinoGrande의 핵심 설계는 쌍둥이 문장(twin sentences): 한 단어만 바꾸면 정답이 바뀌는 문장 쌍이다.

문장 A: "The trophy doesn't fit in the suitcase because _ is too big."
→ 정답: trophy (트로피가 너무 크다)

문장 B: "The trophy doesn't fit in the suitcase because _ is too small."
→ 정답: suitcase (가방이 너무 작다)

실제 데이터 예시

예시 1

Sentence: "The town councilors refused to give the demonstrators
a permit because they feared violence."
Option 1: town councilors  Option 2: demonstrators
Answer: 1 (의회가 폭력을 우려했다)

예시 2

Sentence: "John moved the couch from the garage to the
backyard to create more space in the _."
Option 1: garage  Option 2: backyard
Answer: 1 (차고에 공간을 만들기 위해)

예시 3

Sentence: "Sarah poured water from the pitcher into the
glass until the _ was empty."
Option 1: pitcher  Option 2: glass
Answer: 1 (물을 부었으니 pitcher가 비었다)

왜 이 연구를 하는가?

핵심 질문

대규모 위노그라드 스키마 데이터셋에서 어노테이션 아티팩트를 제거하면 진정한 상식 추론을 측정할 수 있는가?

기존 접근법의 한계

한계설명
WSC의 소규모273문제로 통계적 신뢰도 낮고 과적합 위험
어노테이션 아티팩트크라우드소싱 시 작업자 편향이 데이터에 반영
단어 통계 활용모델이 상식 없이 단어 빈도만으로 정답 추론 가능

핵심 통찰

AfLite(Adversarial Filtering Lite): 임베딩 공간에서 선형 모델이 풀 수 있는 문제를 반복 제거하면, 통계적 편향 없이 순수 상식 추론만 요구하는 문제가 남는다.


방법 (Method)

프레임워크 개요

graph TB
    A["크라우드소싱 수집<br/>(쌍둥이 문장 쌍)"] --> B["어노테이션 검증<br/>(3인 합의)"]
    B --> C["AfLite 필터링"]

    C --> D["문장 임베딩 추출<br/>(RoBERTa/BERT)"]
    D --> E["선형 분류기 학습"]
    E --> F{"분류 가능?"}
    F -->|Yes| G["제거 (편향 있음)"]
    F -->|No| H["보존 (편향 없음)"]
    H --> I["WinoGrande<br/>43,972 문제"]

발견 (Findings)

주요 결과 (Test, 정확도)

모델WinoGrandeWSC (원본)
Random50.0%50.0%
BERT-Large64.9%71.9%
RoBERTa-Large79.1%90.1%
Human94.0%~96%

(Table 2)

핵심 발견

  1. AfLite의 효과: 필터링 전 RoBERTa ~91% → 필터링 후 79.1%, 약 12%p 하락 (Table 3)
  2. 데이터 크기 효과: xs(160개)→xl(40k) 학습 시 BERT 53.3%→64.9% (Table 4)
  3. 원본 WSC와의 괴리: WSC에서 90%인 모델도 WinoGrande에서 79% — 편향 제거의 효과
  4. 인간-모델 격차: ~15%p 격차, 상식 추론에서 여전히 유의미한 차이

이론적 의의

데이터셋 편향 제거의 체계적 방법론

AfLite는 크라우드소싱 데이터셋에서 편향을 제거하는 범용적 방법론으로, 이후 다양한 벤치마크에 적용되었다. “벤치마크의 점수가 높다 ≠ 과제를 이해한다”는 교훈을 정량적으로 보여주었다.


관련 연구


핵심 용어 정리

용어정의
WinoGrande44k 규모의 적대적 필터링된 위노그라드 스키마 챌린지
Winograd Schema대명사가 가리키는 대상을 상식으로 판단하는 언어 이해 과제
AfLiteAdversarial Filtering Lite. 임베딩 + 선형 분류기로 편향 제거
Annotation Artifact데이터 수집 과정에서 생긴 인위적 패턴, 모델이 지름길로 활용
Twin Sentence한 단어만 바꾸면 정답이 반전되는 문장 쌍
Coreference Resolution대명사가 가리키는 실체를 결정하는 자연어 처리 과제

태그

paper #2019 benchmark commonsense WinoGrande winograd coreference AAAI