Story Cloze Test: 이야기 결말 선택 벤치마크

Digest: 상식 추론 능력을 평가하기 위해, Story Cloze Test는 4문장으로 구성된 이야기의 **올바른 결말(5번째 문장)**을 2개 후보 중 선택하는 과제를 제시한다. ROCStories 코퍼스(98,162개 5문장 이야기)를 기반으로 하며, 테스트셋은 3,742개 문제로 구성된다. 이야기 이해에는 인과관계, 시간 순서, 감정 추론 등 다양한 상식이 필요하다. 2016년 최고 모델 58.5%로 인간(100%) 대비 큰 격차를 보였으며, GPT-2가 이 벤치마크에서 처음으로 강력한 성능을 보여주었다.


메타데이터

항목내용
제목A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories
저자Nasrin Mostafazadeh et al.
소속University of Rochester, Microsoft Research, Virginia Tech, Georgia Tech
연도2016
발표NAACL 2016, arXiv:1604.01696
링크arXiv, ROCStories
키워드Story Cloze, ROCStories, narrative understanding, commonsense reasoning

데이터셋 구성

규모

구성요소규모
ROCStories 코퍼스98,162 이야기 (학습용)
Story Cloze Dev1,871 문제
Story Cloze Test1,871 문제
합계3,742 평가 문제

Feature/Column 구조

필드설명예시
story4문장 이야기”Karen was assigned a roommate…”
ending1후보 결말 1”Karen and her roommate became friends.”
ending2후보 결말 2”Karen moved to a new room.”
correct정답 (1 or 2)1

실제 데이터 예시

예시 1

Story:
1. Karen was assigned a roommate her first year of college.
2. Her roommate was very messy.
3. Karen tried to be patient with her.
4. Finally Karen couldn't take it anymore.

Right Ending: Karen asked to move to a different room.
Wrong Ending: Karen became best friends with her roommate.

예시 2

Story:
1. Jim got his first credit card in college.
2. He didn't have a job so he couldn't pay the bills.
3. The bills kept getting bigger and bigger.
4. Jim realized he was spending too much money.

Right Ending: Jim decided to cut up his credit card.
Wrong Ending: Jim decided to open another credit card.

방법 (Method)

graph TB
    A["Amazon MTurk workers<br/>5문장 일상 이야기 작성"] --> B["ROCStories 코퍼스<br/>98,162 이야기"]
    B --> C["Story Cloze Test 구성"]
    C --> D["4문장 이야기 제시"]
    D --> E["올바른 결말 + <br/>그럴듯한 틀린 결말"]
    E --> F["2지선다 평가<br/>3,742 문제"]

발견 (Findings)

주요 결과

모델정확도
Human~100%
DSSM (Deep Structured Semantic Model)58.5%
Skip-thoughts55.2%
Random50.0%
GPT-2 (2019)~84%
GPT-3 (2020)~87%

핵심 발견

  1. 상식의 어려움: 2016년 최고 모델 58.5% — 이야기 이해에 상식이 핵심
  2. GPT-2의 도약: 사전학습 LM이 상식 추론에서 큰 개선을 보임
  3. HellaSwag의 전신: Story Cloze의 “문장 완성” 아이디어가 HellaSwag로 발전

관련 연구


핵심 용어 정리

용어정의
Story Cloze Test4문장 이야기의 올바른 결말을 2개 중 선택하는 평가
ROCStories98k 개의 5문장 일상 이야기 코퍼스
Narrative Understanding이야기의 인과, 시간, 감정 흐름을 이해하는 능력

태그

paper #2016 benchmark commonsense StoryCloze narrative ROCStories