Story Cloze Test: 이야기 결말 선택 벤치마크

Digest: 상식 추론 능력을 평가하기 위해, Story Cloze Test는 4문장으로 구성된 이야기의 **올바른 결말(5번째 문장)**을 2개 후보 중 선택하는 과제를 제시한다. ROCStories 코퍼스(98,162개 5문장 이야기)를 기반으로 하며, 테스트셋은 3,742개 문제로 구성된다. 이야기 이해에는 인과관계, 시간 순서, 감정 추론 등 다양한 상식이 필요하다. 2016년 최고 모델 58.5%로 인간(100%) 대비 큰 격차를 보였으며, GPT-2가 이 벤치마크에서 처음으로 강력한 성능을 보여주었다.

메타데이터

항목	내용
제목	A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories
저자	Nasrin Mostafazadeh et al.
소속	University of Rochester, Microsoft Research, Virginia Tech, Georgia Tech
연도	2016
발표	NAACL 2016, arXiv:1604.01696
링크	arXiv, ROCStories
키워드	Story Cloze, ROCStories, narrative understanding, commonsense reasoning

데이터셋 구성

규모

구성요소	규모
ROCStories 코퍼스	98,162 이야기 (학습용)
Story Cloze Dev	1,871 문제
Story Cloze Test	1,871 문제
합계	3,742 평가 문제

Feature/Column 구조

필드	설명	예시
`story`	4문장 이야기	”Karen was assigned a roommate…”
`ending1`	후보 결말 1	”Karen and her roommate became friends.”
`ending2`	후보 결말 2	”Karen moved to a new room.”
`correct`	정답 (1 or 2)	`1`

실제 데이터 예시

예시 1

Story:
1. Karen was assigned a roommate her first year of college.
2. Her roommate was very messy.
3. Karen tried to be patient with her.
4. Finally Karen couldn't take it anymore.

Right Ending: Karen asked to move to a different room.
Wrong Ending: Karen became best friends with her roommate.

예시 2

Story:
1. Jim got his first credit card in college.
2. He didn't have a job so he couldn't pay the bills.
3. The bills kept getting bigger and bigger.
4. Jim realized he was spending too much money.

Right Ending: Jim decided to cut up his credit card.
Wrong Ending: Jim decided to open another credit card.

방법 (Method)

graph TB
    A["Amazon MTurk workers<br/>5문장 일상 이야기 작성"] --> B["ROCStories 코퍼스<br/>98,162 이야기"]
    B --> C["Story Cloze Test 구성"]
    C --> D["4문장 이야기 제시"]
    D --> E["올바른 결말 + <br/>그럴듯한 틀린 결말"]
    E --> F["2지선다 평가<br/>3,742 문제"]

발견 (Findings)

주요 결과

모델	정확도
Human	~100%
DSSM (Deep Structured Semantic Model)	58.5%
Skip-thoughts	55.2%
Random	50.0%
GPT-2 (2019)	~84%
GPT-3 (2020)	~87%

핵심 발견

상식의 어려움: 2016년 최고 모델 58.5% — 이야기 이해에 상식이 핵심
GPT-2의 도약: 사전학습 LM이 상식 추론에서 큰 개선을 보임
HellaSwag의 전신: Story Cloze의 “문장 완성” 아이디어가 HellaSwag로 발전

핵심 용어 정리

용어	정의
Story Cloze Test	4문장 이야기의 올바른 결말을 2개 중 선택하는 평가
ROCStories	98k 개의 5문장 일상 이야기 코퍼스
Narrative Understanding	이야기의 인과, 시간, 감정 흐름을 이해하는 능력

Juhyeon's Blog

탐색기

A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories

Story Cloze Test: 이야기 결말 선택 벤치마크

메타데이터

데이터셋 구성

규모

Feature/Column 구조

실제 데이터 예시

예시 1

예시 2

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크