상식 이야기의 심층 이해를 위한 코퍼스와 클로즈 평가

Digest: 일상적 사건 간의 인과적·시간적 관계(예: “비가 와서 우산을 폈다”)에 대한 상식 추론(commonsense reasoning)은 NLU의 핵심 능력이나, 이를 체계적으로 평가할 수단이 부족했다. Mostafazadeh 등은 ROCStories라는 ~50,000개 5문장 일상 이야기 코퍼스를 AMT 작업자를 통해 수집하고, 이를 기반으로 Story Cloze Test를 설계했다. 이 테스트는 4문장의 이야기를 제시하고 2개의 결말 중 올바른 것을 선택하는 과제로, 함의가 아닌 **이야기 일관성(narrative coherence)**을 판별하는 점에서 NLI와 구별된다. 당시 얕은 언어 이해 기반 SOTA 모델이 낮은 성능을 보여 상식 추론의 난제를 부각했다. 한계점으로는 일상 이야기에 한정되어 복잡한 서사나 추상적 상황을 다루지 못하며, 이분 선택이라는 단순한 평가 형식이 실제 이야기 이해의 깊이를 충분히 측정하지 못할 수 있다. 미해결 질문은 모델이 진정한 인과적 상식을 학습하는지 아니면 표면적 통계 패턴에 의존하는지이다.

섹션별 요약

Introduction

인간은 일상 이야기에서 인과관계, 동기, 결과를 자연스럽게 추론하지만, NLU 시스템은 이러한 상식 지식이 부족하다. 기존 스크립트 학습(Schank & Abelson)이나 인과 추론 데이터셋은 규모가 작거나 도메인이 제한적이었다.

Methods

ROCStories 코퍼스: AMT 작업자에게 “5문장 일상 이야기”를 작성하도록 요청. 인과적·시간적으로 연결된 일관된 서사를 담도록 가이드라인 제공. ~50,000개 이야기 수집.

Story Cloze Test: 4문장 + 2개 결말(1 올바른, 1 틀린) 선택 형식. 틀린 결말은 별도 AMT 작업자가 그럴듯하지만 일관성이 떨어지도록 작성.

Results

당시 SOTA 모델(DSSM, Skip-Thoughts 등)이 랜덤(50%) 대비 약간의 개선만을 보여, 상식 추론의 근본적 어려움을 입증.

Insights

주목할 점: NLI(함의 판단)와 Story Cloze(서사 일관성)의 차이를 명확히 구분한 점.
연결 고리: ROCStories → SWAG, HellaSwag → 현대 commonsense 벤치마크로 발전.

메타데이터

항목	내용
제목	A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories
저자	Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, James Allen
소속	University of Rochester, USNA, Microsoft Research, Virginia Tech
연도	2016
발표	NAACL-HLT 2016
링크	arXiv, ROCStories
키워드	ROCStories, Story Cloze Test, commonsense reasoning, narrative

방법 (Method)

프레임워크 개요

graph TB
    A["AMT 작업자에게<br/>5문장 일상 이야기 작성 요청"] --> B["ROCStories 코퍼스<br/>(~50K 이야기)"]
    B --> C["4문장 이야기 +<br/>올바른 결말 추출"]
    C --> D["AMT 작업자가<br/>틀린 결말 작성"]
    D --> E["Story Cloze Test<br/>(4문장 + 2선택)"]
    E --> F["올바른 결말 선택<br/>(상식 추론 평가)"]

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	⚠️	베이스라인 일부만 공개
데이터 공개	✅	등록 후 접근 가능
하이퍼파라미터	⚠️	부분적 기술
실험 환경	⚠️	부분적
통계적 신뢰도	⚠️	단일 실행
종합 등급	B

주장별 신뢰도

#	주장	근거	신뢰도
1	Story Cloze가 NLI와 구별되는 상식 추론을 평가	과제 설계와 오류 분석으로 입증	🟢
2	당시 SOTA가 상식 추론에 부족	복수 모델의 일관된 저성능	🟢

읽기 난이도: ⭐

일상적 예시가 풍부하여 배경지식 없이도 이해 가능.

축	Story Cloze (본 논문)	COPA (2011)	SWAG (2018)	HellaSwag (2019)
핵심 접근	이야기 결말 선택	인과 추론 2선택	상황 결과 선택	적대적 상황 선택
데이터 규모	~50K 이야기	1,000	113K	70K
추론 유형	서사 일관성	인과/결과	일상 상황	일상 상황
한계	일상에 한정	소규모	표면 패턴 편향	LM 특화

원자적 인사이트 (Zettelkasten)

💡 이야기 일관성 판단은 함의 판단과 질적으로 다른 추론 능력을 요구한다

출처: A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories (Mostafazadeh et al., 2016)
유형: 이론적

NLI는 두 문장 간 논리적 관계를 판단하지만, Story Cloze는 다문장 맥락에서의 인과적·시간적 일관성을 판단한다. 이 구분은 상식 추론이 단순 함의를 넘어서는 별도의 능력임을 시사한다.

핵심 조건/맥락: 일상적 사건 시퀀스에서의 추론. 추상적 논증에서는 다른 메커니즘이 필요할 수 있음.
연결: COPA, SWAG, HellaSwag, WinoGrande
활용 가능성: LLM의 상식 추론 능력 평가에서 NLI와 별도의 평가 차원으로 활용.

핵심 용어 정리

용어	정의
ROCStories	AMT로 수집한 ~50K 5문장 일상 이야기 코퍼스
Story Cloze Test	4문장 이야기에 올바른 결말을 2개 중 선택하는 상식 추론 과제
상식 추론 (Commonsense Reasoning)	일상적 사건 간의 인과관계, 시간 순서, 동기 등을 추론하는 능력
서사 일관성 (Narrative Coherence)	이야기의 사건들이 인과적·시간적으로 자연스럽게 연결되는 정도

Juhyeon's Blog

탐색기

A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories