XSum: 극단적 요약 벤치마크

Digest: CNN/DailyMail이 다문장 요약인 반면, **XSum(Extreme Summarization)**은 기사 전체를 단 1문장으로 요약하는 극단적 과제를 제시한다. BBC 뉴스 226,711개 기사를 수집하고, 각 기사의 첫 문장(introductory sentence)을 gold summary로 사용했다. 이 설정에서는 기사의 핵심 요지만 포착해야 하므로 추출형 요약이 사실상 불가능하고, 반드시 추상형(abstractive) 접근이 필요하다. Lead-1 baseline ROUGE-1 16.3 vs 최고 모델 29.8로, CNN/DM과 달리 간단한 baseline으로 풀 수 없다.

메타데이터

항목	내용
제목	Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization
저자	Shashi Narayan, Shay B. Cohen, Mirella Lapata
소속	University of Edinburgh
연도	2018
발표	EMNLP 2018, arXiv:1808.08745
링크	arXiv, Dataset
키워드	XSum, extreme summarization, abstractive, single-sentence, BBC

데이터셋 구성

규모 및 분할

Split	예시 수
Train	204,045
Dev	11,332
Test	11,334
합계	226,711

통계

항목	값
평균 기사 길이	~431 단어
평균 요약 길이	~23 단어 (1문장)
압축률	~19:1
추출 가능 비율	~8% (요약 문장이 기사에 직접 존재)

실제 데이터 예시

예시 1

Article: "The full cost of damage in Newton Stewart, South
Scotland, caused by Storm Desmond, is still being
assessed. Temporary repairs were made to... [400+ words]"

Summary: "Clean-up operations are continuing across the
Scottish Borders and Dumfries and Galloway after flooding
caused bytes of damage."

예시 2

Article: "An American woman who became combatant against
the Islamic State... [500+ words]"

Summary: "An American woman who fought against Islamic State
in Syria has died."

발견 (Findings)

주요 결과 (Test set, ROUGE)

모델	ROUGE-1	ROUGE-2	ROUGE-L
Lead-1	16.3	1.6	12.0
Extractive Oracle	29.8	8.8	22.7
Topic-ConvS2S	31.9	11.5	25.8
PEGASUS	47.2	24.6	39.3
BART	45.1	22.3	37.3

핵심 발견

추출형의 한계: Lead-1이 ROUGE-1 16.3으로 매우 낮음 — CNN/DM과 대비
추상형 필수: 기사의 핵심을 재구성하는 능력이 필수적
Hallucination 문제: 극단적 압축에서 사실과 다른 내용을 생성하는 문제가 심각

핵심 용어 정리

용어	정의
XSum	Extreme Summarization. 1문장 극단적 요약 벤치마크
Abstractive Summarization	원문을 재구성하여 새로운 문장으로 요약
Extractive Oracle	원문에서 정답과 가장 유사한 문장을 추출한 상한선
Hallucination	모델이 원문에 없는 사실을 생성하는 현상

Juhyeon's Blog

탐색기

Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization

XSum: 극단적 요약 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

통계

실제 데이터 예시

예시 1

예시 2

발견 (Findings)

주요 결과 (Test set, ROUGE)

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크