XSum: 극단적 요약 벤치마크

Digest: CNN/DailyMail이 다문장 요약인 반면, **XSum(Extreme Summarization)**은 기사 전체를 단 1문장으로 요약하는 극단적 과제를 제시한다. BBC 뉴스 226,711개 기사를 수집하고, 각 기사의 첫 문장(introductory sentence)을 gold summary로 사용했다. 이 설정에서는 기사의 핵심 요지만 포착해야 하므로 추출형 요약이 사실상 불가능하고, 반드시 추상형(abstractive) 접근이 필요하다. Lead-1 baseline ROUGE-1 16.3 vs 최고 모델 29.8로, CNN/DM과 달리 간단한 baseline으로 풀 수 없다.


메타데이터

항목내용
제목Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization
저자Shashi Narayan, Shay B. Cohen, Mirella Lapata
소속University of Edinburgh
연도2018
발표EMNLP 2018, arXiv:1808.08745
링크arXiv, Dataset
키워드XSum, extreme summarization, abstractive, single-sentence, BBC

데이터셋 구성

규모 및 분할

Split예시 수
Train204,045
Dev11,332
Test11,334
합계226,711

통계

항목
평균 기사 길이~431 단어
평균 요약 길이~23 단어 (1문장)
압축률~19:1
추출 가능 비율~8% (요약 문장이 기사에 직접 존재)

실제 데이터 예시

예시 1

Article: "The full cost of damage in Newton Stewart, South
Scotland, caused by Storm Desmond, is still being
assessed. Temporary repairs were made to... [400+ words]"

Summary: "Clean-up operations are continuing across the
Scottish Borders and Dumfries and Galloway after flooding
caused bytes of damage."

예시 2

Article: "An American woman who became combatant against
the Islamic State... [500+ words]"

Summary: "An American woman who fought against Islamic State
in Syria has died."

발견 (Findings)

주요 결과 (Test set, ROUGE)

모델ROUGE-1ROUGE-2ROUGE-L
Lead-116.31.612.0
Extractive Oracle29.88.822.7
Topic-ConvS2S31.911.525.8
PEGASUS47.224.639.3
BART45.122.337.3

핵심 발견

  1. 추출형의 한계: Lead-1이 ROUGE-1 16.3으로 매우 낮음 — CNN/DM과 대비
  2. 추상형 필수: 기사의 핵심을 재구성하는 능력이 필수적
  3. Hallucination 문제: 극단적 압축에서 사실과 다른 내용을 생성하는 문제가 심각

관련 연구


핵심 용어 정리

용어정의
XSumExtreme Summarization. 1문장 극단적 요약 벤치마크
Abstractive Summarization원문을 재구성하여 새로운 문장으로 요약
Extractive Oracle원문에서 정답과 가장 유사한 문장을 추출한 상한선
Hallucination모델이 원문에 없는 사실을 생성하는 현상

태그

paper #2018 benchmark summarization XSum extreme abstractive BBC