CNN/DailyMail: 뉴스 기사 요약 벤치마크

Digest: CNN/DailyMail은 텍스트 요약 분야에서 가장 널리 사용되는 벤치마크다. CNN과 Daily Mail 뉴스 기사 312,085개와 그에 해당하는 **요약(bullet point highlights)**을 수집했다. 원래는 독해 과제(fill-in-the-blank)로 제안되었으나, 이후 추출형/추상형 요약 벤치마크로 재정의되어 사실상 요약 연구의 표준이 되었다. ROUGE 메트릭으로 평가하며, 기사 평균 길이 ~781 단어, 요약 평균 ~56 단어다. GPT-2/3의 생성 능력 평가에 핵심적으로 사용되었다.


메타데이터

항목내용
제목Teaching Machines to Read and Comprehend (원본) / Abstractive Text Summarization using Sequence-to-sequence RNNs (요약 버전)
저자Karl Moritz Hermann et al. (원본); Nallapati et al. (요약 재정의)
소속Google DeepMind / IBM Research
연도2015/2016
발표NIPS 2015 / NAACL 2016, arXiv:1602.06023
링크arXiv, Dataset
키워드CNN/DailyMail, summarization, ROUGE, news, abstractive

데이터셋 구성

규모 및 분할

SplitCNNDailyMail합계
Train90,266196,961287,227
Dev1,22012,14813,368
Test1,09310,39711,490
합계92,579219,506312,085

Feature/Column 구조

필드설명예시
article뉴스 기사 본문”LONDON, England — … (평균 781 단어)“
highlights요약 (bullet points)“New treaty signed… (평균 56 단어)“
id기사 고유 IDURL hash

통계

항목
평균 기사 길이~781 단어
평균 요약 길이~56 단어 (3.75 문장)
압축률~14:1

실제 데이터 예시

예시

Article: "LONDON, England -- Harry Potter star Daniel Radcliffe
gains access to a reported £20 million fortune as he turns 18
on Monday, but insists the money won't change his life..."
(600+ words)

Highlights:
• Harry Potter star Daniel Radcliffe gets £20M on 18th birthday
• Young actor says money won't change him
• Plans to continue acting career

발견 (Findings)

주요 결과 (ROUGE scores, Test set)

모델ROUGE-1ROUGE-2ROUGE-L
Lead-3 baseline40.317.736.6
Pointer-Generator39.517.336.4
BertSumAbs41.719.438.8
PEGASUS44.221.541.1
GPT-3 (few-shot)~30~10~25
GPT-4~42+~20+~38+

핵심 발견

  1. Lead-3의 강력함: 처음 3문장 추출만으로도 대부분의 모델과 비슷 — extractive bias
  2. Abstractive의 어려움: 추상형 요약이 추출형보다 ROUGE에서 낮은 경우가 많음
  3. LLM의 한계: GPT-3 few-shot이 ROUGE에서 낮지만, 실제 품질은 높을 수 있음 (메트릭 한계)

관련 연구


핵심 용어 정리

용어정의
CNN/DailyMailCNN/Daily Mail 뉴스 기사 기반 요약 벤치마크
ROUGERecall-Oriented Understudy for Gisting Evaluation. 요약 평가 메트릭
Extractive Summarization원문에서 중요 문장을 추출하는 요약
Abstractive Summarization원문을 재구성하여 새로운 문장으로 요약
Lead-3기사의 처음 3문장을 요약으로 사용하는 기준선

태그

paper #2016 benchmark summarization CNN_DailyMail ROUGE news