CNN/DailyMail: 뉴스 기사 요약 벤치마크

Digest: CNN/DailyMail은 텍스트 요약 분야에서 가장 널리 사용되는 벤치마크다. CNN과 Daily Mail 뉴스 기사 312,085개와 그에 해당하는 **요약(bullet point highlights)**을 수집했다. 원래는 독해 과제(fill-in-the-blank)로 제안되었으나, 이후 추출형/추상형 요약 벤치마크로 재정의되어 사실상 요약 연구의 표준이 되었다. ROUGE 메트릭으로 평가하며, 기사 평균 길이 ~781 단어, 요약 평균 ~56 단어다. GPT-2/3의 생성 능력 평가에 핵심적으로 사용되었다.

메타데이터

항목	내용
제목	Teaching Machines to Read and Comprehend (원본) / Abstractive Text Summarization using Sequence-to-sequence RNNs (요약 버전)
저자	Karl Moritz Hermann et al. (원본); Nallapati et al. (요약 재정의)
소속	Google DeepMind / IBM Research
연도	2015/2016
발표	NIPS 2015 / NAACL 2016, arXiv:1602.06023
링크	arXiv, Dataset
키워드	CNN/DailyMail, summarization, ROUGE, news, abstractive

데이터셋 구성

규모 및 분할

Split	CNN	DailyMail	합계
Train	90,266	196,961	287,227
Dev	1,220	12,148	13,368
Test	1,093	10,397	11,490
합계	92,579	219,506	312,085

Feature/Column 구조

필드	설명	예시
`article`	뉴스 기사 본문	”LONDON, England — … (평균 781 단어)“
`highlights`	요약 (bullet points)	“New treaty signed… (평균 56 단어)“
`id`	기사 고유 ID	URL hash

통계

항목	값
평균 기사 길이	~781 단어
평균 요약 길이	~56 단어 (3.75 문장)
압축률	~14:1

실제 데이터 예시

예시

Article: "LONDON, England -- Harry Potter star Daniel Radcliffe
gains access to a reported £20 million fortune as he turns 18
on Monday, but insists the money won't change his life..."
(600+ words)

Highlights:
• Harry Potter star Daniel Radcliffe gets £20M on 18th birthday
• Young actor says money won't change him
• Plans to continue acting career

발견 (Findings)

주요 결과 (ROUGE scores, Test set)

모델	ROUGE-1	ROUGE-2	ROUGE-L
Lead-3 baseline	40.3	17.7	36.6
Pointer-Generator	39.5	17.3	36.4
BertSumAbs	41.7	19.4	38.8
PEGASUS	44.2	21.5	41.1
GPT-3 (few-shot)	~30	~10	~25
GPT-4	~42+	~20+	~38+

핵심 발견

Lead-3의 강력함: 처음 3문장 추출만으로도 대부분의 모델과 비슷 — extractive bias
Abstractive의 어려움: 추상형 요약이 추출형보다 ROUGE에서 낮은 경우가 많음
LLM의 한계: GPT-3 few-shot이 ROUGE에서 낮지만, 실제 품질은 높을 수 있음 (메트릭 한계)

핵심 용어 정리

용어	정의
CNN/DailyMail	CNN/Daily Mail 뉴스 기사 기반 요약 벤치마크
ROUGE	Recall-Oriented Understudy for Gisting Evaluation. 요약 평가 메트릭
Extractive Summarization	원문에서 중요 문장을 추출하는 요약
Abstractive Summarization	원문을 재구성하여 새로운 문장으로 요약
Lead-3	기사의 처음 3문장을 요약으로 사용하는 기준선

Juhyeon's Blog

탐색기

Teaching Machines to Read and Comprehend (원본) - Abstractive Text Summarization using Sequence-to-sequence RNNs (요약 버전)

CNN/DailyMail: 뉴스 기사 요약 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

통계

실제 데이터 예시

예시

발견 (Findings)

주요 결과 (ROUGE scores, Test set)

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크