Digest: CNN/DailyMail은 텍스트 요약 분야에서 가장 널리 사용되는 벤치마크다. CNN과 Daily Mail 뉴스 기사 312,085개와 그에 해당하는 **요약(bullet point highlights)**을 수집했다. 원래는 독해 과제(fill-in-the-blank)로 제안되었으나, 이후 추출형/추상형 요약 벤치마크로 재정의되어 사실상 요약 연구의 표준이 되었다. ROUGE 메트릭으로 평가하며, 기사 평균 길이 ~781 단어, 요약 평균 ~56 단어다. GPT-2/3의 생성 능력 평가에 핵심적으로 사용되었다.
메타데이터
항목
내용
제목
Teaching Machines to Read and Comprehend (원본) / Abstractive Text Summarization using Sequence-to-sequence RNNs (요약 버전)
저자
Karl Moritz Hermann et al. (원본); Nallapati et al. (요약 재정의)
Article: "LONDON, England -- Harry Potter star Daniel Radcliffe
gains access to a reported £20 million fortune as he turns 18
on Monday, but insists the money won't change his life..."
(600+ words)
Highlights:
• Harry Potter star Daniel Radcliffe gets £20M on 18th birthday
• Young actor says money won't change him
• Plans to continue acting career
발견 (Findings)
주요 결과 (ROUGE scores, Test set)
모델
ROUGE-1
ROUGE-2
ROUGE-L
Lead-3 baseline
40.3
17.7
36.6
Pointer-Generator
39.5
17.3
36.4
BertSumAbs
41.7
19.4
38.8
PEGASUS
44.2
21.5
41.1
GPT-3 (few-shot)
~30
~10
~25
GPT-4
~42+
~20+
~38+
핵심 발견
Lead-3의 강력함: 처음 3문장 추출만으로도 대부분의 모델과 비슷 — extractive bias
Abstractive의 어려움: 추상형 요약이 추출형보다 ROUGE에서 낮은 경우가 많음
LLM의 한계: GPT-3 few-shot이 ROUGE에서 낮지만, 실제 품질은 높을 수 있음 (메트릭 한계)