Summary

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
주로 자동 요약(Summarization) 평가에 쓰이는 metric.

Recall(재현율) 기반: “정답에 있는 단어 중 내가 만든 문장에 포함된 비율”
→ 요약은 핵심 정보를 빠뜨리면 안 되니까 recall이 중요.

주요 변형

  • ROUGE-N: N-gram 단위 recall (ROUGE-1: 단어, ROUGE-2: 2-gram).
  • ROUGE-L: 가장 긴 공통 부분 수열(Longest Common Subsequence)을 사용. 어순을 부분적으로 반영.
  • ROUGE-W: 연속된 매칭에 가중치를 더 줌.

한 줄 예시

Reference: the cat is on the mat
Hypothesis: the cat sat on the mat
→ ROUGE-1 recall: reference 6단어 중 5개(the, cat, on, the, mat)가 hypothesis에 있음 → 5/6.

한계

  • BLEU와 마찬가지로 단어 표면 겹침만 측정 → 동의어/패러프레이즈 평가 못함.
  • Recall만 보면 길게 쓸수록 유리해지므로 F-score 형태로도 자주 사용.

자매 metric

BLEU: 번역 평가용, precision 기반 (ROUGE와 짝꿍).
두 metric은 같은 n-gram overlap 아이디어를 precision/recall 두 방향으로 바라본 것.

원 논문

Lin, C. Y. (2004).
“ROUGE: A Package for Automatic Evaluation of Summaries.”
Text Summarization Branches Out: Proceedings of the ACL-04 Workshop.