Summary
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
주로 자동 요약(Summarization) 평가에 쓰이는 metric.
→ Recall(재현율) 기반: “정답에 있는 단어 중 내가 만든 문장에 포함된 비율”
→ 요약은 핵심 정보를 빠뜨리면 안 되니까 recall이 중요.
주요 변형
- ROUGE-N: N-gram 단위 recall (ROUGE-1: 단어, ROUGE-2: 2-gram).
- ROUGE-L: 가장 긴 공통 부분 수열(Longest Common Subsequence)을 사용. 어순을 부분적으로 반영.
- ROUGE-W: 연속된 매칭에 가중치를 더 줌.
한 줄 예시
Reference:
the cat is on the mat
Hypothesis:the cat sat on the mat
→ ROUGE-1 recall: reference 6단어 중 5개(the, cat, on, the, mat)가 hypothesis에 있음 → 5/6.
한계
- BLEU와 마찬가지로 단어 표면 겹침만 측정 → 동의어/패러프레이즈 평가 못함.
- Recall만 보면 길게 쓸수록 유리해지므로 F-score 형태로도 자주 사용.
자매 metric
BLEU: 번역 평가용, precision 기반 (ROUGE와 짝꿍).
두 metric은 같은 n-gram overlap 아이디어를 precision/recall 두 방향으로 바라본 것.
원 논문
Lin, C. Y. (2004).
“ROUGE: A Package for Automatic Evaluation of Summaries.”
Text Summarization Branches Out: Proceedings of the ACL-04 Workshop.