Digest: 기계 번역(Machine Translation) 평가의 사실상 국제 표준이자 “번역 올림픽”. 2006년부터 ACL 커뮤니티(statmt.org)가 매년 개최하며, WMT14가 Transformer 논문(“Attention Is All You Need”)의 핵심 벤치마크로 사용되어 가장 널리 인용된다. 뉴스 도메인 병렬 코퍼스에서 시스템 출력을 인간 평가(DA, MQM)와 자동 메트릭(BLEU, chrF, COMET, TER)으로 비교한다. 매년 최신 뉴스 기사로 새로운 테스트셋을 구성하여 데이터 오염(contamination)을 자연스럽게 방지한다.
메타데이터
항목
내용
정식 명칭
WMT Shared Task on Machine Translation
주관
ACL WMT Workshop / Conference on Machine Translation
참고: 학습 데이터는 Europarl(유럽 의회 의사록), Common Crawl(웹 크롤링), News Commentary(뉴스 해설) 등 여러 병렬 코퍼스의 합산이다. 매년 코퍼스가 갱신·추가된다.
Feature / Column 구조
Feature
Type
설명
segment_id
int
문장 단위 고유 ID
doc_id
string
문서(기사) 단위 ID
language_pair
string
언어 쌍 (e.g., en-de)
source_sentence
string
원문 문장
reference_translation
string
인간 참조 번역
system_output
string
MT 시스템 출력 (평가 시)
언어 쌍 분포 (WMT14 News Translation Task)
언어 쌍
학습 데이터 규모
테스트셋 크기
특성
en↔de
~4.5M
~3,003
가장 널리 인용, Transformer 벤치마크
en↔fr
~36M
~3,003
대규모 학습 데이터, 높은 BLEU
en↔cs
~15M
~3,003
형태론적 복잡성 (morphologically rich)
en↔ru
~2M
~3,003
키릴 문자, 자유 어순
en↔hi
~0.3M
~2,507
저자원(low-resource) 언어 쌍
실제 데이터 예시
예시 1: en→de (newstest2014)
Field
Content
Source (EN)
“The police did not comment on the incident.”
Reference (DE)
“Die Polizei äußerte sich nicht zu dem Vorfall.”
예시 2: en→fr (newstest2014)
Field
Content
Source (EN)
“The European Commission has proposed new regulations on data protection.”
Reference (FR)
“La Commission européenne a proposé de nouvelles réglementations sur la protection des données.”
예시 3: en→cs (newstest2014)
Field
Content
Source (EN)
“Scientists have discovered a new species of frog in the Amazon rainforest.”
Reference (CS)
“Vědci objevili nový druh žáby v amazonském deštném pralese.”
왜 이 연구를 하는가?
표준화된 비교 부재: MT 연구 초기에는 각 연구팀이 자체 테스트셋을 사용하여 시스템 간 공정한 비교가 불가능했다
인간 평가의 필요성: 자동 메트릭(BLEU)만으로는 번역 품질의 미묘한 차이를 포착할 수 없다 — 인간 평가와 자동 메트릭을 동시에 수행하는 프레임워크가 필요했다
연도별 갱신: 고정된 벤치마크는 시간이 지나면 학습 데이터에 오염(contamination)될 위험이 있다 — 매년 새로운 테스트셋으로 이를 원천 차단한다
메트릭 자체의 평가: Metrics Shared Task를 통해 BLEU, COMET 등 자동 메트릭이 인간 판단과 얼마나 상관하는지를 정량적으로 검증한다
MT의 올림픽: 모든 주요 MT 발전(Statistical MT → Neural MT → Transformer → LLM)이 WMT에서 벤치마킹되었다
방법: WMT 평가 파이프라인
flowchart TD
A["뉴스 기사 수집<br/>(당해 연도 최신 기사)"] --> B["소스 문장 추출<br/>+ 인간 참조 번역 생성"]
B --> C["테스트셋 배포<br/>(newstest20XX)"]
C --> D["참가 시스템 제출<br/>(system outputs)"]
D --> E["자동 메트릭 평가"]
D --> F["인간 평가"]
E --> G["BLEU / chrF /<br/>COMET / TER 산출"]
F --> H["DA: Direct Assessment<br/>(0-100점, WMT17~)"]
F --> I["MQM: 오류 유형별<br/>세밀 평가 (WMT21~)"]
G --> J["시스템 순위 결정<br/>+ 분석 리포트 발행"]
H --> J
I --> J
style A fill:#e1f5fe
style D fill:#fff3e0
style J fill:#e8f5e9
학습 데이터 구성
flowchart LR
EP["Europarl<br/>(의회 의사록)"] --> TRAIN["WMT14<br/>Training Data"]
CC["Common Crawl<br/>(웹 병렬 문장)"] --> TRAIN
NC["News Commentary<br/>(뉴스 해설)"] --> TRAIN
UN["UN Parallel Corpus<br/>(유엔 문서)"] --> TRAIN
TRAIN --> |"en-de: ~4.5M"| MODEL["MT 시스템 학습"]
TRAIN --> |"en-fr: ~36M"| MODEL
style TRAIN fill:#f3e5f5
발견: 주요 결과
WMT14 en→de BLEU 마일스톤
시스템
연도
BLEU
비고
Statistical MT (best)
2014
~20.0
구문 기반(Phrase-based)
RNN Seq2Seq
2015
~22.0
신경망 번역의 시작
ConvS2S (Facebook)
2017
~25.2
CNN 기반
Transformer
2017
28.4
”Attention Is All You Need” 랜드마크
mBART / mT5
2020
~30.0
사전학습 다국어 모델
Google Translate
2023
~33.0
상용 시스템
GPT-4
2023
~35+
LLM few-shot
WMT14 en→fr BLEU 마일스톤
시스템
연도
BLEU
비고
Statistical MT (best)
2014
~35.0
대규모 학습 데이터(36M) 이점
Transformer
2017
41.8
단일 모델 SOTA — 랜드마크 결과
GPT-4
2023
~46+
Few-shot prompting
인간 평가 체계 변천
방식
도입 연도
특징
Ranking (상대 순위)
2006~2016
시스템 출력 쌍 비교
DA (Direct Assessment)
WMT17~
0-100 연속 점수, 절대 평가
MQM (Multidimensional Quality Metrics)
WMT21~
오류 유형(정확성/유창성)별 감점
이론적 의의
학술적 기여
MT 연구의 공통 언어: WMT BLEU 점수가 MT 논문의 사실상 표준 보고 지표가 되었다 — 수천 편의 논문이 WMT14 결과를 기준선으로 사용한다
메트릭 연구 촉진: Metrics Shared Task를 통해 BLEU의 한계를 정량적으로 입증하고, COMET·BLEURT 등 학습 기반 메트릭의 발전을 이끌었다
Paradigm Shift 기록: SMT → NMT → Transformer → LLM 각 전환점이 WMT 성능 도약으로 기록되었다
한계 및 비판
뉴스 도메인 편향: 테스트셋이 뉴스 기사에 국한 — 대화체, 기술 문서, 문학 등 다른 도메인 일반화 미보장