WMT 공유 태스크 (Workshop on Machine Translation)

Digest: 기계 번역(Machine Translation) 평가의 사실상 국제 표준이자 “번역 올림픽”. 2006년부터 ACL 커뮤니티(statmt.org)가 매년 개최하며, WMT14가 Transformer 논문(“Attention Is All You Need”)의 핵심 벤치마크로 사용되어 가장 널리 인용된다. 뉴스 도메인 병렬 코퍼스에서 시스템 출력을 인간 평가(DA, MQM)와 자동 메트릭(BLEU, chrF, COMET, TER)으로 비교한다. 매년 최신 뉴스 기사로 새로운 테스트셋을 구성하여 데이터 오염(contamination)을 자연스럽게 방지한다.

메타데이터

항목	내용
정식 명칭	WMT Shared Task on Machine Translation
주관	ACL WMT Workshop / Conference on Machine Translation
플랫폼	statmt.org
시작 연도	2006 (WMT14가 가장 널리 인용)
대표 에디션	WMT14 — Transformer 원논문 벤치마크
주요 언어 쌍	en↔de, en↔fr, en↔cs, en↔ru, en↔hi, en↔zh 등
평가 방식	자동: BLEU, chrF, COMET, TER / 인간: DA (WMT17~), MQM (WMT21~)
서브태스크	News Translation, Biomedical, Chat, Metrics, Quality Estimation
라이선스	공개 (연구 목적 무료)

데이터셋 구성

규모 및 분할

구분	WMT14 en-de	WMT14 en-fr	비고
Train (병렬 문장 쌍)	~4.5M	~36M	Europarl + Common Crawl + News Commentary
Dev (newstest2013)	~3,000	~3,000	이전 연도 테스트셋 재활용
Test (newstest2014)	~3,003	~3,003	당해 뉴스 기사에서 신규 추출

참고: 학습 데이터는 Europarl(유럽 의회 의사록), Common Crawl(웹 크롤링), News Commentary(뉴스 해설) 등 여러 병렬 코퍼스의 합산이다. 매년 코퍼스가 갱신·추가된다.

Feature / Column 구조

Feature	Type	설명
`segment_id`	int	문장 단위 고유 ID
`doc_id`	string	문서(기사) 단위 ID
`language_pair`	string	언어 쌍 (e.g., `en-de`)
`source_sentence`	string	원문 문장
`reference_translation`	string	인간 참조 번역
`system_output`	string	MT 시스템 출력 (평가 시)

언어 쌍 분포 (WMT14 News Translation Task)

언어 쌍	학습 데이터 규모	테스트셋 크기	특성
en↔de	~4.5M	~3,003	가장 널리 인용, Transformer 벤치마크
en↔fr	~36M	~3,003	대규모 학습 데이터, 높은 BLEU
en↔cs	~15M	~3,003	형태론적 복잡성 (morphologically rich)
en↔ru	~2M	~3,003	키릴 문자, 자유 어순
en↔hi	~0.3M	~2,507	저자원(low-resource) 언어 쌍

실제 데이터 예시

예시 1: en→de (newstest2014)

Field	Content
Source (EN)	“The police did not comment on the incident.”
Reference (DE)	“Die Polizei äußerte sich nicht zu dem Vorfall.”

예시 2: en→fr (newstest2014)

Field	Content
Source (EN)	“The European Commission has proposed new regulations on data protection.”
Reference (FR)	“La Commission européenne a proposé de nouvelles réglementations sur la protection des données.”

예시 3: en→cs (newstest2014)

Field	Content
Source (EN)	“Scientists have discovered a new species of frog in the Amazon rainforest.”
Reference (CS)	“Vědci objevili nový druh žáby v amazonském deštném pralese.”

왜 이 연구를 하는가?

표준화된 비교 부재: MT 연구 초기에는 각 연구팀이 자체 테스트셋을 사용하여 시스템 간 공정한 비교가 불가능했다
인간 평가의 필요성: 자동 메트릭(BLEU)만으로는 번역 품질의 미묘한 차이를 포착할 수 없다 — 인간 평가와 자동 메트릭을 동시에 수행하는 프레임워크가 필요했다
연도별 갱신: 고정된 벤치마크는 시간이 지나면 학습 데이터에 오염(contamination)될 위험이 있다 — 매년 새로운 테스트셋으로 이를 원천 차단한다
메트릭 자체의 평가: Metrics Shared Task를 통해 BLEU, COMET 등 자동 메트릭이 인간 판단과 얼마나 상관하는지를 정량적으로 검증한다
MT의 올림픽: 모든 주요 MT 발전(Statistical MT → Neural MT → Transformer → LLM)이 WMT에서 벤치마킹되었다

방법: WMT 평가 파이프라인

flowchart TD
    A["뉴스 기사 수집<br/>(당해 연도 최신 기사)"] --> B["소스 문장 추출<br/>+ 인간 참조 번역 생성"]
    B --> C["테스트셋 배포<br/>(newstest20XX)"]
    C --> D["참가 시스템 제출<br/>(system outputs)"]
    D --> E["자동 메트릭 평가"]
    D --> F["인간 평가"]
    E --> G["BLEU / chrF /<br/>COMET / TER 산출"]
    F --> H["DA: Direct Assessment<br/>(0-100점, WMT17~)"]
    F --> I["MQM: 오류 유형별<br/>세밀 평가 (WMT21~)"]
    G --> J["시스템 순위 결정<br/>+ 분석 리포트 발행"]
    H --> J
    I --> J

    style A fill:#e1f5fe
    style D fill:#fff3e0
    style J fill:#e8f5e9

학습 데이터 구성

flowchart LR
    EP["Europarl<br/>(의회 의사록)"] --> TRAIN["WMT14<br/>Training Data"]
    CC["Common Crawl<br/>(웹 병렬 문장)"] --> TRAIN
    NC["News Commentary<br/>(뉴스 해설)"] --> TRAIN
    UN["UN Parallel Corpus<br/>(유엔 문서)"] --> TRAIN

    TRAIN --> |"en-de: ~4.5M"| MODEL["MT 시스템 학습"]
    TRAIN --> |"en-fr: ~36M"| MODEL

    style TRAIN fill:#f3e5f5

발견: 주요 결과

WMT14 en→de BLEU 마일스톤

시스템	연도	BLEU	비고
Statistical MT (best)	2014	~20.0	구문 기반(Phrase-based)
RNN Seq2Seq	2015	~22.0	신경망 번역의 시작
ConvS2S (Facebook)	2017	~25.2	CNN 기반
Transformer	2017	28.4	”Attention Is All You Need” 랜드마크
mBART / mT5	2020	~30.0	사전학습 다국어 모델
Google Translate	2023	~33.0	상용 시스템
GPT-4	2023	~35+	LLM few-shot

WMT14 en→fr BLEU 마일스톤

시스템	연도	BLEU	비고
Statistical MT (best)	2014	~35.0	대규모 학습 데이터(36M) 이점
Transformer	2017	41.8	단일 모델 SOTA — 랜드마크 결과
GPT-4	2023	~46+	Few-shot prompting

인간 평가 체계 변천

방식	도입 연도	특징
Ranking (상대 순위)	2006~2016	시스템 출력 쌍 비교
DA (Direct Assessment)	WMT17~	0-100 연속 점수, 절대 평가
MQM (Multidimensional Quality Metrics)	WMT21~	오류 유형(정확성/유창성)별 감점

이론적 의의

학술적 기여

MT 연구의 공통 언어: WMT BLEU 점수가 MT 논문의 사실상 표준 보고 지표가 되었다 — 수천 편의 논문이 WMT14 결과를 기준선으로 사용한다
메트릭 연구 촉진: Metrics Shared Task를 통해 BLEU의 한계를 정량적으로 입증하고, COMET·BLEURT 등 학습 기반 메트릭의 발전을 이끌었다
Paradigm Shift 기록: SMT → NMT → Transformer → LLM 각 전환점이 WMT 성능 도약으로 기록되었다

한계 및 비판

뉴스 도메인 편향: 테스트셋이 뉴스 기사에 국한 — 대화체, 기술 문서, 문학 등 다른 도메인 일반화 미보장
BLEU 과의존: n-gram 매칭 기반이라 의미적 동등성(semantic equivalence) 포착에 한계 — WMT22부터 COMET 권장
고자원 언어 편향: 주요 유럽 언어 중심, 저자원 언어(아프리카, 동남아시아 등) 테스트셋 부족
참조 번역 품질: 단일 참조 번역(single reference)에 의존하여 다양한 정답 번역을 반영하지 못한다

핵심 용어

용어	설명
BLEU (Bilingual Evaluation Understudy)	n-gram 정밀도 기반 자동 번역 평가 메트릭
chrF	문자(character) n-gram F-score 기반 메트릭
COMET	사전학습 언어 모델 기반 학습형 번역 평가 메트릭
TER (Translation Edit Rate)	참조 번역 대비 최소 편집 횟수 비율
DA (Direct Assessment)	번역 품질을 0-100 연속 척도로 절대 평가하는 인간 평가 방식
MQM (Multidimensional Quality Metrics)	오류 유형별(정확성·유창성) 감점 방식의 세밀한 인간 평가
Parallel Corpus	원문-번역문이 문장 단위로 정렬된 이중 언어 코퍼스
Europarl	유럽 의회 의사록 병렬 코퍼스 (~2M 문장 쌍)
newstest	WMT 연도별 뉴스 번역 테스트셋 (e.g., newstest2014)
Shared Task	동일 조건에서 여러 시스템을 비교하는 공개 경쟁 과제

Benchmark MachineTranslation WMT BLEU COMET SharedTask NeuralMT Transformer MultilingualNLP DirectAssessment

Juhyeon's Blog

탐색기

WMT 공유 태스크 (Workshop on Machine Translation)

WMT 공유 태스크 (Workshop on Machine Translation)

메타데이터

데이터셋 구성

규모 및 분할

Feature / Column 구조

언어 쌍 분포 (WMT14 News Translation Task)

실제 데이터 예시

예시 1: en→de (newstest2014)

예시 2: en→fr (newstest2014)

예시 3: en→cs (newstest2014)

왜 이 연구를 하는가?

방법: WMT 평가 파이프라인

학습 데이터 구성

발견: 주요 결과

WMT14 en→de BLEU 마일스톤

WMT14 en→fr BLEU 마일스톤

인간 평가 체계 변천

이론적 의의

학술적 기여

한계 및 비판

관련 연구

핵심 용어

그래프 뷰

목차

Properties

백링크