WMT 공유 태스크 (Workshop on Machine Translation)

Digest: 기계 번역(Machine Translation) 평가의 사실상 국제 표준이자 “번역 올림픽”. 2006년부터 ACL 커뮤니티(statmt.org)가 매년 개최하며, WMT14가 Transformer 논문(“Attention Is All You Need”)의 핵심 벤치마크로 사용되어 가장 널리 인용된다. 뉴스 도메인 병렬 코퍼스에서 시스템 출력을 인간 평가(DA, MQM)와 자동 메트릭(BLEU, chrF, COMET, TER)으로 비교한다. 매년 최신 뉴스 기사로 새로운 테스트셋을 구성하여 데이터 오염(contamination)을 자연스럽게 방지한다.


메타데이터

항목내용
정식 명칭WMT Shared Task on Machine Translation
주관ACL WMT Workshop / Conference on Machine Translation
플랫폼statmt.org
시작 연도2006 (WMT14가 가장 널리 인용)
대표 에디션WMT14 — Transformer 원논문 벤치마크
주요 언어 쌍en↔de, en↔fr, en↔cs, en↔ru, en↔hi, en↔zh 등
평가 방식자동: BLEU, chrF, COMET, TER / 인간: DA (WMT17~), MQM (WMT21~)
서브태스크News Translation, Biomedical, Chat, Metrics, Quality Estimation
라이선스공개 (연구 목적 무료)

데이터셋 구성

규모 및 분할

구분WMT14 en-deWMT14 en-fr비고
Train (병렬 문장 쌍)~4.5M~36MEuroparl + Common Crawl + News Commentary
Dev (newstest2013)~3,000~3,000이전 연도 테스트셋 재활용
Test (newstest2014)~3,003~3,003당해 뉴스 기사에서 신규 추출

참고: 학습 데이터는 Europarl(유럽 의회 의사록), Common Crawl(웹 크롤링), News Commentary(뉴스 해설) 등 여러 병렬 코퍼스의 합산이다. 매년 코퍼스가 갱신·추가된다.

Feature / Column 구조

FeatureType설명
segment_idint문장 단위 고유 ID
doc_idstring문서(기사) 단위 ID
language_pairstring언어 쌍 (e.g., en-de)
source_sentencestring원문 문장
reference_translationstring인간 참조 번역
system_outputstringMT 시스템 출력 (평가 시)

언어 쌍 분포 (WMT14 News Translation Task)

언어 쌍학습 데이터 규모테스트셋 크기특성
en↔de~4.5M~3,003가장 널리 인용, Transformer 벤치마크
en↔fr~36M~3,003대규모 학습 데이터, 높은 BLEU
en↔cs~15M~3,003형태론적 복잡성 (morphologically rich)
en↔ru~2M~3,003키릴 문자, 자유 어순
en↔hi~0.3M~2,507저자원(low-resource) 언어 쌍

실제 데이터 예시

예시 1: en→de (newstest2014)

FieldContent
Source (EN)“The police did not comment on the incident.”
Reference (DE)“Die Polizei äußerte sich nicht zu dem Vorfall.”

예시 2: en→fr (newstest2014)

FieldContent
Source (EN)“The European Commission has proposed new regulations on data protection.”
Reference (FR)“La Commission européenne a proposé de nouvelles réglementations sur la protection des données.”

예시 3: en→cs (newstest2014)

FieldContent
Source (EN)“Scientists have discovered a new species of frog in the Amazon rainforest.”
Reference (CS)“Vědci objevili nový druh žáby v amazonském deštném pralese.”

왜 이 연구를 하는가?

  1. 표준화된 비교 부재: MT 연구 초기에는 각 연구팀이 자체 테스트셋을 사용하여 시스템 간 공정한 비교가 불가능했다
  2. 인간 평가의 필요성: 자동 메트릭(BLEU)만으로는 번역 품질의 미묘한 차이를 포착할 수 없다 — 인간 평가와 자동 메트릭을 동시에 수행하는 프레임워크가 필요했다
  3. 연도별 갱신: 고정된 벤치마크는 시간이 지나면 학습 데이터에 오염(contamination)될 위험이 있다 — 매년 새로운 테스트셋으로 이를 원천 차단한다
  4. 메트릭 자체의 평가: Metrics Shared Task를 통해 BLEU, COMET 등 자동 메트릭이 인간 판단과 얼마나 상관하는지를 정량적으로 검증한다
  5. MT의 올림픽: 모든 주요 MT 발전(Statistical MT → Neural MT → Transformer → LLM)이 WMT에서 벤치마킹되었다

방법: WMT 평가 파이프라인

flowchart TD
    A["뉴스 기사 수집<br/>(당해 연도 최신 기사)"] --> B["소스 문장 추출<br/>+ 인간 참조 번역 생성"]
    B --> C["테스트셋 배포<br/>(newstest20XX)"]
    C --> D["참가 시스템 제출<br/>(system outputs)"]
    D --> E["자동 메트릭 평가"]
    D --> F["인간 평가"]
    E --> G["BLEU / chrF /<br/>COMET / TER 산출"]
    F --> H["DA: Direct Assessment<br/>(0-100점, WMT17~)"]
    F --> I["MQM: 오류 유형별<br/>세밀 평가 (WMT21~)"]
    G --> J["시스템 순위 결정<br/>+ 분석 리포트 발행"]
    H --> J
    I --> J

    style A fill:#e1f5fe
    style D fill:#fff3e0
    style J fill:#e8f5e9

학습 데이터 구성

flowchart LR
    EP["Europarl<br/>(의회 의사록)"] --> TRAIN["WMT14<br/>Training Data"]
    CC["Common Crawl<br/>(웹 병렬 문장)"] --> TRAIN
    NC["News Commentary<br/>(뉴스 해설)"] --> TRAIN
    UN["UN Parallel Corpus<br/>(유엔 문서)"] --> TRAIN

    TRAIN --> |"en-de: ~4.5M"| MODEL["MT 시스템 학습"]
    TRAIN --> |"en-fr: ~36M"| MODEL

    style TRAIN fill:#f3e5f5

발견: 주요 결과

WMT14 en→de BLEU 마일스톤

시스템연도BLEU비고
Statistical MT (best)2014~20.0구문 기반(Phrase-based)
RNN Seq2Seq2015~22.0신경망 번역의 시작
ConvS2S (Facebook)2017~25.2CNN 기반
Transformer201728.4”Attention Is All You Need” 랜드마크
mBART / mT52020~30.0사전학습 다국어 모델
Google Translate2023~33.0상용 시스템
GPT-42023~35+LLM few-shot

WMT14 en→fr BLEU 마일스톤

시스템연도BLEU비고
Statistical MT (best)2014~35.0대규모 학습 데이터(36M) 이점
Transformer201741.8단일 모델 SOTA — 랜드마크 결과
GPT-42023~46+Few-shot prompting

인간 평가 체계 변천

방식도입 연도특징
Ranking (상대 순위)2006~2016시스템 출력 쌍 비교
DA (Direct Assessment)WMT17~0-100 연속 점수, 절대 평가
MQM (Multidimensional Quality Metrics)WMT21~오류 유형(정확성/유창성)별 감점

이론적 의의

학술적 기여

  1. MT 연구의 공통 언어: WMT BLEU 점수가 MT 논문의 사실상 표준 보고 지표가 되었다 — 수천 편의 논문이 WMT14 결과를 기준선으로 사용한다
  2. 메트릭 연구 촉진: Metrics Shared Task를 통해 BLEU의 한계를 정량적으로 입증하고, COMET·BLEURT 등 학습 기반 메트릭의 발전을 이끌었다
  3. Paradigm Shift 기록: SMT → NMT → Transformer → LLM 각 전환점이 WMT 성능 도약으로 기록되었다

한계 및 비판

  1. 뉴스 도메인 편향: 테스트셋이 뉴스 기사에 국한 — 대화체, 기술 문서, 문학 등 다른 도메인 일반화 미보장
  2. BLEU 과의존: n-gram 매칭 기반이라 의미적 동등성(semantic equivalence) 포착에 한계 — WMT22부터 COMET 권장
  3. 고자원 언어 편향: 주요 유럽 언어 중심, 저자원 언어(아프리카, 동남아시아 등) 테스트셋 부족
  4. 참조 번역 품질: 단일 참조 번역(single reference)에 의존하여 다양한 정답 번역을 반영하지 못한다

관련 연구


핵심 용어

용어설명
BLEU (Bilingual Evaluation Understudy)n-gram 정밀도 기반 자동 번역 평가 메트릭
chrF문자(character) n-gram F-score 기반 메트릭
COMET사전학습 언어 모델 기반 학습형 번역 평가 메트릭
TER (Translation Edit Rate)참조 번역 대비 최소 편집 횟수 비율
DA (Direct Assessment)번역 품질을 0-100 연속 척도로 절대 평가하는 인간 평가 방식
MQM (Multidimensional Quality Metrics)오류 유형별(정확성·유창성) 감점 방식의 세밀한 인간 평가
Parallel Corpus원문-번역문이 문장 단위로 정렬된 이중 언어 코퍼스
Europarl유럽 의회 의사록 병렬 코퍼스 (~2M 문장 쌍)
newstestWMT 연도별 뉴스 번역 테스트셋 (e.g., newstest2014)
Shared Task동일 조건에서 여러 시스템을 비교하는 공개 경쟁 과제

Benchmark MachineTranslation WMT BLEU COMET SharedTask NeuralMT Transformer MultilingualNLP DirectAssessment