Digest: 기존 기계 번역 벤치마크(WMT 등)는 영어·중국어·독일어 등 고자원 언어 10~15개에 집중하여, 전 세계 7,000여 언어 중 대다수가 평가에서 소외되는 문제가 있었다. Meta AI의 NLLB(No Language Left Behind) 프로젝트는 위키피디아·위키뉴스에서 추출한 3,001문장을 전문 번역가를 통해 200개 언어로 병렬 번역하여 FLORES-200 벤치마크를 구축했다. SentencePiece 기반 spBLEU를 표준 메트릭으로 채택해 형태소 체계가 다른 언어 간 공정 비교를 실현했으며, NLLB-200(54B) 모델이 200개 언어 평균 24.0 spBLEU로 이전 최고 성능 대비 44% 개선을 달성했다. 아프리카·동남아·태평양 극저자원 언어를 포괄하는 최초의 대규모 다국어 번역 벤치마크로서, 저자원 언어 기계 번역 연구의 기반을 마련한 의의가 있다.
메타데이터
항목
내용
제목
No Language Left Behind: Scaling Human-Centered Machine Translation
저자
NLLB Team (200+ researchers, Meta AI)
발표
arXiv 2022 (2207.04672)
규모
3,001 문장 × 200 언어 ≈ 600,200 병렬 문장
태스크
Multilingual Machine Translation Evaluation
평가 메트릭
spBLEU, chrF++, COMET
라이선스
CC-BY-SA 4.0
데이터 출처
Wikipedia, Wikinews
데이터셋 구성
규모 및 분할
Split
문장 수
용도
dev
997
하이퍼파라미터 튜닝, 모델 선택
devtest
1,012
개발 중 성능 모니터링
test
992
최종 평가 (held-out)
합계
3,001 × 200 = ~600,200
전체 병렬 코퍼스
각 split의 문장은 200개 언어로 동일하게 번역되어 완전 병렬(fully parallel) 구조를 가짐
평가 공백 (Evaluation Gap): WMT 등 기존 벤치마크는 영↔독, 영↔중 등 고자원 언어 쌍에 편중. 전 세계 7,000개 언어 중 번역 시스템이 존재하는 언어는 100개 미만이며, 그 중 체계적 평가가 가능한 것은 20개 미만이었음
저자원 언어 소외: 아프리카 대륙의 2,000+ 언어, 동남아 극저자원 언어는 학습 데이터도 평가 데이터도 부재하여 기계 번역 연구에서 완전히 배제
공정 비교 불가: 언어마다 토크나이저가 달라 기존 BLEU 점수의 직접 비교가 불공정. 통일된 메트릭(spBLEU)과 완전 병렬 데이터셋이 필요
디지털 언어 평등: UNESCO “Digital Language Diversity” 프레임워크에 부합하는 기술적 인프라 구축 필요성
방법 (Method)
데이터 구축 파이프라인
flowchart TD
A["영어 원문 수집\n(Wikipedia + Wikinews)"] --> B["문장 필터링\n(길이·품질·도메인 균형)"]
B --> C["3,001 문장 선정"]
C --> D["전문 번역가 배정\n(200개 언어별)"]
D --> E["1차 번역"]
E --> F["품질 검수\n(2차 검토자)"]
F --> G{"품질 기준\n통과?"}
G -- Yes --> H["최종 병렬 코퍼스"]
G -- No --> I["재번역 요청"]
I --> E
H --> J["Split 분할\n(dev/devtest/test)"]
J --> K["FLORES-200\n벤치마크 공개"]
평가 메트릭 설계
메트릭
설명
특징
spBLEU
SentencePiece 토크나이저로 통일 후 BLEU 계산
언어 간 공정 비교 가능
chrF++
문자 n-gram F-score + 단어 n-gram
형태소 풍부 언어에 강점
COMET
사전학습 언어모델 기반 자동 평가
인간 판단과 높은 상관
발견 (Findings)
주요 성능 비교
모델
파라미터
평균 spBLEU (200 언어)
고자원 언어
저자원 언어
비고
NLLB-200
54B (MoE)
24.0
~35+
~12+
200개 언어 전용
NLLB-200
3.3B
21.2
~32+
~10+
Dense 모델
NLLB-200
1.3B
18.5
~29+
~8+
경량 버전
M2M-100
12B
16.7
~30+
~5+
이전 SOTA
Google Translate
—
—
~33+
제한적
비공개
핵심 발견
44% 성능 향상: NLLB-200(54B)이 이전 최고 모델(M2M-100) 대비 평균 spBLEU 44% 개선
저자원 격차 존재: 고자원 언어(35+ spBLEU) vs 저자원 언어(12+ spBLEU) 간 약 3배 성능 격차 잔존
MoE의 효과: Mixture-of-Experts 구조가 54B 규모에서 다국어 성능 확장에 핵심적 역할