FLORES-200: 200개 언어 다국어 번역 벤치마크

Digest: 기존 기계 번역 벤치마크(WMT 등)는 영어·중국어·독일어 등 고자원 언어 10~15개에 집중하여, 전 세계 7,000여 언어 중 대다수가 평가에서 소외되는 문제가 있었다. Meta AI의 NLLB(No Language Left Behind) 프로젝트는 위키피디아·위키뉴스에서 추출한 3,001문장을 전문 번역가를 통해 200개 언어로 병렬 번역하여 FLORES-200 벤치마크를 구축했다. SentencePiece 기반 spBLEU를 표준 메트릭으로 채택해 형태소 체계가 다른 언어 간 공정 비교를 실현했으며, NLLB-200(54B) 모델이 200개 언어 평균 24.0 spBLEU로 이전 최고 성능 대비 44% 개선을 달성했다. 아프리카·동남아·태평양 극저자원 언어를 포괄하는 최초의 대규모 다국어 번역 벤치마크로서, 저자원 언어 기계 번역 연구의 기반을 마련한 의의가 있다.

메타데이터

항목	내용
제목	No Language Left Behind: Scaling Human-Centered Machine Translation
저자	NLLB Team (200+ researchers, Meta AI)
발표	arXiv 2022 (2207.04672)
규모	3,001 문장 × 200 언어 ≈ 600,200 병렬 문장
태스크	Multilingual Machine Translation Evaluation
평가 메트릭	spBLEU, chrF++, COMET
라이선스	CC-BY-SA 4.0
데이터 출처	Wikipedia, Wikinews

데이터셋 구성

규모 및 분할

Split	문장 수	용도
dev	997	하이퍼파라미터 튜닝, 모델 선택
devtest	1,012	개발 중 성능 모니터링
test	992	최종 평가 (held-out)
합계	3,001 × 200 = ~600,200	전체 병렬 코퍼스

각 split의 문장은 200개 언어로 동일하게 번역되어 완전 병렬(fully parallel) 구조를 가짐
원문은 영어 위키피디아/위키뉴스에서 추출 후 전문 번역가가 각 언어로 번역

Feature/Column 구조

Feature	Type	설명
`sentence_id`	int	문장 고유 식별자 (1~3,001)
`source_text`	string	원문 텍스트
`target_text`	string	번역 텍스트
`source_lang`	string	원문 언어 코드 (ISO 639-3)
`target_lang`	string	번역 언어 코드 (ISO 639-3)
`domain`	string	출처 도메인 (wiki / wikinews)

언어 분포

어족/지역	대표 언어	언어 수
Indo-European	eng, fra, deu, hin, por, rus	~60
Niger-Congo	zul, yor, ful, swa, wol	~30
Austronesian	ind, tgl, jav, msa	~15
Sino-Tibetan	zho_simpl, zho_trad, mya	~8
Afro-Asiatic	ara, amh, hau, som	~12
Dravidian	tam, tel, kan, mal	~5
Turkic	tur, uzb, kaz, aze	~8
기타 (Koreanic, Japonic 등)	kor, jpn, khm, tha	~62
합계		200

실제 데이터 예시

Example 1: 일반 서술문 (Wikipedia)

언어	텍스트
eng	”The quick brown fox jumps over the lazy dog.”
kor	”빠른 갈색 여우가 게으른 개 위를 뛰어넘는다.”
zul	”Impungushe eluhlaza eshesha igxuma phezu kwenja evilaphayo.”

Example 2: 뉴스 문장 (Wikinews)

언어	텍스트
eng	”Scientists discovered a new species of frog in the Amazon rainforest.”
kor	”과학자들이 아마존 열대우림에서 새로운 개구리 종을 발견했다.”
ful	”Annduɓe ganndal njiiɗi leɗɗi keesi e ladde Amazon.”

Example 3: 문화 설명문

언어	텍스트
eng	”The festival is celebrated annually to mark the harvest season.”
kor	”이 축제는 수확 시기를 기념하기 위해 매년 열린다.”
khm	”ពិធីបុណ្យនេះត្រូវបានប្រារព្ធជារៀងរាល់ឆ្នាំដើម្បីអបអរសារទរបរិភោគ។“

왜 이 연구를 하는가?

평가 공백 (Evaluation Gap): WMT 등 기존 벤치마크는 영↔독, 영↔중 등 고자원 언어 쌍에 편중. 전 세계 7,000개 언어 중 번역 시스템이 존재하는 언어는 100개 미만이며, 그 중 체계적 평가가 가능한 것은 20개 미만이었음
저자원 언어 소외: 아프리카 대륙의 2,000+ 언어, 동남아 극저자원 언어는 학습 데이터도 평가 데이터도 부재하여 기계 번역 연구에서 완전히 배제
공정 비교 불가: 언어마다 토크나이저가 달라 기존 BLEU 점수의 직접 비교가 불공정. 통일된 메트릭(spBLEU)과 완전 병렬 데이터셋이 필요
디지털 언어 평등: UNESCO “Digital Language Diversity” 프레임워크에 부합하는 기술적 인프라 구축 필요성

방법 (Method)

데이터 구축 파이프라인

flowchart TD
    A["영어 원문 수집\n(Wikipedia + Wikinews)"] --> B["문장 필터링\n(길이·품질·도메인 균형)"]
    B --> C["3,001 문장 선정"]
    C --> D["전문 번역가 배정\n(200개 언어별)"]
    D --> E["1차 번역"]
    E --> F["품질 검수\n(2차 검토자)"]
    F --> G{"품질 기준\n통과?"}
    G -- Yes --> H["최종 병렬 코퍼스"]
    G -- No --> I["재번역 요청"]
    I --> E
    H --> J["Split 분할\n(dev/devtest/test)"]
    J --> K["FLORES-200\n벤치마크 공개"]

평가 메트릭 설계

메트릭	설명	특징
spBLEU	SentencePiece 토크나이저로 통일 후 BLEU 계산	언어 간 공정 비교 가능
chrF++	문자 n-gram F-score + 단어 n-gram	형태소 풍부 언어에 강점
COMET	사전학습 언어모델 기반 자동 평가	인간 판단과 높은 상관

발견 (Findings)

주요 성능 비교

모델	파라미터	평균 spBLEU (200 언어)	고자원 언어	저자원 언어	비고
NLLB-200	54B (MoE)	24.0	~35+	~12+	200개 언어 전용
NLLB-200	3.3B	21.2	~32+	~10+	Dense 모델
NLLB-200	1.3B	18.5	~29+	~8+	경량 버전
M2M-100	12B	16.7	~30+	~5+	이전 SOTA
Google Translate	—	—	~33+	제한적	비공개

핵심 발견

44% 성능 향상: NLLB-200(54B)이 이전 최고 모델(M2M-100) 대비 평균 spBLEU 44% 개선
저자원 격차 존재: 고자원 언어(35+ spBLEU) vs 저자원 언어(12+ spBLEU) 간 약 3배 성능 격차 잔존
MoE의 효과: Mixture-of-Experts 구조가 54B 규모에서 다국어 성능 확장에 핵심적 역할
chrF++와 COMET 일관성: spBLEU 개선이 chrF++, COMET 점수에서도 일관되게 관찰됨
도메인 영향: 위키뉴스 출처 문장이 위키피디아 출처보다 약간 낮은 번역 품질을 보임 (고유명사·시의성)

이론적 의의

다국어 NLP 평가 표준화: 200개 언어를 완전 병렬로 평가할 수 있는 최초의 벤치마크로, 이후 다국어 모델(PaLM, GPT-4 등)의 표준 평가 도구로 자리잡음
저자원 언어 연구 촉진: 기존에 평가 자체가 불가능했던 극저자원 언어에 대한 체계적 연구를 가능하게 함
spBLEU 메트릭 표준화: SentencePiece 기반 BLEU가 다국어 번역 연구의 사실상 표준(de facto standard)으로 채택됨
언어 포용성 프레임워크: 기술적 벤치마크를 넘어 “No Language Left Behind”라는 언어 평등 비전을 기계 번역 연구에 정립

한계

도메인 편향: 위키피디아/위키뉴스 중심으로 구어체·비격식체·전문 분야 텍스트 미포함
번역 품질 검증 한계: 일부 극저자원 언어는 검토자 확보가 어려워 번역 품질 보장이 제한적
문화적 맥락 부재: 문화 고유 표현, 관용어 등이 벤치마크에 충분히 반영되지 않음
정적 데이터셋: 언어는 변화하나 벤치마크는 2022년 시점에 고정

핵심 용어 정리

용어	설명
spBLEU	SentencePiece BLEU. 공유 토크나이저로 분절 후 BLEU를 계산하여 언어 간 공정 비교 실현
chrF++	Character n-gram F-score에 단어 unigram/bigram을 추가한 평가 메트릭
COMET	Crosslingual Optimized Metric for Evaluation of Translation. 사전학습 모델 기반 자동 평가
MoE	Mixture of Experts. 입력에 따라 일부 파라미터만 활성화하는 효율적 대규모 모델 구조
Low-Resource Language	디지털 텍스트 자원이 극히 부족한 언어. 학습 데이터·사전·병렬 코퍼스 모두 희소
Fully Parallel Corpus	동일 문장이 모든 대상 언어로 번역된 병렬 코퍼스. 언어 쌍 간 직접 비교 가능
ISO 639-3	모든 알려진 인간 언어에 3글자 코드를 부여하는 국제 표준

benchmark multilingual translation low-resource FLORES NLLB spBLEU Meta-AI evaluation

Juhyeon's Blog

탐색기

No Language Left Behind - Scaling Human-Centered Machine Translation

FLORES-200: 200개 언어 다국어 번역 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

언어 분포

실제 데이터 예시

Example 1: 일반 서술문 (Wikipedia)

Example 2: 뉴스 문장 (Wikinews)

Example 3: 문화 설명문

왜 이 연구를 하는가?

방법 (Method)

데이터 구축 파이프라인

평가 메트릭 설계

발견 (Findings)

주요 성능 비교

핵심 발견

이론적 의의

한계

관련 연구

핵심 용어 정리

그래프 뷰

목차

Properties

백링크