FLORES-200: 200개 언어 다국어 번역 벤치마크

Digest: 기존 기계 번역 벤치마크(WMT 등)는 영어·중국어·독일어 등 고자원 언어 10~15개에 집중하여, 전 세계 7,000여 언어 중 대다수가 평가에서 소외되는 문제가 있었다. Meta AI의 NLLB(No Language Left Behind) 프로젝트는 위키피디아·위키뉴스에서 추출한 3,001문장을 전문 번역가를 통해 200개 언어로 병렬 번역하여 FLORES-200 벤치마크를 구축했다. SentencePiece 기반 spBLEU를 표준 메트릭으로 채택해 형태소 체계가 다른 언어 간 공정 비교를 실현했으며, NLLB-200(54B) 모델이 200개 언어 평균 24.0 spBLEU로 이전 최고 성능 대비 44% 개선을 달성했다. 아프리카·동남아·태평양 극저자원 언어를 포괄하는 최초의 대규모 다국어 번역 벤치마크로서, 저자원 언어 기계 번역 연구의 기반을 마련한 의의가 있다.


메타데이터

항목내용
제목No Language Left Behind: Scaling Human-Centered Machine Translation
저자NLLB Team (200+ researchers, Meta AI)
발표arXiv 2022 (2207.04672)
규모3,001 문장 × 200 언어 ≈ 600,200 병렬 문장
태스크Multilingual Machine Translation Evaluation
평가 메트릭spBLEU, chrF++, COMET
라이선스CC-BY-SA 4.0
데이터 출처Wikipedia, Wikinews

데이터셋 구성

규모 및 분할

Split문장 수용도
dev997하이퍼파라미터 튜닝, 모델 선택
devtest1,012개발 중 성능 모니터링
test992최종 평가 (held-out)
합계3,001 × 200 = ~600,200전체 병렬 코퍼스
  • 각 split의 문장은 200개 언어로 동일하게 번역되어 완전 병렬(fully parallel) 구조를 가짐
  • 원문은 영어 위키피디아/위키뉴스에서 추출 후 전문 번역가가 각 언어로 번역

Feature/Column 구조

FeatureType설명
sentence_idint문장 고유 식별자 (1~3,001)
source_textstring원문 텍스트
target_textstring번역 텍스트
source_langstring원문 언어 코드 (ISO 639-3)
target_langstring번역 언어 코드 (ISO 639-3)
domainstring출처 도메인 (wiki / wikinews)

언어 분포

어족/지역대표 언어언어 수
Indo-Europeaneng, fra, deu, hin, por, rus~60
Niger-Congozul, yor, ful, swa, wol~30
Austronesianind, tgl, jav, msa~15
Sino-Tibetanzho_simpl, zho_trad, mya~8
Afro-Asiaticara, amh, hau, som~12
Dravidiantam, tel, kan, mal~5
Turkictur, uzb, kaz, aze~8
기타 (Koreanic, Japonic 등)kor, jpn, khm, tha~62
합계200

실제 데이터 예시

Example 1: 일반 서술문 (Wikipedia)

언어텍스트
eng”The quick brown fox jumps over the lazy dog.”
kor”빠른 갈색 여우가 게으른 개 위를 뛰어넘는다.”
zul”Impungushe eluhlaza eshesha igxuma phezu kwenja evilaphayo.”

Example 2: 뉴스 문장 (Wikinews)

언어텍스트
eng”Scientists discovered a new species of frog in the Amazon rainforest.”
kor”과학자들이 아마존 열대우림에서 새로운 개구리 종을 발견했다.”
ful”Annduɓe ganndal njiiɗi leɗɗi keesi e ladde Amazon.”

Example 3: 문화 설명문

언어텍스트
eng”The festival is celebrated annually to mark the harvest season.”
kor”이 축제는 수확 시기를 기념하기 위해 매년 열린다.”
khm”ពិធីបុណ្យនេះត្រូវបានប្រារព្ធជារៀងរាល់ឆ្នាំដើម្បីអបអរសារទរបរិភោគ។“

왜 이 연구를 하는가?

  1. 평가 공백 (Evaluation Gap): WMT 등 기존 벤치마크는 영↔독, 영↔중 등 고자원 언어 쌍에 편중. 전 세계 7,000개 언어 중 번역 시스템이 존재하는 언어는 100개 미만이며, 그 중 체계적 평가가 가능한 것은 20개 미만이었음
  2. 저자원 언어 소외: 아프리카 대륙의 2,000+ 언어, 동남아 극저자원 언어는 학습 데이터도 평가 데이터도 부재하여 기계 번역 연구에서 완전히 배제
  3. 공정 비교 불가: 언어마다 토크나이저가 달라 기존 BLEU 점수의 직접 비교가 불공정. 통일된 메트릭(spBLEU)과 완전 병렬 데이터셋이 필요
  4. 디지털 언어 평등: UNESCO “Digital Language Diversity” 프레임워크에 부합하는 기술적 인프라 구축 필요성

방법 (Method)

데이터 구축 파이프라인

flowchart TD
    A["영어 원문 수집\n(Wikipedia + Wikinews)"] --> B["문장 필터링\n(길이·품질·도메인 균형)"]
    B --> C["3,001 문장 선정"]
    C --> D["전문 번역가 배정\n(200개 언어별)"]
    D --> E["1차 번역"]
    E --> F["품질 검수\n(2차 검토자)"]
    F --> G{"품질 기준\n통과?"}
    G -- Yes --> H["최종 병렬 코퍼스"]
    G -- No --> I["재번역 요청"]
    I --> E
    H --> J["Split 분할\n(dev/devtest/test)"]
    J --> K["FLORES-200\n벤치마크 공개"]

평가 메트릭 설계

메트릭설명특징
spBLEUSentencePiece 토크나이저로 통일 후 BLEU 계산언어 간 공정 비교 가능
chrF++문자 n-gram F-score + 단어 n-gram형태소 풍부 언어에 강점
COMET사전학습 언어모델 기반 자동 평가인간 판단과 높은 상관

발견 (Findings)

주요 성능 비교

모델파라미터평균 spBLEU (200 언어)고자원 언어저자원 언어비고
NLLB-20054B (MoE)24.0~35+~12+200개 언어 전용
NLLB-2003.3B21.2~32+~10+Dense 모델
NLLB-2001.3B18.5~29+~8+경량 버전
M2M-10012B16.7~30+~5+이전 SOTA
Google Translate~33+제한적비공개

핵심 발견

  1. 44% 성능 향상: NLLB-200(54B)이 이전 최고 모델(M2M-100) 대비 평균 spBLEU 44% 개선
  2. 저자원 격차 존재: 고자원 언어(35+ spBLEU) vs 저자원 언어(12+ spBLEU) 간 약 3배 성능 격차 잔존
  3. MoE의 효과: Mixture-of-Experts 구조가 54B 규모에서 다국어 성능 확장에 핵심적 역할
  4. chrF++와 COMET 일관성: spBLEU 개선이 chrF++, COMET 점수에서도 일관되게 관찰됨
  5. 도메인 영향: 위키뉴스 출처 문장이 위키피디아 출처보다 약간 낮은 번역 품질을 보임 (고유명사·시의성)

이론적 의의

  1. 다국어 NLP 평가 표준화: 200개 언어를 완전 병렬로 평가할 수 있는 최초의 벤치마크로, 이후 다국어 모델(PaLM, GPT-4 등)의 표준 평가 도구로 자리잡음
  2. 저자원 언어 연구 촉진: 기존에 평가 자체가 불가능했던 극저자원 언어에 대한 체계적 연구를 가능하게 함
  3. spBLEU 메트릭 표준화: SentencePiece 기반 BLEU가 다국어 번역 연구의 사실상 표준(de facto standard)으로 채택됨
  4. 언어 포용성 프레임워크: 기술적 벤치마크를 넘어 “No Language Left Behind”라는 언어 평등 비전을 기계 번역 연구에 정립

한계

  • 도메인 편향: 위키피디아/위키뉴스 중심으로 구어체·비격식체·전문 분야 텍스트 미포함
  • 번역 품질 검증 한계: 일부 극저자원 언어는 검토자 확보가 어려워 번역 품질 보장이 제한적
  • 문화적 맥락 부재: 문화 고유 표현, 관용어 등이 벤치마크에 충분히 반영되지 않음
  • 정적 데이터셋: 언어는 변화하나 벤치마크는 2022년 시점에 고정

관련 연구


핵심 용어 정리

용어설명
spBLEUSentencePiece BLEU. 공유 토크나이저로 분절 후 BLEU를 계산하여 언어 간 공정 비교 실현
chrF++Character n-gram F-score에 단어 unigram/bigram을 추가한 평가 메트릭
COMETCrosslingual Optimized Metric for Evaluation of Translation. 사전학습 모델 기반 자동 평가
MoEMixture of Experts. 입력에 따라 일부 파라미터만 활성화하는 효율적 대규모 모델 구조
Low-Resource Language디지털 텍스트 자원이 극히 부족한 언어. 학습 데이터·사전·병렬 코퍼스 모두 희소
Fully Parallel Corpus동일 문장이 모든 대상 언어로 번역된 병렬 코퍼스. 언어 쌍 간 직접 비교 가능
ISO 639-3모든 알려진 인간 언어에 3글자 코드를 부여하는 국제 표준

benchmark multilingual translation low-resource FLORES NLLB spBLEU Meta-AI evaluation