LAMBADA: 장거리 의존성을 요구하는 단어 예측 벤치마크

Digest: 언어 모델이 진정으로 텍스트를 “이해”하는지 측정하기 위해, LAMBADA마지막 단어가 넓은 문맥을 이해해야만 예측 가능한 10,022개 지문을 수집했다. 핵심 설계: 전체 지문(4-5문장)을 보면 인간이 쉽게 마지막 단어를 맞추지만(정확도 ~100%), 마지막 문장만 보면 맞추기 어려운 지문만 선별했다. 이를 통해 장거리 의존성(long-range dependency) 이해를 직접 측정한다. GPT-2가 이 벤치마크에서 혁신적 성능을 보이며(63.2% → 이전 모델 대비 큰 도약) 대규모 LM의 능력을 입증하는 핵심 벤치마크가 되었다.


메타데이터

항목내용
제목The LAMBADA dataset: Word prediction requiring a broad discourse context
저자Denis Paperno et al.
소속CIMeC (University of Trento), UPF Barcelona, ILLC Amsterdam
연도2016
발표ACL 2016, arXiv:1606.06031
링크arXiv, Dataset
키워드LAMBADA, word prediction, long-range dependency, language model evaluation

데이터셋 구성

규모

Split예시 수
Dev4,869
Test5,153
합계10,022

Feature/Column 구조

필드설명예시
text전체 지문 (4-5문장)“She had met him at a party…”
target_word예측할 마지막 단어”John”

선별 기준

조건설명
전체 맥락인간이 쉽게 예측 가능 (>99%)
마지막 문장만인간이 예측 어려움 (~0%)
효과장거리 의존성을 강제

실제 데이터 예시

예시 1

Context: "Yes, I thought I was going to lose the baby."
"325 looked at him, and was afraid. Ackland jumped back..."
"What happened next?" 325 asked.
Target: "Ackland"
(이전 문맥의 인물 추적 필요)

예시 2

Context: "He had been in the army for five years... His wife
was waiting for him at home... She opened the door and
immediately recognized the face of..."
Target: "husband"
(넓은 문맥에서의 관계 추론)

발견 (Findings)

주요 결과 (Test set)

모델정확도Perplexity
Human (full context)~100%
Human (last sentence only)~0%
Neural LM (2016)7.3%5,357
GPT-2 (1.5B)63.2%8.6
GPT-3 175B76.2%3.0
GPT-4~85%+

핵심 발견

  1. GPT-2의 도약: 이전 최고 7.3% → GPT-2 63.2%로 스케일링의 효과 극적 입증
  2. GPT-3의 추가 개선: 76.2%로 여전히 인간(~100%) 대비 격차 존재
  3. 장거리 의존성의 어려움: 마지막 문장만으로는 0% — 넓은 맥락이 핵심

관련 연구


핵심 용어 정리

용어정의
LAMBADALAnguage Modeling Broadened to Account for Discourse Aspects
Long-Range Dependency먼 위치의 토큰 간 의존 관계
Perplexity언어 모델의 예측 불확실성 지표 (낮을수록 좋음)

태그

paper #2016 benchmark language_model LAMBADA word_prediction long_range_dependency