Digest: 언어 모델이 진정으로 텍스트를 “이해”하는지 측정하기 위해, LAMBADA는 마지막 단어가 넓은 문맥을 이해해야만 예측 가능한 10,022개 지문을 수집했다. 핵심 설계: 전체 지문(4-5문장)을 보면 인간이 쉽게 마지막 단어를 맞추지만(정확도 ~100%), 마지막 문장만 보면 맞추기 어려운 지문만 선별했다. 이를 통해 장거리 의존성(long-range dependency) 이해를 직접 측정한다. GPT-2가 이 벤치마크에서 혁신적 성능을 보이며(63.2% → 이전 모델 대비 큰 도약) 대규모 LM의 능력을 입증하는 핵심 벤치마크가 되었다.
메타데이터
항목
내용
제목
The LAMBADA dataset: Word prediction requiring a broad discourse context
저자
Denis Paperno et al.
소속
CIMeC (University of Trento), UPF Barcelona, ILLC Amsterdam
LAMBADA, word prediction, long-range dependency, language model evaluation
데이터셋 구성
규모
Split
예시 수
Dev
4,869
Test
5,153
합계
10,022
Feature/Column 구조
필드
설명
예시
text
전체 지문 (4-5문장)
“She had met him at a party…”
target_word
예측할 마지막 단어
”John”
선별 기준
조건
설명
전체 맥락
인간이 쉽게 예측 가능 (>99%)
마지막 문장만
인간이 예측 어려움 (~0%)
효과
장거리 의존성을 강제
실제 데이터 예시
예시 1
Context: "Yes, I thought I was going to lose the baby."
"325 looked at him, and was afraid. Ackland jumped back..."
"What happened next?" 325 asked.
Target: "Ackland"
(이전 문맥의 인물 추적 필요)
예시 2
Context: "He had been in the army for five years... His wife
was waiting for him at home... She opened the door and
immediately recognized the face of..."
Target: "husband"
(넓은 문맥에서의 관계 추론)
발견 (Findings)
주요 결과 (Test set)
모델
정확도
Perplexity
Human (full context)
~100%
—
Human (last sentence only)
~0%
—
Neural LM (2016)
7.3%
5,357
GPT-2 (1.5B)
63.2%
8.6
GPT-3 175B
76.2%
3.0
GPT-4
~85%+
—
핵심 발견
GPT-2의 도약: 이전 최고 7.3% → GPT-2 63.2%로 스케일링의 효과 극적 입증