LAMBADA: 장거리 의존성을 요구하는 단어 예측 벤치마크

Digest: 언어 모델이 진정으로 텍스트를 “이해”하는지 측정하기 위해, LAMBADA는 마지막 단어가 넓은 문맥을 이해해야만 예측 가능한 10,022개 지문을 수집했다. 핵심 설계: 전체 지문(4-5문장)을 보면 인간이 쉽게 마지막 단어를 맞추지만(정확도 ~100%), 마지막 문장만 보면 맞추기 어려운 지문만 선별했다. 이를 통해 장거리 의존성(long-range dependency) 이해를 직접 측정한다. GPT-2가 이 벤치마크에서 혁신적 성능을 보이며(63.2% → 이전 모델 대비 큰 도약) 대규모 LM의 능력을 입증하는 핵심 벤치마크가 되었다.

메타데이터

항목	내용
제목	The LAMBADA dataset: Word prediction requiring a broad discourse context
저자	Denis Paperno et al.
소속	CIMeC (University of Trento), UPF Barcelona, ILLC Amsterdam
연도	2016
발표	ACL 2016, arXiv:1606.06031
링크	arXiv, Dataset
키워드	LAMBADA, word prediction, long-range dependency, language model evaluation

데이터셋 구성

규모

Split	예시 수
Dev	4,869
Test	5,153
합계	10,022

Feature/Column 구조

필드	설명	예시
`text`	전체 지문 (4-5문장)	“She had met him at a party…”
`target_word`	예측할 마지막 단어	”John”

선별 기준

조건	설명
전체 맥락	인간이 쉽게 예측 가능 (>99%)
마지막 문장만	인간이 예측 어려움 (~0%)
효과	장거리 의존성을 강제

실제 데이터 예시

예시 1

Context: "Yes, I thought I was going to lose the baby."
"325 looked at him, and was afraid. Ackland jumped back..."
"What happened next?" 325 asked.
Target: "Ackland"
(이전 문맥의 인물 추적 필요)

예시 2

Context: "He had been in the army for five years... His wife
was waiting for him at home... She opened the door and
immediately recognized the face of..."
Target: "husband"
(넓은 문맥에서의 관계 추론)

발견 (Findings)

주요 결과 (Test set)

모델	정확도	Perplexity
Human (full context)	~100%	—
Human (last sentence only)	~0%	—
Neural LM (2016)	7.3%	5,357
GPT-2 (1.5B)	63.2%	8.6
GPT-3 175B	76.2%	3.0
GPT-4	~85%+	—

핵심 발견

GPT-2의 도약: 이전 최고 7.3% → GPT-2 63.2%로 스케일링의 효과 극적 입증
GPT-3의 추가 개선: 76.2%로 여전히 인간(~100%) 대비 격차 존재
장거리 의존성의 어려움: 마지막 문장만으로는 0% — 넓은 맥락이 핵심

핵심 용어 정리

용어	정의
LAMBADA	LAnguage Modeling Broadened to Account for Discourse Aspects
Long-Range Dependency	먼 위치의 토큰 간 의존 관계
Perplexity	언어 모델의 예측 불확실성 지표 (낮을수록 좋음)

Juhyeon's Blog

탐색기

The LAMBADA dataset - Word prediction requiring a broad discourse context

LAMBADA: 장거리 의존성을 요구하는 단어 예측 벤치마크

메타데이터

데이터셋 구성

규모

Feature/Column 구조

선별 기준

실제 데이터 예시

예시 1

예시 2

발견 (Findings)

주요 결과 (Test set)

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크