LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

Digest: Tsinghua University와 BAAI(Beijing Academy of AI)가 제안한 최초의 이중 언어(bilingual) 장문맥 LLM 평가 벤치마크. 6종 태스크 카테고리(Single-Doc QA, Multi-Doc QA, Summarization, Few-shot Learning, Synthetic, Code)에 걸쳐 21개 데이터셋, 총 4,750개 테스트 인스턴스를 영어(14개)+중국어(7개)로 구성한다. 기존 Needle-in-a-Haystack 같은 합성 태스크가 아닌 실제 사용 시나리오 기반 자연어 장문서 태스크로 모델의 장문맥 이해력을 측정하는 것이 핵심 차별점이다. 평균 문맥 길이는 영어 ~6.7K, 중국어 ~13.4K 토큰으로 실용적 범위(3K–40K+)에 초점을 맞춘다.

메타데이터

항목	내용
제목	LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
저자	Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
소속	Tsinghua University, BAAI (Beijing Academy of Artificial Intelligence)
발표	ACL 2024 (arXiv preprint: 2023.08)
arXiv	2308.14508
총 인스턴스	4,750개 테스트 샘플
데이터셋 수	21개 (6 카테고리)
언어	영어 (14 datasets) + 중국어 (7 datasets)
평균 문맥 길이	영어 6,711 tokens / 중국어 13,386 tokens
문맥 범위	3K – 40K+ tokens
라이선스	MIT License

데이터셋 구성

규모 및 분할

총 4,750개 테스트 전용 인스턴스 (별도 train/val split 없음 — 평가 전용 벤치마크)
각 데이터셋당 약 200–500개 샘플로 균형 있게 구성
영어 14개 + 중국어 7개 = 21개 서브데이터셋

Feature / Column 구조

Feature	Type	설명
`input`	string	장문맥 텍스트 (문서/코드/대화 등)
`context`	string	동일 문맥 (일부 태스크에서 추가 정보 포함)
`answers`	list[string]	기대 출력 (정답 목록)
`length`	int	토큰 수
`dataset`	string	서브데이터셋 이름
`language`	string	`en` 또는 `zh`
`all_classes`	list[string]	분류 태스크용 레이블 목록 (해당 시)

태스크 분포 (6 카테고리, 21 데이터셋)

카테고리	데이터셋	언어	평가 지표
Single-Doc QA	NarrativeQA, Qasper, MultiFieldQA-en	EN	F1
	MultiFieldQA-zh	ZH	F1
Multi-Doc QA	HotpotQA, 2WikiMultihopQA, MuSiQue	EN	F1
	DuReader	ZH	Rouge-L
Summarization	GovReport, QMSum, MultiNews	EN	Rouge-L
	VCSUM	ZH	Rouge-L
Few-shot Learning	TREC, TriviaQA, SAMSum	EN	Accuracy / F1
	LSHT	ZH	Accuracy
Synthetic	PassageCount, PassageRetrieval-en	EN	Accuracy
	PassageRetrieval-zh	ZH	Accuracy
Code	LCC, RepoBench-P	EN	Edit Similarity

실제 데이터 예시

예시 1: Single-Doc QA (Qasper)

input: "[10K 토큰 분량의 NLP 논문 전문] ... Question: What baseline methods
        were compared in the experiments?"
answers: ["The authors compared against BERT-base, RoBERTa-large, and
          Longformer as baseline methods."]
length: 10234
dataset: "qasper"
language: "en"

예시 2: Summarization (GovReport)

input: "[15K 토큰 분량의 미국 정부 보고서 전문] The Congressional Research
        Service prepared this report to examine..."
answers: ["This report examines federal funding mechanisms for disaster
          relief programs, highlighting key policy challenges..."]
length: 15891
dataset: "gov_report"
language: "en"

예시 3: Synthetic (PassageCount)

input: "[30개의 Wikipedia 단락이 반복/혼합된 장문서] ...
        How many unique passages are there in the above text?"
answers: ["5"]
length: 22456
dataset: "passage_count"
language: "en"

왜 이 연구를 하는가?

합성 태스크의 한계: 기존 장문맥 평가(예: Needle-in-a-Haystack)는 단순 검색(retrieval) 능력만 측정하며, 실제 응용에서의 이해·추론·요약 능력을 반영하지 못한다
영어 편향: 기존 장문맥 벤치마크는 대부분 영어 전용이며, 다국어(bilingual) 평가가 부재했다
태스크 다양성 부족: 단일 태스크(예: QA만)로는 장문맥 처리의 다면적 능력을 포괄적으로 측정할 수 없다
공정한 비교 필요: 모델마다 context window가 다르므로, 균일한 조건에서 체계적으로 비교할 수 있는 표준 벤치마크가 필요했다

방법: 벤치마크 구축 및 평가 파이프라인

flowchart TD
    A[기존 데이터셋 수집<br/>21개 소스] --> B[장문맥 샘플 필터링<br/>3K+ tokens]
    B --> C[언어별 분류<br/>EN: 14 / ZH: 7]
    C --> D[6 카테고리 배정<br/>Single-Doc QA · Multi-Doc QA<br/>Summarization · Few-shot<br/>Synthetic · Code]
    D --> E[균형 샘플링<br/>~200-500 per dataset]
    E --> F[총 4,750 인스턴스<br/>테스트 세트 확정]

    F --> G[모델 평가]
    G --> H{Context Window<br/>초과 여부?}
    H -->|초과| I[중간 절삭 전략<br/>Middle Truncation]
    H -->|이내| J[전체 문맥 입력]
    I --> K[태스크별 메트릭 계산<br/>F1 / Rouge-L / Accuracy<br/>/ Edit Similarity]
    J --> K
    K --> L[카테고리별 & 전체<br/>평균 점수 산출]

핵심 설계 결정:

Middle Truncation: context window를 초과하는 경우, 앞뒤를 보존하고 중간 부분을 절삭하는 전략 채택 (단순 앞/뒤 절삭보다 정보 보존 우수)
Unified Evaluation: 모든 모델에 동일한 prompt template 적용하여 공정성 확보

발견: 주요 결과

모델별 종합 성능

모델	Context Window	EN 평균	ZH 평균	전체 평균
GPT-3.5-Turbo-16K	16K	44.0	40.7	42.4
Claude-2-100K	100K	40.7	33.1	36.9
ChatGLM3-6B-32K	32K	41.7	46.6	44.2
ChatGLM2-6B-32K	32K	36.0	42.1	39.1
Llama2-7B-chat-4K	4K	31.0	15.5	23.3
LongChat-v1.5-7B-32K	32K	34.3	21.7	28.0
XGen-7B-8K	8K	29.0	15.2	22.1

카테고리별 주요 패턴

카테고리	최고 성능 모델	핵심 발견
Single-Doc QA	GPT-3.5-Turbo	문서 이해+질의응답에서 API 모델 강세
Multi-Doc QA	GPT-3.5-Turbo	다문서 교차 추론은 모든 모델에서 난이도 높음
Summarization	GPT-3.5-Turbo	장문 요약에서 ROUGE 점수 전반적으로 낮음
Few-shot	ChatGLM3-6B	중국어 few-shot에서 ChatGLM 압도적
Synthetic	Claude-2	긴 context window 활용 시 합성 태스크 유리
Code	GPT-3.5-Turbo	코드 완성에서 API 모델 우위

핵심 인사이트

Context window ≠ 성능: Claude-2 (100K)가 GPT-3.5 (16K)보다 낮은 점수 — window 크기가 곧 이해력을 의미하지 않음
언어별 격차: 중국어 특화 모델(ChatGLM)이 중국어에서는 강하나 영어에서 약함 → 진정한 bilingual 능력은 아직 미달
실용 vs 합성 괴리: 합성 태스크(PassageCount 등)에서 높은 점수가 실용 태스크(QA, 요약)에서의 성능을 보장하지 않음

이론적 의의

벤치마크 설계 방법론: 장문맥 평가를 위한 다국어·다태스크 프레임워크를 제시하여, 후속 벤치마크(RULER, LongBench v2 등)의 기반이 됨
Middle Truncation 전략: context window 초과 시 중간 절삭이 정보 보존에 효과적임을 실증적으로 검증
실용적 장문맥 평가의 필요성 입증: Needle-in-a-Haystack 같은 합성 태스크만으로는 모델의 실질적 장문맥 능력을 판단할 수 없음을 데이터로 증명
Scaling Law 관점: 더 긴 context window를 가진 모델이 반드시 우수하지 않다는 반직관적 결과는, 장문맥 처리에 architecture + training strategy가 함께 중요함을 시사

핵심 용어

용어	설명
Long Context Understanding	3K 토큰 이상의 긴 입력을 처리하고 이해하는 LLM 능력
Middle Truncation	Context window 초과 시 문서의 중간 부분을 절삭하는 전략
Bilingual Benchmark	영어+중국어 두 언어를 동시에 평가하는 벤치마크 설계
Synthetic Task	PassageCount 등 인위적으로 구성된 장문맥 평가 태스크
Few-shot Learning	소수 예시를 문맥에 포함하여 태스크를 수행하는 in-context learning
Edit Similarity	코드 완성 태스크에서 생성된 코드와 정답 간 편집 거리 기반 유사도

Benchmark LongContext Bilingual DocumentUnderstanding Evaluation QA Summarization CodeGeneration LLM

Juhyeon's Blog

탐색기

LongBench - A Bilingual, Multitask Benchmark for Long Context Understanding

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

메타데이터

데이터셋 구성

규모 및 분할

Feature / Column 구조

태스크 분포 (6 카테고리, 21 데이터셋)

실제 데이터 예시

예시 1: Single-Doc QA (Qasper)

예시 2: Summarization (GovReport)

예시 3: Synthetic (PassageCount)

왜 이 연구를 하는가?

방법: 벤치마크 구축 및 평가 파이프라인

발견: 주요 결과

모델별 종합 성능

카테고리별 주요 패턴

핵심 인사이트

이론적 의의

관련 연구

핵심 용어

그래프 뷰

목차

Properties

백링크