LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
Digest: Tsinghua University와 BAAI(Beijing Academy of AI)가 제안한 최초의 이중 언어(bilingual) 장문맥 LLM 평가 벤치마크. 6종 태스크 카테고리(Single-Doc QA, Multi-Doc QA, Summarization, Few-shot Learning, Synthetic, Code)에 걸쳐 21개 데이터셋, 총 4,750개 테스트 인스턴스를 영어(14개)+중국어(7개)로 구성한다. 기존 Needle-in-a-Haystack 같은 합성 태스크가 아닌 실제 사용 시나리오 기반 자연어 장문서 태스크로 모델의 장문맥 이해력을 측정하는 것이 핵심 차별점이다. 평균 문맥 길이는 영어 ~6.7K, 중국어 ~13.4K 토큰으로 실용적 범위(3K–40K+)에 초점을 맞춘다.
메타데이터
항목
내용
제목
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
저자
Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
소속
Tsinghua University, BAAI (Beijing Academy of Artificial Intelligence)
총 4,750개 테스트 전용 인스턴스 (별도 train/val split 없음 — 평가 전용 벤치마크)
각 데이터셋당 약 200–500개 샘플로 균형 있게 구성
영어 14개 + 중국어 7개 = 21개 서브데이터셋
Feature / Column 구조
Feature
Type
설명
input
string
장문맥 텍스트 (문서/코드/대화 등)
context
string
동일 문맥 (일부 태스크에서 추가 정보 포함)
answers
list[string]
기대 출력 (정답 목록)
length
int
토큰 수
dataset
string
서브데이터셋 이름
language
string
en 또는 zh
all_classes
list[string]
분류 태스크용 레이블 목록 (해당 시)
태스크 분포 (6 카테고리, 21 데이터셋)
카테고리
데이터셋
언어
평가 지표
Single-Doc QA
NarrativeQA, Qasper, MultiFieldQA-en
EN
F1
MultiFieldQA-zh
ZH
F1
Multi-Doc QA
HotpotQA, 2WikiMultihopQA, MuSiQue
EN
F1
DuReader
ZH
Rouge-L
Summarization
GovReport, QMSum, MultiNews
EN
Rouge-L
VCSUM
ZH
Rouge-L
Few-shot Learning
TREC, TriviaQA, SAMSum
EN
Accuracy / F1
LSHT
ZH
Accuracy
Synthetic
PassageCount, PassageRetrieval-en
EN
Accuracy
PassageRetrieval-zh
ZH
Accuracy
Code
LCC, RepoBench-P
EN
Edit Similarity
실제 데이터 예시
예시 1: Single-Doc QA (Qasper)
input: "[10K 토큰 분량의 NLP 논문 전문] ... Question: What baseline methods
were compared in the experiments?"
answers: ["The authors compared against BERT-base, RoBERTa-large, and
Longformer as baseline methods."]
length: 10234
dataset: "qasper"
language: "en"
예시 2: Summarization (GovReport)
input: "[15K 토큰 분량의 미국 정부 보고서 전문] The Congressional Research
Service prepared this report to examine..."
answers: ["This report examines federal funding mechanisms for disaster
relief programs, highlighting key policy challenges..."]
length: 15891
dataset: "gov_report"
language: "en"
예시 3: Synthetic (PassageCount)
input: "[30개의 Wikipedia 단락이 반복/혼합된 장문서] ...
How many unique passages are there in the above text?"
answers: ["5"]
length: 22456
dataset: "passage_count"
language: "en"
왜 이 연구를 하는가?
합성 태스크의 한계: 기존 장문맥 평가(예: Needle-in-a-Haystack)는 단순 검색(retrieval) 능력만 측정하며, 실제 응용에서의 이해·추론·요약 능력을 반영하지 못한다
영어 편향: 기존 장문맥 벤치마크는 대부분 영어 전용이며, 다국어(bilingual) 평가가 부재했다
태스크 다양성 부족: 단일 태스크(예: QA만)로는 장문맥 처리의 다면적 능력을 포괄적으로 측정할 수 없다
공정한 비교 필요: 모델마다 context window가 다르므로, 균일한 조건에서 체계적으로 비교할 수 있는 표준 벤치마크가 필요했다
방법: 벤치마크 구축 및 평가 파이프라인
flowchart TD
A[기존 데이터셋 수집<br/>21개 소스] --> B[장문맥 샘플 필터링<br/>3K+ tokens]
B --> C[언어별 분류<br/>EN: 14 / ZH: 7]
C --> D[6 카테고리 배정<br/>Single-Doc QA · Multi-Doc QA<br/>Summarization · Few-shot<br/>Synthetic · Code]
D --> E[균형 샘플링<br/>~200-500 per dataset]
E --> F[총 4,750 인스턴스<br/>테스트 세트 확정]
F --> G[모델 평가]
G --> H{Context Window<br/>초과 여부?}
H -->|초과| I[중간 절삭 전략<br/>Middle Truncation]
H -->|이내| J[전체 문맥 입력]
I --> K[태스크별 메트릭 계산<br/>F1 / Rouge-L / Accuracy<br/>/ Edit Similarity]
J --> K
K --> L[카테고리별 & 전체<br/>평균 점수 산출]
핵심 설계 결정:
Middle Truncation: context window를 초과하는 경우, 앞뒤를 보존하고 중간 부분을 절삭하는 전략 채택 (단순 앞/뒤 절삭보다 정보 보존 우수)
Unified Evaluation: 모든 모델에 동일한 prompt template 적용하여 공정성 확보
발견: 주요 결과
모델별 종합 성능
모델
Context Window
EN 평균
ZH 평균
전체 평균
GPT-3.5-Turbo-16K
16K
44.0
40.7
42.4
Claude-2-100K
100K
40.7
33.1
36.9
ChatGLM3-6B-32K
32K
41.7
46.6
44.2
ChatGLM2-6B-32K
32K
36.0
42.1
39.1
Llama2-7B-chat-4K
4K
31.0
15.5
23.3
LongChat-v1.5-7B-32K
32K
34.3
21.7
28.0
XGen-7B-8K
8K
29.0
15.2
22.1
카테고리별 주요 패턴
카테고리
최고 성능 모델
핵심 발견
Single-Doc QA
GPT-3.5-Turbo
문서 이해+질의응답에서 API 모델 강세
Multi-Doc QA
GPT-3.5-Turbo
다문서 교차 추론은 모든 모델에서 난이도 높음
Summarization
GPT-3.5-Turbo
장문 요약에서 ROUGE 점수 전반적으로 낮음
Few-shot
ChatGLM3-6B
중국어 few-shot에서 ChatGLM 압도적
Synthetic
Claude-2
긴 context window 활용 시 합성 태스크 유리
Code
GPT-3.5-Turbo
코드 완성에서 API 모델 우위
핵심 인사이트
Context window ≠ 성능: Claude-2 (100K)가 GPT-3.5 (16K)보다 낮은 점수 — window 크기가 곧 이해력을 의미하지 않음
언어별 격차: 중국어 특화 모델(ChatGLM)이 중국어에서는 강하나 영어에서 약함 → 진정한 bilingual 능력은 아직 미달
실용 vs 합성 괴리: 합성 태스크(PassageCount 등)에서 높은 점수가 실용 태스크(QA, 요약)에서의 성능을 보장하지 않음
이론적 의의
벤치마크 설계 방법론: 장문맥 평가를 위한 다국어·다태스크 프레임워크를 제시하여, 후속 벤치마크(RULER, LongBench v2 등)의 기반이 됨
Middle Truncation 전략: context window 초과 시 중간 절삭이 정보 보존에 효과적임을 실증적으로 검증
실용적 장문맥 평가의 필요성 입증: Needle-in-a-Haystack 같은 합성 태스크만으로는 모델의 실질적 장문맥 능력을 판단할 수 없음을 데이터로 증명
Scaling Law 관점: 더 긴 context window를 가진 모델이 반드시 우수하지 않다는 반직관적 결과는, 장문맥 처리에 architecture + training strategy가 함께 중요함을 시사