LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

Digest: Tsinghua University와 BAAI(Beijing Academy of AI)가 제안한 최초의 이중 언어(bilingual) 장문맥 LLM 평가 벤치마크. 6종 태스크 카테고리(Single-Doc QA, Multi-Doc QA, Summarization, Few-shot Learning, Synthetic, Code)에 걸쳐 21개 데이터셋, 총 4,750개 테스트 인스턴스를 영어(14개)+중국어(7개)로 구성한다. 기존 Needle-in-a-Haystack 같은 합성 태스크가 아닌 실제 사용 시나리오 기반 자연어 장문서 태스크로 모델의 장문맥 이해력을 측정하는 것이 핵심 차별점이다. 평균 문맥 길이는 영어 ~6.7K, 중국어 ~13.4K 토큰으로 실용적 범위(3K–40K+)에 초점을 맞춘다.


메타데이터

항목내용
제목LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
저자Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
소속Tsinghua University, BAAI (Beijing Academy of Artificial Intelligence)
발표ACL 2024 (arXiv preprint: 2023.08)
arXiv2308.14508
총 인스턴스4,750개 테스트 샘플
데이터셋 수21개 (6 카테고리)
언어영어 (14 datasets) + 중국어 (7 datasets)
평균 문맥 길이영어 6,711 tokens / 중국어 13,386 tokens
문맥 범위3K – 40K+ tokens
라이선스MIT License

데이터셋 구성

규모 및 분할

  • 총 4,750개 테스트 전용 인스턴스 (별도 train/val split 없음 — 평가 전용 벤치마크)
  • 각 데이터셋당 약 200–500개 샘플로 균형 있게 구성
  • 영어 14개 + 중국어 7개 = 21개 서브데이터셋

Feature / Column 구조

FeatureType설명
inputstring장문맥 텍스트 (문서/코드/대화 등)
contextstring동일 문맥 (일부 태스크에서 추가 정보 포함)
answerslist[string]기대 출력 (정답 목록)
lengthint토큰 수
datasetstring서브데이터셋 이름
languagestringen 또는 zh
all_classeslist[string]분류 태스크용 레이블 목록 (해당 시)

태스크 분포 (6 카테고리, 21 데이터셋)

카테고리데이터셋언어평가 지표
Single-Doc QANarrativeQA, Qasper, MultiFieldQA-enENF1
MultiFieldQA-zhZHF1
Multi-Doc QAHotpotQA, 2WikiMultihopQA, MuSiQueENF1
DuReaderZHRouge-L
SummarizationGovReport, QMSum, MultiNewsENRouge-L
VCSUMZHRouge-L
Few-shot LearningTREC, TriviaQA, SAMSumENAccuracy / F1
LSHTZHAccuracy
SyntheticPassageCount, PassageRetrieval-enENAccuracy
PassageRetrieval-zhZHAccuracy
CodeLCC, RepoBench-PENEdit Similarity

실제 데이터 예시

예시 1: Single-Doc QA (Qasper)

input: "[10K 토큰 분량의 NLP 논문 전문] ... Question: What baseline methods
        were compared in the experiments?"
answers: ["The authors compared against BERT-base, RoBERTa-large, and
          Longformer as baseline methods."]
length: 10234
dataset: "qasper"
language: "en"

예시 2: Summarization (GovReport)

input: "[15K 토큰 분량의 미국 정부 보고서 전문] The Congressional Research
        Service prepared this report to examine..."
answers: ["This report examines federal funding mechanisms for disaster
          relief programs, highlighting key policy challenges..."]
length: 15891
dataset: "gov_report"
language: "en"

예시 3: Synthetic (PassageCount)

input: "[30개의 Wikipedia 단락이 반복/혼합된 장문서] ...
        How many unique passages are there in the above text?"
answers: ["5"]
length: 22456
dataset: "passage_count"
language: "en"

왜 이 연구를 하는가?

  1. 합성 태스크의 한계: 기존 장문맥 평가(예: Needle-in-a-Haystack)는 단순 검색(retrieval) 능력만 측정하며, 실제 응용에서의 이해·추론·요약 능력을 반영하지 못한다
  2. 영어 편향: 기존 장문맥 벤치마크는 대부분 영어 전용이며, 다국어(bilingual) 평가가 부재했다
  3. 태스크 다양성 부족: 단일 태스크(예: QA만)로는 장문맥 처리의 다면적 능력을 포괄적으로 측정할 수 없다
  4. 공정한 비교 필요: 모델마다 context window가 다르므로, 균일한 조건에서 체계적으로 비교할 수 있는 표준 벤치마크가 필요했다

방법: 벤치마크 구축 및 평가 파이프라인

flowchart TD
    A[기존 데이터셋 수집<br/>21개 소스] --> B[장문맥 샘플 필터링<br/>3K+ tokens]
    B --> C[언어별 분류<br/>EN: 14 / ZH: 7]
    C --> D[6 카테고리 배정<br/>Single-Doc QA · Multi-Doc QA<br/>Summarization · Few-shot<br/>Synthetic · Code]
    D --> E[균형 샘플링<br/>~200-500 per dataset]
    E --> F[총 4,750 인스턴스<br/>테스트 세트 확정]

    F --> G[모델 평가]
    G --> H{Context Window<br/>초과 여부?}
    H -->|초과| I[중간 절삭 전략<br/>Middle Truncation]
    H -->|이내| J[전체 문맥 입력]
    I --> K[태스크별 메트릭 계산<br/>F1 / Rouge-L / Accuracy<br/>/ Edit Similarity]
    J --> K
    K --> L[카테고리별 & 전체<br/>평균 점수 산출]

핵심 설계 결정:

  • Middle Truncation: context window를 초과하는 경우, 앞뒤를 보존하고 중간 부분을 절삭하는 전략 채택 (단순 앞/뒤 절삭보다 정보 보존 우수)
  • Unified Evaluation: 모든 모델에 동일한 prompt template 적용하여 공정성 확보

발견: 주요 결과

모델별 종합 성능

모델Context WindowEN 평균ZH 평균전체 평균
GPT-3.5-Turbo-16K16K44.040.742.4
Claude-2-100K100K40.733.136.9
ChatGLM3-6B-32K32K41.746.644.2
ChatGLM2-6B-32K32K36.042.139.1
Llama2-7B-chat-4K4K31.015.523.3
LongChat-v1.5-7B-32K32K34.321.728.0
XGen-7B-8K8K29.015.222.1

카테고리별 주요 패턴

카테고리최고 성능 모델핵심 발견
Single-Doc QAGPT-3.5-Turbo문서 이해+질의응답에서 API 모델 강세
Multi-Doc QAGPT-3.5-Turbo다문서 교차 추론은 모든 모델에서 난이도 높음
SummarizationGPT-3.5-Turbo장문 요약에서 ROUGE 점수 전반적으로 낮음
Few-shotChatGLM3-6B중국어 few-shot에서 ChatGLM 압도적
SyntheticClaude-2긴 context window 활용 시 합성 태스크 유리
CodeGPT-3.5-Turbo코드 완성에서 API 모델 우위

핵심 인사이트

  1. Context window ≠ 성능: Claude-2 (100K)가 GPT-3.5 (16K)보다 낮은 점수 — window 크기가 곧 이해력을 의미하지 않음
  2. 언어별 격차: 중국어 특화 모델(ChatGLM)이 중국어에서는 강하나 영어에서 약함 → 진정한 bilingual 능력은 아직 미달
  3. 실용 vs 합성 괴리: 합성 태스크(PassageCount 등)에서 높은 점수가 실용 태스크(QA, 요약)에서의 성능을 보장하지 않음

이론적 의의

  1. 벤치마크 설계 방법론: 장문맥 평가를 위한 다국어·다태스크 프레임워크를 제시하여, 후속 벤치마크(RULER, LongBench v2 등)의 기반이 됨
  2. Middle Truncation 전략: context window 초과 시 중간 절삭이 정보 보존에 효과적임을 실증적으로 검증
  3. 실용적 장문맥 평가의 필요성 입증: Needle-in-a-Haystack 같은 합성 태스크만으로는 모델의 실질적 장문맥 능력을 판단할 수 없음을 데이터로 증명
  4. Scaling Law 관점: 더 긴 context window를 가진 모델이 반드시 우수하지 않다는 반직관적 결과는, 장문맥 처리에 architecture + training strategy가 함께 중요함을 시사

관련 연구


핵심 용어

용어설명
Long Context Understanding3K 토큰 이상의 긴 입력을 처리하고 이해하는 LLM 능력
Middle TruncationContext window 초과 시 문서의 중간 부분을 절삭하는 전략
Bilingual Benchmark영어+중국어 두 언어를 동시에 평가하는 벤치마크 설계
Synthetic TaskPassageCount 등 인위적으로 구성된 장문맥 평가 태스크
Few-shot Learning소수 예시를 문맥에 포함하여 태스크를 수행하는 in-context learning
Edit Similarity코드 완성 태스크에서 생성된 코드와 정답 간 편집 거리 기반 유사도

Benchmark LongContext Bilingual DocumentUnderstanding Evaluation QA Summarization CodeGeneration LLM