LLM 벤치마크 서베이 개요

이 서베이는 LLM 평가에 사용되는 주요 벤치마크 67개를 15개 카테고리로 분류하여 정리한다. 각 벤치마크의 측정 대상, 규모, 핵심 메트릭, 현재 최고 성능을 비교하여 LLM 평가 생태계의 전체 그림을 제공한다.


벤치마크 생태계 개관

graph TB
    subgraph "🔵 Coding"
        A["[[HumanEval_2021_CodeGeneration|HumanEval]]<br/>164문제, pass@k"]
        B["[[MBPP_2021_PythonProgramming|MBPP]]<br/>974문제, Python"]
        C["[[SWE-bench_2023_SoftwareEngineering|SWE-bench]]<br/>2,294 이슈, Agent"]
        D["[[LiveCodeBench_2024_ContaminationFree|LiveCodeBench]]<br/>400+, Rolling"]
        E["[[BigCodeBench_2024_ComplexCoding|BigCodeBench]]<br/>1,140, API"]
        F_CODE["[[AiderPolyglot_2024_CodeEditing|Aider Polyglot]]<br/>10+언어, 편집"]
    end

    subgraph "🟢 Math"
        F["[[Training Verifiers to Solve Math Word Problem|GSM8K]]<br/>8.5k, 초등"]
        G["[[MATH_2021_CompetitionMath|MATH]]<br/>12.5k, 경시대회"]
        H["[[MathVista_2023_VisualMath|MathVista]]<br/>6.1k, 시각+수학"]
        AIME["[[AIME2024_2024_OlympiadMath|AIME 2024]]<br/>30문제, 올림피아드"]
        FMATH["[[FrontierMath_2024_ResearchMath|FrontierMath]]<br/>수백, 연구 수준"]
    end

    subgraph "🟡 Reasoning / Knowledge"
        I["[[MMLU_2020_Multitask|MMLU]]<br/>14k, 57과목"]
        J["[[ARC_2018_ScienceReasoning|ARC]]<br/>7.8k, 과학"]
        M["[[BBH_2022_BIGBenchHard|BBH]]<br/>6.5k, 23태스크"]
        N["[[GPQA_2023_GraduateLevel|GPQA]]<br/>448, 대학원"]
        U["[[MMLU-Pro_2024_Enhanced|MMLU-Pro]]<br/>12k, 10지선다"]
        ARCAGI["[[ARC-AGI_2024_AbstractionReasoning|ARC-AGI]]<br/>800, 추상화"]
    end

    subgraph "🟠 Agent / Tool Use"
        ALF["[[ALFWorld_2020_EmbodiedAgent|ALFWorld]]<br/>3.8k, 체화"]
        WS["[[WebShop_2022_WebShopping|WebShop]]<br/>1.18M상품, 쇼핑"]
        P["[[AgentBench_2023_AgentEvaluation|AgentBench]]<br/>8환경, 종합"]
        Q["[[WebArena_2023_WebAgent|WebArena]]<br/>812, 실제 웹"]
        R["[[GAIA_2023_GeneralAI|GAIA]]<br/>466, 실세계"]
        BFCL["[[BFCL_2024_FunctionCalling|BFCL]]<br/>2k+, 함수 호출"]
    end

    subgraph "🔴 Chat / Alignment"
        S["[[MT-Bench_2023_LLMJudge|MT-Bench]]<br/>80, LLM Judge"]
        T["[[AlpacaEval_2024_InstructionFollowing|AlpacaEval]]<br/>805, LC WR"]
        V["[[IFEval_2023_VerifiableIF|IFEval]]<br/>541, 검증 가능"]
        ARENA["[[ChatbotArena_2023_HumanPreference|Chatbot Arena]]<br/>1M+ 투표, Elo"]
        WILD["[[WildBench_2024_RealUserTasks|WildBench]]<br/>1,024, 실사용자"]
    end

    subgraph "⚫ Safety / Bias"
        W["[[TruthfulQA_2021_Hallucination|TruthfulQA]]<br/>817, 진실성"]
        X["[[ETHICS_2020_MoralJudgment|ETHICS]]<br/>130k, 윤리"]
        W2["[[RealToxicityPrompts_2020_ToxicityMeasurement|RealToxicityPrompts]]<br/>99k, 독성"]
        W3["[[CrowS-Pairs_2020_StereotypeBias|CrowS-Pairs]]<br/>1.5k, 편향"]
        W4["[[BBQ_2021_BiasQA|BBQ]]<br/>58k, 편향 QA"]
        HARM["[[HarmBench_2024_RedTeaming|HarmBench]]<br/>510, 레드팀"]
    end

    subgraph "🟣 Multimodal"
        Y["[[MMMU_2023_MultimodalExpert|MMMU]]<br/>11.5k, 30전공"]
        VQA["[[VQAv2_2017_VisualQA|VQAv2]]<br/>1.1M, 시각 QA"]
        DOC["[[DocVQA_2021_DocumentVisualQA|DocVQA]]<br/>50k, 문서"]
        CHART["[[ChartQA_2022_ChartUnderstanding|ChartQA]]<br/>33k, 차트"]
    end

    subgraph "📖 QA / Reading Comprehension"
        QA1["[[SQuAD2_2018_ReadingComprehension|SQuAD 2.0]]<br/>150k, RC"]
        QA2["[[NaturalQuestions_2019_OpenDomainQA|NQ]]<br/>307k, 검색 QA"]
        QA3["[[TriviaQA_2017_LargeScaleQA|TriviaQA]]<br/>95k, Trivia"]
        QA4["[[QuAC_2018_DialogueQA|QuAC]]<br/>98k, 대화형"]
        QA5["[[BoolQ_2019_YesNoQA|BoolQ]]<br/>16k, Yes/No"]
        QA6["[[DROP_2019_NumericalReasoning|DROP]]<br/>96k, 수치 추론"]
        COQA["[[CoQA_2019_ConversationalQA|CoQA]]<br/>127k, 대화형"]
        RACE["[[RACE_2017_ReadingComprehension|RACE]]<br/>100k, 시험 독해"]
    end

    subgraph "📗 NLU / NLI"
        NLU0["[[GLUE_2018_NLUBenchmark|GLUE]]<br/>9태스크, NLU 시초"]
        NLU1["[[SuperGLUE_2019_NLUBenchmark|SuperGLUE]]<br/>8 태스크, NLU"]
        NLU2["[[ANLI_2019_AdversarialNLI|ANLI]]<br/>163k, 적대적"]
        NLU3["[[LAMBADA_2016_WordPrediction|LAMBADA]]<br/>10k, 단어 예측"]
        SNLI["[[SNLI_2015_NaturalLanguageInference|SNLI]]<br/>570k, NLI 시초"]
    end

    subgraph "🧠 Commonsense"
        K["[[HellaSwag_2019_CommonsenseReasoning|HellaSwag]]<br/>70k, AF 상식"]
        L["[[WinoGrande_2019_Commonsense|WinoGrande]]<br/>44k, 대명사"]
        NLU4["[[StoryCloze_2016_NarrativeUnderstanding|StoryCloze]]<br/>3.7k, 이야기"]
        CS1["[[PIQA_2019_PhysicalIntuition|PIQA]]<br/>21k, 물리"]
        CS2["[[SIQA_2019_SocialIntuition|SIQA]]<br/>38k, 사회"]
        CS3["[[CommonsenseQA_2018_ConceptNet|CommonsenseQA]]<br/>12k, ConceptNet"]
        CS4["[[OpenBookQA_2018_ScienceCommonsense|OpenBookQA]]<br/>6k, 오픈북"]
    end

    subgraph "📝 Summarization"
        SUM1["[[CNNDailyMail_2016_Summarization|CNN/DailyMail]]<br/>312k, 뉴스"]
        SUM2["[[XSum_2018_ExtremeSummarization|XSum]]<br/>227k, 1문장"]
    end

    subgraph "🌐 Translation"
        TR1["[[WMT_2014_MachineTranslation|WMT]]<br/>연도별, 번역 표준"]
        TR2["[[FLORES-200_2022_MultilingualTranslation|FLORES-200]]<br/>200언어, 다국어"]
    end

    subgraph "📏 Long-Context"
        LC1["[[NeedleInHaystack_2023_LongContext|Needle-in-Haystack]]<br/>히트맵, 검색"]
        LC2["[[RULER_2024_LongContextBenchmark|RULER]]<br/>4종, 종합"]
        LC3["[[LongBench_2023_LongDocumentUnderstanding|LongBench]]<br/>6종, 이중언어"]
    end

    subgraph "🏛️ Meta / Framework"
        META1["[[HELM_2022_HolisticEvaluation|HELM]]<br/>42시나리오, 종합"]
        META2["[[OpenLLMLeaderboard_2023_StandardEval|Open LLM LB]]<br/>6벤치마크, 리더보드"]
    end

    A -->|"규모 확대"| B
    B -->|"실제 SW로"| C
    A -->|"오염 방지"| D
    B -->|"API 복잡도"| E
    A -->|"편집 중심"| F_CODE
    F -->|"난이도 상향"| G
    G -->|"시각 결합"| H
    G -->|"올림피아드"| AIME
    AIME -->|"연구 수준"| FMATH
    I -->|"강화"| U
    I -->|"전문화"| N
    NLU0 -->|"더 어려운 NLU"| NLU1
    SNLI -->|"규모 확대"| NLU2
    S -->|"크라우드소싱"| ARENA
    ARENA -->|"자동화"| WILD
    VQA -->|"문서 특화"| DOC
    VQA -->|"차트 특화"| CHART
    LC1 -->|"종합화"| LC2

카테고리별 비교표

1. Coding Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
HumanEval2021164docstring→코드pass@k최초 코드 벤치, pass@k 정의~92%
MBPP2021974설명→Pythonpass@k초중급 대규모~85%
SWE-bench20232,294GitHub이슈→패치% Resolved실제 SW 이슈, Agent 표준~20% (agent)
LiveCodeBench2024400+대회문제→코드pass@k오염 방지 rolling~43%
BigCodeBench20241,140복합API→코드pass@k139 라이브러리 조합~61%
Aider Polyglot202410+언어기존코드→편집% 통과다언어 코드 편집~73%

2. Math Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
GSM8K20218,500문장제→풀이정확도초등 산술, 자연어 풀이~95%
MATH202112,500경시대회→풀이정확도5단계 난이도, LaTeX~50%
MathVista20236,141이미지+수학정확도시각+수학 결합~50%
AIME 2024202430올림피아드→정수정확도o1 ~74% 돌파~20% (o1: 74%)
FrontierMath2024수백연구수학→답정확도o1도 <2%, 수학자 출제<2%

3. Reasoning / Knowledge Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
MMLU202014,0424지선다정확도57과목, 사실상 표준~86%
ARC20187,7874지선다정확도과학 추론 Challenge~96%
BBH20226,511혼합정확도23개 최고 난이도 태스크~80%
GPQA20234484지선다정확도대학원 과학, Google-Proof~50%
MMLU-Pro202412,03210지선다정확도MMLU 강화, 추론 비중↑~73%
ARC-AGI2024800그리드 퍼즐정확도추상화+일반화, $1M 상금~5%

4. Agent / Tool Use Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
ALFWorld20203,827텍스트/체화성공률6종 가정 과제, 텍스트→체화 전이N/A (LLM ReAct ~70%)
WebShop20221.18M상품웹 쇼핑Task Score/SR실제 Amazon 상품, sim-to-realN/A (LLM ~50%)
AgentBench20238환경대화형종합 점수8개 환경 종합~4.01
WebArena2023812웹 상호작용성공률실제 웹사이트 4개~14%
GAIA2023466도구 사용정확도범용 AI, 실세계 과제~15%
BFCL20242,000+함수 호출AST 매칭다언어 API, 병렬/연쇄 호출~88%

5. Chat / Alignment Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
MT-Bench2023802턴 대화1-10점LLM-as-Judge 정의~9.0
AlpacaEval2024805지시→응답LC Win Rate길이 편향 보정~50%
IFEval2023541제약 따르기Prompt Acc검증 가능한 형식 제약~77%
Chatbot Arena20231M+ 투표블라인드 대결Elo Rating인간 선호 크라우드소싱~1287 Elo
WildBench20241,024실사용자 태스크WB-ScoreArena Elo와 상관 0.988.42

6. Safety / Bias Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
TruthfulQA2021817생성/선다% Truthful역스케일링 발견~60% MC1
ETHICS2020130k+이진/비교정확도5개 윤리 이론~80%
RealToxicityPrompts202099k프롬프트→생성Toxic Prob독성 생성 측정~15% prob
CrowS-Pairs20201,508문장쌍Bias Score9개 편향 카테고리~52%
BBQ202158kQABias Score모호/비모호 이중 설정낮음
HarmBench2024510적대적 공격ASR18종 공격, 33모델 표준~10% ASR

7. Multimodal Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4V급 성능
VQAv220171.1M이미지+질문VQA Acc시각 QA 표준, 균형 데이터~80%+
DocVQA202150k문서이미지+질문ANLSOCR+레이아웃 추론~88%
ChartQA202233k차트+질문Relaxed Acc차트 이해+수치 추론~84%
MMMU202311,550이미지+선다/자유정확도30전공 전문 멀티모달~57%

8. QA / Reading Comprehension Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
SQuAD 2.02018150k추출형+답변불가EM/F1RC 표준, 답변불가 판별~90+ EM
NQ2019307k검색 기반F1Google 실제 검색 질문~80+ F1
TriviaQA201795ktriviaEM/F1원격감독 대규모 QA~85+ EM
QuAC201898k대화형F1정보 비대칭 대화 QA~75+ F1
BoolQ201916kYes/No정확도SuperGLUE 과제~92%+
DROP201996,567자유형F1수치 추론 독해~88 F1
CoQA2019127k대화형F1자연어 답변+근거 이중 구조~85+ F1
RACE2017100k4지선다정확도중고등 시험 독해, 추론 중심~92%

9. NLU / NLI Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
SNLI2015570kNLI 3-way정확도최초 대규모 NLI, 딥러닝 촉진~90%+
GLUE2018270k9태스크 종합평균NLU 시초, BERT로 포화~90+
SuperGLUE2019155k8태스크 종합평균GLUE 후속, 2021 포화~95+
ANLI2019163kNLI 3라운드정확도적대적 수집, R3 매우 어려움~55% R3
LAMBADA201610k마지막 단어 예측정확도장거리 의존성~85%+
StoryCloze20163.7k이야기 결말 선택정확도상식 추론 초기 벤치마크~87%+

10. Commonsense / Physical Reasoning Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
HellaSwag201970k+4지선다정확도AF 상식 추론~95%
WinoGrande201944k이진 선택정확도대명사 해소, AfLite~87%
PIQA201921k2지선다정확도물리적 직관~90%+
SIQA201938k3지선다정확도사회적 추론, ATOMIC~83%+
CommonsenseQA201812k5지선다정확도ConceptNet 기반 상식~85%+
OpenBookQA20186k4지선다정확도과학 사실+상식 결합~92%+

11. Summarization Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
DailyMail2016312k다문장 요약ROUGE뉴스 요약 표준~42 R-1
XSum2018227k1문장 극단 요약ROUGEBBC 뉴스, 추상형 필수~47 R-1

12. Translation / Multilingual Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
WMT2014+연도별번역BLEU/COMET매년 갱신, 번역 표준~35+ BLEU
FLORES-20020223K×200언어번역spBLEU200개 언어, 저자원 포함

13. Long-Context Benchmarks

벤치마크연도규모형식핵심 메트릭특징GPT-4급 성능
Needle-in-Haystack2023가변검색검색 정확도히트맵 시각화, 압력 테스트~87% (128K)
RULER202413태스크4카테고리정확도검색+추론+집계+추적~81% (128K)
LongBench202321데이터셋6카테고리다양영어+중국어 이중 언어~44 (16K)

14. Evaluation Framework / Meta

벤치마크연도규모형식핵심 메트릭특징
HELM202242시나리오종합7메트릭Stanford 종합 평가
Open LLM LB20236벤치마크리더보드평균HuggingFace 표준

시대별 벤치마크 진화

timeline
    title LLM 벤치마크 진화 타임라인
    2015 : SNLI (최초 대규모 NLI 570k)
    2016 : LAMBADA (장거리 단어 예측)
         : StoryCloze (이야기 결말)
         : CNN/DailyMail (뉴스 요약)
    2017 : TriviaQA (대규모 Trivia QA)
         : RACE (시험 독해 100k)
         : VQAv2 (시각 QA 1.1M)
    2018 : ARC (과학 추론 Challenge Set)
         : SQuAD 2.0 (답변 불가 RC)
         : QuAC (대화형 QA)
         : CommonsenseQA (ConceptNet 상식)
         : OpenBookQA (오픈북 과학)
         : XSum (극단적 요약)
         : GLUE (최초 NLU 종합)
    2019 : HellaSwag (AF 상식)
         : WinoGrande (AF 대명사)
         : DROP (수치 독해)
         : SuperGLUE (NLU 종합)
         : ANLI (적대적 NLI)
         : NaturalQuestions (Google 검색 QA)
         : BoolQ (Yes/No QA)
         : PIQA (물리적 직관)
         : SIQA (사회적 추론)
         : CoQA (대화형 QA)
    2020 : MMLU (57과목 표준)
         : ETHICS (도덕 판단)
         : RealToxicityPrompts (독성 측정)
         : CrowS-Pairs (편향 측정)
    2021 : HumanEval (코드 pass@k)
         : MBPP (대규모 Python)
         : GSM8K (초등 수학)
         : MATH (경시대회)
         : TruthfulQA (진실성)
         : BBQ (편향 QA)
         : DocVQA (문서 시각 QA)
    2022 : BBH (BIG-Bench Hard)
         : HELM (종합 평가)
         : FLORES-200 (200언어 번역)
         : ChartQA (차트 이해)
    2023 : SWE-bench (실제 SW 이슈)
         : MT-Bench (LLM Judge)
         : AgentBench (8환경)
         : WebArena (실제 웹)
         : GAIA (범용 AI)
         : GPQA (대학원)
         : MathVista (시각 수학)
         : MMMU (멀티모달 전문)
         : IFEval (검증 IF)
         : Open LLM Leaderboard
         : Chatbot Arena (Elo 순위)
         : Needle-in-a-Haystack (장문맥)
         : LongBench (장문서 이해)
    2024 : LiveCodeBench (동적 코드)
         : BigCodeBench (API 코딩)
         : AlpacaEval 2.0 (LC)
         : MMLU-Pro (강화 MMLU)
         : RULER (장문맥 종합)
         : WildBench (실사용자)
         : BFCL (함수 호출)
         : ARC-AGI (추상화 추론)
         : AIME 2024 (올림피아드 수학)
         : FrontierMath (연구 수학)
         : HarmBench (레드팀)
         : Aider Polyglot (코드 편집)

핵심 트렌드

1. 포화와 대응

포화된 벤치마크후속 벤치마크전략
MMLU (~88%)MMLU-Pro (~73%)보기 10개, 추론 비중↑
HumanEval (~92%)LiveCodeBench (~43%)동적 업데이트
HellaSwag (~95%)BBH (~80%)어려운 태스크 선별
ARC (~96%)GPQA (~50%)난이도 대학원으로↑
GLUE (~90%)SuperGLUE (~90%)더 어려운 NLU 과제
SuperGLUE (~90%)ANLI R3 (~55%)적대적 수집
SQuAD 1.1 (~93 F1)SQuAD 2.0 (~90 EM)답변불가 추가
MATH (~50%)AIME 2024 (~74% o1)올림피아드 난이도
AIME (~74% o1)FrontierMath (<2%)연구 수준 수학
VQAv2 (~80%+)MMMU (~57%)전문 멀티모달
Needle (~95%)RULER (~81% 128K)다면적 장문맥

2. 평가 패러다임의 분화

패러다임벤치마크특징
정답 비교MMLU, ARC, MATH, BoolQ, CommonsenseQA, RACE정답과 직접 비교
기능적 실행HumanEval, SWE-bench, Aider Polyglot코드/시스템 실행으로 검증
LLM-as-JudgeMT-Bench, AlpacaEval, WildBenchGPT-4가 응답 품질 판정
인간 선호Chatbot Arena블라인드 대결, Elo 레이팅
프로그래밍적 검증IFEval, BFCL형식 제약/AST 자동 검증
환경 상호작용WebArena, AgentBench, GAIA에이전트 환경에서 실행
자동 메트릭CNN/DM, XSum (ROUGE), WMT (BLEU/COMET)n-gram/신경망 기반 자동 평가
편향/안전 측정CrowS-Pairs, BBQ, HarmBench편향 비교 / 공격 성공률
종합 프레임워크HELM, Open LLM LB다차원 메트릭 통합

3. 인간 대비 현재 AI 위치

난이도벤치마크AI 성능인간상태
쉬움HellaSwag, ARC-E, BoolQ, SuperGLUE, GLUE~95%+~95%✅ 인간 수준
중간MMLU, DROP, PIQA, SQuAD 2.0, VQAv2~88%~89%🟡 근접
어려움MATH, GPQA, ANLI R3, MMMU~50-57%~65-80%🔴 격차
매우 어려움SWE-bench, GAIA, ARC-AGI~5-20%~78-92%🔴🔴 큰 격차
극한FrontierMath<2%~80%+🔴🔴🔴 극대 격차

4. GPT/Llama/Claude 모델별 주요 벤치마크 비교

벤치마크GPT-4 / 4oClaude 3.5 SonnetLlama 3.1 70Bo1
MMLU~86%~88%~79%~92%
MATH~50%~53%~42%~94%
HumanEval~92%~92%~80%~93%
GPQA~50%~59%~46%~78%
AIME 2024~20%~25%~15%~74%
IFEval~77%~81%~72%~83%
SWE-bench Verified~20%~49%~12%~42%
Arena Elo~1287~1271~1207~1330
Needle 128K~87%~98%~95%

논문 목록

#벤치마크연도Benchmark-TypearXiv/소스
1HumanEval2021Coding2107.03374
2MBPP2021Coding2108.07732
3SWE-bench2023Coding2310.06770
4LiveCodeBench2024Coding2403.07974
5BigCodeBench2024Coding2406.15877
6Aider Polyglot2024Codingaider.chat
7GSM8K2021Math2110.14168
8MATH2021Math2103.03874
9MathVista2023Math2310.02255
10AIME 20242024MathAMC/AIME 공식
11FrontierMath2024Math2411.04872
12MMLU2020Knowledge2009.03300
13ARC2018Reasoning1803.05457
14BBH2022Reasoning2210.09261
15GPQA2023Reasoning2311.12022
16MMLU-Pro2024Knowledge2406.01574
17ARC-AGI2024Reasoningarcprize.org
18AgentBench2023Agent/Tool Use2308.03688
19WebArena2023Agent/Tool Use2307.13854
20GAIA2023Agent/Tool Use2311.12983
21BFCL2024Agent/Tool Usegorilla.cs.berkeley.edu
22MT-Bench2023Chat/Alignment2306.05685
23AlpacaEval2024Chat/Alignment2404.04475
24IFEval2023Chat/Alignment2311.07911
25Chatbot Arena2023Chat/Alignment2403.04132
26WildBench2024Chat/Alignment2406.04770
27TruthfulQA2021Safety/Bias2109.07958
28ETHICS2020Safety/Bias2008.02275
29RealToxicityPrompts2020Safety/Bias2009.11462
30CrowS-Pairs2020Safety/Bias2010.00133
31BBQ2021Safety/Bias2110.08193
32HarmBench2024Safety/Bias2402.04249
33VQAv22017Multimodal1612.00837
34DocVQA2021Multimodal2007.15788
35ChartQA2022Multimodal2203.10244
36MMMU2023Multimodal2311.16502
37SQuAD 2.02018QA/RC1806.03822
38NQ2019QA/RCTACL 2019
39TriviaQA2017QA/RC1705.03551
40QuAC2018QA/RC1808.07036
41BoolQ2019QA/RC1905.10044
42DROP2019QA/RC1903.00161
43CoQA2019QA/RC1808.07042
44RACE2017QA/RC1704.04683
45SNLI2015NLU/NLI1508.05326
46GLUE2018NLU/NLI1804.07461
47SuperGLUE2019NLU/NLI1905.00537
48ANLI2019NLU/NLI1910.14599
49LAMBADA2016NLU/NLI1606.06031
50StoryCloze2016Commonsense1604.01696
51HellaSwag2019Commonsense1905.07830
52WinoGrande2019Commonsense1907.10641
53PIQA2019Commonsense1911.11641
54SIQA2019Commonsense1904.09728
55CommonsenseQA2018Commonsense1811.00937
56OpenBookQA2018Commonsense1809.02789
57DailyMail2016Summarization1602.06023
58XSum2018Summarization1808.08745
59WMT2014+Translationstatmt.org
60FLORES-2002022Translation2207.04672
61Needle-in-Haystack2023Long-ContextGitHub
62RULER2024Long-Context2404.06654
63LongBench2023Long-Context2308.14508
64HELM2022Meta/Framework2211.09110
65Open LLM LB2023Meta/FrameworkHuggingFace