LLM 벤치마크 서베이 개요

이 서베이는 LLM 평가에 사용되는 주요 벤치마크 67개를 15개 카테고리로 분류하여 정리한다. 각 벤치마크의 측정 대상, 규모, 핵심 메트릭, 현재 최고 성능을 비교하여 LLM 평가 생태계의 전체 그림을 제공한다.

벤치마크 생태계 개관

graph TB
    subgraph "🔵 Coding"
        A["[[HumanEval_2021_CodeGeneration|HumanEval]]<br/>164문제, pass@k"]
        B["[[MBPP_2021_PythonProgramming|MBPP]]<br/>974문제, Python"]
        C["[[SWE-bench_2023_SoftwareEngineering|SWE-bench]]<br/>2,294 이슈, Agent"]
        D["[[LiveCodeBench_2024_ContaminationFree|LiveCodeBench]]<br/>400+, Rolling"]
        E["[[BigCodeBench_2024_ComplexCoding|BigCodeBench]]<br/>1,140, API"]
        F_CODE["[[AiderPolyglot_2024_CodeEditing|Aider Polyglot]]<br/>10+언어, 편집"]
    end

    subgraph "🟢 Math"
        F["[[Training Verifiers to Solve Math Word Problem|GSM8K]]<br/>8.5k, 초등"]
        G["[[MATH_2021_CompetitionMath|MATH]]<br/>12.5k, 경시대회"]
        H["[[MathVista_2023_VisualMath|MathVista]]<br/>6.1k, 시각+수학"]
        AIME["[[AIME2024_2024_OlympiadMath|AIME 2024]]<br/>30문제, 올림피아드"]
        FMATH["[[FrontierMath_2024_ResearchMath|FrontierMath]]<br/>수백, 연구 수준"]
    end

    subgraph "🟡 Reasoning / Knowledge"
        I["[[MMLU_2020_Multitask|MMLU]]<br/>14k, 57과목"]
        J["[[ARC_2018_ScienceReasoning|ARC]]<br/>7.8k, 과학"]
        M["[[BBH_2022_BIGBenchHard|BBH]]<br/>6.5k, 23태스크"]
        N["[[GPQA_2023_GraduateLevel|GPQA]]<br/>448, 대학원"]
        U["[[MMLU-Pro_2024_Enhanced|MMLU-Pro]]<br/>12k, 10지선다"]
        ARCAGI["[[ARC-AGI_2024_AbstractionReasoning|ARC-AGI]]<br/>800, 추상화"]
    end

    subgraph "🟠 Agent / Tool Use"
        ALF["[[ALFWorld_2020_EmbodiedAgent|ALFWorld]]<br/>3.8k, 체화"]
        WS["[[WebShop_2022_WebShopping|WebShop]]<br/>1.18M상품, 쇼핑"]
        P["[[AgentBench_2023_AgentEvaluation|AgentBench]]<br/>8환경, 종합"]
        Q["[[WebArena_2023_WebAgent|WebArena]]<br/>812, 실제 웹"]
        R["[[GAIA_2023_GeneralAI|GAIA]]<br/>466, 실세계"]
        BFCL["[[BFCL_2024_FunctionCalling|BFCL]]<br/>2k+, 함수 호출"]
    end

    subgraph "🔴 Chat / Alignment"
        S["[[MT-Bench_2023_LLMJudge|MT-Bench]]<br/>80, LLM Judge"]
        T["[[AlpacaEval_2024_InstructionFollowing|AlpacaEval]]<br/>805, LC WR"]
        V["[[IFEval_2023_VerifiableIF|IFEval]]<br/>541, 검증 가능"]
        ARENA["[[ChatbotArena_2023_HumanPreference|Chatbot Arena]]<br/>1M+ 투표, Elo"]
        WILD["[[WildBench_2024_RealUserTasks|WildBench]]<br/>1,024, 실사용자"]
    end

    subgraph "⚫ Safety / Bias"
        W["[[TruthfulQA_2021_Hallucination|TruthfulQA]]<br/>817, 진실성"]
        X["[[ETHICS_2020_MoralJudgment|ETHICS]]<br/>130k, 윤리"]
        W2["[[RealToxicityPrompts_2020_ToxicityMeasurement|RealToxicityPrompts]]<br/>99k, 독성"]
        W3["[[CrowS-Pairs_2020_StereotypeBias|CrowS-Pairs]]<br/>1.5k, 편향"]
        W4["[[BBQ_2021_BiasQA|BBQ]]<br/>58k, 편향 QA"]
        HARM["[[HarmBench_2024_RedTeaming|HarmBench]]<br/>510, 레드팀"]
    end

    subgraph "🟣 Multimodal"
        Y["[[MMMU_2023_MultimodalExpert|MMMU]]<br/>11.5k, 30전공"]
        VQA["[[VQAv2_2017_VisualQA|VQAv2]]<br/>1.1M, 시각 QA"]
        DOC["[[DocVQA_2021_DocumentVisualQA|DocVQA]]<br/>50k, 문서"]
        CHART["[[ChartQA_2022_ChartUnderstanding|ChartQA]]<br/>33k, 차트"]
    end

    subgraph "📖 QA / Reading Comprehension"
        QA1["[[SQuAD2_2018_ReadingComprehension|SQuAD 2.0]]<br/>150k, RC"]
        QA2["[[NaturalQuestions_2019_OpenDomainQA|NQ]]<br/>307k, 검색 QA"]
        QA3["[[TriviaQA_2017_LargeScaleQA|TriviaQA]]<br/>95k, Trivia"]
        QA4["[[QuAC_2018_DialogueQA|QuAC]]<br/>98k, 대화형"]
        QA5["[[BoolQ_2019_YesNoQA|BoolQ]]<br/>16k, Yes/No"]
        QA6["[[DROP_2019_NumericalReasoning|DROP]]<br/>96k, 수치 추론"]
        COQA["[[CoQA_2019_ConversationalQA|CoQA]]<br/>127k, 대화형"]
        RACE["[[RACE_2017_ReadingComprehension|RACE]]<br/>100k, 시험 독해"]
    end

    subgraph "📗 NLU / NLI"
        NLU0["[[GLUE_2018_NLUBenchmark|GLUE]]<br/>9태스크, NLU 시초"]
        NLU1["[[SuperGLUE_2019_NLUBenchmark|SuperGLUE]]<br/>8 태스크, NLU"]
        NLU2["[[ANLI_2019_AdversarialNLI|ANLI]]<br/>163k, 적대적"]
        NLU3["[[LAMBADA_2016_WordPrediction|LAMBADA]]<br/>10k, 단어 예측"]
        SNLI["[[SNLI_2015_NaturalLanguageInference|SNLI]]<br/>570k, NLI 시초"]
    end

    subgraph "🧠 Commonsense"
        K["[[HellaSwag_2019_CommonsenseReasoning|HellaSwag]]<br/>70k, AF 상식"]
        L["[[WinoGrande_2019_Commonsense|WinoGrande]]<br/>44k, 대명사"]
        NLU4["[[StoryCloze_2016_NarrativeUnderstanding|StoryCloze]]<br/>3.7k, 이야기"]
        CS1["[[PIQA_2019_PhysicalIntuition|PIQA]]<br/>21k, 물리"]
        CS2["[[SIQA_2019_SocialIntuition|SIQA]]<br/>38k, 사회"]
        CS3["[[CommonsenseQA_2018_ConceptNet|CommonsenseQA]]<br/>12k, ConceptNet"]
        CS4["[[OpenBookQA_2018_ScienceCommonsense|OpenBookQA]]<br/>6k, 오픈북"]
    end

    subgraph "📝 Summarization"
        SUM1["[[CNNDailyMail_2016_Summarization|CNN/DailyMail]]<br/>312k, 뉴스"]
        SUM2["[[XSum_2018_ExtremeSummarization|XSum]]<br/>227k, 1문장"]
    end

    subgraph "🌐 Translation"
        TR1["[[WMT_2014_MachineTranslation|WMT]]<br/>연도별, 번역 표준"]
        TR2["[[FLORES-200_2022_MultilingualTranslation|FLORES-200]]<br/>200언어, 다국어"]
    end

    subgraph "📏 Long-Context"
        LC1["[[NeedleInHaystack_2023_LongContext|Needle-in-Haystack]]<br/>히트맵, 검색"]
        LC2["[[RULER_2024_LongContextBenchmark|RULER]]<br/>4종, 종합"]
        LC3["[[LongBench_2023_LongDocumentUnderstanding|LongBench]]<br/>6종, 이중언어"]
    end

    subgraph "🏛️ Meta / Framework"
        META1["[[HELM_2022_HolisticEvaluation|HELM]]<br/>42시나리오, 종합"]
        META2["[[OpenLLMLeaderboard_2023_StandardEval|Open LLM LB]]<br/>6벤치마크, 리더보드"]
    end

    A -->|"규모 확대"| B
    B -->|"실제 SW로"| C
    A -->|"오염 방지"| D
    B -->|"API 복잡도"| E
    A -->|"편집 중심"| F_CODE
    F -->|"난이도 상향"| G
    G -->|"시각 결합"| H
    G -->|"올림피아드"| AIME
    AIME -->|"연구 수준"| FMATH
    I -->|"강화"| U
    I -->|"전문화"| N
    NLU0 -->|"더 어려운 NLU"| NLU1
    SNLI -->|"규모 확대"| NLU2
    S -->|"크라우드소싱"| ARENA
    ARENA -->|"자동화"| WILD
    VQA -->|"문서 특화"| DOC
    VQA -->|"차트 특화"| CHART
    LC1 -->|"종합화"| LC2

카테고리별 비교표

1. Coding Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
HumanEval	2021	164	docstring→코드	pass@k	최초 코드 벤치, pass@k 정의	~92%
MBPP	2021	974	설명→Python	pass@k	초중급 대규모	~85%
SWE-bench	2023	2,294	GitHub이슈→패치	% Resolved	실제 SW 이슈, Agent 표준	~20% (agent)
LiveCodeBench	2024	400+	대회문제→코드	pass@k	오염 방지 rolling	~43%
BigCodeBench	2024	1,140	복합API→코드	pass@k	139 라이브러리 조합	~61%
Aider Polyglot	2024	10+언어	기존코드→편집	% 통과	다언어 코드 편집	~73%

2. Math Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
GSM8K	2021	8,500	문장제→풀이	정확도	초등 산술, 자연어 풀이	~95%
MATH	2021	12,500	경시대회→풀이	정확도	5단계 난이도, LaTeX	~50%
MathVista	2023	6,141	이미지+수학	정확도	시각+수학 결합	~50%
AIME 2024	2024	30	올림피아드→정수	정확도	o1 ~74% 돌파	~20% (o1: 74%)
FrontierMath	2024	수백	연구수학→답	정확도	o1도 <2%, 수학자 출제	<2%

3. Reasoning / Knowledge Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
MMLU	2020	14,042	4지선다	정확도	57과목, 사실상 표준	~86%
ARC	2018	7,787	4지선다	정확도	과학 추론 Challenge	~96%
BBH	2022	6,511	혼합	정확도	23개 최고 난이도 태스크	~80%
GPQA	2023	448	4지선다	정확도	대학원 과학, Google-Proof	~50%
MMLU-Pro	2024	12,032	10지선다	정확도	MMLU 강화, 추론 비중↑	~73%
ARC-AGI	2024	800	그리드 퍼즐	정확도	추상화+일반화, $1M 상금	~5%

4. Agent / Tool Use Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
ALFWorld	2020	3,827	텍스트/체화	성공률	6종 가정 과제, 텍스트→체화 전이	N/A (LLM ReAct ~70%)
WebShop	2022	1.18M상품	웹 쇼핑	Task Score/SR	실제 Amazon 상품, sim-to-real	N/A (LLM ~50%)
AgentBench	2023	8환경	대화형	종합 점수	8개 환경 종합	~4.01
WebArena	2023	812	웹 상호작용	성공률	실제 웹사이트 4개	~14%
GAIA	2023	466	도구 사용	정확도	범용 AI, 실세계 과제	~15%
BFCL	2024	2,000+	함수 호출	AST 매칭	다언어 API, 병렬/연쇄 호출	~88%

5. Chat / Alignment Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
MT-Bench	2023	80	2턴 대화	1-10점	LLM-as-Judge 정의	~9.0
AlpacaEval	2024	805	지시→응답	LC Win Rate	길이 편향 보정	~50%
IFEval	2023	541	제약 따르기	Prompt Acc	검증 가능한 형식 제약	~77%
Chatbot Arena	2023	1M+ 투표	블라인드 대결	Elo Rating	인간 선호 크라우드소싱	~1287 Elo
WildBench	2024	1,024	실사용자 태스크	WB-Score	Arena Elo와 상관 0.98	8.42

6. Safety / Bias Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
TruthfulQA	2021	817	생성/선다	% Truthful	역스케일링 발견	~60% MC1
ETHICS	2020	130k+	이진/비교	정확도	5개 윤리 이론	~80%
RealToxicityPrompts	2020	99k	프롬프트→생성	Toxic Prob	독성 생성 측정	~15% prob
CrowS-Pairs	2020	1,508	문장쌍	Bias Score	9개 편향 카테고리	~52%
BBQ	2021	58k	QA	Bias Score	모호/비모호 이중 설정	낮음
HarmBench	2024	510	적대적 공격	ASR	18종 공격, 33모델 표준	~10% ASR

7. Multimodal Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4V급 성능
VQAv2	2017	1.1M	이미지+질문	VQA Acc	시각 QA 표준, 균형 데이터	~80%+
DocVQA	2021	50k	문서이미지+질문	ANLS	OCR+레이아웃 추론	~88%
ChartQA	2022	33k	차트+질문	Relaxed Acc	차트 이해+수치 추론	~84%
MMMU	2023	11,550	이미지+선다/자유	정확도	30전공 전문 멀티모달	~57%

8. QA / Reading Comprehension Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
SQuAD 2.0	2018	150k	추출형+답변불가	EM/F1	RC 표준, 답변불가 판별	~90+ EM
NQ	2019	307k	검색 기반	F1	Google 실제 검색 질문	~80+ F1
TriviaQA	2017	95k	trivia	EM/F1	원격감독 대규모 QA	~85+ EM
QuAC	2018	98k	대화형	F1	정보 비대칭 대화 QA	~75+ F1
BoolQ	2019	16k	Yes/No	정확도	SuperGLUE 과제	~92%+
DROP	2019	96,567	자유형	F1	수치 추론 독해	~88 F1
CoQA	2019	127k	대화형	F1	자연어 답변+근거 이중 구조	~85+ F1
RACE	2017	100k	4지선다	정확도	중고등 시험 독해, 추론 중심	~92%

9. NLU / NLI Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
SNLI	2015	570k	NLI 3-way	정확도	최초 대규모 NLI, 딥러닝 촉진	~90%+
GLUE	2018	270k	9태스크 종합	평균	NLU 시초, BERT로 포화	~90+
SuperGLUE	2019	155k	8태스크 종합	평균	GLUE 후속, 2021 포화	~95+
ANLI	2019	163k	NLI 3라운드	정확도	적대적 수집, R3 매우 어려움	~55% R3
LAMBADA	2016	10k	마지막 단어 예측	정확도	장거리 의존성	~85%+
StoryCloze	2016	3.7k	이야기 결말 선택	정확도	상식 추론 초기 벤치마크	~87%+

10. Commonsense / Physical Reasoning Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
HellaSwag	2019	70k+	4지선다	정확도	AF 상식 추론	~95%
WinoGrande	2019	44k	이진 선택	정확도	대명사 해소, AfLite	~87%
PIQA	2019	21k	2지선다	정확도	물리적 직관	~90%+
SIQA	2019	38k	3지선다	정확도	사회적 추론, ATOMIC	~83%+
CommonsenseQA	2018	12k	5지선다	정확도	ConceptNet 기반 상식	~85%+
OpenBookQA	2018	6k	4지선다	정확도	과학 사실+상식 결합	~92%+

11. Summarization Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
DailyMail	2016	312k	다문장 요약	ROUGE	뉴스 요약 표준	~42 R-1
XSum	2018	227k	1문장 극단 요약	ROUGE	BBC 뉴스, 추상형 필수	~47 R-1

12. Translation / Multilingual Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
WMT	2014+	연도별	번역	BLEU/COMET	매년 갱신, 번역 표준	~35+ BLEU
FLORES-200	2022	3K×200언어	번역	spBLEU	200개 언어, 저자원 포함	—

13. Long-Context Benchmarks

벤치마크	연도	규모	형식	핵심 메트릭	특징	GPT-4급 성능
Needle-in-Haystack	2023	가변	검색	검색 정확도	히트맵 시각화, 압력 테스트	~87% (128K)
RULER	2024	13태스크	4카테고리	정확도	검색+추론+집계+추적	~81% (128K)
LongBench	2023	21데이터셋	6카테고리	다양	영어+중국어 이중 언어	~44 (16K)

14. Evaluation Framework / Meta

벤치마크	연도	규모	형식	핵심 메트릭	특징
HELM	2022	42시나리오	종합	7메트릭	Stanford 종합 평가
Open LLM LB	2023	6벤치마크	리더보드	평균	HuggingFace 표준

시대별 벤치마크 진화

timeline
    title LLM 벤치마크 진화 타임라인
    2015 : SNLI (최초 대규모 NLI 570k)
    2016 : LAMBADA (장거리 단어 예측)
         : StoryCloze (이야기 결말)
         : CNN/DailyMail (뉴스 요약)
    2017 : TriviaQA (대규모 Trivia QA)
         : RACE (시험 독해 100k)
         : VQAv2 (시각 QA 1.1M)
    2018 : ARC (과학 추론 Challenge Set)
         : SQuAD 2.0 (답변 불가 RC)
         : QuAC (대화형 QA)
         : CommonsenseQA (ConceptNet 상식)
         : OpenBookQA (오픈북 과학)
         : XSum (극단적 요약)
         : GLUE (최초 NLU 종합)
    2019 : HellaSwag (AF 상식)
         : WinoGrande (AF 대명사)
         : DROP (수치 독해)
         : SuperGLUE (NLU 종합)
         : ANLI (적대적 NLI)
         : NaturalQuestions (Google 검색 QA)
         : BoolQ (Yes/No QA)
         : PIQA (물리적 직관)
         : SIQA (사회적 추론)
         : CoQA (대화형 QA)
    2020 : MMLU (57과목 표준)
         : ETHICS (도덕 판단)
         : RealToxicityPrompts (독성 측정)
         : CrowS-Pairs (편향 측정)
    2021 : HumanEval (코드 pass@k)
         : MBPP (대규모 Python)
         : GSM8K (초등 수학)
         : MATH (경시대회)
         : TruthfulQA (진실성)
         : BBQ (편향 QA)
         : DocVQA (문서 시각 QA)
    2022 : BBH (BIG-Bench Hard)
         : HELM (종합 평가)
         : FLORES-200 (200언어 번역)
         : ChartQA (차트 이해)
    2023 : SWE-bench (실제 SW 이슈)
         : MT-Bench (LLM Judge)
         : AgentBench (8환경)
         : WebArena (실제 웹)
         : GAIA (범용 AI)
         : GPQA (대학원)
         : MathVista (시각 수학)
         : MMMU (멀티모달 전문)
         : IFEval (검증 IF)
         : Open LLM Leaderboard
         : Chatbot Arena (Elo 순위)
         : Needle-in-a-Haystack (장문맥)
         : LongBench (장문서 이해)
    2024 : LiveCodeBench (동적 코드)
         : BigCodeBench (API 코딩)
         : AlpacaEval 2.0 (LC)
         : MMLU-Pro (강화 MMLU)
         : RULER (장문맥 종합)
         : WildBench (실사용자)
         : BFCL (함수 호출)
         : ARC-AGI (추상화 추론)
         : AIME 2024 (올림피아드 수학)
         : FrontierMath (연구 수학)
         : HarmBench (레드팀)
         : Aider Polyglot (코드 편집)

핵심 트렌드

1. 포화와 대응

포화된 벤치마크	후속 벤치마크	전략
MMLU (~88%)	MMLU-Pro (~73%)	보기 10개, 추론 비중↑
HumanEval (~92%)	LiveCodeBench (~43%)	동적 업데이트
HellaSwag (~95%)	BBH (~80%)	어려운 태스크 선별
ARC (~96%)	GPQA (~50%)	난이도 대학원으로↑
GLUE (~90%)	SuperGLUE (~90%)	더 어려운 NLU 과제
SuperGLUE (~90%)	ANLI R3 (~55%)	적대적 수집
SQuAD 1.1 (~93 F1)	SQuAD 2.0 (~90 EM)	답변불가 추가
MATH (~50%)	AIME 2024 (~74% o1)	올림피아드 난이도
AIME (~74% o1)	FrontierMath (<2%)	연구 수준 수학
VQAv2 (~80%+)	MMMU (~57%)	전문 멀티모달
Needle (~95%)	RULER (~81% 128K)	다면적 장문맥

2. 평가 패러다임의 분화

패러다임	벤치마크	특징
정답 비교	MMLU, ARC, MATH, BoolQ, CommonsenseQA, RACE	정답과 직접 비교
기능적 실행	HumanEval, SWE-bench, Aider Polyglot	코드/시스템 실행으로 검증
LLM-as-Judge	MT-Bench, AlpacaEval, WildBench	GPT-4가 응답 품질 판정
인간 선호	Chatbot Arena	블라인드 대결, Elo 레이팅
프로그래밍적 검증	IFEval, BFCL	형식 제약/AST 자동 검증
환경 상호작용	WebArena, AgentBench, GAIA	에이전트 환경에서 실행
자동 메트릭	CNN/DM, XSum (ROUGE), WMT (BLEU/COMET)	n-gram/신경망 기반 자동 평가
편향/안전 측정	CrowS-Pairs, BBQ, HarmBench	편향 비교 / 공격 성공률
종합 프레임워크	HELM, Open LLM LB	다차원 메트릭 통합

3. 인간 대비 현재 AI 위치

난이도	벤치마크	AI 성능	인간	상태
쉬움	HellaSwag, ARC-E, BoolQ, SuperGLUE, GLUE	~95%+	~95%	✅ 인간 수준
중간	MMLU, DROP, PIQA, SQuAD 2.0, VQAv2	~88%	~89%	🟡 근접
어려움	MATH, GPQA, ANLI R3, MMMU	~50-57%	~65-80%	🔴 격차
매우 어려움	SWE-bench, GAIA, ARC-AGI	~5-20%	~78-92%	🔴🔴 큰 격차
극한	FrontierMath	<2%	~80%+	🔴🔴🔴 극대 격차

4. GPT/Llama/Claude 모델별 주요 벤치마크 비교

벤치마크	GPT-4 / 4o	Claude 3.5 Sonnet	Llama 3.1 70B	o1
MMLU	~86%	~88%	~79%	~92%
MATH	~50%	~53%	~42%	~94%
HumanEval	~92%	~92%	~80%	~93%
GPQA	~50%	~59%	~46%	~78%
AIME 2024	~20%	~25%	~15%	~74%
IFEval	~77%	~81%	~72%	~83%
SWE-bench Verified	~20%	~49%	~12%	~42%
Arena Elo	~1287	~1271	~1207	~1330
Needle 128K	~87%	~98%	~95%	—

논문 목록

#	벤치마크	연도	Benchmark-Type	arXiv/소스
1	HumanEval	2021	Coding	2107.03374
2	MBPP	2021	Coding	2108.07732
3	SWE-bench	2023	Coding	2310.06770
4	LiveCodeBench	2024	Coding	2403.07974
5	BigCodeBench	2024	Coding	2406.15877
6	Aider Polyglot	2024	Coding	aider.chat
7	GSM8K	2021	Math	2110.14168
8	MATH	2021	Math	2103.03874
9	MathVista	2023	Math	2310.02255
10	AIME 2024	2024	Math	AMC/AIME 공식
11	FrontierMath	2024	Math	2411.04872
12	MMLU	2020	Knowledge	2009.03300
13	ARC	2018	Reasoning	1803.05457
14	BBH	2022	Reasoning	2210.09261
15	GPQA	2023	Reasoning	2311.12022
16	MMLU-Pro	2024	Knowledge	2406.01574
17	ARC-AGI	2024	Reasoning	arcprize.org
18	AgentBench	2023	Agent/Tool Use	2308.03688
19	WebArena	2023	Agent/Tool Use	2307.13854
20	GAIA	2023	Agent/Tool Use	2311.12983
21	BFCL	2024	Agent/Tool Use	gorilla.cs.berkeley.edu
22	MT-Bench	2023	Chat/Alignment	2306.05685
23	AlpacaEval	2024	Chat/Alignment	2404.04475
24	IFEval	2023	Chat/Alignment	2311.07911
25	Chatbot Arena	2023	Chat/Alignment	2403.04132
26	WildBench	2024	Chat/Alignment	2406.04770
27	TruthfulQA	2021	Safety/Bias	2109.07958
28	ETHICS	2020	Safety/Bias	2008.02275
29	RealToxicityPrompts	2020	Safety/Bias	2009.11462
30	CrowS-Pairs	2020	Safety/Bias	2010.00133
31	BBQ	2021	Safety/Bias	2110.08193
32	HarmBench	2024	Safety/Bias	2402.04249
33	VQAv2	2017	Multimodal	1612.00837
34	DocVQA	2021	Multimodal	2007.15788
35	ChartQA	2022	Multimodal	2203.10244
36	MMMU	2023	Multimodal	2311.16502
37	SQuAD 2.0	2018	QA/RC	1806.03822
38	NQ	2019	QA/RC	TACL 2019
39	TriviaQA	2017	QA/RC	1705.03551
40	QuAC	2018	QA/RC	1808.07036
41	BoolQ	2019	QA/RC	1905.10044
42	DROP	2019	QA/RC	1903.00161
43	CoQA	2019	QA/RC	1808.07042
44	RACE	2017	QA/RC	1704.04683
45	SNLI	2015	NLU/NLI	1508.05326
46	GLUE	2018	NLU/NLI	1804.07461
47	SuperGLUE	2019	NLU/NLI	1905.00537
48	ANLI	2019	NLU/NLI	1910.14599
49	LAMBADA	2016	NLU/NLI	1606.06031
50	StoryCloze	2016	Commonsense	1604.01696
51	HellaSwag	2019	Commonsense	1905.07830
52	WinoGrande	2019	Commonsense	1907.10641
53	PIQA	2019	Commonsense	1911.11641
54	SIQA	2019	Commonsense	1904.09728
55	CommonsenseQA	2018	Commonsense	1811.00937
56	OpenBookQA	2018	Commonsense	1809.02789
57	DailyMail	2016	Summarization	1602.06023
58	XSum	2018	Summarization	1808.08745
59	WMT	2014+	Translation	statmt.org
60	FLORES-200	2022	Translation	2207.04672
61	Needle-in-Haystack	2023	Long-Context	GitHub
62	RULER	2024	Long-Context	2404.06654
63	LongBench	2023	Long-Context	2308.14508
64	HELM	2022	Meta/Framework	2211.09110
65	Open LLM LB	2023	Meta/Framework	HuggingFace

Juhyeon's Blog

탐색기

_survey-overview

LLM 벤치마크 서베이 개요

벤치마크 생태계 개관

카테고리별 비교표

1. Coding Benchmarks

2. Math Benchmarks

3. Reasoning / Knowledge Benchmarks

4. Agent / Tool Use Benchmarks

5. Chat / Alignment Benchmarks

6. Safety / Bias Benchmarks

7. Multimodal Benchmarks

8. QA / Reading Comprehension Benchmarks

9. NLU / NLI Benchmarks

10. Commonsense / Physical Reasoning Benchmarks

11. Summarization Benchmarks

12. Translation / Multilingual Benchmarks

13. Long-Context Benchmarks

14. Evaluation Framework / Meta

시대별 벤치마크 진화

핵심 트렌드

1. 포화와 대응

2. 평가 패러다임의 분화

3. 인간 대비 현재 AI 위치

4. GPT/Llama/Claude 모델별 주요 벤치마크 비교

논문 목록

그래프 뷰

목차

Properties

백링크