LLM 벤치마크 서베이 개요
이 서베이는 LLM 평가에 사용되는 주요 벤치마크 67개를 15개 카테고리로 분류하여 정리한다. 각 벤치마크의 측정 대상, 규모, 핵심 메트릭, 현재 최고 성능을 비교하여 LLM 평가 생태계의 전체 그림을 제공한다.
벤치마크 생태계 개관
graph TB
subgraph "🔵 Coding"
A["[[HumanEval_2021_CodeGeneration|HumanEval]]<br/>164문제, pass@k"]
B["[[MBPP_2021_PythonProgramming|MBPP]]<br/>974문제, Python"]
C["[[SWE-bench_2023_SoftwareEngineering|SWE-bench]]<br/>2,294 이슈, Agent"]
D["[[LiveCodeBench_2024_ContaminationFree|LiveCodeBench]]<br/>400+, Rolling"]
E["[[BigCodeBench_2024_ComplexCoding|BigCodeBench]]<br/>1,140, API"]
F_CODE["[[AiderPolyglot_2024_CodeEditing|Aider Polyglot]]<br/>10+언어, 편집"]
end
subgraph "🟢 Math"
F["[[Training Verifiers to Solve Math Word Problem|GSM8K]]<br/>8.5k, 초등"]
G["[[MATH_2021_CompetitionMath|MATH]]<br/>12.5k, 경시대회"]
H["[[MathVista_2023_VisualMath|MathVista]]<br/>6.1k, 시각+수학"]
AIME["[[AIME2024_2024_OlympiadMath|AIME 2024]]<br/>30문제, 올림피아드"]
FMATH["[[FrontierMath_2024_ResearchMath|FrontierMath]]<br/>수백, 연구 수준"]
end
subgraph "🟡 Reasoning / Knowledge"
I["[[MMLU_2020_Multitask|MMLU]]<br/>14k, 57과목"]
J["[[ARC_2018_ScienceReasoning|ARC]]<br/>7.8k, 과학"]
M["[[BBH_2022_BIGBenchHard|BBH]]<br/>6.5k, 23태스크"]
N["[[GPQA_2023_GraduateLevel|GPQA]]<br/>448, 대학원"]
U["[[MMLU-Pro_2024_Enhanced|MMLU-Pro]]<br/>12k, 10지선다"]
ARCAGI["[[ARC-AGI_2024_AbstractionReasoning|ARC-AGI]]<br/>800, 추상화"]
end
subgraph "🟠 Agent / Tool Use"
ALF["[[ALFWorld_2020_EmbodiedAgent|ALFWorld]]<br/>3.8k, 체화"]
WS["[[WebShop_2022_WebShopping|WebShop]]<br/>1.18M상품, 쇼핑"]
P["[[AgentBench_2023_AgentEvaluation|AgentBench]]<br/>8환경, 종합"]
Q["[[WebArena_2023_WebAgent|WebArena]]<br/>812, 실제 웹"]
R["[[GAIA_2023_GeneralAI|GAIA]]<br/>466, 실세계"]
BFCL["[[BFCL_2024_FunctionCalling|BFCL]]<br/>2k+, 함수 호출"]
end
subgraph "🔴 Chat / Alignment"
S["[[MT-Bench_2023_LLMJudge|MT-Bench]]<br/>80, LLM Judge"]
T["[[AlpacaEval_2024_InstructionFollowing|AlpacaEval]]<br/>805, LC WR"]
V["[[IFEval_2023_VerifiableIF|IFEval]]<br/>541, 검증 가능"]
ARENA["[[ChatbotArena_2023_HumanPreference|Chatbot Arena]]<br/>1M+ 투표, Elo"]
WILD["[[WildBench_2024_RealUserTasks|WildBench]]<br/>1,024, 실사용자"]
end
subgraph "⚫ Safety / Bias"
W["[[TruthfulQA_2021_Hallucination|TruthfulQA]]<br/>817, 진실성"]
X["[[ETHICS_2020_MoralJudgment|ETHICS]]<br/>130k, 윤리"]
W2["[[RealToxicityPrompts_2020_ToxicityMeasurement|RealToxicityPrompts]]<br/>99k, 독성"]
W3["[[CrowS-Pairs_2020_StereotypeBias|CrowS-Pairs]]<br/>1.5k, 편향"]
W4["[[BBQ_2021_BiasQA|BBQ]]<br/>58k, 편향 QA"]
HARM["[[HarmBench_2024_RedTeaming|HarmBench]]<br/>510, 레드팀"]
end
subgraph "🟣 Multimodal"
Y["[[MMMU_2023_MultimodalExpert|MMMU]]<br/>11.5k, 30전공"]
VQA["[[VQAv2_2017_VisualQA|VQAv2]]<br/>1.1M, 시각 QA"]
DOC["[[DocVQA_2021_DocumentVisualQA|DocVQA]]<br/>50k, 문서"]
CHART["[[ChartQA_2022_ChartUnderstanding|ChartQA]]<br/>33k, 차트"]
end
subgraph "📖 QA / Reading Comprehension"
QA1["[[SQuAD2_2018_ReadingComprehension|SQuAD 2.0]]<br/>150k, RC"]
QA2["[[NaturalQuestions_2019_OpenDomainQA|NQ]]<br/>307k, 검색 QA"]
QA3["[[TriviaQA_2017_LargeScaleQA|TriviaQA]]<br/>95k, Trivia"]
QA4["[[QuAC_2018_DialogueQA|QuAC]]<br/>98k, 대화형"]
QA5["[[BoolQ_2019_YesNoQA|BoolQ]]<br/>16k, Yes/No"]
QA6["[[DROP_2019_NumericalReasoning|DROP]]<br/>96k, 수치 추론"]
COQA["[[CoQA_2019_ConversationalQA|CoQA]]<br/>127k, 대화형"]
RACE["[[RACE_2017_ReadingComprehension|RACE]]<br/>100k, 시험 독해"]
end
subgraph "📗 NLU / NLI"
NLU0["[[GLUE_2018_NLUBenchmark|GLUE]]<br/>9태스크, NLU 시초"]
NLU1["[[SuperGLUE_2019_NLUBenchmark|SuperGLUE]]<br/>8 태스크, NLU"]
NLU2["[[ANLI_2019_AdversarialNLI|ANLI]]<br/>163k, 적대적"]
NLU3["[[LAMBADA_2016_WordPrediction|LAMBADA]]<br/>10k, 단어 예측"]
SNLI["[[SNLI_2015_NaturalLanguageInference|SNLI]]<br/>570k, NLI 시초"]
end
subgraph "🧠 Commonsense"
K["[[HellaSwag_2019_CommonsenseReasoning|HellaSwag]]<br/>70k, AF 상식"]
L["[[WinoGrande_2019_Commonsense|WinoGrande]]<br/>44k, 대명사"]
NLU4["[[StoryCloze_2016_NarrativeUnderstanding|StoryCloze]]<br/>3.7k, 이야기"]
CS1["[[PIQA_2019_PhysicalIntuition|PIQA]]<br/>21k, 물리"]
CS2["[[SIQA_2019_SocialIntuition|SIQA]]<br/>38k, 사회"]
CS3["[[CommonsenseQA_2018_ConceptNet|CommonsenseQA]]<br/>12k, ConceptNet"]
CS4["[[OpenBookQA_2018_ScienceCommonsense|OpenBookQA]]<br/>6k, 오픈북"]
end
subgraph "📝 Summarization"
SUM1["[[CNNDailyMail_2016_Summarization|CNN/DailyMail]]<br/>312k, 뉴스"]
SUM2["[[XSum_2018_ExtremeSummarization|XSum]]<br/>227k, 1문장"]
end
subgraph "🌐 Translation"
TR1["[[WMT_2014_MachineTranslation|WMT]]<br/>연도별, 번역 표준"]
TR2["[[FLORES-200_2022_MultilingualTranslation|FLORES-200]]<br/>200언어, 다국어"]
end
subgraph "📏 Long-Context"
LC1["[[NeedleInHaystack_2023_LongContext|Needle-in-Haystack]]<br/>히트맵, 검색"]
LC2["[[RULER_2024_LongContextBenchmark|RULER]]<br/>4종, 종합"]
LC3["[[LongBench_2023_LongDocumentUnderstanding|LongBench]]<br/>6종, 이중언어"]
end
subgraph "🏛️ Meta / Framework"
META1["[[HELM_2022_HolisticEvaluation|HELM]]<br/>42시나리오, 종합"]
META2["[[OpenLLMLeaderboard_2023_StandardEval|Open LLM LB]]<br/>6벤치마크, 리더보드"]
end
A -->|"규모 확대"| B
B -->|"실제 SW로"| C
A -->|"오염 방지"| D
B -->|"API 복잡도"| E
A -->|"편집 중심"| F_CODE
F -->|"난이도 상향"| G
G -->|"시각 결합"| H
G -->|"올림피아드"| AIME
AIME -->|"연구 수준"| FMATH
I -->|"강화"| U
I -->|"전문화"| N
NLU0 -->|"더 어려운 NLU"| NLU1
SNLI -->|"규모 확대"| NLU2
S -->|"크라우드소싱"| ARENA
ARENA -->|"자동화"| WILD
VQA -->|"문서 특화"| DOC
VQA -->|"차트 특화"| CHART
LC1 -->|"종합화"| LC2
카테고리별 비교표
1. Coding Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| HumanEval | 2021 | 164 | docstring→코드 | pass@k | 최초 코드 벤치, pass@k 정의 | ~92% |
| MBPP | 2021 | 974 | 설명→Python | pass@k | 초중급 대규모 | ~85% |
| SWE-bench | 2023 | 2,294 | GitHub이슈→패치 | % Resolved | 실제 SW 이슈, Agent 표준 | ~20% (agent) |
| LiveCodeBench | 2024 | 400+ | 대회문제→코드 | pass@k | 오염 방지 rolling | ~43% |
| BigCodeBench | 2024 | 1,140 | 복합API→코드 | pass@k | 139 라이브러리 조합 | ~61% |
| Aider Polyglot | 2024 | 10+언어 | 기존코드→편집 | % 통과 | 다언어 코드 편집 | ~73% |
2. Math Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| GSM8K | 2021 | 8,500 | 문장제→풀이 | 정확도 | 초등 산술, 자연어 풀이 | ~95% |
| MATH | 2021 | 12,500 | 경시대회→풀이 | 정확도 | 5단계 난이도, LaTeX | ~50% |
| MathVista | 2023 | 6,141 | 이미지+수학 | 정확도 | 시각+수학 결합 | ~50% |
| AIME 2024 | 2024 | 30 | 올림피아드→정수 | 정확도 | o1 ~74% 돌파 | ~20% (o1: 74%) |
| FrontierMath | 2024 | 수백 | 연구수학→답 | 정확도 | o1도 <2%, 수학자 출제 | <2% |
3. Reasoning / Knowledge Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| MMLU | 2020 | 14,042 | 4지선다 | 정확도 | 57과목, 사실상 표준 | ~86% |
| ARC | 2018 | 7,787 | 4지선다 | 정확도 | 과학 추론 Challenge | ~96% |
| BBH | 2022 | 6,511 | 혼합 | 정확도 | 23개 최고 난이도 태스크 | ~80% |
| GPQA | 2023 | 448 | 4지선다 | 정확도 | 대학원 과학, Google-Proof | ~50% |
| MMLU-Pro | 2024 | 12,032 | 10지선다 | 정확도 | MMLU 강화, 추론 비중↑ | ~73% |
| ARC-AGI | 2024 | 800 | 그리드 퍼즐 | 정확도 | 추상화+일반화, $1M 상금 | ~5% |
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| ALFWorld | 2020 | 3,827 | 텍스트/체화 | 성공률 | 6종 가정 과제, 텍스트→체화 전이 | N/A (LLM ReAct ~70%) |
| WebShop | 2022 | 1.18M상품 | 웹 쇼핑 | Task Score/SR | 실제 Amazon 상품, sim-to-real | N/A (LLM ~50%) |
| AgentBench | 2023 | 8환경 | 대화형 | 종합 점수 | 8개 환경 종합 | ~4.01 |
| WebArena | 2023 | 812 | 웹 상호작용 | 성공률 | 실제 웹사이트 4개 | ~14% |
| GAIA | 2023 | 466 | 도구 사용 | 정확도 | 범용 AI, 실세계 과제 | ~15% |
| BFCL | 2024 | 2,000+ | 함수 호출 | AST 매칭 | 다언어 API, 병렬/연쇄 호출 | ~88% |
5. Chat / Alignment Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| MT-Bench | 2023 | 80 | 2턴 대화 | 1-10점 | LLM-as-Judge 정의 | ~9.0 |
| AlpacaEval | 2024 | 805 | 지시→응답 | LC Win Rate | 길이 편향 보정 | ~50% |
| IFEval | 2023 | 541 | 제약 따르기 | Prompt Acc | 검증 가능한 형식 제약 | ~77% |
| Chatbot Arena | 2023 | 1M+ 투표 | 블라인드 대결 | Elo Rating | 인간 선호 크라우드소싱 | ~1287 Elo |
| WildBench | 2024 | 1,024 | 실사용자 태스크 | WB-Score | Arena Elo와 상관 0.98 | 8.42 |
6. Safety / Bias Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| TruthfulQA | 2021 | 817 | 생성/선다 | % Truthful | 역스케일링 발견 | ~60% MC1 |
| ETHICS | 2020 | 130k+ | 이진/비교 | 정확도 | 5개 윤리 이론 | ~80% |
| RealToxicityPrompts | 2020 | 99k | 프롬프트→생성 | Toxic Prob | 독성 생성 측정 | ~15% prob |
| CrowS-Pairs | 2020 | 1,508 | 문장쌍 | Bias Score | 9개 편향 카테고리 | ~52% |
| BBQ | 2021 | 58k | QA | Bias Score | 모호/비모호 이중 설정 | 낮음 |
| HarmBench | 2024 | 510 | 적대적 공격 | ASR | 18종 공격, 33모델 표준 | ~10% ASR |
7. Multimodal Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4V급 성능 |
|---|
| VQAv2 | 2017 | 1.1M | 이미지+질문 | VQA Acc | 시각 QA 표준, 균형 데이터 | ~80%+ |
| DocVQA | 2021 | 50k | 문서이미지+질문 | ANLS | OCR+레이아웃 추론 | ~88% |
| ChartQA | 2022 | 33k | 차트+질문 | Relaxed Acc | 차트 이해+수치 추론 | ~84% |
| MMMU | 2023 | 11,550 | 이미지+선다/자유 | 정확도 | 30전공 전문 멀티모달 | ~57% |
8. QA / Reading Comprehension Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| SQuAD 2.0 | 2018 | 150k | 추출형+답변불가 | EM/F1 | RC 표준, 답변불가 판별 | ~90+ EM |
| NQ | 2019 | 307k | 검색 기반 | F1 | Google 실제 검색 질문 | ~80+ F1 |
| TriviaQA | 2017 | 95k | trivia | EM/F1 | 원격감독 대규모 QA | ~85+ EM |
| QuAC | 2018 | 98k | 대화형 | F1 | 정보 비대칭 대화 QA | ~75+ F1 |
| BoolQ | 2019 | 16k | Yes/No | 정확도 | SuperGLUE 과제 | ~92%+ |
| DROP | 2019 | 96,567 | 자유형 | F1 | 수치 추론 독해 | ~88 F1 |
| CoQA | 2019 | 127k | 대화형 | F1 | 자연어 답변+근거 이중 구조 | ~85+ F1 |
| RACE | 2017 | 100k | 4지선다 | 정확도 | 중고등 시험 독해, 추론 중심 | ~92% |
9. NLU / NLI Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| SNLI | 2015 | 570k | NLI 3-way | 정확도 | 최초 대규모 NLI, 딥러닝 촉진 | ~90%+ |
| GLUE | 2018 | 270k | 9태스크 종합 | 평균 | NLU 시초, BERT로 포화 | ~90+ |
| SuperGLUE | 2019 | 155k | 8태스크 종합 | 평균 | GLUE 후속, 2021 포화 | ~95+ |
| ANLI | 2019 | 163k | NLI 3라운드 | 정확도 | 적대적 수집, R3 매우 어려움 | ~55% R3 |
| LAMBADA | 2016 | 10k | 마지막 단어 예측 | 정확도 | 장거리 의존성 | ~85%+ |
| StoryCloze | 2016 | 3.7k | 이야기 결말 선택 | 정확도 | 상식 추론 초기 벤치마크 | ~87%+ |
10. Commonsense / Physical Reasoning Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| HellaSwag | 2019 | 70k+ | 4지선다 | 정확도 | AF 상식 추론 | ~95% |
| WinoGrande | 2019 | 44k | 이진 선택 | 정확도 | 대명사 해소, AfLite | ~87% |
| PIQA | 2019 | 21k | 2지선다 | 정확도 | 물리적 직관 | ~90%+ |
| SIQA | 2019 | 38k | 3지선다 | 정확도 | 사회적 추론, ATOMIC | ~83%+ |
| CommonsenseQA | 2018 | 12k | 5지선다 | 정확도 | ConceptNet 기반 상식 | ~85%+ |
| OpenBookQA | 2018 | 6k | 4지선다 | 정확도 | 과학 사실+상식 결합 | ~92%+ |
11. Summarization Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| DailyMail | 2016 | 312k | 다문장 요약 | ROUGE | 뉴스 요약 표준 | ~42 R-1 |
| XSum | 2018 | 227k | 1문장 극단 요약 | ROUGE | BBC 뉴스, 추상형 필수 | ~47 R-1 |
12. Translation / Multilingual Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| WMT | 2014+ | 연도별 | 번역 | BLEU/COMET | 매년 갱신, 번역 표준 | ~35+ BLEU |
| FLORES-200 | 2022 | 3K×200언어 | 번역 | spBLEU | 200개 언어, 저자원 포함 | — |
13. Long-Context Benchmarks
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 | GPT-4급 성능 |
|---|
| Needle-in-Haystack | 2023 | 가변 | 검색 | 검색 정확도 | 히트맵 시각화, 압력 테스트 | ~87% (128K) |
| RULER | 2024 | 13태스크 | 4카테고리 | 정확도 | 검색+추론+집계+추적 | ~81% (128K) |
| LongBench | 2023 | 21데이터셋 | 6카테고리 | 다양 | 영어+중국어 이중 언어 | ~44 (16K) |
| 벤치마크 | 연도 | 규모 | 형식 | 핵심 메트릭 | 특징 |
|---|
| HELM | 2022 | 42시나리오 | 종합 | 7메트릭 | Stanford 종합 평가 |
| Open LLM LB | 2023 | 6벤치마크 | 리더보드 | 평균 | HuggingFace 표준 |
시대별 벤치마크 진화
timeline
title LLM 벤치마크 진화 타임라인
2015 : SNLI (최초 대규모 NLI 570k)
2016 : LAMBADA (장거리 단어 예측)
: StoryCloze (이야기 결말)
: CNN/DailyMail (뉴스 요약)
2017 : TriviaQA (대규모 Trivia QA)
: RACE (시험 독해 100k)
: VQAv2 (시각 QA 1.1M)
2018 : ARC (과학 추론 Challenge Set)
: SQuAD 2.0 (답변 불가 RC)
: QuAC (대화형 QA)
: CommonsenseQA (ConceptNet 상식)
: OpenBookQA (오픈북 과학)
: XSum (극단적 요약)
: GLUE (최초 NLU 종합)
2019 : HellaSwag (AF 상식)
: WinoGrande (AF 대명사)
: DROP (수치 독해)
: SuperGLUE (NLU 종합)
: ANLI (적대적 NLI)
: NaturalQuestions (Google 검색 QA)
: BoolQ (Yes/No QA)
: PIQA (물리적 직관)
: SIQA (사회적 추론)
: CoQA (대화형 QA)
2020 : MMLU (57과목 표준)
: ETHICS (도덕 판단)
: RealToxicityPrompts (독성 측정)
: CrowS-Pairs (편향 측정)
2021 : HumanEval (코드 pass@k)
: MBPP (대규모 Python)
: GSM8K (초등 수학)
: MATH (경시대회)
: TruthfulQA (진실성)
: BBQ (편향 QA)
: DocVQA (문서 시각 QA)
2022 : BBH (BIG-Bench Hard)
: HELM (종합 평가)
: FLORES-200 (200언어 번역)
: ChartQA (차트 이해)
2023 : SWE-bench (실제 SW 이슈)
: MT-Bench (LLM Judge)
: AgentBench (8환경)
: WebArena (실제 웹)
: GAIA (범용 AI)
: GPQA (대학원)
: MathVista (시각 수학)
: MMMU (멀티모달 전문)
: IFEval (검증 IF)
: Open LLM Leaderboard
: Chatbot Arena (Elo 순위)
: Needle-in-a-Haystack (장문맥)
: LongBench (장문서 이해)
2024 : LiveCodeBench (동적 코드)
: BigCodeBench (API 코딩)
: AlpacaEval 2.0 (LC)
: MMLU-Pro (강화 MMLU)
: RULER (장문맥 종합)
: WildBench (실사용자)
: BFCL (함수 호출)
: ARC-AGI (추상화 추론)
: AIME 2024 (올림피아드 수학)
: FrontierMath (연구 수학)
: HarmBench (레드팀)
: Aider Polyglot (코드 편집)
핵심 트렌드
1. 포화와 대응
| 포화된 벤치마크 | 후속 벤치마크 | 전략 |
|---|
| MMLU (~88%) | MMLU-Pro (~73%) | 보기 10개, 추론 비중↑ |
| HumanEval (~92%) | LiveCodeBench (~43%) | 동적 업데이트 |
| HellaSwag (~95%) | BBH (~80%) | 어려운 태스크 선별 |
| ARC (~96%) | GPQA (~50%) | 난이도 대학원으로↑ |
| GLUE (~90%) | SuperGLUE (~90%) | 더 어려운 NLU 과제 |
| SuperGLUE (~90%) | ANLI R3 (~55%) | 적대적 수집 |
| SQuAD 1.1 (~93 F1) | SQuAD 2.0 (~90 EM) | 답변불가 추가 |
| MATH (~50%) | AIME 2024 (~74% o1) | 올림피아드 난이도 |
| AIME (~74% o1) | FrontierMath (<2%) | 연구 수준 수학 |
| VQAv2 (~80%+) | MMMU (~57%) | 전문 멀티모달 |
| Needle (~95%) | RULER (~81% 128K) | 다면적 장문맥 |
2. 평가 패러다임의 분화
| 패러다임 | 벤치마크 | 특징 |
|---|
| 정답 비교 | MMLU, ARC, MATH, BoolQ, CommonsenseQA, RACE | 정답과 직접 비교 |
| 기능적 실행 | HumanEval, SWE-bench, Aider Polyglot | 코드/시스템 실행으로 검증 |
| LLM-as-Judge | MT-Bench, AlpacaEval, WildBench | GPT-4가 응답 품질 판정 |
| 인간 선호 | Chatbot Arena | 블라인드 대결, Elo 레이팅 |
| 프로그래밍적 검증 | IFEval, BFCL | 형식 제약/AST 자동 검증 |
| 환경 상호작용 | WebArena, AgentBench, GAIA | 에이전트 환경에서 실행 |
| 자동 메트릭 | CNN/DM, XSum (ROUGE), WMT (BLEU/COMET) | n-gram/신경망 기반 자동 평가 |
| 편향/안전 측정 | CrowS-Pairs, BBQ, HarmBench | 편향 비교 / 공격 성공률 |
| 종합 프레임워크 | HELM, Open LLM LB | 다차원 메트릭 통합 |
3. 인간 대비 현재 AI 위치
| 난이도 | 벤치마크 | AI 성능 | 인간 | 상태 |
|---|
| 쉬움 | HellaSwag, ARC-E, BoolQ, SuperGLUE, GLUE | ~95%+ | ~95% | ✅ 인간 수준 |
| 중간 | MMLU, DROP, PIQA, SQuAD 2.0, VQAv2 | ~88% | ~89% | 🟡 근접 |
| 어려움 | MATH, GPQA, ANLI R3, MMMU | ~50-57% | ~65-80% | 🔴 격차 |
| 매우 어려움 | SWE-bench, GAIA, ARC-AGI | ~5-20% | ~78-92% | 🔴🔴 큰 격차 |
| 극한 | FrontierMath | <2% | ~80%+ | 🔴🔴🔴 극대 격차 |
4. GPT/Llama/Claude 모델별 주요 벤치마크 비교
| 벤치마크 | GPT-4 / 4o | Claude 3.5 Sonnet | Llama 3.1 70B | o1 |
|---|
| MMLU | ~86% | ~88% | ~79% | ~92% |
| MATH | ~50% | ~53% | ~42% | ~94% |
| HumanEval | ~92% | ~92% | ~80% | ~93% |
| GPQA | ~50% | ~59% | ~46% | ~78% |
| AIME 2024 | ~20% | ~25% | ~15% | ~74% |
| IFEval | ~77% | ~81% | ~72% | ~83% |
| SWE-bench Verified | ~20% | ~49% | ~12% | ~42% |
| Arena Elo | ~1287 | ~1271 | ~1207 | ~1330 |
| Needle 128K | ~87% | ~98% | ~95% | — |
논문 목록