Open LLM Leaderboard: 오픈소스 LLM 표준 리더보드

Digest: HuggingFace가 운영하는 Open LLM Leaderboard는 오픈소스 LLM의 사실상 표준 평가 플랫폼이다. **v1(2023)**은 ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8K 6개 벤치마크로 평가했으나, 모델들이 이 벤치마크에 과적합되면서 **v2(2024)**로 교체되었다: MMLU-Pro, GPQA, MuSR, BBH, IFEval, MATH-Hard의 더 어려운 6개 벤치마크를 도입했다. 수천 개 모델이 제출되어 오픈소스 LLM 생태계의 발전을 추적하는 핵심 인프라로 기능한다.

메타데이터

항목	내용
제목	Open LLM Leaderboard
운영	HuggingFace (Clémentine Fourrier, Nathan Habib et al.)
소속	HuggingFace
시작	2023
링크	Leaderboard
키워드	Open LLM Leaderboard, HuggingFace, standardized evaluation, open-source

벤치마크 구성

v1 (2023, 은퇴)

벤치마크	측정 능력	메트릭
ARC (Challenge)	과학 추론	25-shot, Acc
HellaSwag	상식 추론	10-shot, Acc
MMLU	다분야 지식	5-shot, Acc
TruthfulQA	진실성	0-shot, MC2
Winogrande	대명사 해소	5-shot, Acc
GSM8K	수학 추론	5-shot, Acc

v2 (2024, 현재)

벤치마크	측정 능력	메트릭
MMLU-Pro	강화 지식	5-shot, Acc
GPQA	대학원 추론	0-shot, Acc
MuSR	다단계 추론	0-shot, Acc
BBH	BIG-Bench Hard	3-shot, Acc
IFEval	지시 따르기	0-shot, Prompt Acc
MATH-Hard (Level 5)	경시 수학	4-shot, EM

v1 → v2 전환 이유

문제	설명
벤치마크 포화	v1 벤치마크에서 많은 모델이 90%+ 도달
데이터 오염	학습 데이터에 벤치마크가 포함된 경우 발견
변별력 상실	상위 모델 간 점수 차이가 무의미하게 작아짐
과적합	특정 벤치마크에 최적화하여 실제 능력과 괴리

방법 (Method)

graph TB
    A["모델 제출<br/>(HuggingFace Hub)"] --> B["자동 평가 파이프라인<br/>(lm-evaluation-harness)"]
    B --> C["6개 벤치마크<br/>표준 설정으로 실행"]
    C --> D["점수 계산<br/>(각 벤치마크 개별 + 평균)"]
    D --> E["리더보드 게시<br/>(실시간 업데이트)"]
    E --> F["커뮤니티 검증<br/>(재현 가능)"]

평가 인프라

구성요소	설명
lm-evaluation-harness	EleutherAI의 표준화된 평가 라이브러리
자동 실행	제출 시 자동으로 평가 큐에 추가
재현 가능	모든 설정이 공개되어 누구나 재현 가능

발견 (Findings)

v1 최종 상위 모델 (2024년 은퇴 전)

모델	Average	MMLU	HellaSwag	ARC
Llama 3 70B	~82	~79	~88	~93
Mixtral 8x7B	~73	~71	~87	~86
Llama 2 70B	~69	~69	~86	~85

v2 상위 모델 (2024~)

모델	Average	MMLU-Pro	GPQA	BBH
Llama 3.1 405B	~44	~55	~42	~62
Qwen 2.5 72B	~40	~50	~38	~58

핵심 발견

v2에서 점수 급락: v1 평균 80+였던 모델들이 v2에서 40대로 하락 — 실제 능력 반영
벤치마크 오염의 심각성: v1에서 비정상적으로 높은 점수를 보인 모델들이 v2에서 급락
오픈소스의 빠른 발전: 2023→2024 사이 오픈소스 모델의 급격한 성능 향상

이론적 의의

Open LLM Leaderboard는 “벤치마크의 수명”과 “평가 오염” 문제를 실증적으로 보여준 사례다. v1→v2 전환은 벤치마크 포화 시 더 어려운 벤치마크로 교체하는 “벤치마크 진화 사이클”을 공식화했다.

핵심 용어 정리

용어	정의
Open LLM Leaderboard	HuggingFace의 오픈소스 LLM 표준 리더보드
lm-evaluation-harness	EleutherAI의 LLM 평가 라이브러리
벤치마크 오염	학습 데이터에 벤치마크가 포함되어 점수가 부풀려지는 현상
벤치마크 포화	모델이 인간/최대 성능에 근접하여 변별력을 잃는 현상

Juhyeon's Blog

탐색기

Open LLM Leaderboard

Open LLM Leaderboard: 오픈소스 LLM 표준 리더보드

메타데이터

벤치마크 구성

v1 (2023, 은퇴)

v2 (2024, 현재)

v1 → v2 전환 이유

방법 (Method)

평가 인프라

발견 (Findings)

v1 최종 상위 모델 (2024년 은퇴 전)

v2 상위 모델 (2024~)

핵심 발견

이론적 의의

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크