Open LLM Leaderboard: 오픈소스 LLM 표준 리더보드

Digest: HuggingFace가 운영하는 Open LLM Leaderboard는 오픈소스 LLM의 사실상 표준 평가 플랫폼이다. **v1(2023)**은 ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8K 6개 벤치마크로 평가했으나, 모델들이 이 벤치마크에 과적합되면서 **v2(2024)**로 교체되었다: MMLU-Pro, GPQA, MuSR, BBH, IFEval, MATH-Hard의 더 어려운 6개 벤치마크를 도입했다. 수천 개 모델이 제출되어 오픈소스 LLM 생태계의 발전을 추적하는 핵심 인프라로 기능한다.


메타데이터

항목내용
제목Open LLM Leaderboard
운영HuggingFace (Clémentine Fourrier, Nathan Habib et al.)
소속HuggingFace
시작2023
링크Leaderboard
키워드Open LLM Leaderboard, HuggingFace, standardized evaluation, open-source

벤치마크 구성

v1 (2023, 은퇴)

벤치마크측정 능력메트릭
ARC (Challenge)과학 추론25-shot, Acc
HellaSwag상식 추론10-shot, Acc
MMLU다분야 지식5-shot, Acc
TruthfulQA진실성0-shot, MC2
Winogrande대명사 해소5-shot, Acc
GSM8K수학 추론5-shot, Acc

v2 (2024, 현재)

벤치마크측정 능력메트릭
MMLU-Pro강화 지식5-shot, Acc
GPQA대학원 추론0-shot, Acc
MuSR다단계 추론0-shot, Acc
BBHBIG-Bench Hard3-shot, Acc
IFEval지시 따르기0-shot, Prompt Acc
MATH-Hard (Level 5)경시 수학4-shot, EM

v1 → v2 전환 이유

문제설명
벤치마크 포화v1 벤치마크에서 많은 모델이 90%+ 도달
데이터 오염학습 데이터에 벤치마크가 포함된 경우 발견
변별력 상실상위 모델 간 점수 차이가 무의미하게 작아짐
과적합특정 벤치마크에 최적화하여 실제 능력과 괴리

방법 (Method)

graph TB
    A["모델 제출<br/>(HuggingFace Hub)"] --> B["자동 평가 파이프라인<br/>(lm-evaluation-harness)"]
    B --> C["6개 벤치마크<br/>표준 설정으로 실행"]
    C --> D["점수 계산<br/>(각 벤치마크 개별 + 평균)"]
    D --> E["리더보드 게시<br/>(실시간 업데이트)"]
    E --> F["커뮤니티 검증<br/>(재현 가능)"]

평가 인프라

구성요소설명
lm-evaluation-harnessEleutherAI의 표준화된 평가 라이브러리
자동 실행제출 시 자동으로 평가 큐에 추가
재현 가능모든 설정이 공개되어 누구나 재현 가능

발견 (Findings)

v1 최종 상위 모델 (2024년 은퇴 전)

모델AverageMMLUHellaSwagARC
Llama 3 70B~82~79~88~93
Mixtral 8x7B~73~71~87~86
Llama 2 70B~69~69~86~85

v2 상위 모델 (2024~)

모델AverageMMLU-ProGPQABBH
Llama 3.1 405B~44~55~42~62
Qwen 2.5 72B~40~50~38~58

핵심 발견

  1. v2에서 점수 급락: v1 평균 80+였던 모델들이 v2에서 40대로 하락 — 실제 능력 반영
  2. 벤치마크 오염의 심각성: v1에서 비정상적으로 높은 점수를 보인 모델들이 v2에서 급락
  3. 오픈소스의 빠른 발전: 2023→2024 사이 오픈소스 모델의 급격한 성능 향상

이론적 의의

Open LLM Leaderboard는 “벤치마크의 수명”과 “평가 오염” 문제를 실증적으로 보여준 사례다. v1→v2 전환은 벤치마크 포화 시 더 어려운 벤치마크로 교체하는 “벤치마크 진화 사이클”을 공식화했다.


관련 연구


핵심 용어 정리

용어정의
Open LLM LeaderboardHuggingFace의 오픈소스 LLM 표준 리더보드
lm-evaluation-harnessEleutherAI의 LLM 평가 라이브러리
벤치마크 오염학습 데이터에 벤치마크가 포함되어 점수가 부풀려지는 현상
벤치마크 포화모델이 인간/최대 성능에 근접하여 변별력을 잃는 현상

태그

paper #2023 benchmark leaderboard HuggingFace open_source standardized_evaluation