Open LLM Leaderboard: 오픈소스 LLM 표준 리더보드
Digest : HuggingFace가 운영하는 Open LLM Leaderboard 는 오픈소스 LLM의 사실상 표준 평가 플랫폼 이다. **v1(2023)**은 ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8K 6개 벤치마크로 평가했으나, 모델들이 이 벤치마크에 과적합되면서 **v2(2024)**로 교체되었다: MMLU-Pro, GPQA, MuSR, BBH, IFEval, MATH-Hard의 더 어려운 6개 벤치마크를 도입했다. 수천 개 모델 이 제출되어 오픈소스 LLM 생태계의 발전을 추적하는 핵심 인프라로 기능한다.
메타데이터
항목 내용 제목 Open LLM Leaderboard 운영 HuggingFace (Clémentine Fourrier, Nathan Habib et al.) 소속 HuggingFace 시작 2023 링크 Leaderboard 키워드 Open LLM Leaderboard, HuggingFace, standardized evaluation, open-source
벤치마크 구성
v1 (2023, 은퇴)
v2 (2024, 현재)
벤치마크 측정 능력 메트릭 MMLU-Pro 강화 지식 5-shot, Acc GPQA 대학원 추론 0-shot, Acc MuSR 다단계 추론 0-shot, Acc BBH BIG-Bench Hard 3-shot, Acc IFEval 지시 따르기 0-shot, Prompt Acc MATH-Hard (Level 5) 경시 수학 4-shot, EM
v1 → v2 전환 이유
문제 설명 벤치마크 포화 v1 벤치마크에서 많은 모델이 90%+ 도달 데이터 오염 학습 데이터에 벤치마크가 포함된 경우 발견 변별력 상실 상위 모델 간 점수 차이가 무의미하게 작아짐 과적합 특정 벤치마크에 최적화하여 실제 능력과 괴리
방법 (Method)
graph TB
A["모델 제출<br/>(HuggingFace Hub)"] --> B["자동 평가 파이프라인<br/>(lm-evaluation-harness)"]
B --> C["6개 벤치마크<br/>표준 설정으로 실행"]
C --> D["점수 계산<br/>(각 벤치마크 개별 + 평균)"]
D --> E["리더보드 게시<br/>(실시간 업데이트)"]
E --> F["커뮤니티 검증<br/>(재현 가능)"]
평가 인프라
구성요소 설명 lm-evaluation-harness EleutherAI의 표준화된 평가 라이브러리 자동 실행 제출 시 자동으로 평가 큐에 추가 재현 가능 모든 설정이 공개되어 누구나 재현 가능
발견 (Findings)
v1 최종 상위 모델 (2024년 은퇴 전)
모델 Average MMLU HellaSwag ARC Llama 3 70B ~82 ~79 ~88 ~93 Mixtral 8x7B ~73 ~71 ~87 ~86 Llama 2 70B ~69 ~69 ~86 ~85
v2 상위 모델 (2024~)
모델 Average MMLU-Pro GPQA BBH Llama 3.1 405B ~44 ~55 ~42 ~62 Qwen 2.5 72B ~40 ~50 ~38 ~58
핵심 발견
v2에서 점수 급락 : v1 평균 80+였던 모델들이 v2에서 40대로 하락 — 실제 능력 반영
벤치마크 오염의 심각성 : v1에서 비정상적으로 높은 점수를 보인 모델들이 v2에서 급락
오픈소스의 빠른 발전 : 2023→2024 사이 오픈소스 모델의 급격한 성능 향상
이론적 의의
Open LLM Leaderboard는 “벤치마크의 수명”과 “평가 오염” 문제를 실증적으로 보여준 사례다. v1→v2 전환은 벤치마크 포화 시 더 어려운 벤치마크로 교체하는 “벤치마크 진화 사이클”을 공식화했다.
관련 연구
핵심 용어 정리
용어 정의 Open LLM Leaderboard HuggingFace의 오픈소스 LLM 표준 리더보드 lm-evaluation-harness EleutherAI의 LLM 평가 라이브러리 벤치마크 오염 학습 데이터에 벤치마크가 포함되어 점수가 부풀려지는 현상 벤치마크 포화 모델이 인간/최대 성능에 근접하여 변별력을 잃는 현상
태그
paper #2023 benchmark leaderboard HuggingFace open_source standardized_evaluation