Digest: 개별 벤치마크가 특정 능력만 측정하는 한계를 극복하기 위해, **HELM(Holistic Evaluation of Language Models)**은 42개 시나리오에서 7개 메트릭 카테고리(정확도, 보정, 강건성, 공정성, 편향, 독성, 효율성)로 LLM을 종합 평가하는 프레임워크를 제안했다. 30+ 모델을 동일 조건에서 평가하여 “모든 메트릭에서 최고인 모델은 없다”는 핵심 발견을 도출했다. Stanford HAI/CRFM이 주도하며, 재현 가능한 표준화된 평가 인프라를 제공한다.
메타데이터
항목
내용
제목
Holistic Evaluation of Language Models
저자
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras et al. (50+ 저자)
graph TB
A["42 Scenarios<br/>(시나리오)"] --> B["각 시나리오에서<br/>7 Metrics 측정"]
B --> C["Accuracy"]
B --> D["Calibration"]
B --> E["Robustness"]
B --> F["Fairness"]
B --> G["Bias"]
B --> H["Toxicity"]
B --> I["Efficiency"]
C --> J["30+ 모델 비교<br/>동일 조건"]
D --> J
E --> J
F --> J
G --> J
H --> J
I --> J
J --> K["종합 리더보드"]
발견 (Findings)
주요 결과 (일부 모델, 종합)
모델
Accuracy
Robustness
Fairness
Toxicity
GPT-3 davinci
높음
중간
낮음
중간
InstructGPT
높음
높음
중간
낮음
BLOOM 176B
중간
중간
중간
높음
OPT 175B
중간
낮음
낮음
높음
핵심 발견
모든 메트릭 최고 모델 없음: 정확도 최고 모델이 편향/독성에서 최악일 수 있음
지시 조정의 효과: InstructGPT가 GPT-3보다 대부분 메트릭에서 개선
오픈소스 격차: 2022년 기준 오픈소스(BLOOM, OPT)가 API 모델 대비 낮음
보정(Calibration)의 간과: 대부분 모델이 보정이 나쁨 — 과신하는 경향
이론적 의의
HELM은 “단일 점수로 모델을 순위 매기는 것은 불가능하고 바람직하지 않다”는 철학을 확립했다. 다차원 평가의 필요성을 학계에 설득했으며, 이후 Open LLM Leaderboard, Chatbot Arena 등에 영향을 주었다.