MT-Bench와 Chatbot Arena: LLM-as-Judge로 열린 질문 평가하기

Digest: LLM의 대화 능력을 평가할 때, 선다형이 아닌 개방형 응답의 품질을 어떻게 자동으로 측정할 것인가? UC Berkeley(LMSYS)의 MT-Bench는 80개 다중턴 질문(8개 카테고리 × 10문제)으로 구성된 벤치마크와 함께, GPT-4를 심사위원(judge)으로 활용하는 “LLM-as-Judge” 패러다임을 제안했다. 핵심 통찰은 강력한 LLM이 인간 선호도와 높은 일치도(>80%)를 보여 비용 효율적인 자동 평가가 가능하다는 것이다. GPT-4 판정과 인간 판정의 일치율이 81% (Table 5)로, 인간 간 일치율(~66%)보다 오히려 높았다. 이 연구는 Chatbot Arena와 함께 LLM 평가의 패러다임을 바꾸었다.

메타데이터

항목	내용
제목	Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
저자	Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
소속	UC Berkeley (LMSYS)
연도	2023
발표	NeurIPS 2023, arXiv:2306.05685
링크	arXiv, Chatbot Arena
키워드	MT-Bench, LLM-as-Judge, Chatbot Arena, multi-turn, evaluation

데이터셋 구성

MT-Bench 구조

항목	내용
전체 크기	80개 다중턴 질문 (2턴)
카테고리	8개 × 10문제
평가	1-10점 척도 (LLM-as-Judge)
턴 수	2턴 (초기 질문 + 후속 질문)

8개 카테고리

카테고리	설명	문제 수
Writing	창의적 글쓰기	10
Roleplay	역할극	10
Extraction	정보 추출	10
Reasoning	추론	10
Math	수학	10
Coding	코딩	10
STEM	과학/기술	10
Humanities	인문학	10

Feature/Column 구조

필드	설명	예시
`question_id`	문제 ID	`81`
`category`	카테고리	`"writing"`
`turns`	2턴 질문 리스트	`["Write a poem about...", "Now rewrite it as..."]`
`reference`	참고 정답 (optional)	수학/코딩 문제용

실제 데이터 예시

예시 1: Writing (2턴)

Turn 1: "Compose a short poem about a sunset over the ocean."
Turn 2: "Now rewrite the poem from the perspective of a seagull
watching the sunset."

예시 2: Math (2턴)

Turn 1: "What is the area of a triangle with sides 3, 4, and 5?"
Turn 2: "If the triangle is inscribed in a circle, what is
the radius of the circle?"

예시 3: Coding (2턴)

Turn 1: "Write a Python function that finds the longest
palindromic substring in a given string."
Turn 2: "Now optimize your solution to run in O(n) time
using Manacher's algorithm."

왜 이 연구를 하는가?

핵심 질문

개방형 LLM 응답의 품질을 자동으로, 저비용으로, 정확하게 평가할 수 있는가?

기존 접근법의 한계

한계	설명
인간 평가 비용	대규모 인간 평가는 시간과 비용이 과다
자동 메트릭 부재	BLEU, ROUGE 등은 개방형 대화에 부적합
단일 턴 한정	다중턴 대화의 맥락 유지 능력 미측정

핵심 통찰

강력한 LLM(GPT-4)을 심사위원으로 사용하면, 인간 간 일치율보다 높은 수준으로 개방형 응답의 품질을 자동 평가할 수 있다. 이는 LLM 평가의 확장성(scalability)을 극적으로 높인다.

방법 (Method)

LLM-as-Judge 프레임워크

graph TB
    A["MT-Bench 질문<br/>(2턴)"] --> B["LLM A 응답"]
    A --> C["LLM B 응답"]

    B --> D["GPT-4 Judge"]
    C --> D

    D --> E["단일 평가: 1-10점"]
    D --> F["쌍대 비교: A vs B"]

    G["편향 완화"]
    G --> H["위치 편향: 순서 교체"]
    G --> I["장문 편향: 간결성 지시"]
    G --> J["자기 편향: 자기 생성 선호 방지"]

평가 모드

모드	설명	장단점
Single Answer Grading	각 응답에 1-10점	빠르지만 분별력 낮음
Pairwise Comparison	A vs B 비교	분별력 높지만 비용 2배
Reference-guided	참고 답안 대비	수학/코딩 등 정답이 있는 경우

발견 (Findings)

MT-Bench 주요 결과 (1-10점)

모델	평균	Writing	Math	Coding
GPT-4	8.99	9.5	7.8	8.6
Claude-v1	7.90	8.8	5.6	7.2
GPT-3.5	7.94	8.7	6.2	7.4
Vicuna-13B	6.57	7.5	3.1	4.8

(Table 4)

LLM-as-Judge 검증

비교	일치율
GPT-4 Judge vs Human	81%
Human vs Human	66%
Claude Judge vs Human	75%

(Table 5)

핵심 발견

GPT-4 Judge > 인간 일치: GPT-4 판정이 인간 간 일치율(66%)보다 인간과의 일치율(81%)이 높음 (Table 5)
다중턴의 어려움: 대부분 모델이 2턴에서 1턴 대비 ~0.5점 하락
카테고리별 편차: 수학/코딩에서 가장 큰 모델 간 차이, 글쓰기에서 가장 작은 차이
편향 존재: 위치 편향(첫 번째 선호), 장문 편향(긴 답 선호), 자기 편향(자기 생성 선호)

이론적 의의

LLM 평가의 패러다임 전환

MT-Bench와 LLM-as-Judge는 LLM 평가의 패러다임을 바꾸었다. 이전에는 정답이 있는 선다형만 자동 평가가 가능했지만, 이제 개방형 응답도 LLM 심사로 자동 평가할 수 있다. 이 방법론은 AlpacaEval, Arena-Hard 등 후속 벤치마크에서 표준이 되었다.

핵심 용어 정리

용어	정의
MT-Bench	Multi-Turn Benchmark. 80개 2턴 질문으로 대화 능력을 평가하는 벤치마크
LLM-as-Judge	강력한 LLM(GPT-4 등)을 심사위원으로 사용하여 응답 품질을 자동 평가하는 방식
Chatbot Arena	사용자가 두 모델의 응답을 비교하는 크라우드소싱 ELO 평가 플랫폼
Pairwise Comparison	두 응답을 직접 비교하여 승패를 결정하는 평가 방식
Position Bias	첫 번째 위치의 응답을 선호하는 LLM Judge의 편향

Juhyeon's Blog

탐색기

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena