Benchmark Self-Evolving - Multi-Agent Framework for Dynamic LLM Evaluation
6분 분량
Introduction
LLM이 빠르게 발전하면서 정적 벤치마크는 **포화(saturation)**와 데이터 오염(contamination) 문제에 직면
본 논문은 기존 벤치마크 인스턴스를 동적으로 확장하는 벤치마크 자기진화 멀티에이전트 프레임워크 제안
6가지 리프레이밍 연산: 질문 교체, 질문 복잡화, 문맥 패러프레이즈, 문맥 노이즈, 극성 반전, 하위 능력 질문 생성
4개 전문 에이전트: Pre-Filter, Creator, Verifier, Option Formulator
핵심 발견: ChatGPT의 GSM8K에서 -32.5%p 성능 하락 → 정적 벤치마크가 실제 능력 과대평가
Related Papers
WizardLM Evol-Instruct: 훈련 데이터 복잡도 점진적 증가 — 평가 데이터가 아닌 훈련 데이터에 적용
Self-Instruct: LLM 기반 데이터 생성 — 유사 철학이나 평가 목적 아님
DynaBench: 인간-AI 협력 동적 벤치마크 — 인간 의존적
차별점: (1) LLM 에이전트로 자동 평가 인스턴스 확장, (2) 6가지 체계적 리프레이밍 연산, (3) 데이터 오염 저항성 실증
Methods
리프레이밍 연산 (3개 평가 차원)
확장성 평가 (Scalable)
질문 교체: 동일 문맥에서 다른 질문 유형으로 변환
질문 복잡화: 추론 단계 수 증가
견고성 평가 (Robust)
문맥 패러프레이즈: 동일 의미, 다른 표현
문맥 노이즈: 무관한 정보 삽입
극성 반전: 긍정/부정 뒤집기
세분화 평가 (Fine-grained)
하위 능력 질문 생성: 태스크 계획, 암묵적 지식 식별, 관련 문맥 검색
방법론 다이어그램
graph TD
A[원본 벤치마크 인스턴스] --> B[에이전트 1: Pre-Filter<br/>GPT-4 처리 가능 선별]
B --> C[에이전트 2: Instance Creator<br/>6가지 리프레이밍 연산]
C --> D1[확장성: 질문 교체/복잡화]
C --> D2[견고성: 패러프레이즈/노이즈/극성반전]
C --> D3[세분화: 하위 능력 질문]
D1 --> E[에이전트 3: Verifier<br/>이중 검증]
D2 --> E
D3 --> E
E --> F[에이전트 4: Option Formulator]
F --> G[진화 벤치마크 ~1600개]
style G fill:#c8e6c9